tangledgroup
/

tangled-llama-l-128k-v0.1

Model card Files Files and versions Community

mtasic85 commited on Nov 26, 2024

Commit

27cd301

·

1 Parent(s): c1e1c58

tokenizer training

Files changed (1) hide show

scripts/pretrain_datasets.py +4 -0

scripts/pretrain_datasets.py CHANGED Viewed

@@ -42,6 +42,10 @@ pretrain_datasets = [
     # stem
     #
     # 1.44 GB, 63,357
     *[
         {'path': 'neuralwork/arxiver', 'split': f'train[{i}%:{i + 5}%]', 'format': lambda n: n['markdown']}
         for i in range(0, 100, 5)

     # stem
     #
     # 1.44 GB, 63,357
+    *[
+        {'path': 'neuralwork/arxiver', 'split': f'train[{i}%:{i + 5}%]', 'format': lambda n: n['abstract']}
+        for i in range(0, 100, 5)
+    ],
     *[
         {'path': 'neuralwork/arxiver', 'split': f'train[{i}%:{i + 5}%]', 'format': lambda n: n['markdown']}
         for i in range(0, 100, 5)