Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

checkpoint-1024/config.json +32 -0
checkpoint-1024/generation_config.json +6 -0
checkpoint-1024/model.safetensors +3 -0
checkpoint-1024/optimizer.pt +3 -0
checkpoint-1024/rng_state.pth +3 -0
checkpoint-1024/scheduler.pt +3 -0
checkpoint-1024/trainer_state.json +827 -0
checkpoint-1024/training_args.bin +3 -0
config.json +32 -0
generation_config.json +6 -0
model.safetensors +3 -0
training_args.bin +3 -0

checkpoint-1024/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "/vol/tmp/koppelmm/pythia160m_dedup_untrained",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "partial_rotary_factor": 0.25,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
+  "use_cache": true,
+  "use_parallel_residual": true,
+  "vocab_size": 50304
+}

checkpoint-1024/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.46.2"
+}

checkpoint-1024/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5f335ef94c0ce86cfda59e84cdd9bbef1b433fa1974f80e4b56d4498d8c3c6
+size 649308728

checkpoint-1024/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82ea90bec2bbb7210ee07df2db4735d39bd992d4cb6e7f1989788717eedf65f1
+size 1298707258

checkpoint-1024/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:726ae76b86900d8abab60df7866887a207be06427ba6369a4451cd2686c4ed71
+size 14244

checkpoint-1024/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ebd1a7d23da6a4b09d2235e23699a761e868e0b6ad2f2892a33dea66611ced6
+size 1948045434

checkpoint-1024/trainer_state.json ADDED Viewed

	@@ -0,0 +1,827 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.119799451652303,
+  "eval_steps": 100,
+  "global_step": 1024,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.010932788971549125,
+      "grad_norm": 167.07713317871094,
+      "learning_rate": 0.0005999985601583006,
+      "loss": 9.6698,
+      "step": 10
+    },
+    {
+      "epoch": 0.02186557794309825,
+      "grad_norm": 83.92709350585938,
+      "learning_rate": 0.0005998257958771109,
+      "loss": 8.2484,
+      "step": 20
+    },
+    {
+      "epoch": 0.032798366914647374,
+      "grad_norm": 127.91200256347656,
+      "learning_rate": 0.0005993652532642609,
+      "loss": 7.6452,
+      "step": 30
+    },
+    {
+      "epoch": 0.0437311558861965,
+      "grad_norm": 97.33670043945312,
+      "learning_rate": 0.0005986173743570491,
+      "loss": 7.4548,
+      "step": 40
+    },
+    {
+      "epoch": 0.054663944857745624,
+      "grad_norm": 127.0005874633789,
+      "learning_rate": 0.0005975828769834513,
+      "loss": 7.3226,
+      "step": 50
+    },
+    {
+      "epoch": 0.06559673382929475,
+      "grad_norm": 104.47633361816406,
+      "learning_rate": 0.0005962627540731365,
+      "loss": 7.204,
+      "step": 60
+    },
+    {
+      "epoch": 0.07652952280084388,
+      "grad_norm": 164.4477081298828,
+      "learning_rate": 0.0005946582727044349,
+      "loss": 7.1105,
+      "step": 70
+    },
+    {
+      "epoch": 0.087462311772393,
+      "grad_norm": 126.8350601196289,
+      "learning_rate": 0.0005927709728881719,
+      "loss": 7.0511,
+      "step": 80
+    },
+    {
+      "epoch": 0.09839510074394213,
+      "grad_norm": 158.55856323242188,
+      "learning_rate": 0.0005906026660895383,
+      "loss": 7.0642,
+      "step": 90
+    },
+    {
+      "epoch": 0.10932788971549125,
+      "grad_norm": 126.1555404663086,
+      "learning_rate": 0.0005881554334894116,
+      "loss": 7.031,
+      "step": 100
+    },
+    {
+      "epoch": 0.10932788971549125,
+      "eval_loss": 7.01555061340332,
+      "eval_runtime": 79.0984,
+      "eval_samples_per_second": 118.409,
+      "eval_steps_per_second": 14.804,
+      "step": 100
+    },
+    {
+      "epoch": 0.12026067868704038,
+      "grad_norm": 108.58393096923828,
+      "learning_rate": 0.0005854316239868012,
+      "loss": 7.0123,
+      "step": 110
+    },
+    {
+      "epoch": 0.1311934676585895,
+      "grad_norm": 178.0326690673828,
+      "learning_rate": 0.0005824338519443309,
+      "loss": 6.9897,
+      "step": 120
+    },
+    {
+      "epoch": 0.14212625663013861,
+      "grad_norm": 192.8655242919922,
+      "learning_rate": 0.0005791649946789259,
+      "loss": 7.0117,
+      "step": 130
+    },
+    {
+      "epoch": 0.15305904560168776,
+      "grad_norm": 143.3759002685547,
+      "learning_rate": 0.0005756281897001107,
+      "loss": 7.0073,
+      "step": 140
+    },
+    {
+      "epoch": 0.16399183457323688,
+      "grad_norm": 171.0679168701172,
+      "learning_rate": 0.0005718268316985698,
+      "loss": 6.9843,
+      "step": 150
+    },
+    {
+      "epoch": 0.174924623544786,
+      "grad_norm": 164.86534118652344,
+      "learning_rate": 0.0005677645692878606,
+      "loss": 7.0083,
+      "step": 160
+    },
+    {
+      "epoch": 0.1858574125163351,
+      "grad_norm": 125.85225677490234,
+      "learning_rate": 0.000563445301502407,
+      "loss": 7.02,
+      "step": 170
+    },
+    {
+      "epoch": 0.19679020148788426,
+      "grad_norm": 144.15589904785156,
+      "learning_rate": 0.0005588731740551344,
+      "loss": 6.9773,
+      "step": 180
+    },
+    {
+      "epoch": 0.20772299045943338,
+      "grad_norm": 108.05564880371094,
+      "learning_rate": 0.0005540525753583378,
+      "loss": 6.9632,
+      "step": 190
+    },
+    {
+      "epoch": 0.2186557794309825,
+      "grad_norm": 146.53924560546875,
+      "learning_rate": 0.0005489881323116018,
+      "loss": 6.929,
+      "step": 200
+    },
+    {
+      "epoch": 0.2186557794309825,
+      "eval_loss": 6.925621509552002,
+      "eval_runtime": 78.9467,
+      "eval_samples_per_second": 118.637,
+      "eval_steps_per_second": 14.833,
+      "step": 200
+    },
+    {
+      "epoch": 0.2295885684025316,
+      "grad_norm": 204.57968139648438,
+      "learning_rate": 0.0005436847058608189,
+      "loss": 6.9631,
+      "step": 210
+    },
+    {
+      "epoch": 0.24052135737408076,
+      "grad_norm": 171.31556701660156,
+      "learning_rate": 0.0005381473863325621,
+      "loss": 7.0389,
+      "step": 220
+    },
+    {
+      "epoch": 0.25145414634562985,
+      "grad_norm": 142.57449340820312,
+      "learning_rate": 0.0005323814885482963,
+      "loss": 6.967,
+      "step": 230
+    },
+    {
+      "epoch": 0.262386935317179,
+      "grad_norm": 119.19646453857422,
+      "learning_rate": 0.000526392546723115,
+      "loss": 6.9456,
+      "step": 240
+    },
+    {
+      "epoch": 0.27331972428872814,
+      "grad_norm": 153.62359619140625,
+      "learning_rate": 0.0005201863091538979,
+      "loss": 6.9686,
+      "step": 250
+    },
+    {
+      "epoch": 0.28425251326027723,
+      "grad_norm": 150.35699462890625,
+      "learning_rate": 0.000513768732701989,
+      "loss": 6.9846,
+      "step": 260
+    },
+    {
+      "epoch": 0.2951853022318264,
+      "grad_norm": 215.55368041992188,
+      "learning_rate": 0.0005071459770756929,
+      "loss": 6.9968,
+      "step": 270
+    },
+    {
+      "epoch": 0.3061180912033755,
+      "grad_norm": 107.55154418945312,
+      "learning_rate": 0.0005003243989180711,
+      "loss": 7.0033,
+      "step": 280
+    },
+    {
+      "epoch": 0.3170508801749246,
+      "grad_norm": 190.4154052734375,
+      "learning_rate": 0.0004933105457057203,
+      "loss": 6.9816,
+      "step": 290
+    },
+    {
+      "epoch": 0.32798366914647376,
+      "grad_norm": 159.7703094482422,
+      "learning_rate": 0.0004861111494643821,
+      "loss": 7.0486,
+      "step": 300
+    },
+    {
+      "epoch": 0.32798366914647376,
+      "eval_loss": 7.4869384765625,
+      "eval_runtime": 79.1717,
+      "eval_samples_per_second": 118.3,
+      "eval_steps_per_second": 14.791,
+      "step": 300
+    },
+    {
+      "epoch": 0.3389164581180229,
+      "grad_norm": 218.22604370117188,
+      "learning_rate": 0.0004794787611927562,
+      "loss": 7.2679,
+      "step": 310
+    },
+    {
+      "epoch": 0.349849247089572,
+      "grad_norm": 182.51431274414062,
+      "learning_rate": 0.0004719460124060748,
+      "loss": 7.1809,
+      "step": 320
+    },
+    {
+      "epoch": 0.36078203606112114,
+      "grad_norm": 137.0953826904297,
+      "learning_rate": 0.0004642482266637136,
+      "loss": 7.0417,
+      "step": 330
+    },
+    {
+      "epoch": 0.3717148250326702,
+      "grad_norm": 92.07840728759766,
+      "learning_rate": 0.0004563927924424775,
+      "loss": 6.9309,
+      "step": 340
+    },
+    {
+      "epoch": 0.38264761400421937,
+      "grad_norm": 147.35975646972656,
+      "learning_rate": 0.00044838724953309093,
+      "loss": 6.8844,
+      "step": 350
+    },
+    {
+      "epoch": 0.3935804029757685,
+      "grad_norm": 262.996337890625,
+      "learning_rate": 0.0004402392818033671,
+      "loss": 6.966,
+      "step": 360
+    },
+    {
+      "epoch": 0.4045131919473176,
+      "grad_norm": 155.3452606201172,
+      "learning_rate": 0.00043195670982308984,
+      "loss": 7.0715,
+      "step": 370
+    },
+    {
+      "epoch": 0.41544598091886675,
+      "grad_norm": 129.5069580078125,
+      "learning_rate": 0.00042354748335768664,
+      "loss": 7.0806,
+      "step": 380
+    },
+    {
+      "epoch": 0.4263787698904159,
+      "grad_norm": 92.96502685546875,
+      "learning_rate": 0.0004150196737378971,
+      "loss": 6.9999,
+      "step": 390
+    },
+    {
+      "epoch": 0.437311558861965,
+      "grad_norm": 120.41193389892578,
+      "learning_rate": 0.0004063814661127606,
+      "loss": 6.9339,
+      "step": 400
+    },
+    {
+      "epoch": 0.437311558861965,
+      "eval_loss": 6.931961536407471,
+      "eval_runtime": 78.8373,
+      "eval_samples_per_second": 118.802,
+      "eval_steps_per_second": 14.853,
+      "step": 400
+    },
+    {
+      "epoch": 0.44824434783351413,
+      "grad_norm": 188.7049560546875,
+      "learning_rate": 0.00039764115159335935,
+      "loss": 6.9242,
+      "step": 410
+    },
+    {
+      "epoch": 0.4591771368050632,
+      "grad_norm": 131.7518768310547,
+      "learning_rate": 0.0003888071192948565,
+      "loss": 6.9815,
+      "step": 420
+    },
+    {
+      "epoch": 0.47010992577661237,
+      "grad_norm": 247.91549682617188,
+      "learning_rate": 0.0003798878482844695,
+      "loss": 7.0838,
+      "step": 430
+    },
+    {
+      "epoch": 0.4810427147481615,
+      "grad_norm": 135.4517364501953,
+      "learning_rate": 0.000370891899443104,
+      "loss": 7.1813,
+      "step": 440
+    },
+    {
+      "epoch": 0.4919755037197106,
+      "grad_norm": 99.5172119140625,
+      "learning_rate": 0.00036182790724846315,
+      "loss": 7.1557,
+      "step": 450
+    },
+    {
+      "epoch": 0.5029082926912597,
+      "grad_norm": 165.1914825439453,
+      "learning_rate": 0.00035270457148751575,
+      "loss": 7.0382,
+      "step": 460
+    },
+    {
+      "epoch": 0.5138410816628088,
+      "grad_norm": 128.59959411621094,
+      "learning_rate": 0.00034353064890628107,
+      "loss": 7.0597,
+      "step": 470
+    },
+    {
+      "epoch": 0.524773870634358,
+      "grad_norm": 142.37147521972656,
+      "learning_rate": 0.00033431494480494175,
+      "loss": 7.092,
+      "step": 480
+    },
+    {
+      "epoch": 0.5357066596059071,
+      "grad_norm": 217.4059295654297,
+      "learning_rate": 0.0003250663045863544,
+      "loss": 7.0457,
+      "step": 490
+    },
+    {
+      "epoch": 0.5466394485774563,
+      "grad_norm": 125.81988525390625,
+      "learning_rate": 0.0003157936052660688,
+      "loss": 7.0112,
+      "step": 500
+    },
+    {
+      "epoch": 0.5466394485774563,
+      "eval_loss": 7.004736423492432,
+      "eval_runtime": 78.8041,
+      "eval_samples_per_second": 118.852,
+      "eval_steps_per_second": 14.86,
+      "step": 500
+    },
+    {
+      "epoch": 0.5575722375490054,
+      "grad_norm": 170.00523376464844,
+      "learning_rate": 0.0003065057469520046,
+      "loss": 7.0162,
+      "step": 510
+    },
+    {
+      "epoch": 0.5685050265205545,
+      "grad_norm": 216.81466674804688,
+      "learning_rate": 0.0002972116443019633,
+      "loss": 7.0584,
+      "step": 520
+    },
+    {
+      "epoch": 0.5794378154921036,
+      "grad_norm": 239.21087646484375,
+      "learning_rate": 0.0002879202179671755,
+      "loss": 7.1254,
+      "step": 530
+    },
+    {
+      "epoch": 0.5903706044636527,
+      "grad_norm": 190.0070343017578,
+      "learning_rate": 0.00027864038603009453,
+      "loss": 7.1717,
+      "step": 540
+    },
+    {
+      "epoch": 0.6013033934352019,
+      "grad_norm": 179.18785095214844,
+      "learning_rate": 0.00026938105544465745,
+      "loss": 7.1185,
+      "step": 550
+    },
+    {
+      "epoch": 0.612236182406751,
+      "grad_norm": 279.44781494140625,
+      "learning_rate": 0.0002601511134872255,
+      "loss": 7.0727,
+      "step": 560
+    },
+    {
+      "epoch": 0.6231689713783001,
+      "grad_norm": 227.90072631835938,
+      "learning_rate": 0.0002509594192264121,
+      "loss": 7.1088,
+      "step": 570
+    },
+    {
+      "epoch": 0.6341017603498492,
+      "grad_norm": 173.11819458007812,
+      "learning_rate": 0.0002418147950199862,
+      "loss": 7.0927,
+      "step": 580
+    },
+    {
+      "epoch": 0.6450345493213984,
+      "grad_norm": 164.40736389160156,
+      "learning_rate": 0.00023272601804700946,
+      "loss": 7.0701,
+      "step": 590
+    },
+    {
+      "epoch": 0.6559673382929475,
+      "grad_norm": 123.35533142089844,
+      "learning_rate": 0.0002237018118833387,
+      "loss": 7.0496,
+      "step": 600
+    },
+    {
+      "epoch": 0.6559673382929475,
+      "eval_loss": 7.052866458892822,
+      "eval_runtime": 78.8887,
+      "eval_samples_per_second": 118.724,
+      "eval_steps_per_second": 14.844,
+      "step": 600
+    },
+    {
+      "epoch": 0.6669001272644967,
+      "grad_norm": 225.67015075683594,
+      "learning_rate": 0.0002147508381285762,
+      "loss": 7.04,
+      "step": 610
+    },
+    {
+      "epoch": 0.6778329162360458,
+      "grad_norm": 140.2364501953125,
+      "learning_rate": 0.00020588168809250687,
+      "loss": 7.0902,
+      "step": 620
+    },
+    {
+      "epoch": 0.6887657052075948,
+      "grad_norm": 262.8550720214844,
+      "learning_rate": 0.00019710287454900033,
+      "loss": 7.1224,
+      "step": 630
+    },
+    {
+      "epoch": 0.699698494179144,
+      "grad_norm": 150.97813415527344,
+      "learning_rate": 0.00018842282356529402,
+      "loss": 7.1802,
+      "step": 640
+    },
+    {
+      "epoch": 0.7106312831506931,
+      "grad_norm": 452.73431396484375,
+      "learning_rate": 0.00017984986641449754,
+      "loss": 7.1497,
+      "step": 650
+    },
+    {
+      "epoch": 0.7215640721222423,
+      "grad_norm": 138.37220764160156,
+      "learning_rate": 0.00017139223157908368,
+      "loss": 7.1715,
+      "step": 660
+    },
+    {
+      "epoch": 0.7324968610937914,
+      "grad_norm": 144.21133422851562,
+      "learning_rate": 0.00016305803685303906,
+      "loss": 7.1458,
+      "step": 670
+    },
+    {
+      "epoch": 0.7434296500653405,
+      "grad_norm": 142.4859161376953,
+      "learning_rate": 0.00015485528155025473,
+      "loss": 7.1041,
+      "step": 680
+    },
+    {
+      "epoch": 0.7543624390368896,
+      "grad_norm": 190.189208984375,
+      "learning_rate": 0.00014679183882663872,
+      "loss": 7.0798,
+      "step": 690
+    },
+    {
+      "epoch": 0.7652952280084387,
+      "grad_norm": 160.14442443847656,
+      "learning_rate": 0.0001388754481233139,
+      "loss": 7.074,
+      "step": 700
+    },
+    {
+      "epoch": 0.7652952280084387,
+      "eval_loss": 7.0790934562683105,
+      "eval_runtime": 79.0053,
+      "eval_samples_per_second": 118.549,
+      "eval_steps_per_second": 14.822,
+      "step": 700
+    },
+    {
+      "epoch": 0.7762280169799879,
+      "grad_norm": 173.01499938964844,
+      "learning_rate": 0.0001311137077381614,
+      "loss": 7.0821,
+      "step": 710
+    },
+    {
+      "epoch": 0.787160805951537,
+      "grad_norm": 156.1138458251953,
+      "learning_rate": 0.00012351406753283216,
+      "loss": 7.0838,
+      "step": 720
+    },
+    {
+      "epoch": 0.7980935949230861,
+      "grad_norm": 161.9981689453125,
+      "learning_rate": 0.00011681901904809884,
+      "loss": 7.0639,
+      "step": 730
+    },
+    {
+      "epoch": 0.8090263838946352,
+      "grad_norm": 174.0237579345703,
+      "learning_rate": 0.00010954733067505213,
+      "loss": 7.0604,
+      "step": 740
+    },
+    {
+      "epoch": 0.8199591728661844,
+      "grad_norm": 141.823974609375,
+      "learning_rate": 0.0001024584422885053,
+      "loss": 7.0508,
+      "step": 750
+    },
+    {
+      "epoch": 0.8308919618377335,
+      "grad_norm": 121.39106750488281,
+      "learning_rate": 9.555915793434476e-05,
+      "loss": 7.0568,
+      "step": 760
+    },
+    {
+      "epoch": 0.8418247508092827,
+      "grad_norm": 178.37924194335938,
+      "learning_rate": 8.885609967300851e-05,
+      "loss": 7.0589,
+      "step": 770
+    },
+    {
+      "epoch": 0.8527575397808318,
+      "grad_norm": 304.8969421386719,
+      "learning_rate": 8.235570122350937e-05,
+      "loss": 7.0582,
+      "step": 780
+    },
+    {
+      "epoch": 0.8636903287523808,
+      "grad_norm": 128.75843811035156,
+      "learning_rate": 7.606420178823293e-05,
+      "loss": 7.0622,
+      "step": 790
+    },
+    {
+      "epoch": 0.87462311772393,
+      "grad_norm": 88.88775634765625,
+      "learning_rate": 6.998764006443615e-05,
+      "loss": 7.0664,
+      "step": 800
+    },
+    {
+      "epoch": 0.87462311772393,
+      "eval_loss": 7.048069477081299,
+      "eval_runtime": 78.7086,
+      "eval_samples_per_second": 118.996,
+      "eval_steps_per_second": 14.878,
+      "step": 800
+    },
+    {
+      "epoch": 0.8855559066954791,
+      "grad_norm": 131.33584594726562,
+      "learning_rate": 6.413184844819423e-05,
+      "loss": 7.0381,
+      "step": 810
+    },
+    {
+      "epoch": 0.8964886956670283,
+      "grad_norm": 176.8515625,
+      "learning_rate": 6e-05,
+      "loss": 7.0461,
+      "step": 820
+    },
+    {
+      "epoch": 0.9074214846385774,
+      "grad_norm": 128.32069396972656,
+      "learning_rate": 6e-05,
+      "loss": 7.0597,
+      "step": 830
+    },
+    {
+      "epoch": 0.9183542736101264,
+      "grad_norm": 150.107421875,
+      "learning_rate": 6e-05,
+      "loss": 7.0582,
+      "step": 840
+    },
+    {
+      "epoch": 0.9292870625816756,
+      "grad_norm": 174.95352172851562,
+      "learning_rate": 6e-05,
+      "loss": 7.0729,
+      "step": 850
+    },
+    {
+      "epoch": 0.9402198515532247,
+      "grad_norm": 209.878173828125,
+      "learning_rate": 6e-05,
+      "loss": 7.0949,
+      "step": 860
+    },
+    {
+      "epoch": 0.9511526405247739,
+      "grad_norm": 181.1326904296875,
+      "learning_rate": 6e-05,
+      "loss": 7.109,
+      "step": 870
+    },
+    {
+      "epoch": 0.962085429496323,
+      "grad_norm": 197.11639404296875,
+      "learning_rate": 6e-05,
+      "loss": 7.1132,
+      "step": 880
+    },
+    {
+      "epoch": 0.9730182184678722,
+      "grad_norm": 197.16473388671875,
+      "learning_rate": 6e-05,
+      "loss": 7.1008,
+      "step": 890
+    },
+    {
+      "epoch": 0.9839510074394212,
+      "grad_norm": 224.1211395263672,
+      "learning_rate": 6e-05,
+      "loss": 7.1024,
+      "step": 900
+    },
+    {
+      "epoch": 0.9839510074394212,
+      "eval_loss": 7.119234561920166,
+      "eval_runtime": 78.4745,
+      "eval_samples_per_second": 119.351,
+      "eval_steps_per_second": 14.922,
+      "step": 900
+    },
+    {
+      "epoch": 0.9948837964109704,
+      "grad_norm": 161.86753845214844,
+      "learning_rate": 6e-05,
+      "loss": 7.1127,
+      "step": 910
+    },
+    {
+      "epoch": 1.0060984463481923,
+      "grad_norm": 247.6467742919922,
+      "learning_rate": 6e-05,
+      "loss": 7.1115,
+      "step": 920
+    },
+    {
+      "epoch": 1.0170312353197413,
+      "grad_norm": 228.1467742919922,
+      "learning_rate": 6e-05,
+      "loss": 7.1172,
+      "step": 930
+    },
+    {
+      "epoch": 1.0279640242912904,
+      "grad_norm": 400.675537109375,
+      "learning_rate": 6e-05,
+      "loss": 7.1351,
+      "step": 940
+    },
+    {
+      "epoch": 1.0388968132628396,
+      "grad_norm": 293.3075866699219,
+      "learning_rate": 6e-05,
+      "loss": 7.1747,
+      "step": 950
+    },
+    {
+      "epoch": 1.0498296022343887,
+      "grad_norm": 439.60760498046875,
+      "learning_rate": 6e-05,
+      "loss": 7.1955,
+      "step": 960
+    },
+    {
+      "epoch": 1.0607623912059378,
+      "grad_norm": 336.15521240234375,
+      "learning_rate": 6e-05,
+      "loss": 7.2134,
+      "step": 970
+    },
+    {
+      "epoch": 1.071695180177487,
+      "grad_norm": 232.90606689453125,
+      "learning_rate": 6e-05,
+      "loss": 7.2589,
+      "step": 980
+    },
+    {
+      "epoch": 1.0826279691490361,
+      "grad_norm": 453.7010803222656,
+      "learning_rate": 6e-05,
+      "loss": 7.2537,
+      "step": 990
+    },
+    {
+      "epoch": 1.0935607581205853,
+      "grad_norm": 156.7413330078125,
+      "learning_rate": 6e-05,
+      "loss": 7.2678,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0935607581205853,
+      "eval_loss": 7.271553993225098,
+      "eval_runtime": 78.5452,
+      "eval_samples_per_second": 119.243,
+      "eval_steps_per_second": 14.909,
+      "step": 1000
+    },
+    {
+      "epoch": 1.1044935470921344,
+      "grad_norm": 225.9600067138672,
+      "learning_rate": 6e-05,
+      "loss": 7.2489,
+      "step": 1010
+    },
+    {
+      "epoch": 1.1154263360636836,
+      "grad_norm": 258.6958312988281,
+      "learning_rate": 6e-05,
+      "loss": 7.2224,
+      "step": 1020
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1024,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.383804151351214e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1024/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95492cc580971074153fb0dee7b60aedfda648c5f8a7cb99bd7fbc9464d590d2
+size 5304

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "/vol/tmp/koppelmm/pythia160m_dedup_untrained",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "partial_rotary_factor": 0.25,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
+  "use_cache": true,
+  "use_parallel_residual": true,
+  "vocab_size": 50304
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.46.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5f335ef94c0ce86cfda59e84cdd9bbef1b433fa1974f80e4b56d4498d8c3c6
+size 649308728

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95492cc580971074153fb0dee7b60aedfda648c5f8a7cb99bd7fbc9464d590d2
+size 5304