huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +539 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/oxxxymiron")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/35c25tqd/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Oxxxymiron's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1z3u6lod) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1z3u6lod/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/oxxxymiron")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/if83r8sb/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Oxxxymiron's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/s58wdkfz) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/s58wdkfz/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~3626197576522827~~, "eval_runtime": 22.~~1222~~, "eval_samples_per_second": 20.~~839~~, "eval_steps_per_second": 2.~~622~~, "epoch": 16.0}


1	+ {"eval_loss": 1.3110859394073486, "eval_runtime": 18.5351, "eval_samples_per_second": 20.825, "eval_steps_per_second": 2.644, "epoch": 26.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb82b94c7d34decc95ea0c0ed51c0cccd4dc0cf1f0a8925648cdfafaeb1ad6e6
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf04b5cb92f0bb037efcff6106efd6559eadeb2c169561274b38adf7974d3cbd
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb0cfb7ad5f79a151980f8e8fcb534c9dbe0dc5ca44d80132aa39db60c590550
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:89bd3fcc9080941291eb43d62d53800524426bd1841ce2e59ad94d37b402ee47
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94f6e5d2d51fc4962178d6141bcb4e442c8a4b69e91f35e541dc52137ea1701b
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b078eadcf9ca889f51cd804d94e22e90d64d6befb42b2adc89663598895f61d
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2072ed4e05f726a0eacce3eb003550040e7f5d45ef05ee6a83533a4c6834a56f
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:c93f956bb61c562ef5de6ecf68f0acb1e428bb13e97ddfd9eb68fef96714fcef
 size 14439

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b130d72fae4cb24993ff792bae18a70e194b6d74fdcb623b38c9f59180e61d5
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:40aa28790758cc10852db2e41872a7c552d32089589ee1f68283d1cfcd6cf1da
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 1.3626197576522827,
-  "best_model_checkpoint": "output/oxxxymiron/checkpoint-4144",
-  "epoch": 16.0,
-  "global_step": 4144,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4982,11 +4982,543 @@
       "eval_samples_per_second": 20.897,
       "eval_steps_per_second": 2.629,
       "step": 4144
     }
   ],
-  "max_steps": 4144,
-  "num_train_epochs": 16,
-  "total_flos": 4329217032192000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.3110859394073486,
+  "best_model_checkpoint": "output/oxxxymiron/checkpoint-4573",
+  "epoch": 17.0,
+  "global_step": 4573,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.897,
       "eval_steps_per_second": 2.629,
       "step": 4144
+    },
+    {
+      "epoch": 15.41,
+      "learning_rate": 4.923820788333643e-05,
+      "loss": 1.4417,
+      "step": 4145
+    },
+    {
+      "epoch": 15.43,
+      "learning_rate": 5.311198428226757e-05,
+      "loss": 1.5224,
+      "step": 4150
+    },
+    {
+      "epoch": 15.45,
+      "learning_rate": 5.7038557476801184e-05,
+      "loss": 1.4984,
+      "step": 4155
+    },
+    {
+      "epoch": 15.46,
+      "learning_rate": 6.100454224793001e-05,
+      "loss": 1.4427,
+      "step": 4160
+    },
+    {
+      "epoch": 15.48,
+      "learning_rate": 6.49964190272892e-05,
+      "loss": 1.4789,
+      "step": 4165
+    },
+    {
+      "epoch": 15.5,
+      "learning_rate": 6.900057998375254e-05,
+      "loss": 1.5665,
+      "step": 4170
+    },
+    {
+      "epoch": 15.52,
+      "learning_rate": 7.300337541089789e-05,
+      "loss": 1.5002,
+      "step": 4175
+    },
+    {
+      "epoch": 15.54,
+      "learning_rate": 7.699116025723293e-05,
+      "loss": 1.4668,
+      "step": 4180
+    },
+    {
+      "epoch": 15.56,
+      "learning_rate": 8.09503406405399e-05,
+      "loss": 1.3757,
+      "step": 4185
+    },
+    {
+      "epoch": 15.58,
+      "learning_rate": 8.48674201878012e-05,
+      "loss": 1.4722,
+      "step": 4190
+    },
+    {
+      "epoch": 15.59,
+      "learning_rate": 8.872904604271726e-05,
+      "loss": 1.4961,
+      "step": 4195
+    },
+    {
+      "epoch": 15.61,
+      "learning_rate": 9.252205438400528e-05,
+      "loss": 1.4798,
+      "step": 4200
+    },
+    {
+      "epoch": 15.63,
+      "learning_rate": 9.623351529928802e-05,
+      "loss": 1.5392,
+      "step": 4205
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 9.985077686162523e-05,
+      "loss": 1.5653,
+      "step": 4210
+    },
+    {
+      "epoch": 15.67,
+      "learning_rate": 0.00010336150825841603,
+      "loss": 1.4743,
+      "step": 4215
+    },
+    {
+      "epoch": 15.69,
+      "learning_rate": 0.00010675374182567242,
+      "loss": 1.4201,
+      "step": 4220
+    },
+    {
+      "epoch": 15.71,
+      "learning_rate": 0.00011001591384435138,
+      "loss": 1.3889,
+      "step": 4225
+    },
+    {
+      "epoch": 15.72,
+      "learning_rate": 0.00011313690395969416,
+      "loss": 1.4913,
+      "step": 4230
+    },
+    {
+      "epoch": 15.74,
+      "learning_rate": 0.00011610607308918656,
+      "loss": 1.3722,
+      "step": 4235
+    },
+    {
+      "epoch": 15.76,
+      "learning_rate": 0.00011891329968992182,
+      "loss": 1.4133,
+      "step": 4240
+    },
+    {
+      "epoch": 15.78,
+      "learning_rate": 0.0001215490142617292,
+      "loss": 1.36,
+      "step": 4245
+    },
+    {
+      "epoch": 15.8,
+      "learning_rate": 0.00012400423196845864,
+      "loss": 1.361,
+      "step": 4250
+    },
+    {
+      "epoch": 15.82,
+      "learning_rate": 0.00012627058326621316,
+      "loss": 1.542,
+      "step": 4255
+    },
+    {
+      "epoch": 15.84,
+      "learning_rate": 0.0001283403424341258,
+      "loss": 1.4983,
+      "step": 4260
+    },
+    {
+      "epoch": 15.86,
+      "learning_rate": 0.00013020645391041629,
+      "loss": 1.4985,
+      "step": 4265
+    },
+    {
+      "epoch": 15.87,
+      "learning_rate": 0.00013186255634396195,
+      "loss": 1.4767,
+      "step": 4270
+    },
+    {
+      "epoch": 15.89,
+      "learning_rate": 0.00013330300427938103,
+      "loss": 1.4258,
+      "step": 4275
+    },
+    {
+      "epoch": 15.91,
+      "learning_rate": 0.00013452288740171763,
+      "loss": 1.4773,
+      "step": 4280
+    },
+    {
+      "epoch": 15.93,
+      "learning_rate": 0.00013551804727511717,
+      "loss": 1.462,
+      "step": 4285
+    },
+    {
+      "epoch": 15.95,
+      "learning_rate": 0.0001362850915184393,
+      "loss": 1.4688,
+      "step": 4290
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 0.00013682140536947865,
+      "loss": 1.5146,
+      "step": 4295
+    },
+    {
+      "epoch": 15.99,
+      "learning_rate": 0.00013712516059837763,
+      "loss": 1.5462,
+      "step": 4300
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.3411859273910522,
+      "eval_runtime": 18.5136,
+      "eval_samples_per_second": 20.85,
+      "eval_steps_per_second": 2.647,
+      "step": 4304
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 0.00013719532173984305,
+      "loss": 1.3395,
+      "step": 4305
+    },
+    {
+      "epoch": 16.02,
+      "learning_rate": 0.00013703164962292424,
+      "loss": 1.3995,
+      "step": 4310
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 0.00013663470218631772,
+      "loss": 1.4118,
+      "step": 4315
+    },
+    {
+      "epoch": 16.06,
+      "learning_rate": 0.00013600583257642132,
+      "loss": 1.3778,
+      "step": 4320
+    },
+    {
+      "epoch": 16.08,
+      "learning_rate": 0.00013514718453461912,
+      "loss": 1.4416,
+      "step": 4325
+    },
+    {
+      "epoch": 16.1,
+      "learning_rate": 0.0001340616850895236,
+      "loss": 1.4926,
+      "step": 4330
+    },
+    {
+      "epoch": 16.12,
+      "learning_rate": 0.00013275303457908525,
+      "loss": 1.4668,
+      "step": 4335
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 0.00013122569403658038,
+      "loss": 1.3931,
+      "step": 4340
+    },
+    {
+      "epoch": 16.15,
+      "learning_rate": 0.00012948486998348453,
+      "loss": 1.403,
+      "step": 4345
+    },
+    {
+      "epoch": 16.17,
+      "learning_rate": 0.0001275364966810606,
+      "loss": 1.3802,
+      "step": 4350
+    },
+    {
+      "epoch": 16.19,
+      "learning_rate": 0.00012538721590117088,
+      "loss": 1.429,
+      "step": 4355
+    },
+    {
+      "epoch": 16.21,
+      "learning_rate": 0.00012304435428527134,
+      "loss": 1.4773,
+      "step": 4360
+    },
+    {
+      "epoch": 16.23,
+      "learning_rate": 0.00012051589836876666,
+      "loss": 1.3717,
+      "step": 4365
+    },
+    {
+      "epoch": 16.25,
+      "learning_rate": 0.00011781046735586077,
+      "loss": 1.4166,
+      "step": 4370
+    },
+    {
+      "epoch": 16.26,
+      "learning_rate": 0.00011493728373772612,
+      "loss": 1.432,
+      "step": 4375
+    },
+    {
+      "epoch": 16.28,
+      "learning_rate": 0.00011190614185412497,
+      "loss": 1.4722,
+      "step": 4380
+    },
+    {
+      "epoch": 16.3,
+      "learning_rate": 0.00010872737450568259,
+      "loss": 1.3411,
+      "step": 4385
+    },
+    {
+      "epoch": 16.32,
+      "learning_rate": 0.00010541181773059928,
+      "loss": 1.4268,
+      "step": 4390
+    },
+    {
+      "epoch": 16.34,
+      "learning_rate": 0.00010197077386589103,
+      "loss": 1.4257,
+      "step": 4395
+    },
+    {
+      "epoch": 16.36,
+      "learning_rate": 9.841597301907411e-05,
+      "loss": 1.4367,
+      "step": 4400
+    },
+    {
+      "epoch": 16.38,
+      "learning_rate": 9.475953308163089e-05,
+      "loss": 1.388,
+      "step": 4405
+    },
+    {
+      "epoch": 16.39,
+      "learning_rate": 9.101391842055883e-05,
+      "loss": 1.4486,
+      "step": 4410
+    },
+    {
+      "epoch": 16.41,
+      "learning_rate": 8.719189738884117e-05,
+      "loss": 1.3824,
+      "step": 4415
+    },
+    {
+      "epoch": 16.43,
+      "learning_rate": 8.330649879965051e-05,
+      "loss": 1.4313,
+      "step": 4420
+    },
+    {
+      "epoch": 16.45,
+      "learning_rate": 7.937096751268169e-05,
+      "loss": 1.3933,
+      "step": 4425
+    },
+    {
+      "epoch": 16.47,
+      "learning_rate": 7.539871928400956e-05,
+      "loss": 1.4352,
+      "step": 4430
+    },
+    {
+      "epoch": 16.49,
+      "learning_rate": 7.140329503337758e-05,
+      "loss": 1.4244,
+      "step": 4435
+    },
+    {
+      "epoch": 16.51,
+      "learning_rate": 6.739831468481779e-05,
+      "loss": 1.4062,
+      "step": 4440
+    },
+    {
+      "epoch": 16.52,
+      "learning_rate": 6.33974307379626e-05,
+      "loss": 1.3753,
+      "step": 4445
+    },
+    {
+      "epoch": 16.54,
+      "learning_rate": 5.94142817282949e-05,
+      "loss": 1.3918,
+      "step": 4450
+    },
+    {
+      "epoch": 16.56,
+      "learning_rate": 5.546244573501996e-05,
+      "loss": 1.423,
+      "step": 4455
+    },
+    {
+      "epoch": 16.58,
+      "learning_rate": 5.155539409500841e-05,
+      "loss": 1.4141,
+      "step": 4460
+    },
+    {
+      "epoch": 16.6,
+      "learning_rate": 4.7706445480618974e-05,
+      "loss": 1.4364,
+      "step": 4465
+    },
+    {
+      "epoch": 16.62,
+      "learning_rate": 4.3928720497937174e-05,
+      "loss": 1.405,
+      "step": 4470
+    },
+    {
+      "epoch": 16.64,
+      "learning_rate": 4.02350969601972e-05,
+      "loss": 1.4752,
+      "step": 4475
+    },
+    {
+      "epoch": 16.65,
+      "learning_rate": 3.663816598884848e-05,
+      "loss": 1.4515,
+      "step": 4480
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 3.315018909193563e-05,
+      "loss": 1.4503,
+      "step": 4485
+    },
+    {
+      "epoch": 16.69,
+      "learning_rate": 2.9783056366075814e-05,
+      "loss": 1.3878,
+      "step": 4490
+    },
+    {
+      "epoch": 16.71,
+      "learning_rate": 2.6548245964540616e-05,
+      "loss": 1.3826,
+      "step": 4495
+    },
+    {
+      "epoch": 16.73,
+      "learning_rate": 2.345678496960497e-05,
+      "loss": 1.3709,
+      "step": 4500
+    },
+    {
+      "epoch": 16.75,
+      "learning_rate": 2.051921180253764e-05,
+      "loss": 1.4434,
+      "step": 4505
+    },
+    {
+      "epoch": 16.77,
+      "learning_rate": 1.774554029938429e-05,
+      "loss": 1.4217,
+      "step": 4510
+    },
+    {
+      "epoch": 16.78,
+      "learning_rate": 1.5145225574996895e-05,
+      "loss": 1.3259,
+      "step": 4515
+    },
+    {
+      "epoch": 16.8,
+      "learning_rate": 1.272713179167218e-05,
+      "loss": 1.3681,
+      "step": 4520
+    },
+    {
+      "epoch": 16.82,
+      "learning_rate": 1.0499501942287456e-05,
+      "loss": 1.3708,
+      "step": 4525
+    },
+    {
+      "epoch": 16.84,
+      "learning_rate": 8.469929750918058e-06,
+      "loss": 1.4352,
+      "step": 4530
+    },
+    {
+      "epoch": 16.86,
+      "learning_rate": 6.6453337867398825e-06,
+      "loss": 1.4355,
+      "step": 4535
+    },
+    {
+      "epoch": 16.88,
+      "learning_rate": 5.031933879454651e-06,
+      "loss": 1.4338,
+      "step": 4540
+    },
+    {
+      "epoch": 16.9,
+      "learning_rate": 3.6352299166325223e-06,
+      "loss": 1.3822,
+      "step": 4545
+    },
+    {
+      "epoch": 16.91,
+      "learning_rate": 2.459983095251791e-06,
+      "loss": 1.3442,
+      "step": 4550
+    },
+    {
+      "epoch": 16.93,
+      "learning_rate": 1.5101996913488535e-06,
+      "loss": 1.356,
+      "step": 4555
+    },
+    {
+      "epoch": 16.95,
+      "learning_rate": 7.891174030992353e-07,
+      "loss": 1.3681,
+      "step": 4560
+    },
+    {
+      "epoch": 16.97,
+      "learning_rate": 2.991943138937121e-07,
+      "loss": 1.3964,
+      "step": 4565
+    },
+    {
+      "epoch": 16.99,
+      "learning_rate": 4.2100513024036057e-08,
+      "loss": 1.4004,
+      "step": 4570
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 1.3110859394073486,
+      "eval_runtime": 18.5084,
+      "eval_samples_per_second": 20.855,
+      "eval_steps_per_second": 2.647,
+      "step": 4573
     }
   ],
+  "max_steps": 6994,
+  "num_train_epochs": 26,
+  "total_flos": 4776548990976000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa22e711f18ef9c494e076522c9fc6c23c5e5db9e44a9588da998b4d53d50ce7
 size 2991

 version https://git-lfs.github.com/spec/v1
+oid sha256:c111611d0270c2f70ae5a43dbcc59025e6535cde71a5fbf71689de64f457d265
 size 2991