End of training

Browse files

Files changed (6) hide show

README.md +19 -4
all_results.json +10 -10
eval_results.json +5 -5
logs/events.out.tfevents.1733321391.ki-g0008.1206436.33 +3 -0
train_results.json +6 -6
trainer_state.json +65 -257

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/distilbert_lda_100_v1
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: distilbert_lda_100_v1_wnli
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # distilbert_lda_100_v1_wnli
-This model is a fine-tuned version of [gokulsrinivasagan/distilbert_lda_100_v1](https://huggingface.co/gokulsrinivasagan/distilbert_lda_100_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7069
-- Accuracy: 0.4366
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/distilbert_lda_100_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 model-index:
 - name: distilbert_lda_100_v1_wnli
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE WNLI
+      type: glue
+      args: wnli
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5633802816901409
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # distilbert_lda_100_v1_wnli
+This model is a fine-tuned version of [gokulsrinivasagan/distilbert_lda_100_v1](https://huggingface.co/gokulsrinivasagan/distilbert_lda_100_v1) on the GLUE WNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6910
+- Accuracy: 0.5634
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 19.0,
     "eval_accuracy": 0.5633802816901409,
-    "eval_loss": 0.686839759349823,
-    "eval_runtime": 0.0396,
     "eval_samples": 71,
-    "eval_samples_per_second": 1793.161,
-    "eval_steps_per_second": 25.256,
-    "total_flos": 799109582392320.0,
-    "train_loss": 0.7560038608417177,
-    "train_runtime": 42.9358,
     "train_samples": 635,
-    "train_samples_per_second": 739.475,
-    "train_steps_per_second": 3.494
 }

 {
+    "epoch": 7.0,
     "eval_accuracy": 0.5633802816901409,
+    "eval_loss": 0.6909662485122681,
+    "eval_runtime": 0.0385,
     "eval_samples": 71,
+    "eval_samples_per_second": 1842.806,
+    "eval_steps_per_second": 25.955,
+    "total_flos": 294408793512960.0,
+    "train_loss": 0.7066784245627267,
+    "train_runtime": 16.0368,
     "train_samples": 635,
+    "train_samples_per_second": 1979.816,
+    "train_steps_per_second": 9.353
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 19.0,
     "eval_accuracy": 0.5633802816901409,
-    "eval_loss": 0.686839759349823,
-    "eval_runtime": 0.0396,
     "eval_samples": 71,
-    "eval_samples_per_second": 1793.161,
-    "eval_steps_per_second": 25.256
 }

 {
+    "epoch": 7.0,
     "eval_accuracy": 0.5633802816901409,
+    "eval_loss": 0.6909662485122681,
+    "eval_runtime": 0.0385,
     "eval_samples": 71,
+    "eval_samples_per_second": 1842.806,
+    "eval_steps_per_second": 25.955
 }

logs/events.out.tfevents.1733321391.ki-g0008.1206436.33 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f2ecb710bbdc256106a68958296baec2310f39f4f564c434b364f8790595e25
+size 405

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 19.0,
-    "total_flos": 799109582392320.0,
-    "train_loss": 0.7560038608417177,
-    "train_runtime": 42.9358,
     "train_samples": 635,
-    "train_samples_per_second": 739.475,
-    "train_steps_per_second": 3.494
 }

 {
+    "epoch": 7.0,
+    "total_flos": 294408793512960.0,
+    "train_loss": 0.7066784245627267,
+    "train_runtime": 16.0368,
     "train_samples": 635,
+    "train_samples_per_second": 1979.816,
+    "train_steps_per_second": 9.353
 }

trainer_state.json CHANGED Viewed

@@ -1,325 +1,133 @@
 {
-  "best_metric": 0.686839759349823,
-  "best_model_checkpoint": "distilbert_lda_100_v1_wnli/checkpoint-42",
-  "epoch": 19.0,
   "eval_steps": 500,
-  "global_step": 57,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 18.0523624420166,
-      "learning_rate": 0.00098,
-      "loss": 1.2003,
       "step": 3
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 1.998026728630066,
-      "eval_runtime": 0.0384,
-      "eval_samples_per_second": 1850.731,
-      "eval_steps_per_second": 26.067,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "grad_norm": 4.669406890869141,
-      "learning_rate": 0.00096,
-      "loss": 1.2458,
       "step": 6
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4507042253521127,
-      "eval_loss": 0.6933318376541138,
-      "eval_runtime": 0.0376,
-      "eval_samples_per_second": 1890.742,
-      "eval_steps_per_second": 26.63,
       "step": 6
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.9938700199127197,
-      "learning_rate": 0.00094,
-      "loss": 0.7573,
       "step": 9
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6894255876541138,
-      "eval_runtime": 0.038,
-      "eval_samples_per_second": 1868.556,
-      "eval_steps_per_second": 26.318,
       "step": 9
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.579500138759613,
-      "learning_rate": 0.00092,
-      "loss": 0.7046,
       "step": 12
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.43661971830985913,
-      "eval_loss": 0.7410872578620911,
-      "eval_runtime": 0.038,
-      "eval_samples_per_second": 1869.366,
-      "eval_steps_per_second": 26.329,
       "step": 12
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.24767112731933594,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 0.7125,
       "step": 15
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6912413239479065,
       "eval_runtime": 0.039,
-      "eval_samples_per_second": 1822.427,
-      "eval_steps_per_second": 25.668,
       "step": 15
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.3580488860607147,
-      "learning_rate": 0.00088,
-      "loss": 0.6966,
       "step": 18
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.688655436038971,
-      "eval_runtime": 0.0373,
-      "eval_samples_per_second": 1904.429,
-      "eval_steps_per_second": 26.823,
       "step": 18
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.8003173470497131,
-      "learning_rate": 0.00086,
-      "loss": 0.6968,
       "step": 21
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.692451536655426,
-      "eval_runtime": 0.0374,
-      "eval_samples_per_second": 1900.503,
-      "eval_steps_per_second": 26.768,
-      "step": 21
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 1.7291041612625122,
-      "learning_rate": 0.00084,
-      "loss": 0.7051,
-      "step": 24
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6878302097320557,
-      "eval_runtime": 0.0376,
-      "eval_samples_per_second": 1886.143,
-      "eval_steps_per_second": 26.565,
-      "step": 24
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 0.5841087698936462,
-      "learning_rate": 0.00082,
-      "loss": 0.6927,
-      "step": 27
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.43661971830985913,
-      "eval_loss": 0.7062609791755676,
-      "eval_runtime": 0.0374,
-      "eval_samples_per_second": 1900.467,
-      "eval_steps_per_second": 26.767,
-      "step": 27
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.5394841432571411,
-      "learning_rate": 0.0008,
-      "loss": 0.6983,
-      "step": 30
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6868947148323059,
-      "eval_runtime": 0.0374,
-      "eval_samples_per_second": 1900.867,
-      "eval_steps_per_second": 26.773,
-      "step": 30
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 0.49267369508743286,
-      "learning_rate": 0.0007800000000000001,
-      "loss": 0.6954,
-      "step": 33
-    },
-    {
-      "epoch": 11.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6891505718231201,
-      "eval_runtime": 0.0375,
-      "eval_samples_per_second": 1891.174,
-      "eval_steps_per_second": 26.636,
-      "step": 33
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 1.0260450839996338,
-      "learning_rate": 0.00076,
-      "loss": 0.7002,
-      "step": 36
-    },
-    {
-      "epoch": 12.0,
       "eval_accuracy": 0.43661971830985913,
-      "eval_loss": 0.6996587514877319,
-      "eval_runtime": 0.0374,
-      "eval_samples_per_second": 1897.138,
-      "eval_steps_per_second": 26.72,
-      "step": 36
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 0.27078235149383545,
-      "learning_rate": 0.00074,
-      "loss": 0.6966,
-      "step": 39
-    },
-    {
-      "epoch": 13.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6871697902679443,
-      "eval_runtime": 0.0369,
-      "eval_samples_per_second": 1924.502,
-      "eval_steps_per_second": 27.106,
-      "step": 39
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 0.6732262372970581,
-      "learning_rate": 0.0007199999999999999,
-      "loss": 0.6917,
-      "step": 42
-    },
-    {
-      "epoch": 14.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.686839759349823,
-      "eval_runtime": 0.0375,
-      "eval_samples_per_second": 1893.796,
-      "eval_steps_per_second": 26.673,
-      "step": 42
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 0.3191866874694824,
-      "learning_rate": 0.0007,
-      "loss": 0.6933,
-      "step": 45
-    },
-    {
-      "epoch": 15.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6888756155967712,
-      "eval_runtime": 0.0374,
-      "eval_samples_per_second": 1899.958,
-      "eval_steps_per_second": 26.76,
-      "step": 45
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 0.1847408413887024,
-      "learning_rate": 0.00068,
-      "loss": 0.6951,
-      "step": 48
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6926164627075195,
       "eval_runtime": 0.0377,
-      "eval_samples_per_second": 1881.389,
-      "eval_steps_per_second": 26.498,
-      "step": 48
-    },
-    {
-      "epoch": 17.0,
-      "grad_norm": 0.696003794670105,
-      "learning_rate": 0.00066,
-      "loss": 0.6939,
-      "step": 51
-    },
-    {
-      "epoch": 17.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6926164627075195,
-      "eval_runtime": 0.0376,
-      "eval_samples_per_second": 1887.482,
-      "eval_steps_per_second": 26.584,
-      "step": 51
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 0.27385857701301575,
-      "learning_rate": 0.00064,
-      "loss": 0.6954,
-      "step": 54
-    },
-    {
-      "epoch": 18.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.690250813961029,
-      "eval_runtime": 0.0393,
-      "eval_samples_per_second": 1805.675,
-      "eval_steps_per_second": 25.432,
-      "step": 54
-    },
-    {
-      "epoch": 19.0,
-      "grad_norm": 0.1678648740053177,
-      "learning_rate": 0.00062,
-      "loss": 0.6924,
-      "step": 57
-    },
-    {
-      "epoch": 19.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6891505718231201,
-      "eval_runtime": 0.0381,
-      "eval_samples_per_second": 1865.49,
-      "eval_steps_per_second": 26.275,
-      "step": 57
     },
     {
-      "epoch": 19.0,
-      "step": 57,
-      "total_flos": 799109582392320.0,
-      "train_loss": 0.7560038608417177,
-      "train_runtime": 42.9358,
-      "train_samples_per_second": 739.475,
-      "train_steps_per_second": 3.494
     }
   ],
   "logging_steps": 1,
@@ -348,7 +156,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 799109582392320.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6909662485122681,
+  "best_model_checkpoint": "distilbert_lda_100_v1_wnli/checkpoint-6",
+  "epoch": 7.0,
   "eval_steps": 500,
+  "global_step": 21,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 2.0963492393493652,
+      "learning_rate": 4.9e-05,
+      "loss": 0.7643,
       "step": 3
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4507042253521127,
+      "eval_loss": 0.7202079892158508,
+      "eval_runtime": 0.0381,
+      "eval_samples_per_second": 1865.151,
+      "eval_steps_per_second": 26.27,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.829197108745575,
+      "learning_rate": 4.8e-05,
+      "loss": 0.699,
       "step": 6
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5633802816901409,
+      "eval_loss": 0.6909662485122681,
+      "eval_runtime": 0.0375,
+      "eval_samples_per_second": 1895.423,
+      "eval_steps_per_second": 26.696,
       "step": 6
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.6926978826522827,
+      "learning_rate": 4.7e-05,
+      "loss": 0.7004,
       "step": 9
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.4788732394366197,
+      "eval_loss": 0.6951475739479065,
+      "eval_runtime": 0.0377,
+      "eval_samples_per_second": 1880.878,
+      "eval_steps_per_second": 26.491,
       "step": 9
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.4927375316619873,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.6965,
       "step": 12
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.43661971830985913,
+      "eval_loss": 0.6969354152679443,
+      "eval_runtime": 0.0373,
+      "eval_samples_per_second": 1902.324,
+      "eval_steps_per_second": 26.793,
       "step": 12
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.2253917455673218,
+      "learning_rate": 4.5e-05,
+      "loss": 0.6938,
       "step": 15
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.4507042253521127,
+      "eval_loss": 0.7140734791755676,
       "eval_runtime": 0.039,
+      "eval_samples_per_second": 1818.699,
+      "eval_steps_per_second": 25.615,
       "step": 15
     },
     {
       "epoch": 6.0,
+      "grad_norm": 1.4688159227371216,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.6974,
       "step": 18
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.43661971830985913,
+      "eval_loss": 0.7016118764877319,
+      "eval_runtime": 0.0387,
+      "eval_samples_per_second": 1835.389,
+      "eval_steps_per_second": 25.851,
       "step": 18
     },
     {
       "epoch": 7.0,
+      "grad_norm": 1.0470634698867798,
+      "learning_rate": 4.3e-05,
+      "loss": 0.6953,
       "step": 21
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.43661971830985913,
+      "eval_loss": 0.7068936824798584,
       "eval_runtime": 0.0377,
+      "eval_samples_per_second": 1885.749,
+      "eval_steps_per_second": 26.56,
+      "step": 21
     },
     {
+      "epoch": 7.0,
+      "step": 21,
+      "total_flos": 294408793512960.0,
+      "train_loss": 0.7066784245627267,
+      "train_runtime": 16.0368,
+      "train_samples_per_second": 1979.816,
+      "train_steps_per_second": 9.353
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 294408793512960.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null