marinone94 commited on Dec 19, 2022

Commit

63865a1

1 Parent(s): 1b2d3ae

training

Browse files

Files changed (26) hide show

all_results.json +10 -10
checkpoint-1000/config.json +0 -41
checkpoint-1000/optimizer.pt +0 -3
checkpoint-1000/preprocessor_config.json +0 -0
checkpoint-1000/pytorch_model.bin +0 -3
checkpoint-1000/rng_state.pth +0 -3
checkpoint-1000/scaler.pt +0 -3
checkpoint-1000/scheduler.pt +0 -3
checkpoint-1000/trainer_state.json +0 -265
checkpoint-1000/training_args.bin +0 -3
checkpoint-2000/config.json +0 -41
checkpoint-2000/optimizer.pt +0 -3
checkpoint-2000/preprocessor_config.json +0 -0
checkpoint-2000/pytorch_model.bin +0 -3
checkpoint-2000/rng_state.pth +0 -3
checkpoint-2000/scaler.pt +0 -3
checkpoint-2000/scheduler.pt +0 -3
checkpoint-2000/trainer_state.json +0 -514
checkpoint-2000/training_args.bin +0 -3
eval_results.json +6 -6
pytorch_model.bin +1 -1
run.sh +9 -11
run_speech_recognition_seq2seq_streaming.py +217 -38
train_results.json +5 -5
trainer_state.json +941 -314
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 7.12,
-    "eval_loss": 0.29696929454803467,
-    "eval_runtime": 2902.1488,
-    "eval_samples_per_second": 1.747,
-    "eval_steps_per_second": 0.109,
-    "eval_wer": 11.37780883775938,
-    "train_loss": 0.026056346493959427,
-    "train_runtime": 20075.1792,
-    "train_samples_per_second": 3.985,
-    "train_steps_per_second": 0.125
 }

 {
+    "epoch": 1.0,
+    "eval_loss": 0.24834245443344116,
+    "eval_runtime": 2999.4256,
+    "eval_samples_per_second": 1.69,
+    "eval_steps_per_second": 0.106,
+    "eval_wer": 9.891409525857435,
+    "train_loss": 0.025400285175442697,
+    "train_runtime": 51804.3597,
+    "train_samples_per_second": 3.089,
+    "train_steps_per_second": 0.097
 }

checkpoint-1000/config.json DELETED Viewed

@@ -1,41 +0,0 @@
-{
-  "_name_or_path": "marinone94/whisper-medium-nordic",
-  "activation_dropout": 0.0,
-  "activation_function": "gelu",
-  "architectures": [
-    "WhisperForConditionalGeneration"
-  ],
-  "attention_dropout": 0.0,
-  "begin_suppress_tokens": [
-    220,
-    50257
-  ],
-  "bos_token_id": 50257,
-  "d_model": 1024,
-  "decoder_attention_heads": 16,
-  "decoder_ffn_dim": 4096,
-  "decoder_layerdrop": 0.0,
-  "decoder_layers": 24,
-  "decoder_start_token_id": 50258,
-  "dropout": 0.0,
-  "encoder_attention_heads": 16,
-  "encoder_ffn_dim": 4096,
-  "encoder_layerdrop": 0.0,
-  "encoder_layers": 24,
-  "eos_token_id": 50257,
-  "forced_decoder_ids": null,
-  "init_std": 0.02,
-  "is_encoder_decoder": true,
-  "max_length": 448,
-  "max_source_positions": 1500,
-  "max_target_positions": 448,
-  "model_type": "whisper",
-  "num_hidden_layers": 24,
-  "num_mel_bins": 80,
-  "pad_token_id": 50257,
-  "scale_embedding": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.26.0.dev0",
-  "use_cache": false,
-  "vocab_size": 51865
-}

checkpoint-1000/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2bfff8704bd6704fbfd4aa9975e9d6d8362b15cbf7113f7f23f0eaefcad253fc
-size 6111428695

checkpoint-1000/preprocessor_config.json DELETED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:52c4f954de9065deba6c2d5e400f27179e3eb7070e6948847c74977d9c96a8c4
-size 3055754841

checkpoint-1000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9d2e0f4427086b473c2d8b746cd9a0c73b8d6aa2bbde1faf6cb2428e78028a09
-size 14575

checkpoint-1000/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:26dbe439de3dd73741374b46df74ee981e9ad3b04a0c5c8a564c625a65b8aee5
-size 557

checkpoint-1000/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:58c1ed193257a9c4b6ec19ec7a1a09d3fba65f6437077e3c0f61b03457bba09d
-size 627

checkpoint-1000/trainer_state.json DELETED Viewed

@@ -1,265 +0,0 @@
-{
-  "best_metric": 11.942264272658853,
-  "best_model_checkpoint": "./checkpoint-1000",
-  "epoch": 3.0208,
-  "global_step": 1000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 9.200000000000001e-07,
-      "loss": 0.5204,
-      "step": 25
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 1.9200000000000003e-06,
-      "loss": 0.0582,
-      "step": 50
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 2.92e-06,
-      "loss": 0.0527,
-      "step": 75
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 3.920000000000001e-06,
-      "loss": 0.0587,
-      "step": 100
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 4.92e-06,
-      "loss": 0.0659,
-      "step": 125
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 5.92e-06,
-      "loss": 0.0681,
-      "step": 150
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 6.92e-06,
-      "loss": 0.07,
-      "step": 175
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 7.92e-06,
-      "loss": 0.0856,
-      "step": 200
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 8.920000000000001e-06,
-      "loss": 0.0894,
-      "step": 225
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.920000000000002e-06,
-      "loss": 0.0751,
-      "step": 250
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 9.89777777777778e-06,
-      "loss": 0.0772,
-      "step": 275
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 9.786666666666667e-06,
-      "loss": 0.0698,
-      "step": 300
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 9.675555555555555e-06,
-      "loss": 0.0893,
-      "step": 325
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 9.564444444444445e-06,
-      "loss": 0.0782,
-      "step": 350
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 9.453333333333335e-06,
-      "loss": 0.0595,
-      "step": 375
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 9.342222222222223e-06,
-      "loss": 0.0537,
-      "step": 400
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 9.231111111111111e-06,
-      "loss": 0.052,
-      "step": 425
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 9.12e-06,
-      "loss": 0.05,
-      "step": 450
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 9.008888888888889e-06,
-      "loss": 0.0522,
-      "step": 475
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 8.897777777777779e-06,
-      "loss": 0.0467,
-      "step": 500
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 8.786666666666668e-06,
-      "loss": 0.0586,
-      "step": 525
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 8.675555555555556e-06,
-      "loss": 0.0437,
-      "step": 550
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 8.564444444444445e-06,
-      "loss": 0.0395,
-      "step": 575
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 8.453333333333334e-06,
-      "loss": 0.0371,
-      "step": 600
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 8.342222222222222e-06,
-      "loss": 0.0316,
-      "step": 625
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 8.231111111111112e-06,
-      "loss": 0.0412,
-      "step": 650
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 8.120000000000002e-06,
-      "loss": 0.0335,
-      "step": 675
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 8.00888888888889e-06,
-      "loss": 0.0314,
-      "step": 700
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 7.897777777777778e-06,
-      "loss": 0.0329,
-      "step": 725
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 7.786666666666666e-06,
-      "loss": 0.0275,
-      "step": 750
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 7.675555555555556e-06,
-      "loss": 0.028,
-      "step": 775
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 7.564444444444446e-06,
-      "loss": 0.0256,
-      "step": 800
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 7.453333333333334e-06,
-      "loss": 0.026,
-      "step": 825
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 7.342222222222223e-06,
-      "loss": 0.0295,
-      "step": 850
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 7.231111111111112e-06,
-      "loss": 0.0259,
-      "step": 875
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 7.1200000000000004e-06,
-      "loss": 0.0173,
-      "step": 900
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 7.008888888888889e-06,
-      "loss": 0.014,
-      "step": 925
-    },
-    {
-      "epoch": 3.0,
-      "learning_rate": 6.897777777777779e-06,
-      "loss": 0.0158,
-      "step": 950
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 6.786666666666667e-06,
-      "loss": 0.0193,
-      "step": 975
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 6.675555555555556e-06,
-      "loss": 0.0146,
-      "step": 1000
-    },
-    {
-      "epoch": 3.02,
-      "eval_loss": 0.2546452581882477,
-      "eval_runtime": 2882.0567,
-      "eval_samples_per_second": 1.759,
-      "eval_steps_per_second": 0.11,
-      "eval_wer": 11.942264272658853,
-      "step": 1000
-    }
-  ],
-  "max_steps": 2500,
-  "num_train_epochs": 9223372036854775807,
-  "total_flos": 3.263486252285952e+19,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-1000/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6e13de8ddcc61da424ec8e8d050cd43e412a6f52aa9be94507835652edf1dedf
-size 3579

checkpoint-2000/config.json DELETED Viewed

@@ -1,41 +0,0 @@
-{
-  "_name_or_path": "marinone94/whisper-medium-nordic",
-  "activation_dropout": 0.0,
-  "activation_function": "gelu",
-  "architectures": [
-    "WhisperForConditionalGeneration"
-  ],
-  "attention_dropout": 0.0,
-  "begin_suppress_tokens": [
-    220,
-    50257
-  ],
-  "bos_token_id": 50257,
-  "d_model": 1024,
-  "decoder_attention_heads": 16,
-  "decoder_ffn_dim": 4096,
-  "decoder_layerdrop": 0.0,
-  "decoder_layers": 24,
-  "decoder_start_token_id": 50258,
-  "dropout": 0.0,
-  "encoder_attention_heads": 16,
-  "encoder_ffn_dim": 4096,
-  "encoder_layerdrop": 0.0,
-  "encoder_layers": 24,
-  "eos_token_id": 50257,
-  "forced_decoder_ids": null,
-  "init_std": 0.02,
-  "is_encoder_decoder": true,
-  "max_length": 448,
-  "max_source_positions": 1500,
-  "max_target_positions": 448,
-  "model_type": "whisper",
-  "num_hidden_layers": 24,
-  "num_mel_bins": 80,
-  "pad_token_id": 50257,
-  "scale_embedding": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.26.0.dev0",
-  "use_cache": false,
-  "vocab_size": 51865
-}

checkpoint-2000/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:259711c4e6978872a098051416766fdc14fdd8fac16daedeb90809ff04b25acd
-size 6111428695

checkpoint-2000/preprocessor_config.json DELETED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:523e5675a34a184a100528b8c77ec2ff6d5c5fddb30ef2d034ca8b7b1cdae7e6
-size 3055754841

checkpoint-2000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a0ac7588e56b2f3605270c18191b85d12253a2aa8ac37011f5dd7ee58036e40c
-size 14575

checkpoint-2000/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:93dcbb27405421069b5f31003e3f224646e375ff4c9d7ba4b0d265614f660d0f
-size 557

checkpoint-2000/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:37492482747b6e8c7f9b2ddf6b8c932454afa931831c235a6f136e9ca901a936
-size 627

checkpoint-2000/trainer_state.json DELETED Viewed

@@ -1,514 +0,0 @@
-{
-  "best_metric": 11.37780883775938,
-  "best_model_checkpoint": "./checkpoint-2000",
-  "epoch": 6.0416,
-  "global_step": 2000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 9.200000000000001e-07,
-      "loss": 0.5204,
-      "step": 25
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 1.9200000000000003e-06,
-      "loss": 0.0582,
-      "step": 50
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 2.92e-06,
-      "loss": 0.0527,
-      "step": 75
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 3.920000000000001e-06,
-      "loss": 0.0587,
-      "step": 100
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 4.92e-06,
-      "loss": 0.0659,
-      "step": 125
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 5.92e-06,
-      "loss": 0.0681,
-      "step": 150
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 6.92e-06,
-      "loss": 0.07,
-      "step": 175
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 7.92e-06,
-      "loss": 0.0856,
-      "step": 200
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 8.920000000000001e-06,
-      "loss": 0.0894,
-      "step": 225
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.920000000000002e-06,
-      "loss": 0.0751,
-      "step": 250
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 9.89777777777778e-06,
-      "loss": 0.0772,
-      "step": 275
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 9.786666666666667e-06,
-      "loss": 0.0698,
-      "step": 300
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 9.675555555555555e-06,
-      "loss": 0.0893,
-      "step": 325
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 9.564444444444445e-06,
-      "loss": 0.0782,
-      "step": 350
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 9.453333333333335e-06,
-      "loss": 0.0595,
-      "step": 375
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 9.342222222222223e-06,
-      "loss": 0.0537,
-      "step": 400
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 9.231111111111111e-06,
-      "loss": 0.052,
-      "step": 425
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 9.12e-06,
-      "loss": 0.05,
-      "step": 450
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 9.008888888888889e-06,
-      "loss": 0.0522,
-      "step": 475
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 8.897777777777779e-06,
-      "loss": 0.0467,
-      "step": 500
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 8.786666666666668e-06,
-      "loss": 0.0586,
-      "step": 525
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 8.675555555555556e-06,
-      "loss": 0.0437,
-      "step": 550
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 8.564444444444445e-06,
-      "loss": 0.0395,
-      "step": 575
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 8.453333333333334e-06,
-      "loss": 0.0371,
-      "step": 600
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 8.342222222222222e-06,
-      "loss": 0.0316,
-      "step": 625
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 8.231111111111112e-06,
-      "loss": 0.0412,
-      "step": 650
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 8.120000000000002e-06,
-      "loss": 0.0335,
-      "step": 675
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 8.00888888888889e-06,
-      "loss": 0.0314,
-      "step": 700
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 7.897777777777778e-06,
-      "loss": 0.0329,
-      "step": 725
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 7.786666666666666e-06,
-      "loss": 0.0275,
-      "step": 750
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 7.675555555555556e-06,
-      "loss": 0.028,
-      "step": 775
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 7.564444444444446e-06,
-      "loss": 0.0256,
-      "step": 800
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 7.453333333333334e-06,
-      "loss": 0.026,
-      "step": 825
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 7.342222222222223e-06,
-      "loss": 0.0295,
-      "step": 850
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 7.231111111111112e-06,
-      "loss": 0.0259,
-      "step": 875
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 7.1200000000000004e-06,
-      "loss": 0.0173,
-      "step": 900
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 7.008888888888889e-06,
-      "loss": 0.014,
-      "step": 925
-    },
-    {
-      "epoch": 3.0,
-      "learning_rate": 6.897777777777779e-06,
-      "loss": 0.0158,
-      "step": 950
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 6.786666666666667e-06,
-      "loss": 0.0193,
-      "step": 975
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 6.675555555555556e-06,
-      "loss": 0.0146,
-      "step": 1000
-    },
-    {
-      "epoch": 3.02,
-      "eval_loss": 0.2546452581882477,
-      "eval_runtime": 2882.0567,
-      "eval_samples_per_second": 1.759,
-      "eval_steps_per_second": 0.11,
-      "eval_wer": 11.942264272658853,
-      "step": 1000
-    },
-    {
-      "epoch": 3.03,
-      "learning_rate": 6.564444444444446e-06,
-      "loss": 0.0129,
-      "step": 1025
-    },
-    {
-      "epoch": 3.04,
-      "learning_rate": 6.453333333333334e-06,
-      "loss": 0.0111,
-      "step": 1050
-    },
-    {
-      "epoch": 3.05,
-      "learning_rate": 6.342222222222223e-06,
-      "loss": 0.0143,
-      "step": 1075
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 6.231111111111111e-06,
-      "loss": 0.0128,
-      "step": 1100
-    },
-    {
-      "epoch": 3.07,
-      "learning_rate": 6.120000000000001e-06,
-      "loss": 0.0105,
-      "step": 1125
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 6.00888888888889e-06,
-      "loss": 0.012,
-      "step": 1150
-    },
-    {
-      "epoch": 3.09,
-      "learning_rate": 5.897777777777778e-06,
-      "loss": 0.0133,
-      "step": 1175
-    },
-    {
-      "epoch": 3.1,
-      "learning_rate": 5.7866666666666674e-06,
-      "loss": 0.0093,
-      "step": 1200
-    },
-    {
-      "epoch": 3.11,
-      "learning_rate": 5.675555555555556e-06,
-      "loss": 0.0097,
-      "step": 1225
-    },
-    {
-      "epoch": 3.12,
-      "learning_rate": 5.5644444444444444e-06,
-      "loss": 0.007,
-      "step": 1250
-    },
-    {
-      "epoch": 4.0,
-      "learning_rate": 5.453333333333334e-06,
-      "loss": 0.0059,
-      "step": 1275
-    },
-    {
-      "epoch": 4.01,
-      "learning_rate": 5.342222222222223e-06,
-      "loss": 0.01,
-      "step": 1300
-    },
-    {
-      "epoch": 4.02,
-      "learning_rate": 5.231111111111111e-06,
-      "loss": 0.0086,
-      "step": 1325
-    },
-    {
-      "epoch": 4.03,
-      "learning_rate": 5.12e-06,
-      "loss": 0.0048,
-      "step": 1350
-    },
-    {
-      "epoch": 4.04,
-      "learning_rate": 5.00888888888889e-06,
-      "loss": 0.0058,
-      "step": 1375
-    },
-    {
-      "epoch": 4.05,
-      "learning_rate": 4.897777777777778e-06,
-      "loss": 0.0056,
-      "step": 1400
-    },
-    {
-      "epoch": 4.06,
-      "learning_rate": 4.786666666666667e-06,
-      "loss": 0.0059,
-      "step": 1425
-    },
-    {
-      "epoch": 4.07,
-      "learning_rate": 4.675555555555556e-06,
-      "loss": 0.0038,
-      "step": 1450
-    },
-    {
-      "epoch": 4.08,
-      "learning_rate": 4.564444444444445e-06,
-      "loss": 0.0049,
-      "step": 1475
-    },
-    {
-      "epoch": 4.09,
-      "learning_rate": 4.453333333333334e-06,
-      "loss": 0.0051,
-      "step": 1500
-    },
-    {
-      "epoch": 4.1,
-      "learning_rate": 4.3422222222222225e-06,
-      "loss": 0.0044,
-      "step": 1525
-    },
-    {
-      "epoch": 4.11,
-      "learning_rate": 4.2311111111111114e-06,
-      "loss": 0.0026,
-      "step": 1550
-    },
-    {
-      "epoch": 4.12,
-      "learning_rate": 4.12e-06,
-      "loss": 0.0036,
-      "step": 1575
-    },
-    {
-      "epoch": 5.01,
-      "learning_rate": 4.008888888888889e-06,
-      "loss": 0.0035,
-      "step": 1600
-    },
-    {
-      "epoch": 5.02,
-      "learning_rate": 3.897777777777778e-06,
-      "loss": 0.0024,
-      "step": 1625
-    },
-    {
-      "epoch": 5.03,
-      "learning_rate": 3.7866666666666667e-06,
-      "loss": 0.0026,
-      "step": 1650
-    },
-    {
-      "epoch": 5.04,
-      "learning_rate": 3.675555555555556e-06,
-      "loss": 0.0031,
-      "step": 1675
-    },
-    {
-      "epoch": 5.05,
-      "learning_rate": 3.564444444444445e-06,
-      "loss": 0.0045,
-      "step": 1700
-    },
-    {
-      "epoch": 5.06,
-      "learning_rate": 3.4533333333333334e-06,
-      "loss": 0.0019,
-      "step": 1725
-    },
-    {
-      "epoch": 5.07,
-      "learning_rate": 3.3422222222222224e-06,
-      "loss": 0.0018,
-      "step": 1750
-    },
-    {
-      "epoch": 5.08,
-      "learning_rate": 3.2311111111111117e-06,
-      "loss": 0.0033,
-      "step": 1775
-    },
-    {
-      "epoch": 5.09,
-      "learning_rate": 3.12e-06,
-      "loss": 0.0048,
-      "step": 1800
-    },
-    {
-      "epoch": 5.1,
-      "learning_rate": 3.008888888888889e-06,
-      "loss": 0.0019,
-      "step": 1825
-    },
-    {
-      "epoch": 5.11,
-      "learning_rate": 2.8977777777777785e-06,
-      "loss": 0.0015,
-      "step": 1850
-    },
-    {
-      "epoch": 5.12,
-      "learning_rate": 2.786666666666667e-06,
-      "loss": 0.0018,
-      "step": 1875
-    },
-    {
-      "epoch": 6.0,
-      "learning_rate": 2.675555555555556e-06,
-      "loss": 0.0017,
-      "step": 1900
-    },
-    {
-      "epoch": 6.01,
-      "learning_rate": 2.5644444444444444e-06,
-      "loss": 0.0017,
-      "step": 1925
-    },
-    {
-      "epoch": 6.02,
-      "learning_rate": 2.4533333333333333e-06,
-      "loss": 0.0009,
-      "step": 1950
-    },
-    {
-      "epoch": 6.03,
-      "learning_rate": 2.342222222222222e-06,
-      "loss": 0.0011,
-      "step": 1975
-    },
-    {
-      "epoch": 6.04,
-      "learning_rate": 2.2311111111111115e-06,
-      "loss": 0.0017,
-      "step": 2000
-    },
-    {
-      "epoch": 6.04,
-      "eval_loss": 0.29696929454803467,
-      "eval_runtime": 2899.6818,
-      "eval_samples_per_second": 1.748,
-      "eval_steps_per_second": 0.109,
-      "eval_wer": 11.37780883775938,
-      "step": 2000
-    }
-  ],
-  "max_steps": 2500,
-  "num_train_epochs": 9223372036854775807,
-  "total_flos": 6.526972504571904e+19,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-2000/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6e13de8ddcc61da424ec8e8d050cd43e412a6f52aa9be94507835652edf1dedf
-size 3579

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 7.12,
-    "eval_loss": 0.29696929454803467,
-    "eval_runtime": 2902.1488,
-    "eval_samples_per_second": 1.747,
-    "eval_steps_per_second": 0.109,
-    "eval_wer": 11.37780883775938
 }

 {
+    "epoch": 1.0,
+    "eval_loss": 0.24834245443344116,
+    "eval_runtime": 2999.4256,
+    "eval_samples_per_second": 1.69,
+    "eval_steps_per_second": 0.106,
+    "eval_wer": 9.891409525857435
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:523e5675a34a184a100528b8c77ec2ff6d5c5fddb30ef2d034ca8b7b1cdae7e6
 size 3055754841

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce7f783491edc671deb55f5ce6701ebc753df5b565204547bdda4e4c24df4477
 size 3055754841

run.sh CHANGED Viewed

@@ -1,12 +1,14 @@
 python run_speech_recognition_seq2seq_streaming.py \
 	--model_name_or_path="marinone94/whisper-medium-nordic" \
-	--dataset_name="mozilla-foundation/common_voice_11_0" \
-	--dataset_config_name="sv-SE" \
 	--language="swedish" \
-	--train_split_name="train+validation" \
 	--eval_split_name="test" \
 	--model_index_name="Whisper Medium Swedish" \
-	--max_steps="2500" \
 	--output_dir="./" \
 	--per_device_train_batch_size="32" \
 	--per_device_eval_batch_size="16" \
@@ -20,19 +22,15 @@ python run_speech_recognition_seq2seq_streaming.py \
 	--generation_max_length="225" \
 	--length_column_name="input_length" \
 	--max_duration_in_seconds="30" \
-	--text_column_name="sentence" \
 	--freeze_feature_encoder="False" \
-	--report_to="tensorboard" \
 	--metric_for_best_model="wer" \
 	--greater_is_better="False" \
 	--load_best_model_at_end \
 	--gradient_checkpointing \
 	--fp16 \
-	--overwrite_output_dir \
-	--do_train \
-	--do_eval \
 	--predict_with_generate \
 	--do_normalize_eval \
 	--streaming \
-	--use_auth_token \
-	--push_to_hub

 python run_speech_recognition_seq2seq_streaming.py \
 	--model_name_or_path="marinone94/whisper-medium-nordic" \
+	--dataset_train_name="mozilla-foundation/common_voice_11_0,babelbox/babelbox_voice,google/fleurs" \
+	--dataset_train_config_name="sv-SE,nst,sv_se" \
 	--language="swedish" \
+	--train_split_name="train+validation,train,train+validation+test" \
+	--dataset_eval_name="mozilla-foundation/common_voice_11_0" \
+	--dataset_eval_config_name="sv-SE" \
 	--eval_split_name="test" \
 	--model_index_name="Whisper Medium Swedish" \
+	--max_steps="5000" \
 	--output_dir="./" \
 	--per_device_train_batch_size="32" \
 	--per_device_eval_batch_size="16" \
 	--generation_max_length="225" \
 	--length_column_name="input_length" \
 	--max_duration_in_seconds="30" \
+	--text_column_name="sentence,raw_transcription" \
 	--freeze_feature_encoder="False" \
+	--report_to="wandb" \
 	--metric_for_best_model="wer" \
 	--greater_is_better="False" \
 	--load_best_model_at_end \
 	--gradient_checkpointing \
 	--fp16 \
 	--predict_with_generate \
 	--do_normalize_eval \
 	--streaming \
+	--use_auth_token

run_speech_recognition_seq2seq_streaming.py CHANGED Viewed

@@ -20,6 +20,7 @@ with 🤗 Datasets' streaming mode.
 # You can also adapt this script for your own sequence to sequence speech
 # recognition task. Pointers for this are left as comments.
 import logging
 import os
 import sys
@@ -28,6 +29,7 @@ from typing import Any, Dict, List, Optional, Union
 import datasets
 import torch
 from datasets import DatasetDict, IterableDatasetDict, interleave_datasets, load_dataset
 from torch.utils.data import IterableDataset
@@ -60,6 +62,42 @@ require_version("datasets>=1.18.2", "To fix: pip install -r examples/pytorch/spe
 logger = logging.getLogger(__name__)
 @dataclass
 class ModelArguments:
     """
@@ -127,10 +165,16 @@ class DataTrainingArguments:
     Arguments pertaining to what data we are going to input our model for training and eval.
     """
-    dataset_name: str = field(
         default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
     )
-    dataset_config_name: Optional[str] = field(
         default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
     )
     text_column: Optional[str] = field(
@@ -265,27 +309,131 @@ class DataCollatorSpeechSeq2SeqWithPadding:
         return batch
-def load_maybe_streaming_dataset(dataset_name, dataset_config_name, split="train", streaming=True, **kwargs):
     """
     Utility function to load a dataset in streaming mode. For datasets with multiple splits,
     each split is loaded individually and then splits combined by taking alternating examples from
     each (interleaving).
     """
-    if "+" in split:
         # load multiple splits separated by the `+` symbol with streaming mode
-        dataset_splits = [
-            load_dataset(dataset_name, dataset_config_name, split=split_name, streaming=streaming, **kwargs)
-            for split_name in split.split("+")
-        ]
         # interleave multiple splits to form one dataset
-        interleaved_dataset = interleave_datasets(dataset_splits)
         return interleaved_dataset
     else:
         # load a single split *with* streaming mode
-        dataset = load_dataset(dataset_name, dataset_config_name, split=split, streaming=streaming, **kwargs)
         return dataset
 def main():
     # 1. Parse input arguments
     # See all possible arguments in src/transformers/training_args.py
@@ -349,39 +497,55 @@ def main():
     # Set seed before initializing model.
     set_seed(training_args.seed)
     # 4. Load dataset
     raw_datasets = IterableDatasetDict() if data_args.streaming else DatasetDict()
     if training_args.do_train:
         raw_datasets["train"] = load_maybe_streaming_dataset(
-            data_args.dataset_name,
-            data_args.dataset_config_name,
             split=data_args.train_split_name,
-            use_auth_token=True if model_args.use_auth_token else None,
             streaming=data_args.streaming,
         )
     if training_args.do_eval:
         raw_datasets["eval"] = load_maybe_streaming_dataset(
-            data_args.dataset_name,
-            data_args.dataset_config_name,
             split=data_args.eval_split_name,
-            use_auth_token=True if model_args.use_auth_token else None,
             streaming=data_args.streaming,
         )
     raw_datasets_features = list(next(iter(raw_datasets.values())).features.keys())
     if data_args.audio_column_name not in raw_datasets_features:
         raise ValueError(
-            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
             "Make sure to set `--audio_column_name` to the correct audio column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
-    if data_args.text_column_name not in raw_datasets_features:
         raise ValueError(
-            f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
             "Make sure to set `--text_column_name` to the correct text column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
@@ -394,7 +558,7 @@ def main():
         model_args.config_name if model_args.config_name else model_args.model_name_or_path,
         cache_dir=model_args.cache_dir,
         revision=model_args.model_revision,
-        use_auth_token=True if model_args.use_auth_token else None,
     )
     config.update({"forced_decoder_ids": model_args.forced_decoder_ids, "suppress_tokens": model_args.suppress_tokens})
@@ -402,25 +566,19 @@ def main():
     if training_args.gradient_checkpointing:
         config.update({"use_cache": False})
-    feature_extractor = AutoFeatureExtractor.from_pretrained(
-        model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
-        cache_dir=model_args.cache_dir,
-        revision=model_args.model_revision,
-        use_auth_token=True if model_args.use_auth_token else None,
-    )
     tokenizer = AutoTokenizer.from_pretrained(
         model_args.tokenizer_name if model_args.tokenizer_name else model_args.model_name_or_path,
         cache_dir=model_args.cache_dir,
         use_fast=model_args.use_fast_tokenizer,
         revision=model_args.model_revision,
-        use_auth_token=True if model_args.use_auth_token else None,
     )
     model = AutoModelForSpeechSeq2Seq.from_pretrained(
         model_args.model_name_or_path,
         config=config,
         cache_dir=model_args.cache_dir,
         revision=model_args.model_revision,
-        use_auth_token=True if model_args.use_auth_token else None,
     )
     if model.config.decoder_start_token_id is None:
@@ -448,7 +606,6 @@ def main():
     max_input_length = data_args.max_duration_in_seconds * feature_extractor.sampling_rate
     min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
     audio_column_name = data_args.audio_column_name
-    text_column_name = data_args.text_column_name
     model_input_name = feature_extractor.model_input_names[0]
     do_lower_case = data_args.do_lower_case
     do_remove_punctuation = data_args.do_remove_punctuation
@@ -568,6 +725,9 @@ def main():
         callbacks=[ShuffleCallback()] if data_args.streaming else None,
     )
     # 12. Training
     if training_args.do_train:
         checkpoint = None
@@ -606,24 +766,43 @@ def main():
         "tasks": "automatic-speech-recognition",
         "tags": "whisper-event",
     }
-    if data_args.dataset_name is not None:
-        kwargs["dataset_tags"] = data_args.dataset_name
-        if data_args.dataset_config_name is not None:
-            kwargs["dataset"] = f"{data_args.dataset_name} {data_args.dataset_config_name}"
         else:
-            kwargs["dataset"] = data_args.dataset_name
-        if "common_voice" in data_args.dataset_name:
-            kwargs["language"] = data_args.dataset_config_name[:2]
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name
     if training_args.push_to_hub:
         trainer.push_to_hub(**kwargs)
     else:
         trainer.create_model_card(**kwargs)
     return results
 if __name__ == "__main__":
-    main()

 # You can also adapt this script for your own sequence to sequence speech
 # recognition task. Pointers for this are left as comments.
+import json
 import logging
 import os
 import sys
 import datasets
 import torch
+import wandb
 from datasets import DatasetDict, IterableDatasetDict, interleave_datasets, load_dataset
 from torch.utils.data import IterableDataset
 logger = logging.getLogger(__name__)
+SENDING_NOTIFICATION = "*** Sending notification to email ***"
+RECIPIENT_ADDRESS = "[email protected]"
+wandb_token = os.environ.get("WANDB_TOKEN", "None")
+hf_token = os.environ.get("HF_TOKEN", None)
+if (hf_token is None or wandb_token == "None") and os.path.exists("./creds.txt"):
+    with open("./creds.txt", "r") as f:
+        lines = f.readlines()
+    for line in lines:
+        key, value = line.split("=")
+        if key == "HF_TOKEN":
+            hf_token = value.strip()
+        if key == "WANDB_TOKEN":
+            wandb_token = value.strip()
+        if key == "EMAIL_ADDRESS":
+            os.environ["EMAIL_ADDRESS"] = value.strip()
+        if key == "EMAIL_PASSWORD":
+            os.environ["EMAIL_PASSWORD"] = value.strip()
+if hf_token is not None:
+    try:
+        os.makedirs("/root/.huggingface", exist_ok=True)
+        with open("/root/.huggingface/token", "w") as f:
+            f.write(hf_token)
+        logger.info("Huggingface API key set")
+    except (PermissionError, OSError):
+        logger.warning("Huggingface API key not set, relying on ~/.huggingface/token")
+else:
+    logger.warning("Huggingface API key not set, relying on ~/.huggingface/token")
+wandb.login(key=wandb_token, relogin=True, timeout=5)
+wandb.init(project="whisper", entity="pn-aa")
+logger.info("Wandb API key set, logging to wandb")
 @dataclass
 class ModelArguments:
     """
     Arguments pertaining to what data we are going to input our model for training and eval.
     """
+    dataset_train_name: str = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_train_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    dataset_eval_name: str = field(
         default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
     )
+    dataset_eval_config_name: Optional[str] = field(
         default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
     )
     text_column: Optional[str] = field(
         return batch
+def rename_col_and_resample(dataset, dataset_name, text_column_names, text_col_name_ref, audio_column_name, sampling_rate):
+    raw_datasets_features = list(dataset.features.keys())
+    logger.info(f"Dataset {dataset_name} - Features: {raw_datasets_features}")
+    if text_col_name_ref not in raw_datasets_features:
+        if len(text_column_names) == 1:
+            raise ValueError("None of the text column names provided found in dataset."
+                                f"Text columns: {text_column_names}"
+                                f"Dataset columns: {raw_datasets_features}")
+        flag = False
+        for text_column_name in text_column_names:
+            if text_column_name in raw_datasets_features:
+                logger.info(f"Renaming text column {text_column_name} to {text_col_name_ref}")
+                dataset = dataset.rename_column(text_column_name, text_col_name_ref)
+                flag = True
+                break
+        if flag is False:
+            raise ValueError("None of the text column names provided found in dataset."
+                                f"Text columns: {text_column_names}"
+                                f"Dataset columns: {raw_datasets_features}")
+    if audio_column_name is not None and sampling_rate is not None:
+        ds_sr = int(dataset.features[audio_column_name].sampling_rate)
+        if ds_sr != sampling_rate:
+            dataset = dataset.cast_column(
+                audio_column_name, datasets.features.Audio(sampling_rate=sampling_rate)
+            )
+    raw_datasets_features = list(dataset.features.keys())
+    raw_datasets_features.remove(audio_column_name)
+    raw_datasets_features.remove(text_col_name_ref)
+    # Keep only audio and sentence
+    dataset = dataset.remove_columns(column_names=raw_datasets_features)
+    return dataset
+def load_maybe_streaming_dataset(
+    dataset_names,
+    dataset_config_names,
+    split="train",
+    streaming=True,
+    audio_column_name=None,
+    sampling_rate=None,
+    **kwargs
+):
     """
     Utility function to load a dataset in streaming mode. For datasets with multiple splits,
     each split is loaded individually and then splits combined by taking alternating examples from
     each (interleaving).
     """
+    text_column_names = None
+    if "text_column_name" in kwargs:
+        text_column_names = kwargs.pop("text_column_name").split(",")
+        text_col_name_ref = text_column_names[0]
+    if "," in dataset_names or "+" in split:
         # load multiple splits separated by the `+` symbol with streaming mode
+        dataset_splits = []
+        for dataset_name, dataset_config_name, split_names in zip(
+            dataset_names.split(","), dataset_config_names.split(","), split.split(",")
+        ):
+            for split_name in split_names.split("+"):
+                if dataset_config_name:
+                    dataset = load_dataset(dataset_name, dataset_config_name, split=split_name, streaming=streaming, **kwargs)
+                else:
+                    dataset = load_dataset(dataset_name, split=split_name, streaming=streaming, **kwargs)
+                dataset = rename_col_and_resample(
+                    dataset,
+                    dataset_name,
+                    text_column_names,
+                    text_col_name_ref,
+                    audio_column_name,
+                    sampling_rate
+                )
+                dataset_splits.append(dataset)
         # interleave multiple splits to form one dataset
+        interleaved_dataset = interleave_datasets(dataset_splits, stopping_strategy="all_exhausted")
         return interleaved_dataset
     else:
         # load a single split *with* streaming mode
+        dataset = load_dataset(dataset_names, dataset_config_names, split=split, streaming=streaming, **kwargs)
+        dataset = rename_col_and_resample(
+            dataset,
+            dataset_names,
+            text_column_names,
+            text_col_name_ref,
+            audio_column_name,
+            sampling_rate
+        )
         return dataset
+def notify_me(recipient, message=None):
+    """
+    Send an email to the specified address with the specified message
+    """
+    sender = os.environ.get("EMAIL_ADDRESS", None)
+    password = os.environ.get("EMAIL_PASSWORD", None)
+    if sender is None:
+        logging.warning("No email address specified, not sending notification")
+    if password is None:
+        logging.warning("No email password specified, not sending notification")
+    if message is None:
+        message = "Training is finished!"
+    if sender is not None:
+        import smtplib
+        from email.mime.text import MIMEText
+        msg = MIMEText(message)
+        msg["Subject"] = "Training updates..."
+        msg["From"] = "[email protected]"
+        msg["To"] = recipient
+        # send the email
+        smtp_obj = smtplib.SMTP("smtp.gmail.com", 587)
+        smtp_obj.starttls()
+        smtp_obj.login(sender, password)
+        smtp_obj.sendmail(sender, recipient, msg.as_string())
+        smtp_obj.quit()
 def main():
     # 1. Parse input arguments
     # See all possible arguments in src/transformers/training_args.py
     # Set seed before initializing model.
     set_seed(training_args.seed)
+    # Load feature extractor
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=hf_token if model_args.use_auth_token else None,
+    )
     # 4. Load dataset
     raw_datasets = IterableDatasetDict() if data_args.streaming else DatasetDict()
     if training_args.do_train:
         raw_datasets["train"] = load_maybe_streaming_dataset(
+            data_args.dataset_train_name,
+            data_args.dataset_train_config_name,
             split=data_args.train_split_name,
+            use_auth_token=hf_token if model_args.use_auth_token else None,
             streaming=data_args.streaming,
+            text_column_name=data_args.text_column_name,
+            audio_column_name=data_args.audio_column_name,
+            sampling_rate=int(feature_extractor.sampling_rate),
+            # language=data_args.language_train
         )
     if training_args.do_eval:
         raw_datasets["eval"] = load_maybe_streaming_dataset(
+            data_args.dataset_eval_name,
+            data_args.dataset_eval_config_name,
             split=data_args.eval_split_name,
+            use_auth_token=hf_token if model_args.use_auth_token else None,
             streaming=data_args.streaming,
+            text_column_name=data_args.text_column_name,
+            audio_column_name=data_args.audio_column_name,
+            sampling_rate=int(feature_extractor.sampling_rate),
+            # language=data_args.language_eval
         )
     raw_datasets_features = list(next(iter(raw_datasets.values())).features.keys())
+    text_column_name = data_args.text_column_name.split(",")[0]
     if data_args.audio_column_name not in raw_datasets_features:
         raise ValueError(
+            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_train_name}'. "
             "Make sure to set `--audio_column_name` to the correct audio column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
+    if text_column_name not in raw_datasets_features:
         raise ValueError(
+            f"--text_column_name {text_column_name} not found in dataset '{data_args.dataset_train_name}'. "
             "Make sure to set `--text_column_name` to the correct text column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
         model_args.config_name if model_args.config_name else model_args.model_name_or_path,
         cache_dir=model_args.cache_dir,
         revision=model_args.model_revision,
+        use_auth_token=hf_token if model_args.use_auth_token else None,
     )
     config.update({"forced_decoder_ids": model_args.forced_decoder_ids, "suppress_tokens": model_args.suppress_tokens})
     if training_args.gradient_checkpointing:
         config.update({"use_cache": False})
     tokenizer = AutoTokenizer.from_pretrained(
         model_args.tokenizer_name if model_args.tokenizer_name else model_args.model_name_or_path,
         cache_dir=model_args.cache_dir,
         use_fast=model_args.use_fast_tokenizer,
         revision=model_args.model_revision,
+        use_auth_token=hf_token if model_args.use_auth_token else None,
     )
     model = AutoModelForSpeechSeq2Seq.from_pretrained(
         model_args.model_name_or_path,
         config=config,
         cache_dir=model_args.cache_dir,
         revision=model_args.model_revision,
+        use_auth_token=hf_token if model_args.use_auth_token else None,
     )
     if model.config.decoder_start_token_id is None:
     max_input_length = data_args.max_duration_in_seconds * feature_extractor.sampling_rate
     min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
     audio_column_name = data_args.audio_column_name
     model_input_name = feature_extractor.model_input_names[0]
     do_lower_case = data_args.do_lower_case
     do_remove_punctuation = data_args.do_remove_punctuation
         callbacks=[ShuffleCallback()] if data_args.streaming else None,
     )
+    orig_push_to_hub = trainer.args.push_to_hub
+    trainer.args.push_to_hub = False
     # 12. Training
     if training_args.do_train:
         checkpoint = None
         "tasks": "automatic-speech-recognition",
         "tags": "whisper-event",
     }
+    if data_args.dataset_train_name is not None:
+        kwargs["dataset_tags"] = data_args.dataset_train_name
+        if data_args.dataset_train_config_name is not None:
+            kwargs["dataset"] = f"{data_args.dataset_train_name} {data_args.dataset_train_config_name}"
         else:
+            kwargs["dataset"] = data_args.dataset_train_name
+        if "common_voice" in data_args.dataset_train_name:
+            kwargs["language"] = data_args.dataset_train_config_name[:2]
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name
+    logger.info("*** Training stats written ***")
+    logger.info(json.dumps(kwargs, indent=4))
+    # Training complete notification
+    logger.info("*** Training and eval complete ***")
+    logger.info(SENDING_NOTIFICATION)
+    with open(os.path.join(training_args.output_dir, "train_results.json"), "r") as f:
+            train_results = json.load(f)
+    with open(os.path.join(training_args.output_dir, "eval_results.json"), "r") as f:
+            eval_results = json.load(f)
+    notify_me(recipient=RECIPIENT_ADDRESS,
+              message=f"Training complete! {train_results = } {eval_results = }")
+    trainer.args.push_to_hub = orig_push_to_hub
     if training_args.push_to_hub:
         trainer.push_to_hub(**kwargs)
     else:
         trainer.create_model_card(**kwargs)
+    with open(os.path.join(training_args.output_dir, "README.md"), "r") as f:
+        readme = f.read()
+    notify_me(recipient=RECIPIENT_ADDRESS,
+              message=f"Model pushed to hub! {readme = }")
     return results
 if __name__ == "__main__":
+    main()

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 7.12,
-    "train_loss": 0.026056346493959427,
-    "train_runtime": 20075.1792,
-    "train_samples_per_second": 3.985,
-    "train_steps_per_second": 0.125
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.025400285175442697,
+    "train_runtime": 51804.3597,
+    "train_samples_per_second": 3.089,
+    "train_steps_per_second": 0.097
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 11.37780883775938,
-  "best_model_checkpoint": "./checkpoint-2000",
-  "epoch": 7.1152,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,634 +10,1261 @@
     {
       "epoch": 0.01,
       "learning_rate": 9.200000000000001e-07,
-      "loss": 0.5204,
       "step": 25
     },
     {
-      "epoch": 0.02,
       "learning_rate": 1.9200000000000003e-06,
-      "loss": 0.0582,
       "step": 50
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2.92e-06,
-      "loss": 0.0527,
       "step": 75
     },
     {
-      "epoch": 0.04,
       "learning_rate": 3.920000000000001e-06,
-      "loss": 0.0587,
       "step": 100
     },
     {
-      "epoch": 0.05,
       "learning_rate": 4.92e-06,
-      "loss": 0.0659,
       "step": 125
     },
     {
-      "epoch": 0.06,
       "learning_rate": 5.92e-06,
-      "loss": 0.0681,
       "step": 150
     },
     {
-      "epoch": 0.07,
       "learning_rate": 6.92e-06,
-      "loss": 0.07,
       "step": 175
     },
     {
-      "epoch": 0.08,
       "learning_rate": 7.92e-06,
-      "loss": 0.0856,
       "step": 200
     },
     {
-      "epoch": 0.09,
       "learning_rate": 8.920000000000001e-06,
-      "loss": 0.0894,
       "step": 225
     },
     {
-      "epoch": 0.1,
       "learning_rate": 9.920000000000002e-06,
-      "loss": 0.0751,
       "step": 250
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 9.89777777777778e-06,
-      "loss": 0.0772,
       "step": 275
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 9.786666666666667e-06,
-      "loss": 0.0698,
       "step": 300
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 9.675555555555555e-06,
-      "loss": 0.0893,
       "step": 325
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 9.564444444444445e-06,
-      "loss": 0.0782,
       "step": 350
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 9.453333333333335e-06,
-      "loss": 0.0595,
       "step": 375
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 9.342222222222223e-06,
-      "loss": 0.0537,
       "step": 400
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 9.231111111111111e-06,
-      "loss": 0.052,
       "step": 425
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 9.12e-06,
-      "loss": 0.05,
       "step": 450
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 9.008888888888889e-06,
-      "loss": 0.0522,
       "step": 475
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 8.897777777777779e-06,
-      "loss": 0.0467,
       "step": 500
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 8.786666666666668e-06,
-      "loss": 0.0586,
       "step": 525
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 8.675555555555556e-06,
-      "loss": 0.0437,
       "step": 550
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 8.564444444444445e-06,
-      "loss": 0.0395,
       "step": 575
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 8.453333333333334e-06,
-      "loss": 0.0371,
       "step": 600
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 8.342222222222222e-06,
-      "loss": 0.0316,
       "step": 625
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 8.231111111111112e-06,
-      "loss": 0.0412,
       "step": 650
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 8.120000000000002e-06,
-      "loss": 0.0335,
       "step": 675
     },
     {
-      "epoch": 2.03,
-      "learning_rate": 8.00888888888889e-06,
-      "loss": 0.0314,
       "step": 700
     },
     {
-      "epoch": 2.04,
-      "learning_rate": 7.897777777777778e-06,
-      "loss": 0.0329,
       "step": 725
     },
     {
-      "epoch": 2.05,
-      "learning_rate": 7.786666666666666e-06,
-      "loss": 0.0275,
       "step": 750
     },
     {
-      "epoch": 2.06,
-      "learning_rate": 7.675555555555556e-06,
-      "loss": 0.028,
       "step": 775
     },
     {
-      "epoch": 2.07,
-      "learning_rate": 7.564444444444446e-06,
-      "loss": 0.0256,
       "step": 800
     },
     {
-      "epoch": 2.08,
-      "learning_rate": 7.453333333333334e-06,
-      "loss": 0.026,
       "step": 825
     },
     {
-      "epoch": 2.09,
-      "learning_rate": 7.342222222222223e-06,
-      "loss": 0.0295,
       "step": 850
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 7.231111111111112e-06,
-      "loss": 0.0259,
       "step": 875
     },
     {
-      "epoch": 2.11,
-      "learning_rate": 7.1200000000000004e-06,
-      "loss": 0.0173,
       "step": 900
     },
     {
-      "epoch": 2.12,
-      "learning_rate": 7.008888888888889e-06,
-      "loss": 0.014,
       "step": 925
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 6.897777777777779e-06,
-      "loss": 0.0158,
       "step": 950
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 6.786666666666667e-06,
-      "loss": 0.0193,
       "step": 975
     },
     {
-      "epoch": 3.02,
-      "learning_rate": 6.675555555555556e-06,
-      "loss": 0.0146,
       "step": 1000
     },
     {
-      "epoch": 3.02,
-      "eval_loss": 0.2546452581882477,
-      "eval_runtime": 2882.0567,
-      "eval_samples_per_second": 1.759,
-      "eval_steps_per_second": 0.11,
-      "eval_wer": 11.942264272658853,
       "step": 1000
     },
     {
-      "epoch": 3.03,
-      "learning_rate": 6.564444444444446e-06,
-      "loss": 0.0129,
       "step": 1025
     },
     {
-      "epoch": 3.04,
-      "learning_rate": 6.453333333333334e-06,
-      "loss": 0.0111,
       "step": 1050
     },
     {
-      "epoch": 3.05,
-      "learning_rate": 6.342222222222223e-06,
-      "loss": 0.0143,
       "step": 1075
     },
     {
-      "epoch": 3.06,
-      "learning_rate": 6.231111111111111e-06,
-      "loss": 0.0128,
       "step": 1100
     },
     {
-      "epoch": 3.07,
-      "learning_rate": 6.120000000000001e-06,
-      "loss": 0.0105,
       "step": 1125
     },
     {
-      "epoch": 3.08,
-      "learning_rate": 6.00888888888889e-06,
-      "loss": 0.012,
       "step": 1150
     },
     {
-      "epoch": 3.09,
-      "learning_rate": 5.897777777777778e-06,
-      "loss": 0.0133,
       "step": 1175
     },
     {
-      "epoch": 3.1,
-      "learning_rate": 5.7866666666666674e-06,
-      "loss": 0.0093,
       "step": 1200
     },
     {
-      "epoch": 3.11,
-      "learning_rate": 5.675555555555556e-06,
-      "loss": 0.0097,
       "step": 1225
     },
     {
-      "epoch": 3.12,
-      "learning_rate": 5.5644444444444444e-06,
-      "loss": 0.007,
       "step": 1250
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 5.453333333333334e-06,
-      "loss": 0.0059,
       "step": 1275
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 5.342222222222223e-06,
-      "loss": 0.01,
       "step": 1300
     },
     {
-      "epoch": 4.02,
-      "learning_rate": 5.231111111111111e-06,
-      "loss": 0.0086,
       "step": 1325
     },
     {
-      "epoch": 4.03,
-      "learning_rate": 5.12e-06,
-      "loss": 0.0048,
       "step": 1350
     },
     {
-      "epoch": 4.04,
-      "learning_rate": 5.00888888888889e-06,
-      "loss": 0.0058,
       "step": 1375
     },
     {
-      "epoch": 4.05,
-      "learning_rate": 4.897777777777778e-06,
-      "loss": 0.0056,
       "step": 1400
     },
     {
-      "epoch": 4.06,
-      "learning_rate": 4.786666666666667e-06,
-      "loss": 0.0059,
       "step": 1425
     },
     {
-      "epoch": 4.07,
-      "learning_rate": 4.675555555555556e-06,
-      "loss": 0.0038,
       "step": 1450
     },
     {
-      "epoch": 4.08,
-      "learning_rate": 4.564444444444445e-06,
-      "loss": 0.0049,
       "step": 1475
     },
     {
-      "epoch": 4.09,
-      "learning_rate": 4.453333333333334e-06,
-      "loss": 0.0051,
       "step": 1500
     },
     {
-      "epoch": 4.1,
-      "learning_rate": 4.3422222222222225e-06,
-      "loss": 0.0044,
       "step": 1525
     },
     {
-      "epoch": 4.11,
-      "learning_rate": 4.2311111111111114e-06,
-      "loss": 0.0026,
       "step": 1550
     },
     {
-      "epoch": 4.12,
-      "learning_rate": 4.12e-06,
-      "loss": 0.0036,
       "step": 1575
     },
     {
-      "epoch": 5.01,
-      "learning_rate": 4.008888888888889e-06,
-      "loss": 0.0035,
       "step": 1600
     },
     {
-      "epoch": 5.02,
-      "learning_rate": 3.897777777777778e-06,
-      "loss": 0.0024,
       "step": 1625
     },
     {
-      "epoch": 5.03,
-      "learning_rate": 3.7866666666666667e-06,
-      "loss": 0.0026,
       "step": 1650
     },
     {
-      "epoch": 5.04,
-      "learning_rate": 3.675555555555556e-06,
-      "loss": 0.0031,
       "step": 1675
     },
     {
-      "epoch": 5.05,
-      "learning_rate": 3.564444444444445e-06,
-      "loss": 0.0045,
       "step": 1700
     },
     {
-      "epoch": 5.06,
-      "learning_rate": 3.4533333333333334e-06,
-      "loss": 0.0019,
       "step": 1725
     },
     {
-      "epoch": 5.07,
-      "learning_rate": 3.3422222222222224e-06,
-      "loss": 0.0018,
       "step": 1750
     },
     {
-      "epoch": 5.08,
-      "learning_rate": 3.2311111111111117e-06,
-      "loss": 0.0033,
       "step": 1775
     },
     {
-      "epoch": 5.09,
-      "learning_rate": 3.12e-06,
-      "loss": 0.0048,
       "step": 1800
     },
     {
-      "epoch": 5.1,
-      "learning_rate": 3.008888888888889e-06,
-      "loss": 0.0019,
       "step": 1825
     },
     {
-      "epoch": 5.11,
-      "learning_rate": 2.8977777777777785e-06,
-      "loss": 0.0015,
       "step": 1850
     },
     {
-      "epoch": 5.12,
-      "learning_rate": 2.786666666666667e-06,
-      "loss": 0.0018,
       "step": 1875
     },
     {
-      "epoch": 6.0,
-      "learning_rate": 2.675555555555556e-06,
-      "loss": 0.0017,
       "step": 1900
     },
     {
-      "epoch": 6.01,
-      "learning_rate": 2.5644444444444444e-06,
-      "loss": 0.0017,
       "step": 1925
     },
     {
-      "epoch": 6.02,
-      "learning_rate": 2.4533333333333333e-06,
-      "loss": 0.0009,
       "step": 1950
     },
     {
-      "epoch": 6.03,
-      "learning_rate": 2.342222222222222e-06,
-      "loss": 0.0011,
       "step": 1975
     },
     {
-      "epoch": 6.04,
-      "learning_rate": 2.2311111111111115e-06,
-      "loss": 0.0017,
       "step": 2000
     },
     {
-      "epoch": 6.04,
-      "eval_loss": 0.29696929454803467,
-      "eval_runtime": 2899.6818,
-      "eval_samples_per_second": 1.748,
-      "eval_steps_per_second": 0.109,
-      "eval_wer": 11.37780883775938,
       "step": 2000
     },
     {
-      "epoch": 6.05,
-      "learning_rate": 2.12e-06,
-      "loss": 0.0013,
       "step": 2025
     },
     {
-      "epoch": 6.06,
-      "learning_rate": 2.008888888888889e-06,
-      "loss": 0.0014,
       "step": 2050
     },
     {
-      "epoch": 6.07,
-      "learning_rate": 1.8977777777777779e-06,
-      "loss": 0.0008,
       "step": 2075
     },
     {
-      "epoch": 6.08,
-      "learning_rate": 1.7866666666666668e-06,
-      "loss": 0.001,
       "step": 2100
     },
     {
-      "epoch": 6.09,
-      "learning_rate": 1.675555555555556e-06,
-      "loss": 0.0009,
       "step": 2125
     },
     {
-      "epoch": 6.1,
-      "learning_rate": 1.5644444444444446e-06,
-      "loss": 0.0006,
       "step": 2150
     },
     {
-      "epoch": 6.11,
-      "learning_rate": 1.4533333333333335e-06,
-      "loss": 0.0011,
       "step": 2175
     },
     {
-      "epoch": 6.12,
-      "learning_rate": 1.3422222222222222e-06,
-      "loss": 0.0006,
       "step": 2200
     },
     {
-      "epoch": 7.01,
-      "learning_rate": 1.2311111111111112e-06,
-      "loss": 0.0006,
       "step": 2225
     },
     {
-      "epoch": 7.02,
-      "learning_rate": 1.12e-06,
-      "loss": 0.0006,
       "step": 2250
     },
     {
-      "epoch": 7.03,
-      "learning_rate": 1.008888888888889e-06,
-      "loss": 0.0006,
       "step": 2275
     },
     {
-      "epoch": 7.04,
-      "learning_rate": 8.977777777777778e-07,
-      "loss": 0.0007,
       "step": 2300
     },
     {
-      "epoch": 7.05,
-      "learning_rate": 7.866666666666667e-07,
-      "loss": 0.0009,
       "step": 2325
     },
     {
-      "epoch": 7.06,
-      "learning_rate": 6.755555555555555e-07,
-      "loss": 0.0007,
       "step": 2350
     },
     {
-      "epoch": 7.07,
-      "learning_rate": 5.644444444444445e-07,
-      "loss": 0.0007,
       "step": 2375
     },
     {
-      "epoch": 7.08,
-      "learning_rate": 4.533333333333334e-07,
-      "loss": 0.0006,
       "step": 2400
     },
     {
-      "epoch": 7.09,
-      "learning_rate": 3.422222222222223e-07,
-      "loss": 0.0007,
       "step": 2425
     },
     {
-      "epoch": 7.1,
-      "learning_rate": 2.3111111111111112e-07,
-      "loss": 0.0006,
       "step": 2450
     },
     {
-      "epoch": 7.11,
-      "learning_rate": 1.2000000000000002e-07,
-      "loss": 0.0006,
       "step": 2475
     },
     {
-      "epoch": 7.12,
-      "learning_rate": 8.88888888888889e-09,
-      "loss": 0.0006,
       "step": 2500
     },
     {
-      "epoch": 7.12,
-      "step": 2500,
-      "total_flos": 8.159123872677888e+19,
-      "train_loss": 0.026056346493959427,
-      "train_runtime": 20075.1792,
-      "train_samples_per_second": 3.985,
-      "train_steps_per_second": 0.125
     }
   ],
-  "max_steps": 2500,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 8.159123872677888e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 9.891409525857435,
+  "best_model_checkpoint": "./checkpoint-5000",
+  "epoch": 1.0,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.01,
       "learning_rate": 9.200000000000001e-07,
+      "loss": 0.4442,
       "step": 25
     },
     {
+      "epoch": 0.01,
       "learning_rate": 1.9200000000000003e-06,
+      "loss": 0.1027,
       "step": 50
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2.92e-06,
+      "loss": 0.0877,
       "step": 75
     },
     {
+      "epoch": 0.02,
       "learning_rate": 3.920000000000001e-06,
+      "loss": 0.0788,
       "step": 100
     },
     {
+      "epoch": 0.03,
       "learning_rate": 4.92e-06,
+      "loss": 0.0815,
       "step": 125
     },
     {
+      "epoch": 0.03,
       "learning_rate": 5.92e-06,
+      "loss": 0.0817,
       "step": 150
     },
     {
+      "epoch": 0.04,
       "learning_rate": 6.92e-06,
+      "loss": 0.0614,
       "step": 175
     },
     {
+      "epoch": 0.04,
       "learning_rate": 7.92e-06,
+      "loss": 0.049,
       "step": 200
     },
     {
+      "epoch": 0.04,
       "learning_rate": 8.920000000000001e-06,
+      "loss": 0.0471,
       "step": 225
     },
     {
+      "epoch": 0.05,
       "learning_rate": 9.920000000000002e-06,
+      "loss": 0.0456,
       "step": 250
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 9.951578947368423e-06,
+      "loss": 0.0483,
       "step": 275
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 9.898947368421054e-06,
+      "loss": 0.051,
       "step": 300
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 9.846315789473684e-06,
+      "loss": 0.0526,
       "step": 325
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 9.793684210526316e-06,
+      "loss": 0.0609,
       "step": 350
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 9.741052631578947e-06,
+      "loss": 0.052,
       "step": 375
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 9.68842105263158e-06,
+      "loss": 0.0476,
       "step": 400
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.635789473684212e-06,
+      "loss": 0.0433,
       "step": 425
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.583157894736842e-06,
+      "loss": 0.0508,
       "step": 450
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.530526315789474e-06,
+      "loss": 0.0551,
       "step": 475
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.477894736842106e-06,
+      "loss": 0.0413,
       "step": 500
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.425263157894737e-06,
+      "loss": 0.0313,
       "step": 525
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 9.372631578947369e-06,
+      "loss": 0.0411,
       "step": 550
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.32e-06,
+      "loss": 0.0496,
       "step": 575
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.267368421052632e-06,
+      "loss": 0.0442,
       "step": 600
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.214736842105264e-06,
+      "loss": 0.0445,
       "step": 625
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 9.162105263157895e-06,
+      "loss": 0.0536,
       "step": 650
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.109473684210527e-06,
+      "loss": 0.036,
       "step": 675
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.056842105263159e-06,
+      "loss": 0.034,
       "step": 700
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.00421052631579e-06,
+      "loss": 0.0305,
       "step": 725
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 8.951578947368422e-06,
+      "loss": 0.0301,
       "step": 750
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 8.898947368421054e-06,
+      "loss": 0.0362,
       "step": 775
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 8.846315789473685e-06,
+      "loss": 0.0323,
       "step": 800
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.793684210526317e-06,
+      "loss": 0.0416,
       "step": 825
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.741052631578949e-06,
+      "loss": 0.033,
       "step": 850
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.688421052631579e-06,
+      "loss": 0.0372,
       "step": 875
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 8.63578947368421e-06,
+      "loss": 0.0332,
       "step": 900
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 8.583157894736843e-06,
+      "loss": 0.0319,
       "step": 925
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 8.530526315789475e-06,
+      "loss": 0.037,
       "step": 950
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 8.477894736842107e-06,
+      "loss": 0.0437,
       "step": 975
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 8.425263157894737e-06,
+      "loss": 0.0383,
       "step": 1000
     },
     {
+      "epoch": 0.2,
+      "eval_loss": 0.22878967225551605,
+      "eval_runtime": 2943.9063,
+      "eval_samples_per_second": 1.722,
+      "eval_steps_per_second": 0.108,
+      "eval_wer": 12.202988925921945,
       "step": 1000
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 8.372631578947368e-06,
+      "loss": 0.0308,
       "step": 1025
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 8.32e-06,
+      "loss": 0.0329,
       "step": 1050
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 8.267368421052632e-06,
+      "loss": 0.0351,
       "step": 1075
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 8.214736842105265e-06,
+      "loss": 0.0333,
       "step": 1100
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 8.162105263157895e-06,
+      "loss": 0.0349,
       "step": 1125
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 8.109473684210527e-06,
+      "loss": 0.0339,
       "step": 1150
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 8.056842105263158e-06,
+      "loss": 0.0276,
       "step": 1175
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 8.00421052631579e-06,
+      "loss": 0.0344,
       "step": 1200
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 7.951578947368421e-06,
+      "loss": 0.0368,
       "step": 1225
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 7.898947368421053e-06,
+      "loss": 0.0331,
       "step": 1250
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 7.846315789473685e-06,
+      "loss": 0.028,
       "step": 1275
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 7.793684210526316e-06,
+      "loss": 0.0333,
       "step": 1300
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 7.741052631578948e-06,
+      "loss": 0.0299,
       "step": 1325
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 7.68842105263158e-06,
+      "loss": 0.0252,
       "step": 1350
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 7.635789473684211e-06,
+      "loss": 0.0288,
       "step": 1375
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 7.583157894736842e-06,
+      "loss": 0.0294,
       "step": 1400
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 7.5305263157894745e-06,
+      "loss": 0.0265,
       "step": 1425
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 7.477894736842106e-06,
+      "loss": 0.0239,
       "step": 1450
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 7.425263157894738e-06,
+      "loss": 0.0248,
       "step": 1475
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 7.3726315789473694e-06,
+      "loss": 0.0306,
       "step": 1500
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 7.32e-06,
+      "loss": 0.0262,
       "step": 1525
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 7.267368421052632e-06,
+      "loss": 0.0257,
       "step": 1550
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 7.2147368421052635e-06,
+      "loss": 0.0229,
       "step": 1575
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 7.162105263157896e-06,
+      "loss": 0.0238,
       "step": 1600
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 7.109473684210528e-06,
+      "loss": 0.0187,
       "step": 1625
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 7.056842105263158e-06,
+      "loss": 0.0232,
       "step": 1650
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 7.00421052631579e-06,
+      "loss": 0.0273,
       "step": 1675
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 6.951578947368422e-06,
+      "loss": 0.0326,
       "step": 1700
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 6.8989473684210525e-06,
+      "loss": 0.0266,
       "step": 1725
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 6.846315789473684e-06,
+      "loss": 0.0245,
       "step": 1750
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 6.793684210526317e-06,
+      "loss": 0.0345,
       "step": 1775
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 6.741052631578948e-06,
+      "loss": 0.033,
       "step": 1800
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 6.68842105263158e-06,
+      "loss": 0.0293,
       "step": 1825
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 6.635789473684211e-06,
+      "loss": 0.0187,
       "step": 1850
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 6.583157894736842e-06,
+      "loss": 0.0181,
       "step": 1875
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 6.530526315789474e-06,
+      "loss": 0.0242,
       "step": 1900
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 6.477894736842106e-06,
+      "loss": 0.0214,
       "step": 1925
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 6.425263157894738e-06,
+      "loss": 0.0238,
       "step": 1950
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 6.372631578947369e-06,
+      "loss": 0.0168,
       "step": 1975
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 6.3200000000000005e-06,
+      "loss": 0.0239,
       "step": 2000
     },
     {
+      "epoch": 0.4,
+      "eval_loss": 0.2214207649230957,
+      "eval_runtime": 2933.0533,
+      "eval_samples_per_second": 1.728,
+      "eval_steps_per_second": 0.108,
+      "eval_wer": 11.38049672078271,
       "step": 2000
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 6.267368421052632e-06,
+      "loss": 0.0201,
       "step": 2025
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 6.214736842105264e-06,
+      "loss": 0.0149,
       "step": 2050
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 6.1621052631578945e-06,
+      "loss": 0.0167,
       "step": 2075
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 6.109473684210527e-06,
+      "loss": 0.0169,
       "step": 2100
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 6.056842105263159e-06,
+      "loss": 0.0157,
       "step": 2125
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 6.00421052631579e-06,
+      "loss": 0.0168,
       "step": 2150
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 5.951578947368422e-06,
+      "loss": 0.0173,
       "step": 2175
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 5.898947368421053e-06,
+      "loss": 0.0167,
       "step": 2200
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 5.846315789473684e-06,
+      "loss": 0.015,
       "step": 2225
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 5.793684210526316e-06,
+      "loss": 0.0212,
       "step": 2250
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 5.7410526315789485e-06,
+      "loss": 0.0208,
       "step": 2275
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 5.68842105263158e-06,
+      "loss": 0.0132,
       "step": 2300
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 5.635789473684211e-06,
+      "loss": 0.0133,
       "step": 2325
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 5.5831578947368425e-06,
+      "loss": 0.0146,
       "step": 2350
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 5.530526315789474e-06,
+      "loss": 0.0163,
       "step": 2375
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 5.477894736842105e-06,
+      "loss": 0.0141,
       "step": 2400
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 5.425263157894737e-06,
+      "loss": 0.0168,
       "step": 2425
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 5.372631578947369e-06,
+      "loss": 0.0189,
       "step": 2450
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 5.320000000000001e-06,
+      "loss": 0.0204,
       "step": 2475
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 5.267368421052632e-06,
+      "loss": 0.0165,
       "step": 2500
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 5.214736842105263e-06,
+      "loss": 0.0192,
+      "step": 2525
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 5.162105263157895e-06,
+      "loss": 0.0164,
+      "step": 2550
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 5.1094736842105264e-06,
+      "loss": 0.0123,
+      "step": 2575
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 5.056842105263158e-06,
+      "loss": 0.0174,
+      "step": 2600
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 5.0042105263157906e-06,
+      "loss": 0.0152,
+      "step": 2625
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.951578947368421e-06,
+      "loss": 0.0156,
+      "step": 2650
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.898947368421053e-06,
+      "loss": 0.0138,
+      "step": 2675
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.846315789473685e-06,
+      "loss": 0.0138,
+      "step": 2700
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.793684210526316e-06,
+      "loss": 0.0142,
+      "step": 2725
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.741052631578948e-06,
+      "loss": 0.0119,
+      "step": 2750
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.6884210526315795e-06,
+      "loss": 0.0154,
+      "step": 2775
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.63578947368421e-06,
+      "loss": 0.0137,
+      "step": 2800
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.583157894736843e-06,
+      "loss": 0.0167,
+      "step": 2825
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.5305263157894744e-06,
+      "loss": 0.0172,
+      "step": 2850
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.477894736842105e-06,
+      "loss": 0.013,
+      "step": 2875
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.425263157894737e-06,
+      "loss": 0.0141,
+      "step": 2900
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.3726315789473685e-06,
+      "loss": 0.0118,
+      "step": 2925
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.32e-06,
+      "loss": 0.0179,
+      "step": 2950
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.267368421052632e-06,
+      "loss": 0.0143,
+      "step": 2975
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.214736842105263e-06,
+      "loss": 0.0125,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.22999617457389832,
+      "eval_runtime": 2921.4658,
+      "eval_samples_per_second": 1.735,
+      "eval_steps_per_second": 0.109,
+      "eval_wer": 10.98269003332975,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.162105263157895e-06,
+      "loss": 0.0089,
+      "step": 3025
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.109473684210527e-06,
+      "loss": 0.0113,
+      "step": 3050
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.056842105263158e-06,
+      "loss": 0.0097,
+      "step": 3075
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.00421052631579e-06,
+      "loss": 0.0135,
+      "step": 3100
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.951578947368422e-06,
+      "loss": 0.0142,
+      "step": 3125
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 3.898947368421052e-06,
+      "loss": 0.0132,
+      "step": 3150
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3.846315789473685e-06,
+      "loss": 0.0161,
+      "step": 3175
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3.793684210526316e-06,
+      "loss": 0.0141,
+      "step": 3200
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 3.7410526315789473e-06,
+      "loss": 0.0189,
+      "step": 3225
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 3.6884210526315794e-06,
+      "loss": 0.0143,
+      "step": 3250
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3.635789473684211e-06,
+      "loss": 0.0165,
+      "step": 3275
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3.5831578947368422e-06,
+      "loss": 0.0104,
+      "step": 3300
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3.5305263157894743e-06,
+      "loss": 0.011,
+      "step": 3325
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3.4778947368421055e-06,
+      "loss": 0.0146,
+      "step": 3350
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3.425263157894737e-06,
+      "loss": 0.0196,
+      "step": 3375
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3.3726315789473683e-06,
+      "loss": 0.0139,
+      "step": 3400
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.3200000000000004e-06,
+      "loss": 0.0127,
+      "step": 3425
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.267368421052632e-06,
+      "loss": 0.0124,
+      "step": 3450
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.2147368421052633e-06,
+      "loss": 0.0112,
+      "step": 3475
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.1621052631578953e-06,
+      "loss": 0.0149,
+      "step": 3500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.1094736842105265e-06,
+      "loss": 0.0155,
+      "step": 3525
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.056842105263158e-06,
+      "loss": 0.0215,
+      "step": 3550
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.0042105263157894e-06,
+      "loss": 0.0171,
+      "step": 3575
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 2.9515789473684214e-06,
+      "loss": 0.0205,
+      "step": 3600
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 2.8989473684210526e-06,
+      "loss": 0.0156,
+      "step": 3625
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 2.8463157894736843e-06,
+      "loss": 0.0151,
+      "step": 3650
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 2.7936842105263163e-06,
+      "loss": 0.0155,
+      "step": 3675
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 2.7410526315789476e-06,
+      "loss": 0.0109,
+      "step": 3700
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 2.688421052631579e-06,
+      "loss": 0.0183,
+      "step": 3725
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 2.635789473684211e-06,
+      "loss": 0.0125,
+      "step": 3750
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.5831578947368425e-06,
+      "loss": 0.0108,
+      "step": 3775
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.5305263157894737e-06,
+      "loss": 0.0141,
+      "step": 3800
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.4778947368421053e-06,
+      "loss": 0.012,
+      "step": 3825
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.425263157894737e-06,
+      "loss": 0.0104,
+      "step": 3850
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.3726315789473686e-06,
+      "loss": 0.0099,
+      "step": 3875
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.3200000000000002e-06,
+      "loss": 0.0196,
+      "step": 3900
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.267368421052632e-06,
+      "loss": 0.0201,
+      "step": 3925
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.2147368421052635e-06,
+      "loss": 0.0127,
+      "step": 3950
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.1621052631578947e-06,
+      "loss": 0.0166,
+      "step": 3975
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.1094736842105264e-06,
+      "loss": 0.0168,
+      "step": 4000
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.24368737637996674,
+      "eval_runtime": 2933.3968,
+      "eval_samples_per_second": 1.728,
+      "eval_steps_per_second": 0.108,
+      "eval_wer": 10.471992258896892,
+      "step": 4000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 2.056842105263158e-06,
+      "loss": 0.0111,
+      "step": 4025
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 2.0042105263157896e-06,
+      "loss": 0.0105,
+      "step": 4050
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.9515789473684213e-06,
+      "loss": 0.0109,
+      "step": 4075
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.8989473684210527e-06,
+      "loss": 0.0167,
+      "step": 4100
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.8463157894736843e-06,
+      "loss": 0.0102,
+      "step": 4125
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.7936842105263158e-06,
+      "loss": 0.0099,
+      "step": 4150
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.7410526315789474e-06,
+      "loss": 0.0157,
+      "step": 4175
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.6884210526315792e-06,
+      "loss": 0.0203,
+      "step": 4200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.6357894736842107e-06,
+      "loss": 0.0222,
+      "step": 4225
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.5831578947368423e-06,
+      "loss": 0.0159,
+      "step": 4250
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.5305263157894737e-06,
+      "loss": 0.0172,
+      "step": 4275
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.4778947368421054e-06,
+      "loss": 0.0106,
+      "step": 4300
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.425263157894737e-06,
+      "loss": 0.0077,
+      "step": 4325
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.3726315789473684e-06,
+      "loss": 0.0095,
+      "step": 4350
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.32e-06,
+      "loss": 0.0073,
+      "step": 4375
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.2673684210526315e-06,
+      "loss": 0.0064,
+      "step": 4400
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.2147368421052633e-06,
+      "loss": 0.0088,
+      "step": 4425
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.1621052631578948e-06,
+      "loss": 0.0085,
+      "step": 4450
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.1094736842105264e-06,
+      "loss": 0.0111,
+      "step": 4475
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.0568421052631578e-06,
+      "loss": 0.0072,
+      "step": 4500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.0042105263157897e-06,
+      "loss": 0.0175,
+      "step": 4525
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 9.515789473684212e-07,
+      "loss": 0.0087,
+      "step": 4550
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 8.989473684210527e-07,
+      "loss": 0.009,
+      "step": 4575
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 8.463157894736843e-07,
+      "loss": 0.0103,
+      "step": 4600
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.936842105263158e-07,
+      "loss": 0.0091,
+      "step": 4625
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.410526315789475e-07,
+      "loss": 0.012,
+      "step": 4650
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 6.884210526315791e-07,
+      "loss": 0.0113,
+      "step": 4675
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 6.357894736842106e-07,
+      "loss": 0.0108,
+      "step": 4700
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.831578947368421e-07,
+      "loss": 0.0094,
+      "step": 4725
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 5.305263157894737e-07,
+      "loss": 0.0072,
+      "step": 4750
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.778947368421053e-07,
+      "loss": 0.0078,
+      "step": 4775
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 4.2526315789473684e-07,
+      "loss": 0.0065,
+      "step": 4800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.726315789473685e-07,
+      "loss": 0.0068,
+      "step": 4825
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 3.2e-07,
+      "loss": 0.0105,
+      "step": 4850
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 2.6736842105263164e-07,
+      "loss": 0.0054,
+      "step": 4875
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 2.1473684210526317e-07,
+      "loss": 0.0077,
+      "step": 4900
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.6210526315789476e-07,
+      "loss": 0.0085,
+      "step": 4925
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.0947368421052632e-07,
+      "loss": 0.0092,
+      "step": 4950
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.68421052631579e-08,
+      "loss": 0.0077,
+      "step": 4975
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.210526315789474e-09,
+      "loss": 0.0071,
+      "step": 5000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.24834245443344116,
+      "eval_runtime": 2917.338,
+      "eval_samples_per_second": 1.738,
+      "eval_steps_per_second": 0.109,
+      "eval_wer": 9.891409525857435,
+      "step": 5000
+    },
+    {
+      "epoch": 1.0,
+      "step": 5000,
+      "total_flos": 1.632967852032e+20,
+      "train_loss": 0.025400285175442697,
+      "train_runtime": 51804.3597,
+      "train_samples_per_second": 3.089,
+      "train_steps_per_second": 0.097
     }
   ],
+  "max_steps": 5000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.632967852032e+20,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e13de8ddcc61da424ec8e8d050cd43e412a6f52aa9be94507835652edf1dedf
 size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8a92c5600d30cca742b5eb96009172353c46564d5f8ae2f5babd1d6db76efb3
 size 3579