|
{ |
|
"best_metric": 13.861446892066024, |
|
"best_model_checkpoint": "./checkpoint-2000", |
|
"epoch": 27.932960893854748, |
|
"global_step": 5000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.28, |
|
"learning_rate": 2.4000000000000003e-06, |
|
"loss": 0.2213, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.56, |
|
"learning_rate": 4.9000000000000005e-06, |
|
"loss": 0.0366, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.84, |
|
"learning_rate": 7.4e-06, |
|
"loss": 0.0253, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 1.12, |
|
"learning_rate": 9.9e-06, |
|
"loss": 0.0235, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"learning_rate": 9.9e-06, |
|
"loss": 0.0204, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 1.68, |
|
"learning_rate": 9.795833333333334e-06, |
|
"loss": 0.0173, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 1.96, |
|
"learning_rate": 9.691666666666667e-06, |
|
"loss": 0.0196, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 2.23, |
|
"learning_rate": 9.587500000000001e-06, |
|
"loss": 0.0109, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 2.51, |
|
"learning_rate": 9.483333333333335e-06, |
|
"loss": 0.009, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 2.79, |
|
"learning_rate": 9.379166666666667e-06, |
|
"loss": 0.0107, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 3.07, |
|
"learning_rate": 9.275e-06, |
|
"loss": 0.0097, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 3.35, |
|
"learning_rate": 9.170833333333334e-06, |
|
"loss": 0.0044, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 3.63, |
|
"learning_rate": 9.066666666666667e-06, |
|
"loss": 0.0049, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 3.91, |
|
"learning_rate": 8.962500000000001e-06, |
|
"loss": 0.0061, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 4.19, |
|
"learning_rate": 8.858333333333335e-06, |
|
"loss": 0.0042, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 4.47, |
|
"learning_rate": 8.754166666666667e-06, |
|
"loss": 0.0028, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 4.75, |
|
"learning_rate": 8.65e-06, |
|
"loss": 0.0036, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 5.03, |
|
"learning_rate": 8.545833333333334e-06, |
|
"loss": 0.0036, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 5.31, |
|
"learning_rate": 8.441666666666667e-06, |
|
"loss": 0.0019, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 5.59, |
|
"learning_rate": 8.337500000000001e-06, |
|
"loss": 0.0022, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 5.59, |
|
"eval_loss": 0.24051959812641144, |
|
"eval_runtime": 738.2945, |
|
"eval_samples_per_second": 9.403, |
|
"eval_steps_per_second": 0.294, |
|
"eval_wer": 13.999509112106523, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 5.87, |
|
"learning_rate": 8.233333333333335e-06, |
|
"loss": 0.0022, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 6.15, |
|
"learning_rate": 8.129166666666667e-06, |
|
"loss": 0.0026, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 6.42, |
|
"learning_rate": 8.025e-06, |
|
"loss": 0.0014, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 6.7, |
|
"learning_rate": 7.920833333333334e-06, |
|
"loss": 0.0016, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 6.98, |
|
"learning_rate": 7.816666666666667e-06, |
|
"loss": 0.0017, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 7.26, |
|
"learning_rate": 7.712500000000001e-06, |
|
"loss": 0.0013, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 7.54, |
|
"learning_rate": 7.608333333333334e-06, |
|
"loss": 0.0012, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 7.82, |
|
"learning_rate": 7.504166666666667e-06, |
|
"loss": 0.0016, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 8.1, |
|
"learning_rate": 7.4e-06, |
|
"loss": 0.0013, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 8.38, |
|
"learning_rate": 7.295833333333334e-06, |
|
"loss": 0.0009, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 8.66, |
|
"learning_rate": 7.191666666666667e-06, |
|
"loss": 0.0013, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 8.94, |
|
"learning_rate": 7.0875e-06, |
|
"loss": 0.0014, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 9.22, |
|
"learning_rate": 6.983333333333334e-06, |
|
"loss": 0.001, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 9.5, |
|
"learning_rate": 6.879166666666667e-06, |
|
"loss": 0.0009, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 9.78, |
|
"learning_rate": 6.775e-06, |
|
"loss": 0.0008, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 10.06, |
|
"learning_rate": 6.670833333333334e-06, |
|
"loss": 0.0008, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 10.34, |
|
"learning_rate": 6.566666666666667e-06, |
|
"loss": 0.0009, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 10.61, |
|
"learning_rate": 6.4625e-06, |
|
"loss": 0.0007, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 10.89, |
|
"learning_rate": 6.358333333333334e-06, |
|
"loss": 0.0008, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 11.17, |
|
"learning_rate": 6.254166666666667e-06, |
|
"loss": 0.0005, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 11.17, |
|
"eval_loss": 0.2584499418735504, |
|
"eval_runtime": 741.1067, |
|
"eval_samples_per_second": 9.367, |
|
"eval_steps_per_second": 0.293, |
|
"eval_wer": 13.861446892066024, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 11.45, |
|
"learning_rate": 6.15e-06, |
|
"loss": 0.0007, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 11.73, |
|
"learning_rate": 6.045833333333334e-06, |
|
"loss": 0.0006, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 12.01, |
|
"learning_rate": 5.941666666666667e-06, |
|
"loss": 0.0009, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 12.29, |
|
"learning_rate": 5.8375000000000004e-06, |
|
"loss": 0.0005, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 12.57, |
|
"learning_rate": 5.733333333333334e-06, |
|
"loss": 0.0004, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 12.85, |
|
"learning_rate": 5.629166666666667e-06, |
|
"loss": 0.0006, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 13.13, |
|
"learning_rate": 5.5250000000000005e-06, |
|
"loss": 0.0004, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 13.41, |
|
"learning_rate": 5.420833333333334e-06, |
|
"loss": 0.0003, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 13.69, |
|
"learning_rate": 5.316666666666667e-06, |
|
"loss": 0.0004, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 13.97, |
|
"learning_rate": 5.2125000000000005e-06, |
|
"loss": 0.0006, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 14.25, |
|
"learning_rate": 5.108333333333334e-06, |
|
"loss": 0.0003, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 14.53, |
|
"learning_rate": 5.004166666666667e-06, |
|
"loss": 0.0002, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 14.8, |
|
"learning_rate": 4.9000000000000005e-06, |
|
"loss": 0.0002, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 15.08, |
|
"learning_rate": 4.795833333333333e-06, |
|
"loss": 0.0004, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 15.36, |
|
"learning_rate": 4.691666666666667e-06, |
|
"loss": 0.0002, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 15.64, |
|
"learning_rate": 4.5875000000000005e-06, |
|
"loss": 0.0002, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 15.92, |
|
"learning_rate": 4.483333333333333e-06, |
|
"loss": 0.0003, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 16.2, |
|
"learning_rate": 4.379166666666667e-06, |
|
"loss": 0.0003, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 16.48, |
|
"learning_rate": 4.2750000000000006e-06, |
|
"loss": 0.0003, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 16.76, |
|
"learning_rate": 4.170833333333333e-06, |
|
"loss": 0.0002, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 16.76, |
|
"eval_loss": 0.26832228899002075, |
|
"eval_runtime": 755.3783, |
|
"eval_samples_per_second": 9.19, |
|
"eval_steps_per_second": 0.287, |
|
"eval_wer": 16.559796281524207, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 17.04, |
|
"learning_rate": 4.066666666666667e-06, |
|
"loss": 0.0001, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 17.32, |
|
"learning_rate": 3.962500000000001e-06, |
|
"loss": 0.0003, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 17.6, |
|
"learning_rate": 3.858333333333333e-06, |
|
"loss": 0.0001, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 17.88, |
|
"learning_rate": 3.754166666666667e-06, |
|
"loss": 0.0002, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 18.16, |
|
"learning_rate": 3.65e-06, |
|
"loss": 0.0001, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 18.44, |
|
"learning_rate": 3.5458333333333334e-06, |
|
"loss": 0.0001, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 18.72, |
|
"learning_rate": 3.441666666666667e-06, |
|
"loss": 0.0002, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 18.99, |
|
"learning_rate": 3.3375000000000002e-06, |
|
"loss": 0.0001, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 19.27, |
|
"learning_rate": 3.2333333333333334e-06, |
|
"loss": 0.0001, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 19.55, |
|
"learning_rate": 3.129166666666667e-06, |
|
"loss": 0.0001, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 19.83, |
|
"learning_rate": 3.0250000000000003e-06, |
|
"loss": 0.0001, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 20.11, |
|
"learning_rate": 2.9208333333333335e-06, |
|
"loss": 0.0, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 20.39, |
|
"learning_rate": 2.816666666666667e-06, |
|
"loss": 0.0, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 20.67, |
|
"learning_rate": 2.7125000000000003e-06, |
|
"loss": 0.0001, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 20.95, |
|
"learning_rate": 2.608333333333333e-06, |
|
"loss": 0.0, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 21.23, |
|
"learning_rate": 2.504166666666667e-06, |
|
"loss": 0.0001, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 21.51, |
|
"learning_rate": 2.4000000000000003e-06, |
|
"loss": 0.0, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 21.79, |
|
"learning_rate": 2.2958333333333335e-06, |
|
"loss": 0.0001, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 22.07, |
|
"learning_rate": 2.191666666666667e-06, |
|
"loss": 0.0, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 22.35, |
|
"learning_rate": 2.0875e-06, |
|
"loss": 0.0, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 22.35, |
|
"eval_loss": 0.2907346189022064, |
|
"eval_runtime": 746.9633, |
|
"eval_samples_per_second": 9.294, |
|
"eval_steps_per_second": 0.291, |
|
"eval_wer": 15.038043811744492, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 22.63, |
|
"learning_rate": 1.9833333333333335e-06, |
|
"loss": 0.0, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 22.91, |
|
"learning_rate": 1.879166666666667e-06, |
|
"loss": 0.0, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 23.18, |
|
"learning_rate": 1.7750000000000002e-06, |
|
"loss": 0.0, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 23.46, |
|
"learning_rate": 1.6708333333333336e-06, |
|
"loss": 0.0, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 23.74, |
|
"learning_rate": 1.566666666666667e-06, |
|
"loss": 0.0, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 24.02, |
|
"learning_rate": 1.4625e-06, |
|
"loss": 0.0, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 24.3, |
|
"learning_rate": 1.3583333333333334e-06, |
|
"loss": 0.0, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 24.58, |
|
"learning_rate": 1.2541666666666668e-06, |
|
"loss": 0.0, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 24.86, |
|
"learning_rate": 1.1500000000000002e-06, |
|
"loss": 0.0, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 25.14, |
|
"learning_rate": 1.0458333333333334e-06, |
|
"loss": 0.0, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 25.42, |
|
"learning_rate": 9.416666666666667e-07, |
|
"loss": 0.0, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 25.7, |
|
"learning_rate": 8.375000000000001e-07, |
|
"loss": 0.0, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 25.98, |
|
"learning_rate": 7.333333333333334e-07, |
|
"loss": 0.0, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 26.26, |
|
"learning_rate": 6.291666666666666e-07, |
|
"loss": 0.0, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 26.54, |
|
"learning_rate": 5.250000000000001e-07, |
|
"loss": 0.0, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 26.82, |
|
"learning_rate": 4.2083333333333336e-07, |
|
"loss": 0.0, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 27.09, |
|
"learning_rate": 3.166666666666667e-07, |
|
"loss": 0.0, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 27.37, |
|
"learning_rate": 2.1250000000000003e-07, |
|
"loss": 0.0, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 27.65, |
|
"learning_rate": 1.0833333333333335e-07, |
|
"loss": 0.0, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 27.93, |
|
"learning_rate": 4.1666666666666676e-09, |
|
"loss": 0.0, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 27.93, |
|
"eval_loss": 0.3084936738014221, |
|
"eval_runtime": 745.3939, |
|
"eval_samples_per_second": 9.313, |
|
"eval_steps_per_second": 0.291, |
|
"eval_wer": 14.203534392833037, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 27.93, |
|
"step": 5000, |
|
"total_flos": 4.611132960473088e+19, |
|
"train_loss": 0.004727415198316157, |
|
"train_runtime": 12262.7443, |
|
"train_samples_per_second": 13.048, |
|
"train_steps_per_second": 0.408 |
|
} |
|
], |
|
"max_steps": 5000, |
|
"num_train_epochs": 28, |
|
"total_flos": 4.611132960473088e+19, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|