BEiT-RHS-NDA / trainer_state.json

End of training

59e8472 verified about 2 months ago

14.8 kB

	{
	"best_metric": 0.8317757009345794,
	"best_model_checkpoint": "BEiT-RHS-NDA\\checkpoint-272",
	"epoch": 40.0,
	"eval_steps": 500,
	"global_step": 320,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_accuracy": 0.5887850467289719,
	"eval_loss": 0.6851425170898438,
	"eval_runtime": 2.6682,
	"eval_samples_per_second": 40.103,
	"eval_steps_per_second": 2.624,
	"step": 8
	},
	{
	"epoch": 1.25,
	"learning_rate": 3.125e-05,
	"loss": 0.6911,
	"step": 10
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.5887850467289719,
	"eval_loss": 0.6720580458641052,
	"eval_runtime": 2.054,
	"eval_samples_per_second": 52.093,
	"eval_steps_per_second": 3.408,
	"step": 16
	},
	{
	"epoch": 2.5,
	"learning_rate": 4.9342105263157894e-05,
	"loss": 0.6739,
	"step": 20
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.5887850467289719,
	"eval_loss": 0.6504218578338623,
	"eval_runtime": 2.4524,
	"eval_samples_per_second": 43.631,
	"eval_steps_per_second": 2.854,
	"step": 24
	},
	{
	"epoch": 3.75,
	"learning_rate": 4.769736842105263e-05,
	"loss": 0.6595,
	"step": 30
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.5887850467289719,
	"eval_loss": 0.6432350873947144,
	"eval_runtime": 2.1328,
	"eval_samples_per_second": 50.169,
	"eval_steps_per_second": 3.282,
	"step": 32
	},
	{
	"epoch": 5.0,
	"learning_rate": 4.605263157894737e-05,
	"loss": 0.646,
	"step": 40
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.6822429906542056,
	"eval_loss": 0.6316895484924316,
	"eval_runtime": 2.4096,
	"eval_samples_per_second": 44.405,
	"eval_steps_per_second": 2.905,
	"step": 40
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.6915887850467289,
	"eval_loss": 0.617514431476593,
	"eval_runtime": 2.0335,
	"eval_samples_per_second": 52.617,
	"eval_steps_per_second": 3.442,
	"step": 48
	},
	{
	"epoch": 6.25,
	"learning_rate": 4.440789473684211e-05,
	"loss": 0.6142,
	"step": 50
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.6915887850467289,
	"eval_loss": 0.6269640326499939,
	"eval_runtime": 2.0515,
	"eval_samples_per_second": 52.156,
	"eval_steps_per_second": 3.412,
	"step": 56
	},
	{
	"epoch": 7.5,
	"learning_rate": 4.2763157894736847e-05,
	"loss": 0.608,
	"step": 60
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.6915887850467289,
	"eval_loss": 0.6617878675460815,
	"eval_runtime": 2.0447,
	"eval_samples_per_second": 52.331,
	"eval_steps_per_second": 3.424,
	"step": 64
	},
	{
	"epoch": 8.75,
	"learning_rate": 4.111842105263158e-05,
	"loss": 0.5927,
	"step": 70
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.6915887850467289,
	"eval_loss": 0.5347260236740112,
	"eval_runtime": 2.139,
	"eval_samples_per_second": 50.023,
	"eval_steps_per_second": 3.273,
	"step": 72
	},
	{
	"epoch": 10.0,
	"learning_rate": 3.9473684210526316e-05,
	"loss": 0.5333,
	"step": 80
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.6448598130841121,
	"eval_loss": 0.5743899941444397,
	"eval_runtime": 2.1225,
	"eval_samples_per_second": 50.412,
	"eval_steps_per_second": 3.298,
	"step": 80
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.7476635514018691,
	"eval_loss": 0.4974236786365509,
	"eval_runtime": 2.059,
	"eval_samples_per_second": 51.967,
	"eval_steps_per_second": 3.4,
	"step": 88
	},
	{
	"epoch": 11.25,
	"learning_rate": 3.7828947368421054e-05,
	"loss": 0.4987,
	"step": 90
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.6448598130841121,
	"eval_loss": 0.5970269441604614,
	"eval_runtime": 2.1492,
	"eval_samples_per_second": 49.787,
	"eval_steps_per_second": 3.257,
	"step": 96
	},
	{
	"epoch": 12.5,
	"learning_rate": 3.618421052631579e-05,
	"loss": 0.5421,
	"step": 100
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.7383177570093458,
	"eval_loss": 0.5137068629264832,
	"eval_runtime": 2.4494,
	"eval_samples_per_second": 43.684,
	"eval_steps_per_second": 2.858,
	"step": 104
	},
	{
	"epoch": 13.75,
	"learning_rate": 3.4539473684210524e-05,
	"loss": 0.4881,
	"step": 110
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.7663551401869159,
	"eval_loss": 0.47269827127456665,
	"eval_runtime": 2.4181,
	"eval_samples_per_second": 44.249,
	"eval_steps_per_second": 2.895,
	"step": 112
	},
	{
	"epoch": 15.0,
	"learning_rate": 3.289473684210527e-05,
	"loss": 0.4408,
	"step": 120
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.7663551401869159,
	"eval_loss": 0.5161357522010803,
	"eval_runtime": 2.086,
	"eval_samples_per_second": 51.295,
	"eval_steps_per_second": 3.356,
	"step": 120
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.6915887850467289,
	"eval_loss": 0.6732468008995056,
	"eval_runtime": 2.0757,
	"eval_samples_per_second": 51.548,
	"eval_steps_per_second": 3.372,
	"step": 128
	},
	{
	"epoch": 16.25,
	"learning_rate": 3.125e-05,
	"loss": 0.4923,
	"step": 130
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.7009345794392523,
	"eval_loss": 0.6567767262458801,
	"eval_runtime": 2.0563,
	"eval_samples_per_second": 52.036,
	"eval_steps_per_second": 3.404,
	"step": 136
	},
	{
	"epoch": 17.5,
	"learning_rate": 2.9605263157894735e-05,
	"loss": 0.4135,
	"step": 140
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.7009345794392523,
	"eval_loss": 0.665261447429657,
	"eval_runtime": 2.454,
	"eval_samples_per_second": 43.602,
	"eval_steps_per_second": 2.852,
	"step": 144
	},
	{
	"epoch": 18.75,
	"learning_rate": 2.7960526315789477e-05,
	"loss": 0.4308,
	"step": 150
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.719626168224299,
	"eval_loss": 0.6031992435455322,
	"eval_runtime": 2.0319,
	"eval_samples_per_second": 52.66,
	"eval_steps_per_second": 3.445,
	"step": 152
	},
	{
	"epoch": 20.0,
	"learning_rate": 2.6315789473684212e-05,
	"loss": 0.3837,
	"step": 160
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.8037383177570093,
	"eval_loss": 0.44923561811447144,
	"eval_runtime": 2.1355,
	"eval_samples_per_second": 50.106,
	"eval_steps_per_second": 3.278,
	"step": 160
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.454855740070343,
	"eval_runtime": 2.1041,
	"eval_samples_per_second": 50.854,
	"eval_steps_per_second": 3.327,
	"step": 168
	},
	{
	"epoch": 21.25,
	"learning_rate": 2.4671052631578947e-05,
	"loss": 0.3297,
	"step": 170
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.7663551401869159,
	"eval_loss": 0.5525509715080261,
	"eval_runtime": 2.3723,
	"eval_samples_per_second": 45.104,
	"eval_steps_per_second": 2.951,
	"step": 176
	},
	{
	"epoch": 22.5,
	"learning_rate": 2.3026315789473685e-05,
	"loss": 0.3264,
	"step": 180
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.5171772241592407,
	"eval_runtime": 2.1842,
	"eval_samples_per_second": 48.989,
	"eval_steps_per_second": 3.205,
	"step": 184
	},
	{
	"epoch": 23.75,
	"learning_rate": 2.1381578947368423e-05,
	"loss": 0.3487,
	"step": 190
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.7663551401869159,
	"eval_loss": 0.5104933381080627,
	"eval_runtime": 2.1764,
	"eval_samples_per_second": 49.164,
	"eval_steps_per_second": 3.216,
	"step": 192
	},
	{
	"epoch": 25.0,
	"learning_rate": 1.9736842105263158e-05,
	"loss": 0.2892,
	"step": 200
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.7757009345794392,
	"eval_loss": 0.4565769135951996,
	"eval_runtime": 2.1452,
	"eval_samples_per_second": 49.879,
	"eval_steps_per_second": 3.263,
	"step": 200
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.523303747177124,
	"eval_runtime": 2.1458,
	"eval_samples_per_second": 49.865,
	"eval_steps_per_second": 3.262,
	"step": 208
	},
	{
	"epoch": 26.25,
	"learning_rate": 1.8092105263157896e-05,
	"loss": 0.2505,
	"step": 210
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.4817139804363251,
	"eval_runtime": 2.0456,
	"eval_samples_per_second": 52.308,
	"eval_steps_per_second": 3.422,
	"step": 216
	},
	{
	"epoch": 27.5,
	"learning_rate": 1.6447368421052635e-05,
	"loss": 0.2542,
	"step": 220
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.8037383177570093,
	"eval_loss": 0.5034652948379517,
	"eval_runtime": 2.3168,
	"eval_samples_per_second": 46.184,
	"eval_steps_per_second": 3.021,
	"step": 224
	},
	{
	"epoch": 28.75,
	"learning_rate": 1.4802631578947368e-05,
	"loss": 0.2285,
	"step": 230
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.5281862616539001,
	"eval_runtime": 2.1165,
	"eval_samples_per_second": 50.556,
	"eval_steps_per_second": 3.307,
	"step": 232
	},
	{
	"epoch": 30.0,
	"learning_rate": 1.3157894736842106e-05,
	"loss": 0.2053,
	"step": 240
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.8130841121495327,
	"eval_loss": 0.5637905597686768,
	"eval_runtime": 2.1396,
	"eval_samples_per_second": 50.009,
	"eval_steps_per_second": 3.272,
	"step": 240
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.7570093457943925,
	"eval_loss": 0.6189974546432495,
	"eval_runtime": 2.2612,
	"eval_samples_per_second": 47.32,
	"eval_steps_per_second": 3.096,
	"step": 248
	},
	{
	"epoch": 31.25,
	"learning_rate": 1.1513157894736843e-05,
	"loss": 0.2205,
	"step": 250
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.7850467289719626,
	"eval_loss": 0.614178478717804,
	"eval_runtime": 2.5358,
	"eval_samples_per_second": 42.196,
	"eval_steps_per_second": 2.761,
	"step": 256
	},
	{
	"epoch": 32.5,
	"learning_rate": 9.868421052631579e-06,
	"loss": 0.2081,
	"step": 260
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.7850467289719626,
	"eval_loss": 0.575212836265564,
	"eval_runtime": 2.0662,
	"eval_samples_per_second": 51.787,
	"eval_steps_per_second": 3.388,
	"step": 264
	},
	{
	"epoch": 33.75,
	"learning_rate": 8.223684210526317e-06,
	"loss": 0.2075,
	"step": 270
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.8317757009345794,
	"eval_loss": 0.5321738719940186,
	"eval_runtime": 2.1157,
	"eval_samples_per_second": 50.573,
	"eval_steps_per_second": 3.309,
	"step": 272
	},
	{
	"epoch": 35.0,
	"learning_rate": 6.578947368421053e-06,
	"loss": 0.2286,
	"step": 280
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.5312566161155701,
	"eval_runtime": 2.4167,
	"eval_samples_per_second": 44.276,
	"eval_steps_per_second": 2.897,
	"step": 280
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.8130841121495327,
	"eval_loss": 0.5189207792282104,
	"eval_runtime": 2.2397,
	"eval_samples_per_second": 47.773,
	"eval_steps_per_second": 3.125,
	"step": 288
	},
	{
	"epoch": 36.25,
	"learning_rate": 4.9342105263157895e-06,
	"loss": 0.2008,
	"step": 290
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.7850467289719626,
	"eval_loss": 0.5589626431465149,
	"eval_runtime": 2.5429,
	"eval_samples_per_second": 42.078,
	"eval_steps_per_second": 2.753,
	"step": 296
	},
	{
	"epoch": 37.5,
	"learning_rate": 3.2894736842105265e-06,
	"loss": 0.1884,
	"step": 300
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.5488373041152954,
	"eval_runtime": 2.042,
	"eval_samples_per_second": 52.399,
	"eval_steps_per_second": 3.428,
	"step": 304
	},
	{
	"epoch": 38.75,
	"learning_rate": 1.6447368421052632e-06,
	"loss": 0.1819,
	"step": 310
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.8037383177570093,
	"eval_loss": 0.556251585483551,
	"eval_runtime": 2.015,
	"eval_samples_per_second": 53.102,
	"eval_steps_per_second": 3.474,
	"step": 312
	},
	{
	"epoch": 40.0,
	"learning_rate": 0.0,
	"loss": 0.1698,
	"step": 320
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.794392523364486,
	"eval_loss": 0.5678603053092957,
	"eval_runtime": 2.1445,
	"eval_samples_per_second": 49.894,
	"eval_steps_per_second": 3.264,
	"step": 320
	},
	{
	"epoch": 40.0,
	"step": 320,
	"total_flos": 1.5429806632629043e+18,
	"train_loss": 0.3920826520770788,
	"train_runtime": 766.5439,
	"train_samples_per_second": 25.987,
	"train_steps_per_second": 0.417
	}
	],
	"logging_steps": 10,
	"max_steps": 320,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 40,
	"save_steps": 500,
	"total_flos": 1.5429806632629043e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}