vntl-7b-v0.3.1-lora / checkpoint-50 /trainer_state.json

Upload folder using huggingface_hub

fe6945d verified 12 months ago

6.39 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.148720999405116,
	"eval_steps": 500,
	"global_step": 50,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 9.285714285714285e-05,
	"loss": 2.4427,
	"step": 1
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0001857142857142857,
	"loss": 2.3973,
	"step": 2
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00027857142857142854,
	"loss": 2.341,
	"step": 3
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0003714285714285714,
	"loss": 2.1281,
	"step": 4
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0004642857142857143,
	"loss": 1.4346,
	"step": 5
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0005571428571428571,
	"loss": 1.1715,
	"step": 6
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00065,
	"loss": 1.086,
	"step": 7
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0006499851830773117,
	"loss": 0.9921,
	"step": 8
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00064994073366027,
	"loss": 0.9231,
	"step": 9
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0006498666558018197,
	"loss": 0.9343,
	"step": 10
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0006497629562564588,
	"loss": 0.9191,
	"step": 11
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0006496296444796219,
	"loss": 0.8791,
	"step": 12
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0006494667326268186,
	"loss": 0.8632,
	"step": 13
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0006492742355525248,
	"loss": 0.9267,
	"step": 14
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0006490521708088281,
	"loss": 0.8644,
	"step": 15
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.000648800558643828,
	"loss": 0.8353,
	"step": 16
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0006485194219997891,
	"loss": 0.8482,
	"step": 17
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0006482087865110493,
	"loss": 0.8587,
	"step": 18
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0006478686805016826,
	"loss": 0.9134,
	"step": 19
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0006474991349829163,
	"loss": 0.8238,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0006471001836503035,
	"loss": 0.8329,
	"step": 21
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0006466718628806508,
	"loss": 0.7995,
	"step": 22
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0006462142117287011,
	"loss": 0.8363,
	"step": 23
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0006457272719235728,
	"loss": 0.7942,
	"step": 24
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0006452110878649547,
	"loss": 0.858,
	"step": 25
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0006446657066190579,
	"loss": 0.8474,
	"step": 26
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000644091177914324,
	"loss": 0.8175,
	"step": 27
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0006434875541368907,
	"loss": 0.7821,
	"step": 28
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0006428548903258156,
	"loss": 0.8583,
	"step": 29
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0006421932441680574,
	"loss": 0.8071,
	"step": 30
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0006415026759932158,
	"loss": 0.805,
	"step": 31
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0006407832487680309,
	"loss": 0.881,
	"step": 32
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0006400350280906415,
	"loss": 0.8302,
	"step": 33
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0006392580821846041,
	"loss": 0.8456,
	"step": 34
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0006384524818926723,
	"loss": 0.8067,
	"step": 35
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0006376183006703367,
	"loss": 0.8307,
	"step": 36
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0006367556145791275,
	"loss": 0.8347,
	"step": 37
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0006358645022796795,
	"loss": 0.8086,
	"step": 38
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0006349450450245589,
	"loss": 0.8726,
	"step": 39
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0006339973266508556,
	"loss": 0.78,
	"step": 40
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0006330214335725379,
	"loss": 0.7902,
	"step": 41
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0006320174547725736,
	"loss": 0.7823,
	"step": 42
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0006309854817948169,
	"loss": 0.8211,
	"step": 43
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0006299256087356603,
	"loss": 0.8656,
	"step": 44
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.000628837932235456,
	"loss": 0.7767,
	"step": 45
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0006277225514697028,
	"loss": 0.7542,
	"step": 46
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0006265795681400046,
	"loss": 0.8254,
	"step": 47
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0006254090864647957,
	"loss": 0.8099,
	"step": 48
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0006242112131698394,
	"loss": 0.7786,
	"step": 49
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0006229860574784954,
	"loss": 0.7895,
	"step": 50
	}
	],
	"logging_steps": 1,
	"max_steps": 336,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"total_flos": 6.338982512767795e+16,
	"train_batch_size": 6,
	"trial_name": null,
	"trial_params": null
	}