Minbyul
/

meditron-7b-dpo-full-sft-wo-kqa_silver_wogold

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

meditron-7b-dpo-full-sft-wo-kqa_silver_wogold / trainer_state.json

Minbyul's picture

Model save

6878cb3 9 months ago

3.72 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 52,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"grad_norm": 6.388934227309893,
	"learning_rate": 8.333333333333333e-08,
	"logits/chosen": -1.2247042655944824,
	"logits/rejected": -1.0684211254119873,
	"logps/chosen": -569.8499145507812,
	"logps/rejected": -1057.6484375,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.19,
	"grad_norm": 6.575619838412587,
	"learning_rate": 4.907293218369498e-07,
	"logits/chosen": -1.1266288757324219,
	"logits/rejected": -0.9588133692741394,
	"logps/chosen": -644.7501831054688,
	"logps/rejected": -896.37548828125,
	"loss": 0.6907,
	"rewards/accuracies": 0.5347222089767456,
	"rewards/chosen": -0.0003651145671028644,
	"rewards/margins": 0.003978920169174671,
	"rewards/rejected": -0.004344034940004349,
	"step": 10
	},
	{
	"epoch": 0.38,
	"grad_norm": 6.33044990257594,
	"learning_rate": 3.941700805287168e-07,
	"logits/chosen": -1.1694377660751343,
	"logits/rejected": -0.9742730855941772,
	"logps/chosen": -553.2115478515625,
	"logps/rejected": -933.1784057617188,
	"loss": 0.66,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -0.0070250085555016994,
	"rewards/margins": 0.06466411054134369,
	"rewards/rejected": -0.07168911397457123,
	"step": 20
	},
	{
	"epoch": 0.58,
	"grad_norm": 7.898094155565296,
	"learning_rate": 2.3293939665883228e-07,
	"logits/chosen": -1.121983528137207,
	"logits/rejected": -0.9881827235221863,
	"logps/chosen": -594.9716186523438,
	"logps/rejected": -1039.31982421875,
	"loss": 0.5638,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -0.06966790556907654,
	"rewards/margins": 0.3061855733394623,
	"rewards/rejected": -0.3758534789085388,
	"step": 30
	},
	{
	"epoch": 0.77,
	"grad_norm": 9.30835250885683,
	"learning_rate": 7.936171419533652e-08,
	"logits/chosen": -1.0671305656433105,
	"logits/rejected": -0.9684460759162903,
	"logps/chosen": -680.4083251953125,
	"logps/rejected": -1006.2408447265625,
	"loss": 0.4643,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.20575208961963654,
	"rewards/margins": 0.7841703295707703,
	"rewards/rejected": -0.9899223446846008,
	"step": 40
	},
	{
	"epoch": 0.96,
	"grad_norm": 8.502404185464833,
	"learning_rate": 2.328513490917311e-09,
	"logits/chosen": -1.0291626453399658,
	"logits/rejected": -0.9718970060348511,
	"logps/chosen": -671.4656372070312,
	"logps/rejected": -1046.7633056640625,
	"loss": 0.4299,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -0.2569717466831207,
	"rewards/margins": 0.8754018545150757,
	"rewards/rejected": -1.132373571395874,
	"step": 50
	},
	{
	"epoch": 1.0,
	"step": 52,
	"total_flos": 0.0,
	"train_loss": 0.5552032154340011,
	"train_runtime": 696.2336,
	"train_samples_per_second": 4.777,
	"train_steps_per_second": 0.075
	}
	],
	"logging_steps": 10,
	"max_steps": 52,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}