JunxiongWang
/

Llama3.2-Mamba-3B-dpo

Model card Files Files and versions Community

Llama3.2-Mamba-3B-dpo / all_results.json

Jingyu6

add models

0da1b35 3 months ago

history blame contribute delete

769 Bytes

	{
	"epoch": 1.0,
	"eval_logits/chosen": -1.5923750400543213,
	"eval_logits/rejected": -1.5335367918014526,
	"eval_logps/chosen": -471.41455078125,
	"eval_logps/rejected": -688.0838623046875,
	"eval_loss": 0.48019346594810486,
	"eval_rewards/accuracies": 0.7946428656578064,
	"eval_rewards/chosen": -1.9911106824874878,
	"eval_rewards/margins": 2.1531193256378174,
	"eval_rewards/rejected": -4.144230365753174,
	"eval_runtime": 45.7848,
	"eval_samples": 4461,
	"eval_samples_per_second": 97.434,
	"eval_steps_per_second": 1.529,
	"total_flos": 0.0,
	"train_loss": 0.5327433187535995,
	"train_runtime": 4228.4167,
	"train_samples": 133368,
	"train_samples_per_second": 31.541,
	"train_steps_per_second": 0.986
	}