zephyr-7b / trainer_state.json

Model save

16bc4cf verified 11 months ago

30 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984301412872841,
	"eval_steps": 100,
	"global_step": 477,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 0.400390625,
	"learning_rate": 1.0416666666666667e-07,
	"logits/chosen": -2.2547454833984375,
	"logits/rejected": -2.401865005493164,
	"logps/chosen": -53.759212493896484,
	"logps/rejected": -48.83185958862305,
	"loss": 0.6931,
	"pred_label": 0.0,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1,
	"use_label": 0.0
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.4609375,
	"learning_rate": 1.0416666666666667e-06,
	"logits/chosen": -2.242556571960449,
	"logits/rejected": -2.277317762374878,
	"logps/chosen": -51.96327209472656,
	"logps/rejected": -64.98894500732422,
	"loss": 0.6929,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2361111044883728,
	"rewards/chosen": 0.002160965697839856,
	"rewards/margins": 0.0009470728691667318,
	"rewards/rejected": 0.0012138929450884461,
	"step": 10,
	"use_label": 0.0
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.396484375,
	"learning_rate": 2.0833333333333334e-06,
	"logits/chosen": -2.252474784851074,
	"logits/rejected": -2.256141185760498,
	"logps/chosen": -62.50165557861328,
	"logps/rejected": -72.6328125,
	"loss": 0.6919,
	"pred_label": 0.0,
	"rewards/accuracies": 0.28125,
	"rewards/chosen": 0.01592240110039711,
	"rewards/margins": 0.001004441175609827,
	"rewards/rejected": 0.014917959459125996,
	"step": 20,
	"use_label": 0.0
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.51171875,
	"learning_rate": 3.125e-06,
	"logits/chosen": -2.342515468597412,
	"logits/rejected": -2.3552591800689697,
	"logps/chosen": -79.15455627441406,
	"logps/rejected": -98.8229751586914,
	"loss": 0.6898,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2874999940395355,
	"rewards/chosen": 0.030873581767082214,
	"rewards/margins": 0.002844910603016615,
	"rewards/rejected": 0.02802867256104946,
	"step": 30,
	"use_label": 0.0
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.51953125,
	"learning_rate": 4.166666666666667e-06,
	"logits/chosen": -2.323695421218872,
	"logits/rejected": -2.3019304275512695,
	"logps/chosen": -82.8508071899414,
	"logps/rejected": -82.39540100097656,
	"loss": 0.6866,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2874999940395355,
	"rewards/chosen": 0.033413294702768326,
	"rewards/margins": 0.011912978254258633,
	"rewards/rejected": 0.021500317379832268,
	"step": 40,
	"use_label": 0.0
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.6640625,
	"learning_rate": 4.999731868769027e-06,
	"logits/chosen": -2.2408015727996826,
	"logits/rejected": -2.2638282775878906,
	"logps/chosen": -67.89698028564453,
	"logps/rejected": -81.84117126464844,
	"loss": 0.6805,
	"pred_label": 0.0,
	"rewards/accuracies": 0.32499998807907104,
	"rewards/chosen": 0.009338948875665665,
	"rewards/margins": 0.030354563146829605,
	"rewards/rejected": -0.02101561427116394,
	"step": 50,
	"use_label": 0.0
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.53125,
	"learning_rate": 4.9903533134293035e-06,
	"logits/chosen": -2.2194154262542725,
	"logits/rejected": -2.1603574752807617,
	"logps/chosen": -62.444313049316406,
	"logps/rejected": -72.18606567382812,
	"loss": 0.6753,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.027180707082152367,
	"rewards/margins": 0.044989973306655884,
	"rewards/rejected": -0.072170689702034,
	"step": 60,
	"use_label": 0.0
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.84375,
	"learning_rate": 4.967625656594782e-06,
	"logits/chosen": -2.1111249923706055,
	"logits/rejected": -2.109537124633789,
	"logps/chosen": -62.041603088378906,
	"logps/rejected": -75.64030456542969,
	"loss": 0.666,
	"pred_label": 0.0,
	"rewards/accuracies": 0.25,
	"rewards/chosen": -0.06330498307943344,
	"rewards/margins": 0.03508424013853073,
	"rewards/rejected": -0.09838922321796417,
	"step": 70,
	"use_label": 0.0
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.03125,
	"learning_rate": 4.93167072587771e-06,
	"logits/chosen": -2.21980881690979,
	"logits/rejected": -2.1616053581237793,
	"logps/chosen": -60.844932556152344,
	"logps/rejected": -74.95368957519531,
	"loss": 0.66,
	"pred_label": 0.0,
	"rewards/accuracies": 0.26249998807907104,
	"rewards/chosen": -0.12314031273126602,
	"rewards/margins": 0.0946219339966774,
	"rewards/rejected": -0.21776223182678223,
	"step": 80,
	"use_label": 0.0
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.5390625,
	"learning_rate": 4.882681251368549e-06,
	"logits/chosen": -2.109405279159546,
	"logits/rejected": -2.1181578636169434,
	"logps/chosen": -77.24811553955078,
	"logps/rejected": -95.32093811035156,
	"loss": 0.6621,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3062500059604645,
	"rewards/chosen": -0.1886606067419052,
	"rewards/margins": 0.07690713554620743,
	"rewards/rejected": -0.26556771993637085,
	"step": 90,
	"use_label": 0.0
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.1640625,
	"learning_rate": 4.8209198325401815e-06,
	"logits/chosen": -2.1972146034240723,
	"logits/rejected": -2.169661283493042,
	"logps/chosen": -92.16123962402344,
	"logps/rejected": -84.31734466552734,
	"loss": 0.6553,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3499999940395355,
	"rewards/chosen": -0.12131345272064209,
	"rewards/margins": 0.08319222182035446,
	"rewards/rejected": -0.20450565218925476,
	"step": 100,
	"use_label": 0.0
	},
	{
	"epoch": 0.21,
	"eval_logits/chosen": -2.0832693576812744,
	"eval_logits/rejected": -2.0725808143615723,
	"eval_logps/chosen": -76.57865905761719,
	"eval_logps/rejected": -104.04773712158203,
	"eval_loss": 0.6557236313819885,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.36328125,
	"eval_rewards/chosen": -0.12666408717632294,
	"eval_rewards/margins": 0.14188387989997864,
	"eval_rewards/rejected": -0.26854798197746277,
	"eval_runtime": 125.5075,
	"eval_samples_per_second": 15.935,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 100
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.1484375,
	"learning_rate": 4.746717530629565e-06,
	"logits/chosen": -2.125093460083008,
	"logits/rejected": -2.108320713043213,
	"logps/chosen": -86.47650146484375,
	"logps/rejected": -108.77266693115234,
	"loss": 0.6536,
	"pred_label": 0.0,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.1537572741508484,
	"rewards/margins": 0.14806225895881653,
	"rewards/rejected": -0.3018195331096649,
	"step": 110,
	"use_label": 0.0
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.5390625,
	"learning_rate": 4.660472094042121e-06,
	"logits/chosen": -1.9497900009155273,
	"logits/rejected": -1.8884683847427368,
	"logps/chosen": -95.01170349121094,
	"logps/rejected": -114.40583801269531,
	"loss": 0.652,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.2506612241268158,
	"rewards/margins": 0.16420678794384003,
	"rewards/rejected": -0.414868026971817,
	"step": 120,
	"use_label": 0.0
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.9296875,
	"learning_rate": 4.5626458262912745e-06,
	"logits/chosen": -1.7961517572402954,
	"logits/rejected": -1.7706302404403687,
	"logps/chosen": -90.99502563476562,
	"logps/rejected": -112.71142578125,
	"loss": 0.654,
	"pred_label": 0.0,
	"rewards/accuracies": 0.34375,
	"rewards/chosen": -0.2521664500236511,
	"rewards/margins": 0.1464831829071045,
	"rewards/rejected": -0.3986496329307556,
	"step": 130,
	"use_label": 0.0
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.9921875,
	"learning_rate": 4.453763107901676e-06,
	"logits/chosen": -1.7561969757080078,
	"logits/rejected": -1.796431541442871,
	"logps/chosen": -96.94844818115234,
	"logps/rejected": -107.52276611328125,
	"loss": 0.6488,
	"pred_label": 0.0,
	"rewards/accuracies": 0.26875001192092896,
	"rewards/chosen": -0.1620088815689087,
	"rewards/margins": 0.12216176092624664,
	"rewards/rejected": -0.28417062759399414,
	"step": 140,
	"use_label": 0.0
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.7578125,
	"learning_rate": 4.33440758555951e-06,
	"logits/chosen": -1.7516326904296875,
	"logits/rejected": -1.7187411785125732,
	"logps/chosen": -78.70259857177734,
	"logps/rejected": -104.34063720703125,
	"loss": 0.6451,
	"pred_label": 0.0,
	"rewards/accuracies": 0.32499998807907104,
	"rewards/chosen": -0.13555890321731567,
	"rewards/margins": 0.22945857048034668,
	"rewards/rejected": -0.36501747369766235,
	"step": 150,
	"use_label": 0.0
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.640625,
	"learning_rate": 4.205219043576955e-06,
	"logits/chosen": -1.481575608253479,
	"logits/rejected": -1.468014121055603,
	"logps/chosen": -100.68672180175781,
	"logps/rejected": -127.04164123535156,
	"loss": 0.6442,
	"pred_label": 0.0,
	"rewards/accuracies": 0.29374998807907104,
	"rewards/chosen": -0.36356669664382935,
	"rewards/margins": 0.1327240914106369,
	"rewards/rejected": -0.49629077315330505,
	"step": 160,
	"use_label": 0.0
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.390625,
	"learning_rate": 4.066889974440757e-06,
	"logits/chosen": -0.9005377888679504,
	"logits/rejected": -0.8864371180534363,
	"logps/chosen": -85.81999206542969,
	"logps/rejected": -110.4801254272461,
	"loss": 0.6339,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.3031192421913147,
	"rewards/margins": 0.1594724804162979,
	"rewards/rejected": -0.4625917375087738,
	"step": 170,
	"use_label": 0.0
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.78125,
	"learning_rate": 3.92016186682789e-06,
	"logits/chosen": -0.591436505317688,
	"logits/rejected": -0.5489451885223389,
	"logps/chosen": -103.7041015625,
	"logps/rejected": -123.32816314697266,
	"loss": 0.6554,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.40916457772254944,
	"rewards/margins": 0.2612735629081726,
	"rewards/rejected": -0.6704381108283997,
	"step": 180,
	"use_label": 0.0
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.09375,
	"learning_rate": 3.7658212309857576e-06,
	"logits/chosen": -0.801749587059021,
	"logits/rejected": -0.588916003704071,
	"logps/chosen": -96.86283874511719,
	"logps/rejected": -123.17811584472656,
	"loss": 0.6508,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3062500059604645,
	"rewards/chosen": -0.37751203775405884,
	"rewards/margins": 0.21026258170604706,
	"rewards/rejected": -0.5877746343612671,
	"step": 190,
	"use_label": 0.0
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.59375,
	"learning_rate": 3.604695382782159e-06,
	"logits/chosen": -1.114527940750122,
	"logits/rejected": -1.0130901336669922,
	"logps/chosen": -111.54571533203125,
	"logps/rejected": -115.97926330566406,
	"loss": 0.6446,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.2986941933631897,
	"rewards/margins": 0.1296522319316864,
	"rewards/rejected": -0.4283464550971985,
	"step": 200,
	"use_label": 0.0
	},
	{
	"epoch": 0.42,
	"eval_logits/chosen": -0.7123901844024658,
	"eval_logits/rejected": -0.6864092350006104,
	"eval_logps/chosen": -92.6377182006836,
	"eval_logps/rejected": -130.9503173828125,
	"eval_loss": 0.6342783570289612,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.3828125,
	"eval_rewards/chosen": -0.28725457191467285,
	"eval_rewards/margins": 0.250319242477417,
	"eval_rewards/rejected": -0.5375738143920898,
	"eval_runtime": 125.6586,
	"eval_samples_per_second": 15.916,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 200
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.140625,
	"learning_rate": 3.437648009023905e-06,
	"logits/chosen": -0.6364002227783203,
	"logits/rejected": -0.629191517829895,
	"logps/chosen": -79.12034606933594,
	"logps/rejected": -109.35395812988281,
	"loss": 0.6319,
	"pred_label": 0.0,
	"rewards/accuracies": 0.35624998807907104,
	"rewards/chosen": -0.23145589232444763,
	"rewards/margins": 0.2322908192873001,
	"rewards/rejected": -0.46374672651290894,
	"step": 210,
	"use_label": 0.0
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.453125,
	"learning_rate": 3.265574537815398e-06,
	"logits/chosen": -0.24914255738258362,
	"logits/rejected": -0.12895795702934265,
	"logps/chosen": -123.09925842285156,
	"logps/rejected": -127.96968078613281,
	"loss": 0.633,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.43470579385757446,
	"rewards/margins": 0.1813107430934906,
	"rewards/rejected": -0.6160165071487427,
	"step": 220,
	"use_label": 0.0
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.734375,
	"learning_rate": 3.089397338773569e-06,
	"logits/chosen": 0.08423249423503876,
	"logits/rejected": 0.1725344955921173,
	"logps/chosen": -98.91605377197266,
	"logps/rejected": -125.9875259399414,
	"loss": 0.6278,
	"pred_label": 0.0,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.3448147773742676,
	"rewards/margins": 0.287472665309906,
	"rewards/rejected": -0.6322874426841736,
	"step": 230,
	"use_label": 0.0
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.015625,
	"learning_rate": 2.9100607788275547e-06,
	"logits/chosen": 0.48232460021972656,
	"logits/rejected": 0.39376580715179443,
	"logps/chosen": -108.98759460449219,
	"logps/rejected": -142.29344177246094,
	"loss": 0.6294,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3812499940395355,
	"rewards/chosen": -0.39955058693885803,
	"rewards/margins": 0.28114694356918335,
	"rewards/rejected": -0.680697500705719,
	"step": 240,
	"use_label": 0.0
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.25,
	"learning_rate": 2.72852616010567e-06,
	"logits/chosen": 0.35806649923324585,
	"logits/rejected": 0.41671887040138245,
	"logps/chosen": -126.65348052978516,
	"logps/rejected": -151.3179168701172,
	"loss": 0.6419,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.5325437784194946,
	"rewards/margins": 0.28831106424331665,
	"rewards/rejected": -0.8208548426628113,
	"step": 250,
	"use_label": 0.0
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.46875,
	"learning_rate": 2.5457665670441937e-06,
	"logits/chosen": 0.4644729197025299,
	"logits/rejected": 0.45051756501197815,
	"logps/chosen": -110.62007904052734,
	"logps/rejected": -142.76722717285156,
	"loss": 0.6232,
	"pred_label": 0.0,
	"rewards/accuracies": 0.32499998807907104,
	"rewards/chosen": -0.4451447129249573,
	"rewards/margins": 0.2380482256412506,
	"rewards/rejected": -0.6831929087638855,
	"step": 260,
	"use_label": 0.0
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.4375,
	"learning_rate": 2.3627616503391813e-06,
	"logits/chosen": 0.6336380839347839,
	"logits/rejected": 0.5556719303131104,
	"logps/chosen": -116.7416000366211,
	"logps/rejected": -135.33096313476562,
	"loss": 0.6174,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.43825817108154297,
	"rewards/margins": 0.22129836678504944,
	"rewards/rejected": -0.65955650806427,
	"step": 270,
	"use_label": 0.0
	},
	{
	"epoch": 0.59,
	"grad_norm": 3.0625,
	"learning_rate": 2.1804923757009885e-06,
	"logits/chosen": 0.6383472681045532,
	"logits/rejected": 0.7697634100914001,
	"logps/chosen": -106.45858001708984,
	"logps/rejected": -125.5028305053711,
	"loss": 0.6353,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.4095306992530823,
	"rewards/margins": 0.21630148589611053,
	"rewards/rejected": -0.625832200050354,
	"step": 280,
	"use_label": 0.0
	},
	{
	"epoch": 0.61,
	"grad_norm": 3.328125,
	"learning_rate": 1.9999357655598894e-06,
	"logits/chosen": 0.1407470554113388,
	"logits/rejected": 0.12877413630485535,
	"logps/chosen": -108.0340805053711,
	"logps/rejected": -136.49562072753906,
	"loss": 0.6265,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.41485634446144104,
	"rewards/margins": 0.18648667633533478,
	"rewards/rejected": -0.601343035697937,
	"step": 290,
	"use_label": 0.0
	},
	{
	"epoch": 0.63,
	"grad_norm": 3.03125,
	"learning_rate": 1.8220596619089576e-06,
	"logits/chosen": 0.4002162516117096,
	"logits/rejected": 0.25351682305336,
	"logps/chosen": -127.95108795166016,
	"logps/rejected": -172.98793029785156,
	"loss": 0.6273,
	"pred_label": 0.0,
	"rewards/accuracies": 0.4124999940395355,
	"rewards/chosen": -0.5035675168037415,
	"rewards/margins": 0.2851078510284424,
	"rewards/rejected": -0.7886753678321838,
	"step": 300,
	"use_label": 0.0
	},
	{
	"epoch": 0.63,
	"eval_logits/chosen": 0.6280341148376465,
	"eval_logits/rejected": 0.6725929379463196,
	"eval_logps/chosen": -110.14692687988281,
	"eval_logps/rejected": -157.1332244873047,
	"eval_loss": 0.620426595211029,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.3671875,
	"eval_rewards/chosen": -0.46234679222106934,
	"eval_rewards/margins": 0.33705610036849976,
	"eval_rewards/rejected": -0.7994028329849243,
	"eval_runtime": 125.7299,
	"eval_samples_per_second": 15.907,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 300
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.390625,
	"learning_rate": 1.647817538357072e-06,
	"logits/chosen": 0.33872538805007935,
	"logits/rejected": 0.3415250778198242,
	"logps/chosen": -95.08795166015625,
	"logps/rejected": -142.95713806152344,
	"loss": 0.6014,
	"pred_label": 0.0,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.39491352438926697,
	"rewards/margins": 0.35215410590171814,
	"rewards/rejected": -0.7470676302909851,
	"step": 310,
	"use_label": 0.0
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.546875,
	"learning_rate": 1.4781433892011132e-06,
	"logits/chosen": 0.2642754018306732,
	"logits/rejected": 0.4063233435153961,
	"logps/chosen": -131.07791137695312,
	"logps/rejected": -164.12667846679688,
	"loss": 0.6133,
	"pred_label": 0.0,
	"rewards/accuracies": 0.38749998807907104,
	"rewards/chosen": -0.580074667930603,
	"rewards/margins": 0.38923436403274536,
	"rewards/rejected": -0.9693089723587036,
	"step": 320,
	"use_label": 0.0
	},
	{
	"epoch": 0.69,
	"grad_norm": 3.15625,
	"learning_rate": 1.3139467229135999e-06,
	"logits/chosen": 0.5224499106407166,
	"logits/rejected": 0.5213581919670105,
	"logps/chosen": -130.00186157226562,
	"logps/rejected": -156.6516876220703,
	"loss": 0.6387,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.5989372134208679,
	"rewards/margins": 0.2814994752407074,
	"rewards/rejected": -0.8804367184638977,
	"step": 330,
	"use_label": 0.0
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.28125,
	"learning_rate": 1.1561076868822756e-06,
	"logits/chosen": 0.1671726554632187,
	"logits/rejected": 0.0974355936050415,
	"logps/chosen": -140.3222198486328,
	"logps/rejected": -155.46217346191406,
	"loss": 0.6252,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.5558302998542786,
	"rewards/margins": 0.23368898034095764,
	"rewards/rejected": -0.7895193099975586,
	"step": 340,
	"use_label": 0.0
	},
	{
	"epoch": 0.73,
	"grad_norm": 3.328125,
	"learning_rate": 1.0054723495346484e-06,
	"logits/chosen": 0.081739641726017,
	"logits/rejected": 0.08175826817750931,
	"logps/chosen": -150.41506958007812,
	"logps/rejected": -178.51565551757812,
	"loss": 0.6231,
	"pred_label": 0.0,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.6099845170974731,
	"rewards/margins": 0.322490930557251,
	"rewards/rejected": -0.9324753880500793,
	"step": 350,
	"use_label": 0.0
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.875,
	"learning_rate": 8.628481651367876e-07,
	"logits/chosen": 0.12279005348682404,
	"logits/rejected": 0.20824797451496124,
	"logps/chosen": -110.51042175292969,
	"logps/rejected": -153.92698669433594,
	"loss": 0.6186,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3687500059604645,
	"rewards/chosen": -0.46872806549072266,
	"rewards/margins": 0.3482593894004822,
	"rewards/rejected": -0.8169875144958496,
	"step": 360,
	"use_label": 0.0
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.15625,
	"learning_rate": 7.289996455765749e-07,
	"logits/chosen": 0.19759848713874817,
	"logits/rejected": 0.29472407698631287,
	"logps/chosen": -103.1863021850586,
	"logps/rejected": -143.578125,
	"loss": 0.6166,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3687500059604645,
	"rewards/chosen": -0.37751519680023193,
	"rewards/margins": 0.37911203503608704,
	"rewards/rejected": -0.7566272020339966,
	"step": 370,
	"use_label": 0.0
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.96875,
	"learning_rate": 6.046442623320145e-07,
	"logits/chosen": 0.03893072158098221,
	"logits/rejected": 0.019468214362859726,
	"logps/chosen": -108.17799377441406,
	"logps/rejected": -158.08056640625,
	"loss": 0.6183,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.42342591285705566,
	"rewards/margins": 0.2937392592430115,
	"rewards/rejected": -0.7171651124954224,
	"step": 380,
	"use_label": 0.0
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.59375,
	"learning_rate": 4.904486005914027e-07,
	"logits/chosen": 0.33429718017578125,
	"logits/rejected": 0.08158789575099945,
	"logps/chosen": -151.29055786132812,
	"logps/rejected": -180.48861694335938,
	"loss": 0.6114,
	"pred_label": 0.0,
	"rewards/accuracies": 0.39375001192092896,
	"rewards/chosen": -0.5847219824790955,
	"rewards/margins": 0.3904651999473572,
	"rewards/rejected": -0.9751871824264526,
	"step": 390,
	"use_label": 0.0
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.015625,
	"learning_rate": 3.8702478614051353e-07,
	"logits/chosen": 0.126608207821846,
	"logits/rejected": 0.2576550841331482,
	"logps/chosen": -109.39167785644531,
	"logps/rejected": -134.27053833007812,
	"loss": 0.6165,
	"pred_label": 0.0,
	"rewards/accuracies": 0.38749998807907104,
	"rewards/chosen": -0.36900678277015686,
	"rewards/margins": 0.3390708863735199,
	"rewards/rejected": -0.708077609539032,
	"step": 400,
	"use_label": 0.0
	},
	{
	"epoch": 0.84,
	"eval_logits/chosen": 0.903490424156189,
	"eval_logits/rejected": 0.958048939704895,
	"eval_logps/chosen": -108.47840881347656,
	"eval_logps/rejected": -158.4149169921875,
	"eval_loss": 0.6182093620300293,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.3671875,
	"eval_rewards/chosen": -0.4456615447998047,
	"eval_rewards/margins": 0.3665582537651062,
	"eval_rewards/rejected": -0.8122197389602661,
	"eval_runtime": 125.7278,
	"eval_samples_per_second": 15.907,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 400
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.046875,
	"learning_rate": 2.9492720416985004e-07,
	"logits/chosen": 0.39335688948631287,
	"logits/rejected": 0.41703349351882935,
	"logps/chosen": -106.9058837890625,
	"logps/rejected": -138.57296752929688,
	"loss": 0.6272,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.45482879877090454,
	"rewards/margins": 0.3337084650993347,
	"rewards/rejected": -0.788537323474884,
	"step": 410,
	"use_label": 0.0
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.078125,
	"learning_rate": 2.1464952759020857e-07,
	"logits/chosen": 0.5264393091201782,
	"logits/rejected": 0.4952784478664398,
	"logps/chosen": -104.27522277832031,
	"logps/rejected": -112.507080078125,
	"loss": 0.6235,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2750000059604645,
	"rewards/chosen": -0.4333609640598297,
	"rewards/margins": 0.1778794825077057,
	"rewards/rejected": -0.6112405061721802,
	"step": 420,
	"use_label": 0.0
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.734375,
	"learning_rate": 1.4662207078575685e-07,
	"logits/chosen": 0.47332754731178284,
	"logits/rejected": 0.4613571763038635,
	"logps/chosen": -144.65744018554688,
	"logps/rejected": -170.08921813964844,
	"loss": 0.5988,
	"pred_label": 0.0,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.4539059102535248,
	"rewards/margins": 0.4534150958061218,
	"rewards/rejected": -0.9073210954666138,
	"step": 430,
	"use_label": 0.0
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.9609375,
	"learning_rate": 9.120948298936422e-08,
	"logits/chosen": 0.48202329874038696,
	"logits/rejected": 0.6259401440620422,
	"logps/chosen": -114.15118408203125,
	"logps/rejected": -161.5361785888672,
	"loss": 0.6098,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.4724721908569336,
	"rewards/margins": 0.39225998520851135,
	"rewards/rejected": -0.8647321462631226,
	"step": 440,
	"use_label": 0.0
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.265625,
	"learning_rate": 4.870879364444109e-08,
	"logits/chosen": 0.8100695610046387,
	"logits/rejected": 0.5903851389884949,
	"logps/chosen": -126.81998443603516,
	"logps/rejected": -174.6106719970703,
	"loss": 0.6122,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.5456215739250183,
	"rewards/margins": 0.3175886273384094,
	"rewards/rejected": -0.8632103204727173,
	"step": 450,
	"use_label": 0.0
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.140625,
	"learning_rate": 1.93478202307823e-08,
	"logits/chosen": 0.7001665830612183,
	"logits/rejected": 0.7000536322593689,
	"logps/chosen": -80.71357727050781,
	"logps/rejected": -126.110595703125,
	"loss": 0.6182,
	"pred_label": 0.0,
	"rewards/accuracies": 0.32499998807907104,
	"rewards/chosen": -0.3459371328353882,
	"rewards/margins": 0.2817174792289734,
	"rewards/rejected": -0.6276546716690063,
	"step": 460,
	"use_label": 0.0
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.78125,
	"learning_rate": 3.283947088983663e-09,
	"logits/chosen": 0.7130995392799377,
	"logits/rejected": 0.5145190954208374,
	"logps/chosen": -110.40830993652344,
	"logps/rejected": -137.49429321289062,
	"loss": 0.6251,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3125,
	"rewards/chosen": -0.43079155683517456,
	"rewards/margins": 0.25358152389526367,
	"rewards/rejected": -0.6843730211257935,
	"step": 470,
	"use_label": 0.0
	},
	{
	"epoch": 1.0,
	"step": 477,
	"total_flos": 0.0,
	"train_loss": 0.6389844682481554,
	"train_runtime": 9615.2592,
	"train_samples_per_second": 6.358,
	"train_steps_per_second": 0.05
	}
	],
	"logging_steps": 10,
	"max_steps": 477,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}