{
  "best_metric": 11.508,
  "best_model_checkpoint": "./tst-translation-output4/checkpoint-6000",
  "epoch": 5.143591941705958,
  "eval_steps": 2000,
  "global_step": 12000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.21,
      "learning_rate": 1.6366666666666667e-05,
      "loss": 3.946,
      "step": 500
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.3033333333333334e-05,
      "loss": 1.7959,
      "step": 1000
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.97e-05,
      "loss": 1.6545,
      "step": 1500
    },
    {
      "epoch": 0.86,
      "learning_rate": 4.973262905685036e-05,
      "loss": 1.5428,
      "step": 2000
    },
    {
      "epoch": 0.86,
      "eval_bleu": 8.6101,
      "eval_gen_len": 16.9959,
      "eval_loss": 1.4468804597854614,
      "eval_runtime": 677.1599,
      "eval_samples_per_second": 6.889,
      "eval_steps_per_second": 0.431,
      "step": 2000
    },
    {
      "epoch": 1.07,
      "learning_rate": 4.94603572206491e-05,
      "loss": 1.3602,
      "step": 2500
    },
    {
      "epoch": 1.29,
      "learning_rate": 4.9188085384447834e-05,
      "loss": 1.1488,
      "step": 3000
    },
    {
      "epoch": 1.5,
      "learning_rate": 4.891581354824657e-05,
      "loss": 1.1566,
      "step": 3500
    },
    {
      "epoch": 1.71,
      "learning_rate": 4.864354171204531e-05,
      "loss": 1.1195,
      "step": 4000
    },
    {
      "epoch": 1.71,
      "eval_bleu": 10.3699,
      "eval_gen_len": 14.5055,
      "eval_loss": 1.347112774848938,
      "eval_runtime": 470.7402,
      "eval_samples_per_second": 9.91,
      "eval_steps_per_second": 0.62,
      "step": 4000
    },
    {
      "epoch": 1.93,
      "learning_rate": 4.8371269875844045e-05,
      "loss": 1.1057,
      "step": 4500
    },
    {
      "epoch": 2.14,
      "learning_rate": 4.8098998039642784e-05,
      "loss": 0.8761,
      "step": 5000
    },
    {
      "epoch": 2.36,
      "learning_rate": 4.782672620344152e-05,
      "loss": 0.7709,
      "step": 5500
    },
    {
      "epoch": 2.57,
      "learning_rate": 4.7554454367240256e-05,
      "loss": 0.8028,
      "step": 6000
    },
    {
      "epoch": 2.57,
      "eval_bleu": 11.508,
      "eval_gen_len": 14.3955,
      "eval_loss": 1.3568514585494995,
      "eval_runtime": 276.6335,
      "eval_samples_per_second": 16.863,
      "eval_steps_per_second": 1.056,
      "step": 6000
    },
    {
      "epoch": 2.79,
      "learning_rate": 4.72832716183838e-05,
      "loss": 2.3738,
      "step": 6500
    },
    {
      "epoch": 3.0,
      "learning_rate": 4.701099978218254e-05,
      "loss": 0.8245,
      "step": 7000
    },
    {
      "epoch": 3.21,
      "learning_rate": 4.673872794598127e-05,
      "loss": 0.631,
      "step": 7500
    },
    {
      "epoch": 3.43,
      "learning_rate": 4.646645610978e-05,
      "loss": 0.5856,
      "step": 8000
    },
    {
      "epoch": 3.43,
      "eval_bleu": 10.7663,
      "eval_gen_len": 15.0208,
      "eval_loss": 1.477591872215271,
      "eval_runtime": 402.7514,
      "eval_samples_per_second": 11.583,
      "eval_steps_per_second": 0.725,
      "step": 8000
    },
    {
      "epoch": 3.64,
      "learning_rate": 4.619418427357874e-05,
      "loss": 0.5727,
      "step": 8500
    },
    {
      "epoch": 3.86,
      "learning_rate": 4.592191243737748e-05,
      "loss": 0.5967,
      "step": 9000
    },
    {
      "epoch": 4.07,
      "learning_rate": 4.564964060117622e-05,
      "loss": 0.5271,
      "step": 9500
    },
    {
      "epoch": 4.29,
      "learning_rate": 4.537736876497495e-05,
      "loss": 0.378,
      "step": 10000
    },
    {
      "epoch": 4.29,
      "eval_bleu": 10.5237,
      "eval_gen_len": 14.3284,
      "eval_loss": 1.6134384870529175,
      "eval_runtime": 272.0659,
      "eval_samples_per_second": 17.147,
      "eval_steps_per_second": 1.073,
      "step": 10000
    },
    {
      "epoch": 4.5,
      "learning_rate": 4.5105096928773685e-05,
      "loss": 0.3928,
      "step": 10500
    },
    {
      "epoch": 4.71,
      "learning_rate": 4.483282509257243e-05,
      "loss": 0.4139,
      "step": 11000
    },
    {
      "epoch": 4.93,
      "learning_rate": 4.4560553256371164e-05,
      "loss": 0.4229,
      "step": 11500
    },
    {
      "epoch": 5.14,
      "learning_rate": 4.4288281420169896e-05,
      "loss": 0.3093,
      "step": 12000
    },
    {
      "epoch": 5.14,
      "eval_bleu": 10.7522,
      "eval_gen_len": 14.0819,
      "eval_loss": 1.770087718963623,
      "eval_runtime": 266.9255,
      "eval_samples_per_second": 17.477,
      "eval_steps_per_second": 1.094,
      "step": 12000
    },
    {
      "epoch": 5.14,
      "step": 12000,
      "total_flos": 4.16088915443712e+17,
      "train_loss": 1.0545102322896323,
      "train_runtime": 10410.1428,
      "train_samples_per_second": 143.414,
      "train_steps_per_second": 8.964
    }
  ],
  "logging_steps": 500,
  "max_steps": 93320,
  "num_train_epochs": 40,
  "save_steps": 2000,
  "total_flos": 4.16088915443712e+17,
  "trial_name": null,
  "trial_params": null
}