{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 10.0,
  "eval_steps": 500,
  "global_step": 3180,
  "is_hyper_param_search": true,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.9968553459119497,
      "grad_norm": 0.8400816917419434,
      "learning_rate": 1.8006289308176103e-05,
      "loss": 0.8053,
      "step": 317
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.6770967741935484,
      "eval_loss": 0.4036009609699249,
      "eval_runtime": 5.5118,
      "eval_samples_per_second": 562.425,
      "eval_steps_per_second": 11.793,
      "step": 318
    },
    {
      "epoch": 1.9937106918238994,
      "grad_norm": 0.8274524211883545,
      "learning_rate": 1.6012578616352204e-05,
      "loss": 0.302,
      "step": 634
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8458064516129032,
      "eval_loss": 0.13483001291751862,
      "eval_runtime": 5.5404,
      "eval_samples_per_second": 559.525,
      "eval_steps_per_second": 11.732,
      "step": 636
    },
    {
      "epoch": 2.990566037735849,
      "grad_norm": 0.8234432935714722,
      "learning_rate": 1.4018867924528304e-05,
      "loss": 0.1386,
      "step": 951
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.8977419354838709,
      "eval_loss": 0.0700574740767479,
      "eval_runtime": 5.4937,
      "eval_samples_per_second": 564.285,
      "eval_steps_per_second": 11.832,
      "step": 954
    },
    {
      "epoch": 3.9874213836477987,
      "grad_norm": 0.4532417058944702,
      "learning_rate": 1.2025157232704403e-05,
      "loss": 0.0888,
      "step": 1268
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.9206451612903226,
      "eval_loss": 0.049840863794088364,
      "eval_runtime": 5.5231,
      "eval_samples_per_second": 561.275,
      "eval_steps_per_second": 11.769,
      "step": 1272
    },
    {
      "epoch": 4.984276729559748,
      "grad_norm": 0.37649276852607727,
      "learning_rate": 1.0031446540880504e-05,
      "loss": 0.0692,
      "step": 1585
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.9261290322580645,
      "eval_loss": 0.0415181890130043,
      "eval_runtime": 5.4921,
      "eval_samples_per_second": 564.442,
      "eval_steps_per_second": 11.835,
      "step": 1590
    },
    {
      "epoch": 5.981132075471698,
      "grad_norm": 0.4510127604007721,
      "learning_rate": 8.037735849056606e-06,
      "loss": 0.0592,
      "step": 1902
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.9293548387096774,
      "eval_loss": 0.03712046518921852,
      "eval_runtime": 5.4971,
      "eval_samples_per_second": 563.937,
      "eval_steps_per_second": 11.824,
      "step": 1908
    },
    {
      "epoch": 6.977987421383648,
      "grad_norm": 0.49705973267555237,
      "learning_rate": 6.044025157232704e-06,
      "loss": 0.0536,
      "step": 2219
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.9348387096774193,
      "eval_loss": 0.03438512980937958,
      "eval_runtime": 5.5484,
      "eval_samples_per_second": 558.72,
      "eval_steps_per_second": 11.715,
      "step": 2226
    },
    {
      "epoch": 7.9748427672955975,
      "grad_norm": 0.3060547113418579,
      "learning_rate": 4.0503144654088055e-06,
      "loss": 0.0502,
      "step": 2536
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.9319354838709677,
      "eval_loss": 0.03265618532896042,
      "eval_runtime": 5.4893,
      "eval_samples_per_second": 564.733,
      "eval_steps_per_second": 11.841,
      "step": 2544
    },
    {
      "epoch": 8.971698113207546,
      "grad_norm": 0.4856511056423187,
      "learning_rate": 2.056603773584906e-06,
      "loss": 0.048,
      "step": 2853
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.9335483870967742,
      "eval_loss": 0.03140486776828766,
      "eval_runtime": 5.5089,
      "eval_samples_per_second": 562.722,
      "eval_steps_per_second": 11.799,
      "step": 2862
    },
    {
      "epoch": 9.968553459119496,
      "grad_norm": 0.26917463541030884,
      "learning_rate": 6.289308176100629e-08,
      "loss": 0.0468,
      "step": 3170
    }
  ],
  "logging_steps": 317,
  "max_steps": 3180,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 1000000000.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 826686570348240.0,
  "train_batch_size": 48,
  "trial_name": null,
  "trial_params": {
    "alpha": 0.3238865638797629,
    "num_train_epochs": 10,
    "temperature": 2
  }
}