File size: 3,157 Bytes

51981ae
 
 
 
 
c9de8fe
51981ae
 
 
 
 
 
cec38fe
c9de8fe
cec38fe
c9de8fe
51981ae
 
 
 
cec38fe
 
51981ae
cec38fe
 
 
 
 
c9de8fe
51981ae
 
 
cec38fe
c9de8fe
cec38fe
c9de8fe
51981ae
 
 
 
cec38fe
 
51981ae
cec38fe
 
 
 
c9de8fe
 
51981ae
 
 
cec38fe
c9de8fe
cec38fe
c9de8fe
51981ae
 
 
 
cec38fe
 
51981ae
cec38fe
 
 
 
 
c9de8fe
51981ae
 
 
cec38fe
c9de8fe
cec38fe
c9de8fe
51981ae
 
 
 
cec38fe
 
51981ae
cec38fe
 
 
 
 
c9de8fe
51981ae
 
 
cec38fe
51981ae
cec38fe
c9de8fe
51981ae
 
 
 
cec38fe
 
51981ae
cec38fe
 
 
 
 
c9de8fe
51981ae
 
 
c9de8fe
cec38fe
 
 
 
 
51981ae
 
 
c9de8fe
51981ae
 
 
cec38fe
c9de8fe
51981ae

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.9366385340690613,
      "learning_rate": 0.0008,
      "loss": 0.7738,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5310206413269043,
      "eval_rouge1": 0.704,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6981,
      "eval_rougeLsum": 0.7001,
      "eval_runtime": 38.4784,
      "eval_samples_per_second": 19.491,
      "eval_steps_per_second": 0.624,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.2285586595535278,
      "learning_rate": 0.0006,
      "loss": 0.5926,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5095808506011963,
      "eval_rouge1": 0.6968,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6921,
      "eval_rougeLsum": 0.6922,
      "eval_runtime": 38.0389,
      "eval_samples_per_second": 19.717,
      "eval_steps_per_second": 0.631,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.663176953792572,
      "learning_rate": 0.0004,
      "loss": 0.5492,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.4948200285434723,
      "eval_rouge1": 0.6619,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.659,
      "eval_rougeLsum": 0.6573,
      "eval_runtime": 37.9852,
      "eval_samples_per_second": 19.745,
      "eval_steps_per_second": 0.632,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.5773711800575256,
      "learning_rate": 0.0002,
      "loss": 0.5199,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.49569639563560486,
      "eval_rouge1": 0.7098,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7065,
      "eval_rougeLsum": 0.7048,
      "eval_runtime": 38.4364,
      "eval_samples_per_second": 19.513,
      "eval_steps_per_second": 0.624,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.6949478983879089,
      "learning_rate": 0.0,
      "loss": 0.4984,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.48721930384635925,
      "eval_rouge1": 0.6882,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6851,
      "eval_rougeLsum": 0.6829,
      "eval_runtime": 37.7454,
      "eval_samples_per_second": 19.87,
      "eval_steps_per_second": 0.636,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 4.921767498350592e+16,
      "train_loss": 0.5867589565670543,
      "train_runtime": 3933.0288,
      "train_samples_per_second": 18.131,
      "train_steps_per_second": 1.134
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 4.921767498350592e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}