willtensora commited on
Commit
4d87ea4
·
verified ·
1 Parent(s): c76ab78

Training in progress, step 3940, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4b6616de01cb778133acd003359da222810c793dd0cf9cdc182585e35c480f14
3
  size 281587880
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1aeeeedc31781633d6e2d927790c44eb75a863b2c13d2514c7b6d70dab630131
3
  size 281587880
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:71f7907253716107c4cd19fdd4bbc959a92ea3756dcb41558c663fe4a152f464
3
- size 143365780
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:be9f08c87057bb57955254b598e5d4f645cf947f6a7c2fb64e2189dbbcb3c41d
3
+ size 143366164
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ad6d9161ae81a32174f8bde77b807a8f294633a0ea23cddfdbb2705693ea544a
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0eed3bfd5af646f2288b4e830181ee16914a31b0b359ea6719c19e7080b3cfe1
3
  size 15984
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1ad98439f91be1f84d487db74da24f1d9afbb90280a61279e92302ce1df21936
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:832b94ee5aa5a71faed77c930eefceef279ae53bdccea730aecd89c112271162
3
  size 15984
last-checkpoint/rng_state_2.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2428db82559af66f962e6f4b64f84bf7717103fd968b9dc9ec4e2cfbe8ef3849
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1e55e16261f225fb8a2e8919a04b8aa8c239f7bd3db78f35eafcaffa0471480e
3
  size 15984
last-checkpoint/rng_state_3.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c00ef585152bbb991a6a119706680788786283da2b37d796e2270152cf567c86
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f05a2598e60f4b3d52368432a38e145de565c185f753cf90a57761e85ea4caaf
3
  size 15984
last-checkpoint/rng_state_4.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bf3a256d643df2f59612731470a44a755f2a612d0ae63bf065eaa49b3a4baf53
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f10777b1f827e8149ee5b08faadf30cc439acc0248a64744998df2ddddb6b768
3
  size 15984
last-checkpoint/rng_state_5.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:61af8ab240b60562ef5137bf1310554c256c9352bc47d9068351c2fc38ec6133
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:73bda5d1c0ab714bc8c773519810be5edcffc64839f28bdcb486737dad0b5ec1
3
  size 15984
last-checkpoint/rng_state_6.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5c0d5eea67012ba344f70da157f1a8c4fe355f1282ad136ee2d972242657448b
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:920ff0437464ad024a4e40deaef319c7ae23b679c7657d0134032adec3278214
3
  size 15984
last-checkpoint/rng_state_7.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2bdee2fb21b0ff57373d17ded48efb84d20a26e556fdddeda0d533e57993e29d
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5c3ee35d576a3dfd9e1fc7246152e897548907cbebc3f9497a29a348c85d7554
3
  size 15984
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a957021e028fef2b8bcca11d9d16a1e246a36c9cce2313be81b812e4e5ae13c8
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a58c3d3a4f04b5e6ec37b4fa3c9884fc3b3ace0e6a4a27af6be9471b0d1b11ca
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5,
5
  "eval_steps": 40,
6
- "global_step": 20,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -29,6 +29,3534 @@
29
  "learning_rate": 0.0001666666666666667,
30
  "loss": 0.0007,
31
  "step": 20
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
32
  }
33
  ],
34
  "logging_steps": 10,
@@ -48,7 +3576,7 @@
48
  "attributes": {}
49
  }
50
  },
51
- "total_flos": 842040149540864.0,
52
  "train_batch_size": 1,
53
  "trial_name": null,
54
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 98.5,
5
  "eval_steps": 40,
6
+ "global_step": 3940,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
29
  "learning_rate": 0.0001666666666666667,
30
  "loss": 0.0007,
31
  "step": 20
32
+ },
33
+ {
34
+ "epoch": 0.75,
35
+ "grad_norm": 2.7581191062927246,
36
+ "learning_rate": 0.00019999887622676146,
37
+ "loss": 0.026,
38
+ "step": 30
39
+ },
40
+ {
41
+ "epoch": 1.0,
42
+ "grad_norm": 0.48524343967437744,
43
+ "learning_rate": 0.00019999200881510367,
44
+ "loss": 0.0292,
45
+ "step": 40
46
+ },
47
+ {
48
+ "epoch": 1.0,
49
+ "eval_loss": 0.004332332406193018,
50
+ "eval_runtime": 0.3245,
51
+ "eval_samples_per_second": 110.942,
52
+ "eval_steps_per_second": 15.409,
53
+ "step": 40
54
+ },
55
+ {
56
+ "epoch": 1.25,
57
+ "grad_norm": 43.160125732421875,
58
+ "learning_rate": 0.00019997889873847797,
59
+ "loss": 0.1101,
60
+ "step": 50
61
+ },
62
+ {
63
+ "epoch": 1.5,
64
+ "grad_norm": 71.57295989990234,
65
+ "learning_rate": 0.00019995954681536798,
66
+ "loss": 0.0241,
67
+ "step": 60
68
+ },
69
+ {
70
+ "epoch": 1.75,
71
+ "grad_norm": 0.3996742069721222,
72
+ "learning_rate": 0.00019993395425394592,
73
+ "loss": 0.0163,
74
+ "step": 70
75
+ },
76
+ {
77
+ "epoch": 2.0,
78
+ "grad_norm": 0.061198778450489044,
79
+ "learning_rate": 0.00019990212265199738,
80
+ "loss": 0.0148,
81
+ "step": 80
82
+ },
83
+ {
84
+ "epoch": 2.0,
85
+ "eval_loss": 0.033167850226163864,
86
+ "eval_runtime": 0.3415,
87
+ "eval_samples_per_second": 105.418,
88
+ "eval_steps_per_second": 14.641,
89
+ "step": 80
90
+ },
91
+ {
92
+ "epoch": 2.25,
93
+ "grad_norm": 2.403183698654175,
94
+ "learning_rate": 0.0001998640539968214,
95
+ "loss": 0.01,
96
+ "step": 90
97
+ },
98
+ {
99
+ "epoch": 2.5,
100
+ "grad_norm": 2.304408550262451,
101
+ "learning_rate": 0.00019981975066510655,
102
+ "loss": 0.0435,
103
+ "step": 100
104
+ },
105
+ {
106
+ "epoch": 2.75,
107
+ "grad_norm": 0.02899610437452793,
108
+ "learning_rate": 0.00019976921542278237,
109
+ "loss": 0.0296,
110
+ "step": 110
111
+ },
112
+ {
113
+ "epoch": 3.0,
114
+ "grad_norm": 3.8328208923339844,
115
+ "learning_rate": 0.0001997124514248469,
116
+ "loss": 0.1015,
117
+ "step": 120
118
+ },
119
+ {
120
+ "epoch": 3.0,
121
+ "eval_loss": 0.00442217942327261,
122
+ "eval_runtime": 0.3282,
123
+ "eval_samples_per_second": 109.685,
124
+ "eval_steps_per_second": 15.234,
125
+ "step": 120
126
+ },
127
+ {
128
+ "epoch": 3.25,
129
+ "grad_norm": 0.07601974904537201,
130
+ "learning_rate": 0.00019964946221516953,
131
+ "loss": 0.0273,
132
+ "step": 130
133
+ },
134
+ {
135
+ "epoch": 3.5,
136
+ "grad_norm": 0.02951742894947529,
137
+ "learning_rate": 0.00019958025172626986,
138
+ "loss": 0.0316,
139
+ "step": 140
140
+ },
141
+ {
142
+ "epoch": 3.75,
143
+ "grad_norm": 0.09413129091262817,
144
+ "learning_rate": 0.00019950482427907211,
145
+ "loss": 0.0071,
146
+ "step": 150
147
+ },
148
+ {
149
+ "epoch": 4.0,
150
+ "grad_norm": 0.0033842374105006456,
151
+ "learning_rate": 0.0001994231845826354,
152
+ "loss": 0.0002,
153
+ "step": 160
154
+ },
155
+ {
156
+ "epoch": 4.0,
157
+ "eval_loss": 0.00014786835527047515,
158
+ "eval_runtime": 0.3249,
159
+ "eval_samples_per_second": 110.813,
160
+ "eval_steps_per_second": 15.391,
161
+ "step": 160
162
+ },
163
+ {
164
+ "epoch": 4.25,
165
+ "grad_norm": 0.12055602669715881,
166
+ "learning_rate": 0.00019933533773385976,
167
+ "loss": 0.0001,
168
+ "step": 170
169
+ },
170
+ {
171
+ "epoch": 4.5,
172
+ "grad_norm": 0.007594508584588766,
173
+ "learning_rate": 0.00019924128921716797,
174
+ "loss": 0.0001,
175
+ "step": 180
176
+ },
177
+ {
178
+ "epoch": 4.75,
179
+ "grad_norm": 0.000780335278250277,
180
+ "learning_rate": 0.000199141044904163,
181
+ "loss": 0.0,
182
+ "step": 190
183
+ },
184
+ {
185
+ "epoch": 5.0,
186
+ "grad_norm": 0.0012850259663537145,
187
+ "learning_rate": 0.00019903461105326154,
188
+ "loss": 0.0,
189
+ "step": 200
190
+ },
191
+ {
192
+ "epoch": 5.0,
193
+ "eval_loss": 2.7732399757951498e-05,
194
+ "eval_runtime": 0.3542,
195
+ "eval_samples_per_second": 101.634,
196
+ "eval_steps_per_second": 14.116,
197
+ "step": 200
198
+ },
199
+ {
200
+ "epoch": 5.25,
201
+ "grad_norm": 0.0005795760662294924,
202
+ "learning_rate": 0.0001989219943093034,
203
+ "loss": 0.0,
204
+ "step": 210
205
+ },
206
+ {
207
+ "epoch": 5.5,
208
+ "grad_norm": 0.0004225255688652396,
209
+ "learning_rate": 0.0001988032017031364,
210
+ "loss": 0.0,
211
+ "step": 220
212
+ },
213
+ {
214
+ "epoch": 5.75,
215
+ "grad_norm": 0.0006476517883129418,
216
+ "learning_rate": 0.00019867824065117765,
217
+ "loss": 0.0,
218
+ "step": 230
219
+ },
220
+ {
221
+ "epoch": 6.0,
222
+ "grad_norm": 0.0004615155339706689,
223
+ "learning_rate": 0.00019854711895495036,
224
+ "loss": 0.0,
225
+ "step": 240
226
+ },
227
+ {
228
+ "epoch": 6.0,
229
+ "eval_loss": 1.7349062545690686e-05,
230
+ "eval_runtime": 0.328,
231
+ "eval_samples_per_second": 109.765,
232
+ "eval_steps_per_second": 15.245,
233
+ "step": 240
234
+ },
235
+ {
236
+ "epoch": 6.25,
237
+ "grad_norm": 0.0003548109089024365,
238
+ "learning_rate": 0.00019840984480059689,
239
+ "loss": 0.0,
240
+ "step": 250
241
+ },
242
+ {
243
+ "epoch": 6.5,
244
+ "grad_norm": 0.0010875174775719643,
245
+ "learning_rate": 0.0001982664267583677,
246
+ "loss": 0.0,
247
+ "step": 260
248
+ },
249
+ {
250
+ "epoch": 6.75,
251
+ "grad_norm": 0.0003341367410030216,
252
+ "learning_rate": 0.00019811687378208613,
253
+ "loss": 0.0,
254
+ "step": 270
255
+ },
256
+ {
257
+ "epoch": 7.0,
258
+ "grad_norm": 0.00045011454494670033,
259
+ "learning_rate": 0.00019796119520858955,
260
+ "loss": 0.0,
261
+ "step": 280
262
+ },
263
+ {
264
+ "epoch": 7.0,
265
+ "eval_loss": 1.3329447938303929e-05,
266
+ "eval_runtime": 0.3393,
267
+ "eval_samples_per_second": 106.103,
268
+ "eval_steps_per_second": 14.737,
269
+ "step": 280
270
+ },
271
+ {
272
+ "epoch": 7.25,
273
+ "grad_norm": 0.00023316974693443626,
274
+ "learning_rate": 0.00019779940075714648,
275
+ "loss": 0.0,
276
+ "step": 290
277
+ },
278
+ {
279
+ "epoch": 7.5,
280
+ "grad_norm": 0.0002178147406084463,
281
+ "learning_rate": 0.00019763150052884966,
282
+ "loss": 0.0,
283
+ "step": 300
284
+ },
285
+ {
286
+ "epoch": 7.75,
287
+ "grad_norm": 0.00018833605281542987,
288
+ "learning_rate": 0.00019745750500598538,
289
+ "loss": 0.0,
290
+ "step": 310
291
+ },
292
+ {
293
+ "epoch": 8.0,
294
+ "grad_norm": 0.0005992311052978039,
295
+ "learning_rate": 0.00019727742505137936,
296
+ "loss": 0.0,
297
+ "step": 320
298
+ },
299
+ {
300
+ "epoch": 8.0,
301
+ "eval_loss": 1.119767694035545e-05,
302
+ "eval_runtime": 0.3439,
303
+ "eval_samples_per_second": 104.694,
304
+ "eval_steps_per_second": 14.541,
305
+ "step": 320
306
+ },
307
+ {
308
+ "epoch": 8.25,
309
+ "grad_norm": 0.00013200360990595073,
310
+ "learning_rate": 0.00019709127190771825,
311
+ "loss": 0.0,
312
+ "step": 330
313
+ },
314
+ {
315
+ "epoch": 8.5,
316
+ "grad_norm": 0.0002380541991442442,
317
+ "learning_rate": 0.00019689905719684782,
318
+ "loss": 0.0,
319
+ "step": 340
320
+ },
321
+ {
322
+ "epoch": 8.75,
323
+ "grad_norm": 0.00014980848936829716,
324
+ "learning_rate": 0.00019670079291904752,
325
+ "loss": 0.0,
326
+ "step": 350
327
+ },
328
+ {
329
+ "epoch": 9.0,
330
+ "grad_norm": 0.0002899216488003731,
331
+ "learning_rate": 0.00019649649145228102,
332
+ "loss": 0.0,
333
+ "step": 360
334
+ },
335
+ {
336
+ "epoch": 9.0,
337
+ "eval_loss": 9.466394658375066e-06,
338
+ "eval_runtime": 0.3404,
339
+ "eval_samples_per_second": 105.754,
340
+ "eval_steps_per_second": 14.688,
341
+ "step": 360
342
+ },
343
+ {
344
+ "epoch": 9.25,
345
+ "grad_norm": 0.00021961786842439324,
346
+ "learning_rate": 0.00019628616555142372,
347
+ "loss": 0.0,
348
+ "step": 370
349
+ },
350
+ {
351
+ "epoch": 9.5,
352
+ "grad_norm": 0.00020691509416792542,
353
+ "learning_rate": 0.00019606982834746627,
354
+ "loss": 0.0,
355
+ "step": 380
356
+ },
357
+ {
358
+ "epoch": 9.75,
359
+ "grad_norm": 0.00023161708668339998,
360
+ "learning_rate": 0.00019584749334669487,
361
+ "loss": 0.0,
362
+ "step": 390
363
+ },
364
+ {
365
+ "epoch": 10.0,
366
+ "grad_norm": 0.00017992363427765667,
367
+ "learning_rate": 0.00019561917442984788,
368
+ "loss": 0.0,
369
+ "step": 400
370
+ },
371
+ {
372
+ "epoch": 10.0,
373
+ "eval_loss": 8.257883564510848e-06,
374
+ "eval_runtime": 0.3275,
375
+ "eval_samples_per_second": 109.923,
376
+ "eval_steps_per_second": 15.267,
377
+ "step": 400
378
+ },
379
+ {
380
+ "epoch": 10.25,
381
+ "grad_norm": 0.00013070827117189765,
382
+ "learning_rate": 0.00019538488585124953,
383
+ "loss": 0.0,
384
+ "step": 410
385
+ },
386
+ {
387
+ "epoch": 10.5,
388
+ "grad_norm": 0.00018156137957703322,
389
+ "learning_rate": 0.00019514464223791965,
390
+ "loss": 0.0,
391
+ "step": 420
392
+ },
393
+ {
394
+ "epoch": 10.75,
395
+ "grad_norm": 0.0001987970608752221,
396
+ "learning_rate": 0.00019489845858866066,
397
+ "loss": 0.0,
398
+ "step": 430
399
+ },
400
+ {
401
+ "epoch": 11.0,
402
+ "grad_norm": 0.00012906281335745007,
403
+ "learning_rate": 0.00019464635027312128,
404
+ "loss": 0.0,
405
+ "step": 440
406
+ },
407
+ {
408
+ "epoch": 11.0,
409
+ "eval_loss": 7.331655979214702e-06,
410
+ "eval_runtime": 0.3356,
411
+ "eval_samples_per_second": 107.279,
412
+ "eval_steps_per_second": 14.9,
413
+ "step": 440
414
+ },
415
+ {
416
+ "epoch": 11.25,
417
+ "grad_norm": 0.00031813167151995003,
418
+ "learning_rate": 0.00019438833303083678,
419
+ "loss": 0.0,
420
+ "step": 450
421
+ },
422
+ {
423
+ "epoch": 11.5,
424
+ "grad_norm": 0.00016680177941452712,
425
+ "learning_rate": 0.00019412442297024637,
426
+ "loss": 0.0,
427
+ "step": 460
428
+ },
429
+ {
430
+ "epoch": 11.75,
431
+ "grad_norm": 0.00013162715185899287,
432
+ "learning_rate": 0.00019385463656768762,
433
+ "loss": 0.0,
434
+ "step": 470
435
+ },
436
+ {
437
+ "epoch": 12.0,
438
+ "grad_norm": 0.00015330589667428285,
439
+ "learning_rate": 0.00019357899066636773,
440
+ "loss": 0.0,
441
+ "step": 480
442
+ },
443
+ {
444
+ "epoch": 12.0,
445
+ "eval_loss": 6.5182412072317675e-06,
446
+ "eval_runtime": 0.3246,
447
+ "eval_samples_per_second": 110.889,
448
+ "eval_steps_per_second": 15.401,
449
+ "step": 480
450
+ },
451
+ {
452
+ "epoch": 12.25,
453
+ "grad_norm": 0.00018356599321123213,
454
+ "learning_rate": 0.00019329750247531205,
455
+ "loss": 0.0,
456
+ "step": 490
457
+ },
458
+ {
459
+ "epoch": 12.5,
460
+ "grad_norm": 0.00015767107834108174,
461
+ "learning_rate": 0.00019301018956828964,
462
+ "loss": 0.0,
463
+ "step": 500
464
+ },
465
+ {
466
+ "epoch": 12.75,
467
+ "grad_norm": 0.00029690677183680236,
468
+ "learning_rate": 0.00019271706988271606,
469
+ "loss": 0.0,
470
+ "step": 510
471
+ },
472
+ {
473
+ "epoch": 13.0,
474
+ "grad_norm": 9.481079177930951e-05,
475
+ "learning_rate": 0.0001924181617185336,
476
+ "loss": 0.0,
477
+ "step": 520
478
+ },
479
+ {
480
+ "epoch": 13.0,
481
+ "eval_loss": 5.88237071497133e-06,
482
+ "eval_runtime": 0.3263,
483
+ "eval_samples_per_second": 110.333,
484
+ "eval_steps_per_second": 15.324,
485
+ "step": 520
486
+ },
487
+ {
488
+ "epoch": 13.25,
489
+ "grad_norm": 0.00016097365005407482,
490
+ "learning_rate": 0.00019211348373706884,
491
+ "loss": 0.0,
492
+ "step": 530
493
+ },
494
+ {
495
+ "epoch": 13.5,
496
+ "grad_norm": 0.0001369424571748823,
497
+ "learning_rate": 0.0001918030549598674,
498
+ "loss": 0.0,
499
+ "step": 540
500
+ },
501
+ {
502
+ "epoch": 13.75,
503
+ "grad_norm": 0.00018055856344290078,
504
+ "learning_rate": 0.00019148689476750658,
505
+ "loss": 0.0,
506
+ "step": 550
507
+ },
508
+ {
509
+ "epoch": 14.0,
510
+ "grad_norm": 0.00010365981870563701,
511
+ "learning_rate": 0.00019116502289838523,
512
+ "loss": 0.0,
513
+ "step": 560
514
+ },
515
+ {
516
+ "epoch": 14.0,
517
+ "eval_loss": 5.300180873746285e-06,
518
+ "eval_runtime": 0.3471,
519
+ "eval_samples_per_second": 103.705,
520
+ "eval_steps_per_second": 14.404,
521
+ "step": 560
522
+ },
523
+ {
524
+ "epoch": 14.25,
525
+ "grad_norm": 7.365662168012932e-05,
526
+ "learning_rate": 0.00019083745944749162,
527
+ "loss": 0.0,
528
+ "step": 570
529
+ },
530
+ {
531
+ "epoch": 14.5,
532
+ "grad_norm": 0.00015878217527642846,
533
+ "learning_rate": 0.00019050422486514878,
534
+ "loss": 0.0,
535
+ "step": 580
536
+ },
537
+ {
538
+ "epoch": 14.75,
539
+ "grad_norm": 0.00016406863869633526,
540
+ "learning_rate": 0.00019016533995573772,
541
+ "loss": 0.0,
542
+ "step": 590
543
+ },
544
+ {
545
+ "epoch": 15.0,
546
+ "grad_norm": 0.0001134676203946583,
547
+ "learning_rate": 0.0001898208258763987,
548
+ "loss": 0.0,
549
+ "step": 600
550
+ },
551
+ {
552
+ "epoch": 15.0,
553
+ "eval_loss": 4.918438207823783e-06,
554
+ "eval_runtime": 0.3237,
555
+ "eval_samples_per_second": 111.198,
556
+ "eval_steps_per_second": 15.444,
557
+ "step": 600
558
+ },
559
+ {
560
+ "epoch": 15.25,
561
+ "grad_norm": 0.00010196594666922465,
562
+ "learning_rate": 0.00018947070413571026,
563
+ "loss": 0.0,
564
+ "step": 610
565
+ },
566
+ {
567
+ "epoch": 15.5,
568
+ "grad_norm": 0.00013735589163843542,
569
+ "learning_rate": 0.0001891149965923464,
570
+ "loss": 0.0,
571
+ "step": 620
572
+ },
573
+ {
574
+ "epoch": 15.75,
575
+ "grad_norm": 8.303586218971759e-05,
576
+ "learning_rate": 0.00018875372545371194,
577
+ "loss": 0.0,
578
+ "step": 630
579
+ },
580
+ {
581
+ "epoch": 16.0,
582
+ "grad_norm": 8.282584167318419e-05,
583
+ "learning_rate": 0.0001883869132745561,
584
+ "loss": 0.0,
585
+ "step": 640
586
+ },
587
+ {
588
+ "epoch": 16.0,
589
+ "eval_loss": 4.482135864236625e-06,
590
+ "eval_runtime": 0.3334,
591
+ "eval_samples_per_second": 107.988,
592
+ "eval_steps_per_second": 14.998,
593
+ "step": 640
594
+ },
595
+ {
596
+ "epoch": 16.25,
597
+ "grad_norm": 7.883716170908883e-05,
598
+ "learning_rate": 0.00018801458295556435,
599
+ "loss": 0.0,
600
+ "step": 650
601
+ },
602
+ {
603
+ "epoch": 16.5,
604
+ "grad_norm": 0.00016775316908024251,
605
+ "learning_rate": 0.0001876367577419286,
606
+ "loss": 0.0,
607
+ "step": 660
608
+ },
609
+ {
610
+ "epoch": 16.75,
611
+ "grad_norm": 8.655583224026486e-05,
612
+ "learning_rate": 0.00018725346122189606,
613
+ "loss": 0.0,
614
+ "step": 670
615
+ },
616
+ {
617
+ "epoch": 17.0,
618
+ "grad_norm": 6.624006346100941e-05,
619
+ "learning_rate": 0.00018686471732529665,
620
+ "loss": 0.0,
621
+ "step": 680
622
+ },
623
+ {
624
+ "epoch": 17.0,
625
+ "eval_loss": 4.2038600440719165e-06,
626
+ "eval_runtime": 0.331,
627
+ "eval_samples_per_second": 108.76,
628
+ "eval_steps_per_second": 15.106,
629
+ "step": 680
630
+ },
631
+ {
632
+ "epoch": 17.25,
633
+ "grad_norm": 0.00013512188161257654,
634
+ "learning_rate": 0.00018647055032204883,
635
+ "loss": 0.0,
636
+ "step": 690
637
+ },
638
+ {
639
+ "epoch": 17.5,
640
+ "grad_norm": 8.678815356688574e-05,
641
+ "learning_rate": 0.0001860709848206446,
642
+ "loss": 0.0,
643
+ "step": 700
644
+ },
645
+ {
646
+ "epoch": 17.75,
647
+ "grad_norm": 6.948116788407788e-05,
648
+ "learning_rate": 0.00018566604576661288,
649
+ "loss": 0.0,
650
+ "step": 710
651
+ },
652
+ {
653
+ "epoch": 18.0,
654
+ "grad_norm": 7.376579014817253e-05,
655
+ "learning_rate": 0.00018525575844096243,
656
+ "loss": 0.0,
657
+ "step": 720
658
+ },
659
+ {
660
+ "epoch": 18.0,
661
+ "eval_loss": 3.883159479300957e-06,
662
+ "eval_runtime": 0.3356,
663
+ "eval_samples_per_second": 107.284,
664
+ "eval_steps_per_second": 14.901,
665
+ "step": 720
666
+ },
667
+ {
668
+ "epoch": 18.25,
669
+ "grad_norm": 9.459959983360022e-05,
670
+ "learning_rate": 0.0001848401484586034,
671
+ "loss": 0.0,
672
+ "step": 730
673
+ },
674
+ {
675
+ "epoch": 18.5,
676
+ "grad_norm": 9.205293463310227e-05,
677
+ "learning_rate": 0.00018441924176674794,
678
+ "loss": 0.0,
679
+ "step": 740
680
+ },
681
+ {
682
+ "epoch": 18.75,
683
+ "grad_norm": 0.00011255600111326203,
684
+ "learning_rate": 0.00018399306464329066,
685
+ "loss": 0.0,
686
+ "step": 750
687
+ },
688
+ {
689
+ "epoch": 19.0,
690
+ "grad_norm": 6.045972986612469e-05,
691
+ "learning_rate": 0.0001835616436951677,
692
+ "loss": 0.0,
693
+ "step": 760
694
+ },
695
+ {
696
+ "epoch": 19.0,
697
+ "eval_loss": 3.604589437600225e-06,
698
+ "eval_runtime": 0.3263,
699
+ "eval_samples_per_second": 110.323,
700
+ "eval_steps_per_second": 15.323,
701
+ "step": 760
702
+ },
703
+ {
704
+ "epoch": 19.25,
705
+ "grad_norm": 5.718848478863947e-05,
706
+ "learning_rate": 0.00018312500585669584,
707
+ "loss": 0.0,
708
+ "step": 770
709
+ },
710
+ {
711
+ "epoch": 19.5,
712
+ "grad_norm": 0.00010984807158820331,
713
+ "learning_rate": 0.00018268317838789088,
714
+ "loss": 0.0,
715
+ "step": 780
716
+ },
717
+ {
718
+ "epoch": 19.75,
719
+ "grad_norm": 4.868064570473507e-05,
720
+ "learning_rate": 0.0001822361888727657,
721
+ "loss": 0.0,
722
+ "step": 790
723
+ },
724
+ {
725
+ "epoch": 20.0,
726
+ "grad_norm": 7.550454029114917e-05,
727
+ "learning_rate": 0.0001817840652176082,
728
+ "loss": 0.0,
729
+ "step": 800
730
+ },
731
+ {
732
+ "epoch": 20.0,
733
+ "eval_loss": 3.3906435419339687e-06,
734
+ "eval_runtime": 0.3395,
735
+ "eval_samples_per_second": 106.05,
736
+ "eval_steps_per_second": 14.729,
737
+ "step": 800
738
+ },
739
+ {
740
+ "epoch": 20.25,
741
+ "grad_norm": 6.606967508560047e-05,
742
+ "learning_rate": 0.00018132683564923906,
743
+ "loss": 0.0,
744
+ "step": 810
745
+ },
746
+ {
747
+ "epoch": 20.5,
748
+ "grad_norm": 0.0001721412845654413,
749
+ "learning_rate": 0.00018086452871324954,
750
+ "loss": 0.0,
751
+ "step": 820
752
+ },
753
+ {
754
+ "epoch": 20.75,
755
+ "grad_norm": 4.9960210162680596e-05,
756
+ "learning_rate": 0.00018039717327221925,
757
+ "loss": 0.0,
758
+ "step": 830
759
+ },
760
+ {
761
+ "epoch": 21.0,
762
+ "grad_norm": 5.9810005041072145e-05,
763
+ "learning_rate": 0.00017992479850391417,
764
+ "loss": 0.0,
765
+ "step": 840
766
+ },
767
+ {
768
+ "epoch": 21.0,
769
+ "eval_loss": 3.1668755582359154e-06,
770
+ "eval_runtime": 0.3326,
771
+ "eval_samples_per_second": 108.232,
772
+ "eval_steps_per_second": 15.032,
773
+ "step": 840
774
+ },
775
+ {
776
+ "epoch": 21.25,
777
+ "grad_norm": 5.891801993129775e-05,
778
+ "learning_rate": 0.00017944743389946524,
779
+ "loss": 0.0,
780
+ "step": 850
781
+ },
782
+ {
783
+ "epoch": 21.5,
784
+ "grad_norm": 8.631425589555874e-05,
785
+ "learning_rate": 0.0001789651092615269,
786
+ "loss": 0.0,
787
+ "step": 860
788
+ },
789
+ {
790
+ "epoch": 21.75,
791
+ "grad_norm": 6.0596958064706996e-05,
792
+ "learning_rate": 0.00017847785470241677,
793
+ "loss": 0.0,
794
+ "step": 870
795
+ },
796
+ {
797
+ "epoch": 22.0,
798
+ "grad_norm": 7.751138764433563e-05,
799
+ "learning_rate": 0.00017798570064223533,
800
+ "loss": 0.0,
801
+ "step": 880
802
+ },
803
+ {
804
+ "epoch": 22.0,
805
+ "eval_loss": 2.9938312309241155e-06,
806
+ "eval_runtime": 0.3268,
807
+ "eval_samples_per_second": 110.167,
808
+ "eval_steps_per_second": 15.301,
809
+ "step": 880
810
+ },
811
+ {
812
+ "epoch": 22.25,
813
+ "grad_norm": 6.764694990124553e-05,
814
+ "learning_rate": 0.00017748867780696716,
815
+ "loss": 0.0,
816
+ "step": 890
817
+ },
818
+ {
819
+ "epoch": 22.5,
820
+ "grad_norm": 7.38737580832094e-05,
821
+ "learning_rate": 0.0001769868172265623,
822
+ "loss": 0.0,
823
+ "step": 900
824
+ },
825
+ {
826
+ "epoch": 22.75,
827
+ "grad_norm": 0.00010331822704756632,
828
+ "learning_rate": 0.00017648015023299918,
829
+ "loss": 0.0,
830
+ "step": 910
831
+ },
832
+ {
833
+ "epoch": 23.0,
834
+ "grad_norm": 0.00010948543786071241,
835
+ "learning_rate": 0.0001759687084583285,
836
+ "loss": 0.0,
837
+ "step": 920
838
+ },
839
+ {
840
+ "epoch": 23.0,
841
+ "eval_loss": 2.7970015707978746e-06,
842
+ "eval_runtime": 0.3433,
843
+ "eval_samples_per_second": 104.875,
844
+ "eval_steps_per_second": 14.566,
845
+ "step": 920
846
+ },
847
+ {
848
+ "epoch": 23.25,
849
+ "grad_norm": 4.273112062946893e-05,
850
+ "learning_rate": 0.00017545252383269837,
851
+ "loss": 0.0,
852
+ "step": 930
853
+ },
854
+ {
855
+ "epoch": 23.5,
856
+ "grad_norm": 0.0001338142465101555,
857
+ "learning_rate": 0.00017493162858236077,
858
+ "loss": 0.0,
859
+ "step": 940
860
+ },
861
+ {
862
+ "epoch": 23.75,
863
+ "grad_norm": 5.875607530470006e-05,
864
+ "learning_rate": 0.00017440605522765984,
865
+ "loss": 0.0,
866
+ "step": 950
867
+ },
868
+ {
869
+ "epoch": 24.0,
870
+ "grad_norm": 7.345333142438903e-05,
871
+ "learning_rate": 0.00017387583658100142,
872
+ "loss": 0.0,
873
+ "step": 960
874
+ },
875
+ {
876
+ "epoch": 24.0,
877
+ "eval_loss": 2.6630891625245567e-06,
878
+ "eval_runtime": 0.3317,
879
+ "eval_samples_per_second": 108.524,
880
+ "eval_steps_per_second": 15.073,
881
+ "step": 960
882
+ },
883
+ {
884
+ "epoch": 24.25,
885
+ "grad_norm": 6.94195696269162e-05,
886
+ "learning_rate": 0.00017334100574480435,
887
+ "loss": 0.0,
888
+ "step": 970
889
+ },
890
+ {
891
+ "epoch": 24.5,
892
+ "grad_norm": 4.8001227696659043e-05,
893
+ "learning_rate": 0.0001728015961094343,
894
+ "loss": 0.0,
895
+ "step": 980
896
+ },
897
+ {
898
+ "epoch": 24.75,
899
+ "grad_norm": 4.3018935684813187e-05,
900
+ "learning_rate": 0.00017225764135111868,
901
+ "loss": 0.0,
902
+ "step": 990
903
+ },
904
+ {
905
+ "epoch": 25.0,
906
+ "grad_norm": 7.503097003791481e-05,
907
+ "learning_rate": 0.00017170917542984443,
908
+ "loss": 0.0,
909
+ "step": 1000
910
+ },
911
+ {
912
+ "epoch": 25.0,
913
+ "eval_loss": 2.498412186469068e-06,
914
+ "eval_runtime": 0.3252,
915
+ "eval_samples_per_second": 110.685,
916
+ "eval_steps_per_second": 15.373,
917
+ "step": 1000
918
+ },
919
+ {
920
+ "epoch": 25.25,
921
+ "grad_norm": 2.499126276234165e-05,
922
+ "learning_rate": 0.00017115623258723783,
923
+ "loss": 0.0,
924
+ "step": 1010
925
+ },
926
+ {
927
+ "epoch": 25.5,
928
+ "grad_norm": 8.122723374981433e-05,
929
+ "learning_rate": 0.00017059884734442658,
930
+ "loss": 0.0,
931
+ "step": 1020
932
+ },
933
+ {
934
+ "epoch": 25.75,
935
+ "grad_norm": 5.7621167798060924e-05,
936
+ "learning_rate": 0.00017003705449988486,
937
+ "loss": 0.0,
938
+ "step": 1030
939
+ },
940
+ {
941
+ "epoch": 26.0,
942
+ "grad_norm": 6.584699440281838e-05,
943
+ "learning_rate": 0.00016947088912726052,
944
+ "loss": 0.0,
945
+ "step": 1040
946
+ },
947
+ {
948
+ "epoch": 26.0,
949
+ "eval_loss": 2.384617800998967e-06,
950
+ "eval_runtime": 0.3289,
951
+ "eval_samples_per_second": 109.466,
952
+ "eval_steps_per_second": 15.204,
953
+ "step": 1040
954
+ },
955
+ {
956
+ "epoch": 26.25,
957
+ "grad_norm": 3.284347985754721e-05,
958
+ "learning_rate": 0.00016890038657318556,
959
+ "loss": 0.0,
960
+ "step": 1050
961
+ },
962
+ {
963
+ "epoch": 26.5,
964
+ "grad_norm": 6.672390009043738e-05,
965
+ "learning_rate": 0.00016832558245506935,
966
+ "loss": 0.0,
967
+ "step": 1060
968
+ },
969
+ {
970
+ "epoch": 26.75,
971
+ "grad_norm": 3.635583561845124e-05,
972
+ "learning_rate": 0.0001677465126588749,
973
+ "loss": 0.0,
974
+ "step": 1070
975
+ },
976
+ {
977
+ "epoch": 27.0,
978
+ "grad_norm": 5.236966899246909e-05,
979
+ "learning_rate": 0.00016716321333687848,
980
+ "loss": 0.0,
981
+ "step": 1080
982
+ },
983
+ {
984
+ "epoch": 27.0,
985
+ "eval_loss": 2.2538335997523973e-06,
986
+ "eval_runtime": 0.327,
987
+ "eval_samples_per_second": 110.094,
988
+ "eval_steps_per_second": 15.291,
989
+ "step": 1080
990
+ },
991
+ {
992
+ "epoch": 27.25,
993
+ "grad_norm": 5.55117912881542e-05,
994
+ "learning_rate": 0.00016657572090541262,
995
+ "loss": 0.0,
996
+ "step": 1090
997
+ },
998
+ {
999
+ "epoch": 27.5,
1000
+ "grad_norm": 0.00013249287439975888,
1001
+ "learning_rate": 0.0001659840720425926,
1002
+ "loss": 0.0,
1003
+ "step": 1100
1004
+ },
1005
+ {
1006
+ "epoch": 27.75,
1007
+ "grad_norm": 5.55339029233437e-05,
1008
+ "learning_rate": 0.00016538830368602648,
1009
+ "loss": 0.0,
1010
+ "step": 1110
1011
+ },
1012
+ {
1013
+ "epoch": 28.0,
1014
+ "grad_norm": 5.33119855390396e-05,
1015
+ "learning_rate": 0.0001647884530305089,
1016
+ "loss": 0.0,
1017
+ "step": 1120
1018
+ },
1019
+ {
1020
+ "epoch": 28.0,
1021
+ "eval_loss": 2.159326413675444e-06,
1022
+ "eval_runtime": 0.3173,
1023
+ "eval_samples_per_second": 113.452,
1024
+ "eval_steps_per_second": 15.757,
1025
+ "step": 1120
1026
+ },
1027
+ {
1028
+ "epoch": 28.25,
1029
+ "grad_norm": 6.674770702375099e-05,
1030
+ "learning_rate": 0.00016418455752569943,
1031
+ "loss": 0.0,
1032
+ "step": 1130
1033
+ },
1034
+ {
1035
+ "epoch": 28.5,
1036
+ "grad_norm": 5.4036871006246656e-05,
1037
+ "learning_rate": 0.00016357665487378397,
1038
+ "loss": 0.0,
1039
+ "step": 1140
1040
+ },
1041
+ {
1042
+ "epoch": 28.75,
1043
+ "grad_norm": 9.294509800383821e-05,
1044
+ "learning_rate": 0.00016296478302712126,
1045
+ "loss": 0.0,
1046
+ "step": 1150
1047
+ },
1048
+ {
1049
+ "epoch": 29.0,
1050
+ "grad_norm": 6.301044049905613e-05,
1051
+ "learning_rate": 0.00016234898018587337,
1052
+ "loss": 0.0,
1053
+ "step": 1160
1054
+ },
1055
+ {
1056
+ "epoch": 29.0,
1057
+ "eval_loss": 2.0828572360187536e-06,
1058
+ "eval_runtime": 0.3199,
1059
+ "eval_samples_per_second": 112.52,
1060
+ "eval_steps_per_second": 15.628,
1061
+ "step": 1160
1062
+ },
1063
+ {
1064
+ "epoch": 29.25,
1065
+ "grad_norm": 6.311033212114125e-05,
1066
+ "learning_rate": 0.00016172928479562078,
1067
+ "loss": 0.0,
1068
+ "step": 1170
1069
+ },
1070
+ {
1071
+ "epoch": 29.5,
1072
+ "grad_norm": 3.820831625489518e-05,
1073
+ "learning_rate": 0.00016110573554496224,
1074
+ "loss": 0.0,
1075
+ "step": 1180
1076
+ },
1077
+ {
1078
+ "epoch": 29.75,
1079
+ "grad_norm": 4.628980968846008e-05,
1080
+ "learning_rate": 0.00016047837136309924,
1081
+ "loss": 0.0,
1082
+ "step": 1190
1083
+ },
1084
+ {
1085
+ "epoch": 30.0,
1086
+ "grad_norm": 3.80598139599897e-05,
1087
+ "learning_rate": 0.00015984723141740576,
1088
+ "loss": 0.0,
1089
+ "step": 1200
1090
+ },
1091
+ {
1092
+ "epoch": 30.0,
1093
+ "eval_loss": 1.9744732071558246e-06,
1094
+ "eval_runtime": 0.3173,
1095
+ "eval_samples_per_second": 113.449,
1096
+ "eval_steps_per_second": 15.757,
1097
+ "step": 1200
1098
+ },
1099
+ {
1100
+ "epoch": 30.25,
1101
+ "grad_norm": 3.0195853469194844e-05,
1102
+ "learning_rate": 0.00015921235511098282,
1103
+ "loss": 0.0,
1104
+ "step": 1210
1105
+ },
1106
+ {
1107
+ "epoch": 30.5,
1108
+ "grad_norm": 5.462007538881153e-05,
1109
+ "learning_rate": 0.00015857378208019863,
1110
+ "loss": 0.0,
1111
+ "step": 1220
1112
+ },
1113
+ {
1114
+ "epoch": 30.75,
1115
+ "grad_norm": 2.7883037546416745e-05,
1116
+ "learning_rate": 0.00015793155219221395,
1117
+ "loss": 0.0,
1118
+ "step": 1230
1119
+ },
1120
+ {
1121
+ "epoch": 31.0,
1122
+ "grad_norm": 4.7888908738968894e-05,
1123
+ "learning_rate": 0.00015728570554249312,
1124
+ "loss": 0.0,
1125
+ "step": 1240
1126
+ },
1127
+ {
1128
+ "epoch": 31.0,
1129
+ "eval_loss": 1.8858928569898126e-06,
1130
+ "eval_runtime": 0.3223,
1131
+ "eval_samples_per_second": 111.705,
1132
+ "eval_steps_per_second": 15.515,
1133
+ "step": 1240
1134
+ },
1135
+ {
1136
+ "epoch": 31.25,
1137
+ "grad_norm": 4.82973555335775e-05,
1138
+ "learning_rate": 0.0001566362824523008,
1139
+ "loss": 0.0,
1140
+ "step": 1250
1141
+ },
1142
+ {
1143
+ "epoch": 31.5,
1144
+ "grad_norm": 3.9442336856154725e-05,
1145
+ "learning_rate": 0.00015598332346618472,
1146
+ "loss": 0.0,
1147
+ "step": 1260
1148
+ },
1149
+ {
1150
+ "epoch": 31.75,
1151
+ "grad_norm": 3.770321563933976e-05,
1152
+ "learning_rate": 0.00015532686934944438,
1153
+ "loss": 0.0,
1154
+ "step": 1270
1155
+ },
1156
+ {
1157
+ "epoch": 32.0,
1158
+ "grad_norm": 4.669040936278179e-05,
1159
+ "learning_rate": 0.00015466696108558611,
1160
+ "loss": 0.0,
1161
+ "step": 1280
1162
+ },
1163
+ {
1164
+ "epoch": 32.0,
1165
+ "eval_loss": 1.8240966710436624e-06,
1166
+ "eval_runtime": 0.3185,
1167
+ "eval_samples_per_second": 113.013,
1168
+ "eval_steps_per_second": 15.696,
1169
+ "step": 1280
1170
+ },
1171
+ {
1172
+ "epoch": 32.25,
1173
+ "grad_norm": 2.80893400486093e-05,
1174
+ "learning_rate": 0.00015400363987376413,
1175
+ "loss": 0.0,
1176
+ "step": 1290
1177
+ },
1178
+ {
1179
+ "epoch": 32.5,
1180
+ "grad_norm": 4.817240915144794e-05,
1181
+ "learning_rate": 0.00015333694712620877,
1182
+ "loss": 0.0,
1183
+ "step": 1300
1184
+ },
1185
+ {
1186
+ "epoch": 32.75,
1187
+ "grad_norm": 4.6051696699578315e-05,
1188
+ "learning_rate": 0.00015266692446564063,
1189
+ "loss": 0.0,
1190
+ "step": 1310
1191
+ },
1192
+ {
1193
+ "epoch": 33.0,
1194
+ "grad_norm": 3.602392098400742e-05,
1195
+ "learning_rate": 0.00015199361372267252,
1196
+ "loss": 0.0,
1197
+ "step": 1320
1198
+ },
1199
+ {
1200
+ "epoch": 33.0,
1201
+ "eval_loss": 1.7236499161299434e-06,
1202
+ "eval_runtime": 0.3163,
1203
+ "eval_samples_per_second": 113.807,
1204
+ "eval_steps_per_second": 15.806,
1205
+ "step": 1320
1206
+ },
1207
+ {
1208
+ "epoch": 33.25,
1209
+ "grad_norm": 2.2813776013208553e-05,
1210
+ "learning_rate": 0.00015131705693319743,
1211
+ "loss": 0.0,
1212
+ "step": 1330
1213
+ },
1214
+ {
1215
+ "epoch": 33.5,
1216
+ "grad_norm": 7.926914986455813e-05,
1217
+ "learning_rate": 0.0001506372963357644,
1218
+ "loss": 0.0,
1219
+ "step": 1340
1220
+ },
1221
+ {
1222
+ "epoch": 33.75,
1223
+ "grad_norm": 6.877528358018026e-05,
1224
+ "learning_rate": 0.00014995437436894147,
1225
+ "loss": 0.0,
1226
+ "step": 1350
1227
+ },
1228
+ {
1229
+ "epoch": 34.0,
1230
+ "grad_norm": 2.7551081075216644e-05,
1231
+ "learning_rate": 0.0001492683336686661,
1232
+ "loss": 0.0,
1233
+ "step": 1360
1234
+ },
1235
+ {
1236
+ "epoch": 34.0,
1237
+ "eval_loss": 1.67099869941012e-06,
1238
+ "eval_runtime": 0.325,
1239
+ "eval_samples_per_second": 110.775,
1240
+ "eval_steps_per_second": 15.385,
1241
+ "step": 1360
1242
+ },
1243
+ {
1244
+ "epoch": 34.25,
1245
+ "grad_norm": 3.4323111322009936e-05,
1246
+ "learning_rate": 0.0001485792170655835,
1247
+ "loss": 0.0,
1248
+ "step": 1370
1249
+ },
1250
+ {
1251
+ "epoch": 34.5,
1252
+ "grad_norm": 3.862389348796569e-05,
1253
+ "learning_rate": 0.00014788706758237237,
1254
+ "loss": 0.0,
1255
+ "step": 1380
1256
+ },
1257
+ {
1258
+ "epoch": 34.75,
1259
+ "grad_norm": 3.117803134955466e-05,
1260
+ "learning_rate": 0.00014719192843105924,
1261
+ "loss": 0.0,
1262
+ "step": 1390
1263
+ },
1264
+ {
1265
+ "epoch": 35.0,
1266
+ "grad_norm": 3.452876626397483e-05,
1267
+ "learning_rate": 0.00014649384301032044,
1268
+ "loss": 0.0,
1269
+ "step": 1400
1270
+ },
1271
+ {
1272
+ "epoch": 35.0,
1273
+ "eval_loss": 1.6147401993293897e-06,
1274
+ "eval_runtime": 0.319,
1275
+ "eval_samples_per_second": 112.868,
1276
+ "eval_steps_per_second": 15.676,
1277
+ "step": 1400
1278
+ },
1279
+ {
1280
+ "epoch": 35.25,
1281
+ "grad_norm": 2.5607059797039255e-05,
1282
+ "learning_rate": 0.00014579285490277274,
1283
+ "loss": 0.0,
1284
+ "step": 1410
1285
+ },
1286
+ {
1287
+ "epoch": 35.5,
1288
+ "grad_norm": 7.004107465036213e-05,
1289
+ "learning_rate": 0.0001450890078722524,
1290
+ "loss": 0.0,
1291
+ "step": 1420
1292
+ },
1293
+ {
1294
+ "epoch": 35.75,
1295
+ "grad_norm": 5.070870975032449e-05,
1296
+ "learning_rate": 0.00014438234586108297,
1297
+ "loss": 0.0,
1298
+ "step": 1430
1299
+ },
1300
+ {
1301
+ "epoch": 36.0,
1302
+ "grad_norm": 2.5347033442812972e-05,
1303
+ "learning_rate": 0.00014367291298733178,
1304
+ "loss": 0.0,
1305
+ "step": 1440
1306
+ },
1307
+ {
1308
+ "epoch": 36.0,
1309
+ "eval_loss": 1.5523125966865337e-06,
1310
+ "eval_runtime": 0.3195,
1311
+ "eval_samples_per_second": 112.683,
1312
+ "eval_steps_per_second": 15.65,
1313
+ "step": 1440
1314
+ },
1315
+ {
1316
+ "epoch": 36.25,
1317
+ "grad_norm": 3.3264463127125055e-05,
1318
+ "learning_rate": 0.0001429607535420557,
1319
+ "loss": 0.0,
1320
+ "step": 1450
1321
+ },
1322
+ {
1323
+ "epoch": 36.5,
1324
+ "grad_norm": 4.0014037949731573e-05,
1325
+ "learning_rate": 0.00014224591198653595,
1326
+ "loss": 0.0,
1327
+ "step": 1460
1328
+ },
1329
+ {
1330
+ "epoch": 36.75,
1331
+ "grad_norm": 4.455630187294446e-05,
1332
+ "learning_rate": 0.00014152843294950218,
1333
+ "loss": 0.0,
1334
+ "step": 1470
1335
+ },
1336
+ {
1337
+ "epoch": 37.0,
1338
+ "grad_norm": 3.4259654057677835e-05,
1339
+ "learning_rate": 0.0001408083612243465,
1340
+ "loss": 0.0,
1341
+ "step": 1480
1342
+ },
1343
+ {
1344
+ "epoch": 37.0,
1345
+ "eval_loss": 1.506923695160367e-06,
1346
+ "eval_runtime": 0.3136,
1347
+ "eval_samples_per_second": 114.814,
1348
+ "eval_steps_per_second": 15.946,
1349
+ "step": 1480
1350
+ },
1351
+ {
1352
+ "epoch": 37.25,
1353
+ "grad_norm": 3.984866998507641e-05,
1354
+ "learning_rate": 0.00014008574176632666,
1355
+ "loss": 0.0,
1356
+ "step": 1490
1357
+ },
1358
+ {
1359
+ "epoch": 37.5,
1360
+ "grad_norm": 3.252027090638876e-05,
1361
+ "learning_rate": 0.00013936061968975957,
1362
+ "loss": 0.0,
1363
+ "step": 1500
1364
+ },
1365
+ {
1366
+ "epoch": 37.75,
1367
+ "grad_norm": 2.17838187381858e-05,
1368
+ "learning_rate": 0.00013863304026520473,
1369
+ "loss": 0.0,
1370
+ "step": 1510
1371
+ },
1372
+ {
1373
+ "epoch": 38.0,
1374
+ "grad_norm": 4.0549610275775194e-05,
1375
+ "learning_rate": 0.00013790304891663792,
1376
+ "loss": 0.0,
1377
+ "step": 1520
1378
+ },
1379
+ {
1380
+ "epoch": 38.0,
1381
+ "eval_loss": 1.457518123970658e-06,
1382
+ "eval_runtime": 0.3138,
1383
+ "eval_samples_per_second": 114.708,
1384
+ "eval_steps_per_second": 15.932,
1385
+ "step": 1520
1386
+ },
1387
+ {
1388
+ "epoch": 38.25,
1389
+ "grad_norm": 3.441906665102579e-05,
1390
+ "learning_rate": 0.00013717069121861527,
1391
+ "loss": 0.0,
1392
+ "step": 1530
1393
+ },
1394
+ {
1395
+ "epoch": 38.5,
1396
+ "grad_norm": 3.80768469767645e-05,
1397
+ "learning_rate": 0.00013643601289342803,
1398
+ "loss": 0.0,
1399
+ "step": 1540
1400
+ },
1401
+ {
1402
+ "epoch": 38.75,
1403
+ "grad_norm": 1.9130562577629462e-05,
1404
+ "learning_rate": 0.00013569905980824788,
1405
+ "loss": 0.0,
1406
+ "step": 1550
1407
+ },
1408
+ {
1409
+ "epoch": 39.0,
1410
+ "grad_norm": 2.708647480176296e-05,
1411
+ "learning_rate": 0.0001349598779722636,
1412
+ "loss": 0.0,
1413
+ "step": 1560
1414
+ },
1415
+ {
1416
+ "epoch": 39.0,
1417
+ "eval_loss": 1.4059390878173872e-06,
1418
+ "eval_runtime": 0.326,
1419
+ "eval_samples_per_second": 110.43,
1420
+ "eval_steps_per_second": 15.337,
1421
+ "step": 1560
1422
+ },
1423
+ {
1424
+ "epoch": 39.25,
1425
+ "grad_norm": 2.7261641662335023e-05,
1426
+ "learning_rate": 0.00013421851353380857,
1427
+ "loss": 0.0,
1428
+ "step": 1570
1429
+ },
1430
+ {
1431
+ "epoch": 39.5,
1432
+ "grad_norm": 3.74881892639678e-05,
1433
+ "learning_rate": 0.00013347501277747955,
1434
+ "loss": 0.0,
1435
+ "step": 1580
1436
+ },
1437
+ {
1438
+ "epoch": 39.75,
1439
+ "grad_norm": 4.151304892729968e-05,
1440
+ "learning_rate": 0.00013272942212124705,
1441
+ "loss": 0.0,
1442
+ "step": 1590
1443
+ },
1444
+ {
1445
+ "epoch": 40.0,
1446
+ "grad_norm": 2.8103966542403214e-05,
1447
+ "learning_rate": 0.0001319817881135576,
1448
+ "loss": 0.0,
1449
+ "step": 1600
1450
+ },
1451
+ {
1452
+ "epoch": 40.0,
1453
+ "eval_loss": 1.3655937891599024e-06,
1454
+ "eval_runtime": 0.3183,
1455
+ "eval_samples_per_second": 113.09,
1456
+ "eval_steps_per_second": 15.707,
1457
+ "step": 1600
1458
+ },
1459
+ {
1460
+ "epoch": 40.25,
1461
+ "grad_norm": 2.1028572518844157e-05,
1462
+ "learning_rate": 0.0001312321574304275,
1463
+ "loss": 0.0,
1464
+ "step": 1610
1465
+ },
1466
+ {
1467
+ "epoch": 40.5,
1468
+ "grad_norm": 2.917735582741443e-05,
1469
+ "learning_rate": 0.00013048057687252865,
1470
+ "loss": 0.0,
1471
+ "step": 1620
1472
+ },
1473
+ {
1474
+ "epoch": 40.75,
1475
+ "grad_norm": 3.929531158064492e-05,
1476
+ "learning_rate": 0.00012972709336226697,
1477
+ "loss": 0.0,
1478
+ "step": 1630
1479
+ },
1480
+ {
1481
+ "epoch": 41.0,
1482
+ "grad_norm": 2.542526817705948e-05,
1483
+ "learning_rate": 0.00012897175394085267,
1484
+ "loss": 0.0,
1485
+ "step": 1640
1486
+ },
1487
+ {
1488
+ "epoch": 41.0,
1489
+ "eval_loss": 1.3143367141310591e-06,
1490
+ "eval_runtime": 0.32,
1491
+ "eval_samples_per_second": 112.487,
1492
+ "eval_steps_per_second": 15.623,
1493
+ "step": 1640
1494
+ },
1495
+ {
1496
+ "epoch": 41.25,
1497
+ "grad_norm": 2.2972772057983093e-05,
1498
+ "learning_rate": 0.00012821460576536363,
1499
+ "loss": 0.0,
1500
+ "step": 1650
1501
+ },
1502
+ {
1503
+ "epoch": 41.5,
1504
+ "grad_norm": 2.710890294110868e-05,
1505
+ "learning_rate": 0.0001274556961058012,
1506
+ "loss": 0.0,
1507
+ "step": 1660
1508
+ },
1509
+ {
1510
+ "epoch": 41.75,
1511
+ "grad_norm": 7.863906648708507e-05,
1512
+ "learning_rate": 0.00012669507234213908,
1513
+ "loss": 0.0,
1514
+ "step": 1670
1515
+ },
1516
+ {
1517
+ "epoch": 42.0,
1518
+ "grad_norm": 2.5962377549149096e-05,
1519
+ "learning_rate": 0.00012593278196136525,
1520
+ "loss": 0.0,
1521
+ "step": 1680
1522
+ },
1523
+ {
1524
+ "epoch": 42.0,
1525
+ "eval_loss": 1.2861806908404105e-06,
1526
+ "eval_runtime": 0.3211,
1527
+ "eval_samples_per_second": 112.131,
1528
+ "eval_steps_per_second": 15.574,
1529
+ "step": 1680
1530
+ },
1531
+ {
1532
+ "epoch": 42.25,
1533
+ "grad_norm": 2.938141733466182e-05,
1534
+ "learning_rate": 0.00012516887255451735,
1535
+ "loss": 0.0,
1536
+ "step": 1690
1537
+ },
1538
+ {
1539
+ "epoch": 42.5,
1540
+ "grad_norm": 2.2876229195389897e-05,
1541
+ "learning_rate": 0.00012440339181371148,
1542
+ "loss": 0.0,
1543
+ "step": 1700
1544
+ },
1545
+ {
1546
+ "epoch": 42.75,
1547
+ "grad_norm": 2.188000871683471e-05,
1548
+ "learning_rate": 0.00012363638752916468,
1549
+ "loss": 0.0,
1550
+ "step": 1710
1551
+ },
1552
+ {
1553
+ "epoch": 43.0,
1554
+ "grad_norm": 2.7062182198278606e-05,
1555
+ "learning_rate": 0.00012286790758621132,
1556
+ "loss": 0.0,
1557
+ "step": 1720
1558
+ },
1559
+ {
1560
+ "epoch": 43.0,
1561
+ "eval_loss": 1.24422297176352e-06,
1562
+ "eval_runtime": 0.3203,
1563
+ "eval_samples_per_second": 112.377,
1564
+ "eval_steps_per_second": 15.608,
1565
+ "step": 1720
1566
+ },
1567
+ {
1568
+ "epoch": 43.25,
1569
+ "grad_norm": 3.9851081965025514e-05,
1570
+ "learning_rate": 0.00012209799996231358,
1571
+ "loss": 0.0,
1572
+ "step": 1730
1573
+ },
1574
+ {
1575
+ "epoch": 43.5,
1576
+ "grad_norm": 3.9189981180243194e-05,
1577
+ "learning_rate": 0.00012132671272406604,
1578
+ "loss": 0.0,
1579
+ "step": 1740
1580
+ },
1581
+ {
1582
+ "epoch": 43.75,
1583
+ "grad_norm": 2.008090086746961e-05,
1584
+ "learning_rate": 0.00012055409402419494,
1585
+ "loss": 0.0,
1586
+ "step": 1750
1587
+ },
1588
+ {
1589
+ "epoch": 44.0,
1590
+ "grad_norm": 2.994649184984155e-05,
1591
+ "learning_rate": 0.00011978019209855174,
1592
+ "loss": 0.0,
1593
+ "step": 1760
1594
+ },
1595
+ {
1596
+ "epoch": 44.0,
1597
+ "eval_loss": 1.2121387271690764e-06,
1598
+ "eval_runtime": 0.3206,
1599
+ "eval_samples_per_second": 112.281,
1600
+ "eval_steps_per_second": 15.595,
1601
+ "step": 1760
1602
+ },
1603
+ {
1604
+ "epoch": 44.25,
1605
+ "grad_norm": 1.9228473320254125e-05,
1606
+ "learning_rate": 0.0001190050552631019,
1607
+ "loss": 0.0,
1608
+ "step": 1770
1609
+ },
1610
+ {
1611
+ "epoch": 44.5,
1612
+ "grad_norm": 2.6020699806394987e-05,
1613
+ "learning_rate": 0.00011822873191090833,
1614
+ "loss": 0.0,
1615
+ "step": 1780
1616
+ },
1617
+ {
1618
+ "epoch": 44.75,
1619
+ "grad_norm": 2.0412864614627324e-05,
1620
+ "learning_rate": 0.00011745127050910998,
1621
+ "loss": 0.0,
1622
+ "step": 1790
1623
+ },
1624
+ {
1625
+ "epoch": 45.0,
1626
+ "grad_norm": 2.493833380867727e-05,
1627
+ "learning_rate": 0.00011667271959589623,
1628
+ "loss": 0.0,
1629
+ "step": 1800
1630
+ },
1631
+ {
1632
+ "epoch": 45.0,
1633
+ "eval_loss": 1.1790700682468014e-06,
1634
+ "eval_runtime": 0.3173,
1635
+ "eval_samples_per_second": 113.472,
1636
+ "eval_steps_per_second": 15.76,
1637
+ "step": 1800
1638
+ },
1639
+ {
1640
+ "epoch": 45.25,
1641
+ "grad_norm": 3.828733315458521e-05,
1642
+ "learning_rate": 0.00011589312777747644,
1643
+ "loss": 0.0,
1644
+ "step": 1810
1645
+ },
1646
+ {
1647
+ "epoch": 45.5,
1648
+ "grad_norm": 2.1567129806498997e-05,
1649
+ "learning_rate": 0.00011511254372504531,
1650
+ "loss": 0.0,
1651
+ "step": 1820
1652
+ },
1653
+ {
1654
+ "epoch": 45.75,
1655
+ "grad_norm": 1.842524579842575e-05,
1656
+ "learning_rate": 0.0001143310161717444,
1657
+ "loss": 0.0,
1658
+ "step": 1830
1659
+ },
1660
+ {
1661
+ "epoch": 46.0,
1662
+ "grad_norm": 2.736481292231474e-05,
1663
+ "learning_rate": 0.00011354859390961958,
1664
+ "loss": 0.0,
1665
+ "step": 1840
1666
+ },
1667
+ {
1668
+ "epoch": 46.0,
1669
+ "eval_loss": 1.1555836181287304e-06,
1670
+ "eval_runtime": 0.3177,
1671
+ "eval_samples_per_second": 113.308,
1672
+ "eval_steps_per_second": 15.737,
1673
+ "step": 1840
1674
+ },
1675
+ {
1676
+ "epoch": 46.25,
1677
+ "grad_norm": 3.4207103453809395e-05,
1678
+ "learning_rate": 0.0001127653257865748,
1679
+ "loss": 0.0,
1680
+ "step": 1850
1681
+ },
1682
+ {
1683
+ "epoch": 46.5,
1684
+ "grad_norm": 3.1199837394524366e-05,
1685
+ "learning_rate": 0.00011198126070332253,
1686
+ "loss": 0.0,
1687
+ "step": 1860
1688
+ },
1689
+ {
1690
+ "epoch": 46.75,
1691
+ "grad_norm": 1.3810436030325945e-05,
1692
+ "learning_rate": 0.00011119644761033078,
1693
+ "loss": 0.0,
1694
+ "step": 1870
1695
+ },
1696
+ {
1697
+ "epoch": 47.0,
1698
+ "grad_norm": 2.9521519536501728e-05,
1699
+ "learning_rate": 0.00011041093550476707,
1700
+ "loss": 0.0,
1701
+ "step": 1880
1702
+ },
1703
+ {
1704
+ "epoch": 47.0,
1705
+ "eval_loss": 1.1195420484000351e-06,
1706
+ "eval_runtime": 0.3205,
1707
+ "eval_samples_per_second": 112.332,
1708
+ "eval_steps_per_second": 15.602,
1709
+ "step": 1880
1710
+ },
1711
+ {
1712
+ "epoch": 47.25,
1713
+ "grad_norm": 1.7040036254911683e-05,
1714
+ "learning_rate": 0.00010962477342743929,
1715
+ "loss": 0.0,
1716
+ "step": 1890
1717
+ },
1718
+ {
1719
+ "epoch": 47.5,
1720
+ "grad_norm": 2.9747276130365208e-05,
1721
+ "learning_rate": 0.00010883801045973425,
1722
+ "loss": 0.0,
1723
+ "step": 1900
1724
+ },
1725
+ {
1726
+ "epoch": 47.75,
1727
+ "grad_norm": 2.880042120523285e-05,
1728
+ "learning_rate": 0.00010805069572055334,
1729
+ "loss": 0.0,
1730
+ "step": 1910
1731
+ },
1732
+ {
1733
+ "epoch": 48.0,
1734
+ "grad_norm": 2.100724850606639e-05,
1735
+ "learning_rate": 0.00010726287836324582,
1736
+ "loss": 0.0,
1737
+ "step": 1920
1738
+ },
1739
+ {
1740
+ "epoch": 48.0,
1741
+ "eval_loss": 1.1032241218345007e-06,
1742
+ "eval_runtime": 0.3192,
1743
+ "eval_samples_per_second": 112.768,
1744
+ "eval_steps_per_second": 15.662,
1745
+ "step": 1920
1746
+ },
1747
+ {
1748
+ "epoch": 48.25,
1749
+ "grad_norm": 1.7086620573536493e-05,
1750
+ "learning_rate": 0.0001064746075725404,
1751
+ "loss": 0.0,
1752
+ "step": 1930
1753
+ },
1754
+ {
1755
+ "epoch": 48.5,
1756
+ "grad_norm": 2.3707199943601154e-05,
1757
+ "learning_rate": 0.00010568593256147421,
1758
+ "loss": 0.0,
1759
+ "step": 1940
1760
+ },
1761
+ {
1762
+ "epoch": 48.75,
1763
+ "grad_norm": 1.4947347153793089e-05,
1764
+ "learning_rate": 0.00010489690256832068,
1765
+ "loss": 0.0,
1766
+ "step": 1950
1767
+ },
1768
+ {
1769
+ "epoch": 49.0,
1770
+ "grad_norm": 2.3327078451984562e-05,
1771
+ "learning_rate": 0.00010410756685351517,
1772
+ "loss": 0.0,
1773
+ "step": 1960
1774
+ },
1775
+ {
1776
+ "epoch": 49.0,
1777
+ "eval_loss": 1.0602713018670329e-06,
1778
+ "eval_runtime": 0.3334,
1779
+ "eval_samples_per_second": 107.979,
1780
+ "eval_steps_per_second": 14.997,
1781
+ "step": 1960
1782
+ },
1783
+ {
1784
+ "epoch": 49.25,
1785
+ "grad_norm": 1.931817314471118e-05,
1786
+ "learning_rate": 0.00010331797469657992,
1787
+ "loss": 0.0,
1788
+ "step": 1970
1789
+ },
1790
+ {
1791
+ "epoch": 49.5,
1792
+ "grad_norm": 2.6536048608249985e-05,
1793
+ "learning_rate": 0.00010252817539304718,
1794
+ "loss": 0.0,
1795
+ "step": 1980
1796
+ },
1797
+ {
1798
+ "epoch": 49.75,
1799
+ "grad_norm": 2.2126323528937064e-05,
1800
+ "learning_rate": 0.00010173821825138172,
1801
+ "loss": 0.0,
1802
+ "step": 1990
1803
+ },
1804
+ {
1805
+ "epoch": 50.0,
1806
+ "grad_norm": 2.2889309548190795e-05,
1807
+ "learning_rate": 0.00010094815258990241,
1808
+ "loss": 0.0,
1809
+ "step": 2000
1810
+ },
1811
+ {
1812
+ "epoch": 50.0,
1813
+ "eval_loss": 1.040821643982781e-06,
1814
+ "eval_runtime": 0.3203,
1815
+ "eval_samples_per_second": 112.396,
1816
+ "eval_steps_per_second": 15.611,
1817
+ "step": 2000
1818
+ },
1819
+ {
1820
+ "epoch": 50.25,
1821
+ "grad_norm": 2.8334068701951765e-05,
1822
+ "learning_rate": 0.00010015802773370311,
1823
+ "loss": 0.0,
1824
+ "step": 2010
1825
+ },
1826
+ {
1827
+ "epoch": 50.5,
1828
+ "grad_norm": 1.9157972928951494e-05,
1829
+ "learning_rate": 9.936789301157347e-05,
1830
+ "loss": 0.0,
1831
+ "step": 2020
1832
+ },
1833
+ {
1834
+ "epoch": 50.75,
1835
+ "grad_norm": 2.7853264327859506e-05,
1836
+ "learning_rate": 9.857779775291898e-05,
1837
+ "loss": 0.0,
1838
+ "step": 2030
1839
+ },
1840
+ {
1841
+ "epoch": 51.0,
1842
+ "grad_norm": 2.194027547375299e-05,
1843
+ "learning_rate": 9.778779128468132e-05,
1844
+ "loss": 0.0,
1845
+ "step": 2040
1846
+ },
1847
+ {
1848
+ "epoch": 51.0,
1849
+ "eval_loss": 1.013436872199236e-06,
1850
+ "eval_runtime": 0.3177,
1851
+ "eval_samples_per_second": 113.312,
1852
+ "eval_steps_per_second": 15.738,
1853
+ "step": 2040
1854
+ },
1855
+ {
1856
+ "epoch": 51.25,
1857
+ "grad_norm": 1.2561698895297013e-05,
1858
+ "learning_rate": 9.699792292825892e-05,
1859
+ "loss": 0.0,
1860
+ "step": 2050
1861
+ },
1862
+ {
1863
+ "epoch": 51.5,
1864
+ "grad_norm": 2.041015432041604e-05,
1865
+ "learning_rate": 9.620824199642764e-05,
1866
+ "loss": 0.0,
1867
+ "step": 2060
1868
+ },
1869
+ {
1870
+ "epoch": 51.75,
1871
+ "grad_norm": 3.463058601482771e-05,
1872
+ "learning_rate": 9.541879779026209e-05,
1873
+ "loss": 0.0,
1874
+ "step": 2070
1875
+ },
1876
+ {
1877
+ "epoch": 52.0,
1878
+ "grad_norm": 1.9060191334574483e-05,
1879
+ "learning_rate": 9.462963959605778e-05,
1880
+ "loss": 0.0,
1881
+ "step": 2080
1882
+ },
1883
+ {
1884
+ "epoch": 52.0,
1885
+ "eval_loss": 1.0033103308160207e-06,
1886
+ "eval_runtime": 0.3157,
1887
+ "eval_samples_per_second": 114.025,
1888
+ "eval_steps_per_second": 15.837,
1889
+ "step": 2080
1890
+ },
1891
+ {
1892
+ "epoch": 52.25,
1893
+ "grad_norm": 1.4129647752270103e-05,
1894
+ "learning_rate": 9.384081668225387e-05,
1895
+ "loss": 0.0,
1896
+ "step": 2090
1897
+ },
1898
+ {
1899
+ "epoch": 52.5,
1900
+ "grad_norm": 2.1596322767436504e-05,
1901
+ "learning_rate": 9.30523782963576e-05,
1902
+ "loss": 0.0,
1903
+ "step": 2100
1904
+ },
1905
+ {
1906
+ "epoch": 52.75,
1907
+ "grad_norm": 1.7303984350292012e-05,
1908
+ "learning_rate": 9.226437366186941e-05,
1909
+ "loss": 0.0,
1910
+ "step": 2110
1911
+ },
1912
+ {
1913
+ "epoch": 53.0,
1914
+ "grad_norm": 2.7551333914743736e-05,
1915
+ "learning_rate": 9.147685197520995e-05,
1916
+ "loss": 0.0,
1917
+ "step": 2120
1918
+ },
1919
+ {
1920
+ "epoch": 53.0,
1921
+ "eval_loss": 9.675704859546386e-07,
1922
+ "eval_runtime": 0.3184,
1923
+ "eval_samples_per_second": 113.083,
1924
+ "eval_steps_per_second": 15.706,
1925
+ "step": 2120
1926
+ },
1927
+ {
1928
+ "epoch": 53.25,
1929
+ "grad_norm": 2.0771505660377443e-05,
1930
+ "learning_rate": 9.06898624026486e-05,
1931
+ "loss": 0.0,
1932
+ "step": 2130
1933
+ },
1934
+ {
1935
+ "epoch": 53.5,
1936
+ "grad_norm": 2.2202431864570826e-05,
1937
+ "learning_rate": 8.990345407723402e-05,
1938
+ "loss": 0.0,
1939
+ "step": 2140
1940
+ },
1941
+ {
1942
+ "epoch": 53.75,
1943
+ "grad_norm": 1.3855403267371003e-05,
1944
+ "learning_rate": 8.91176760957267e-05,
1945
+ "loss": 0.0,
1946
+ "step": 2150
1947
+ },
1948
+ {
1949
+ "epoch": 54.0,
1950
+ "grad_norm": 2.2561982405022718e-05,
1951
+ "learning_rate": 8.833257751553365e-05,
1952
+ "loss": 0.0,
1953
+ "step": 2160
1954
+ },
1955
+ {
1956
+ "epoch": 54.0,
1957
+ "eval_loss": 9.524069923827483e-07,
1958
+ "eval_runtime": 0.3172,
1959
+ "eval_samples_per_second": 113.496,
1960
+ "eval_steps_per_second": 15.763,
1961
+ "step": 2160
1962
+ },
1963
+ {
1964
+ "epoch": 54.25,
1965
+ "grad_norm": 1.5506595445913263e-05,
1966
+ "learning_rate": 8.754820735164576e-05,
1967
+ "loss": 0.0,
1968
+ "step": 2170
1969
+ },
1970
+ {
1971
+ "epoch": 54.5,
1972
+ "grad_norm": 2.101029167533852e-05,
1973
+ "learning_rate": 8.676461457357776e-05,
1974
+ "loss": 0.0,
1975
+ "step": 2180
1976
+ },
1977
+ {
1978
+ "epoch": 54.75,
1979
+ "grad_norm": 1.7293437849730253e-05,
1980
+ "learning_rate": 8.598184810231088e-05,
1981
+ "loss": 0.0,
1982
+ "step": 2190
1983
+ },
1984
+ {
1985
+ "epoch": 55.0,
1986
+ "grad_norm": 2.4345905330847017e-05,
1987
+ "learning_rate": 8.519995680723854e-05,
1988
+ "loss": 0.0,
1989
+ "step": 2200
1990
+ },
1991
+ {
1992
+ "epoch": 55.0,
1993
+ "eval_loss": 9.304160357714863e-07,
1994
+ "eval_runtime": 0.3151,
1995
+ "eval_samples_per_second": 114.245,
1996
+ "eval_steps_per_second": 15.867,
1997
+ "step": 2200
1998
+ },
1999
+ {
2000
+ "epoch": 55.25,
2001
+ "grad_norm": 3.5958666558144614e-05,
2002
+ "learning_rate": 8.44189895031157e-05,
2003
+ "loss": 0.0,
2004
+ "step": 2210
2005
+ },
2006
+ {
2007
+ "epoch": 55.5,
2008
+ "grad_norm": 2.3594711819896474e-05,
2009
+ "learning_rate": 8.363899494701086e-05,
2010
+ "loss": 0.0,
2011
+ "step": 2220
2012
+ },
2013
+ {
2014
+ "epoch": 55.75,
2015
+ "grad_norm": 1.3870093425794039e-05,
2016
+ "learning_rate": 8.286002183526237e-05,
2017
+ "loss": 0.0,
2018
+ "step": 2230
2019
+ },
2020
+ {
2021
+ "epoch": 56.0,
2022
+ "grad_norm": 2.6735531719168648e-05,
2023
+ "learning_rate": 8.208211880043812e-05,
2024
+ "loss": 0.0,
2025
+ "step": 2240
2026
+ },
2027
+ {
2028
+ "epoch": 56.0,
2029
+ "eval_loss": 9.174784736387664e-07,
2030
+ "eval_runtime": 0.3129,
2031
+ "eval_samples_per_second": 115.04,
2032
+ "eval_steps_per_second": 15.978,
2033
+ "step": 2240
2034
+ },
2035
+ {
2036
+ "epoch": 56.25,
2037
+ "grad_norm": 2.9232525776023977e-05,
2038
+ "learning_rate": 8.130533440829928e-05,
2039
+ "loss": 0.0,
2040
+ "step": 2250
2041
+ },
2042
+ {
2043
+ "epoch": 56.5,
2044
+ "grad_norm": 2.4526891138521023e-05,
2045
+ "learning_rate": 8.052971715476842e-05,
2046
+ "loss": 0.0,
2047
+ "step": 2260
2048
+ },
2049
+ {
2050
+ "epoch": 56.75,
2051
+ "grad_norm": 2.6106521545443684e-05,
2052
+ "learning_rate": 7.975531546290166e-05,
2053
+ "loss": 0.0,
2054
+ "step": 2270
2055
+ },
2056
+ {
2057
+ "epoch": 57.0,
2058
+ "grad_norm": 1.784413143468555e-05,
2059
+ "learning_rate": 7.898217767986562e-05,
2060
+ "loss": 0.0,
2061
+ "step": 2280
2062
+ },
2063
+ {
2064
+ "epoch": 57.0,
2065
+ "eval_loss": 9.079113851839793e-07,
2066
+ "eval_runtime": 0.3236,
2067
+ "eval_samples_per_second": 111.239,
2068
+ "eval_steps_per_second": 15.45,
2069
+ "step": 2280
2070
+ },
2071
+ {
2072
+ "epoch": 57.25,
2073
+ "grad_norm": 1.9261695342720486e-05,
2074
+ "learning_rate": 7.821035207391912e-05,
2075
+ "loss": 0.0,
2076
+ "step": 2290
2077
+ },
2078
+ {
2079
+ "epoch": 57.5,
2080
+ "grad_norm": 3.491761162877083e-05,
2081
+ "learning_rate": 7.743988683139943e-05,
2082
+ "loss": 0.0,
2083
+ "step": 2300
2084
+ },
2085
+ {
2086
+ "epoch": 57.75,
2087
+ "grad_norm": 1.3563810171035584e-05,
2088
+ "learning_rate": 7.66708300537143e-05,
2089
+ "loss": 0.0,
2090
+ "step": 2310
2091
+ },
2092
+ {
2093
+ "epoch": 58.0,
2094
+ "grad_norm": 1.2282480383873917e-05,
2095
+ "learning_rate": 7.590322975433857e-05,
2096
+ "loss": 0.0,
2097
+ "step": 2320
2098
+ },
2099
+ {
2100
+ "epoch": 58.0,
2101
+ "eval_loss": 8.861284754857479e-07,
2102
+ "eval_runtime": 0.3181,
2103
+ "eval_samples_per_second": 113.172,
2104
+ "eval_steps_per_second": 15.718,
2105
+ "step": 2320
2106
+ },
2107
+ {
2108
+ "epoch": 58.25,
2109
+ "grad_norm": 2.858146035578102e-05,
2110
+ "learning_rate": 7.51371338558168e-05,
2111
+ "loss": 0.0,
2112
+ "step": 2330
2113
+ },
2114
+ {
2115
+ "epoch": 58.5,
2116
+ "grad_norm": 2.0420882719918154e-05,
2117
+ "learning_rate": 7.437259018677136e-05,
2118
+ "loss": 0.0,
2119
+ "step": 2340
2120
+ },
2121
+ {
2122
+ "epoch": 58.75,
2123
+ "grad_norm": 9.892805792333093e-06,
2124
+ "learning_rate": 7.360964647891637e-05,
2125
+ "loss": 0.0,
2126
+ "step": 2350
2127
+ },
2128
+ {
2129
+ "epoch": 59.0,
2130
+ "grad_norm": 2.6135967345908284e-05,
2131
+ "learning_rate": 7.284835036407776e-05,
2132
+ "loss": 0.0,
2133
+ "step": 2360
2134
+ },
2135
+ {
2136
+ "epoch": 59.0,
2137
+ "eval_loss": 8.719437687432219e-07,
2138
+ "eval_runtime": 0.3182,
2139
+ "eval_samples_per_second": 113.153,
2140
+ "eval_steps_per_second": 15.716,
2141
+ "step": 2360
2142
+ },
2143
+ {
2144
+ "epoch": 59.25,
2145
+ "grad_norm": 3.855082468362525e-05,
2146
+ "learning_rate": 7.208874937121946e-05,
2147
+ "loss": 0.0,
2148
+ "step": 2370
2149
+ },
2150
+ {
2151
+ "epoch": 59.5,
2152
+ "grad_norm": 2.4621716875117272e-05,
2153
+ "learning_rate": 7.133089092347627e-05,
2154
+ "loss": 0.0,
2155
+ "step": 2380
2156
+ },
2157
+ {
2158
+ "epoch": 59.75,
2159
+ "grad_norm": 1.3933644368080422e-05,
2160
+ "learning_rate": 7.057482233519302e-05,
2161
+ "loss": 0.0,
2162
+ "step": 2390
2163
+ },
2164
+ {
2165
+ "epoch": 60.0,
2166
+ "grad_norm": 1.3702153410122264e-05,
2167
+ "learning_rate": 6.982059080897059e-05,
2168
+ "loss": 0.0,
2169
+ "step": 2400
2170
+ },
2171
+ {
2172
+ "epoch": 60.0,
2173
+ "eval_loss": 8.514528531122778e-07,
2174
+ "eval_runtime": 0.317,
2175
+ "eval_samples_per_second": 113.548,
2176
+ "eval_steps_per_second": 15.771,
2177
+ "step": 2400
2178
+ },
2179
+ {
2180
+ "epoch": 60.25,
2181
+ "grad_norm": 1.285933922190452e-05,
2182
+ "learning_rate": 6.906824343271916e-05,
2183
+ "loss": 0.0,
2184
+ "step": 2410
2185
+ },
2186
+ {
2187
+ "epoch": 60.5,
2188
+ "grad_norm": 1.753455217112787e-05,
2189
+ "learning_rate": 6.831782717671828e-05,
2190
+ "loss": 0.0,
2191
+ "step": 2420
2192
+ },
2193
+ {
2194
+ "epoch": 60.75,
2195
+ "grad_norm": 1.9983261154266074e-05,
2196
+ "learning_rate": 6.756938889068454e-05,
2197
+ "loss": 0.0,
2198
+ "step": 2430
2199
+ },
2200
+ {
2201
+ "epoch": 61.0,
2202
+ "grad_norm": 1.9891913325409405e-05,
2203
+ "learning_rate": 6.682297530084664e-05,
2204
+ "loss": 0.0,
2205
+ "step": 2440
2206
+ },
2207
+ {
2208
+ "epoch": 61.0,
2209
+ "eval_loss": 8.335572942996805e-07,
2210
+ "eval_runtime": 0.3281,
2211
+ "eval_samples_per_second": 109.721,
2212
+ "eval_steps_per_second": 15.239,
2213
+ "step": 2440
2214
+ },
2215
+ {
2216
+ "epoch": 61.25,
2217
+ "grad_norm": 1.8422002540319227e-05,
2218
+ "learning_rate": 6.607863300702807e-05,
2219
+ "loss": 0.0,
2220
+ "step": 2450
2221
+ },
2222
+ {
2223
+ "epoch": 61.5,
2224
+ "grad_norm": 1.9453251297818497e-05,
2225
+ "learning_rate": 6.533640847973808e-05,
2226
+ "loss": 0.0,
2227
+ "step": 2460
2228
+ },
2229
+ {
2230
+ "epoch": 61.75,
2231
+ "grad_norm": 1.48242861541803e-05,
2232
+ "learning_rate": 6.459634805727011e-05,
2233
+ "loss": 0.0,
2234
+ "step": 2470
2235
+ },
2236
+ {
2237
+ "epoch": 62.0,
2238
+ "grad_norm": 1.9470420738798566e-05,
2239
+ "learning_rate": 6.385849794280915e-05,
2240
+ "loss": 0.0,
2241
+ "step": 2480
2242
+ },
2243
+ {
2244
+ "epoch": 62.0,
2245
+ "eval_loss": 8.260683443950256e-07,
2246
+ "eval_runtime": 0.3297,
2247
+ "eval_samples_per_second": 109.182,
2248
+ "eval_steps_per_second": 15.164,
2249
+ "step": 2480
2250
+ },
2251
+ {
2252
+ "epoch": 62.25,
2253
+ "grad_norm": 2.976124051201623e-05,
2254
+ "learning_rate": 6.312290420154694e-05,
2255
+ "loss": 0.0,
2256
+ "step": 2490
2257
+ },
2258
+ {
2259
+ "epoch": 62.5,
2260
+ "grad_norm": 4.272747173672542e-05,
2261
+ "learning_rate": 6.238961275780613e-05,
2262
+ "loss": 0.0,
2263
+ "step": 2500
2264
+ },
2265
+ {
2266
+ "epoch": 62.75,
2267
+ "grad_norm": 1.2389010407787282e-05,
2268
+ "learning_rate": 6.165866939217328e-05,
2269
+ "loss": 0.0,
2270
+ "step": 2510
2271
+ },
2272
+ {
2273
+ "epoch": 63.0,
2274
+ "grad_norm": 1.4621130503655877e-05,
2275
+ "learning_rate": 6.0930119738640445e-05,
2276
+ "loss": 0.0,
2277
+ "step": 2520
2278
+ },
2279
+ {
2280
+ "epoch": 63.0,
2281
+ "eval_loss": 8.148024335241644e-07,
2282
+ "eval_runtime": 0.3292,
2283
+ "eval_samples_per_second": 109.354,
2284
+ "eval_steps_per_second": 15.188,
2285
+ "step": 2520
2286
+ },
2287
+ {
2288
+ "epoch": 63.25,
2289
+ "grad_norm": 1.0234934961772524e-05,
2290
+ "learning_rate": 6.020400928175637e-05,
2291
+ "loss": 0.0,
2292
+ "step": 2530
2293
+ },
2294
+ {
2295
+ "epoch": 63.5,
2296
+ "grad_norm": 1.937254455697257e-05,
2297
+ "learning_rate": 5.948038335378683e-05,
2298
+ "loss": 0.0,
2299
+ "step": 2540
2300
+ },
2301
+ {
2302
+ "epoch": 63.75,
2303
+ "grad_norm": 1.764351145538967e-05,
2304
+ "learning_rate": 5.8759287131884246e-05,
2305
+ "loss": 0.0,
2306
+ "step": 2550
2307
+ },
2308
+ {
2309
+ "epoch": 64.0,
2310
+ "grad_norm": 2.3509826860390604e-05,
2311
+ "learning_rate": 5.804076563526744e-05,
2312
+ "loss": 0.0,
2313
+ "step": 2560
2314
+ },
2315
+ {
2316
+ "epoch": 64.0,
2317
+ "eval_loss": 8.072562422967167e-07,
2318
+ "eval_runtime": 0.3217,
2319
+ "eval_samples_per_second": 111.904,
2320
+ "eval_steps_per_second": 15.542,
2321
+ "step": 2560
2322
+ },
2323
+ {
2324
+ "epoch": 64.25,
2325
+ "grad_norm": 1.288153634959599e-05,
2326
+ "learning_rate": 5.732486372241088e-05,
2327
+ "loss": 0.0,
2328
+ "step": 2570
2329
+ },
2330
+ {
2331
+ "epoch": 64.5,
2332
+ "grad_norm": 1.7124617443187162e-05,
2333
+ "learning_rate": 5.6611626088244194e-05,
2334
+ "loss": 0.0,
2335
+ "step": 2580
2336
+ },
2337
+ {
2338
+ "epoch": 64.75,
2339
+ "grad_norm": 3.4207390854135156e-05,
2340
+ "learning_rate": 5.5901097261361636e-05,
2341
+ "loss": 0.0,
2342
+ "step": 2590
2343
+ },
2344
+ {
2345
+ "epoch": 65.0,
2346
+ "grad_norm": 1.607052945473697e-05,
2347
+ "learning_rate": 5.5193321601242156e-05,
2348
+ "loss": 0.0,
2349
+ "step": 2600
2350
+ },
2351
+ {
2352
+ "epoch": 65.0,
2353
+ "eval_loss": 7.960065886436496e-07,
2354
+ "eval_runtime": 0.3236,
2355
+ "eval_samples_per_second": 111.263,
2356
+ "eval_steps_per_second": 15.453,
2357
+ "step": 2600
2358
+ },
2359
+ {
2360
+ "epoch": 65.25,
2361
+ "grad_norm": 2.7799209419754334e-05,
2362
+ "learning_rate": 5.448834329548016e-05,
2363
+ "loss": 0.0,
2364
+ "step": 2610
2365
+ },
2366
+ {
2367
+ "epoch": 65.5,
2368
+ "grad_norm": 1.6963076632237062e-05,
2369
+ "learning_rate": 5.378620635702643e-05,
2370
+ "loss": 0.0,
2371
+ "step": 2620
2372
+ },
2373
+ {
2374
+ "epoch": 65.75,
2375
+ "grad_norm": 1.7011914678732865e-05,
2376
+ "learning_rate": 5.308695462144068e-05,
2377
+ "loss": 0.0,
2378
+ "step": 2630
2379
+ },
2380
+ {
2381
+ "epoch": 66.0,
2382
+ "grad_norm": 1.719038118608296e-05,
2383
+ "learning_rate": 5.239063174415466e-05,
2384
+ "loss": 0.0,
2385
+ "step": 2640
2386
+ },
2387
+ {
2388
+ "epoch": 66.0,
2389
+ "eval_loss": 7.857981927372748e-07,
2390
+ "eval_runtime": 0.3159,
2391
+ "eval_samples_per_second": 113.963,
2392
+ "eval_steps_per_second": 15.828,
2393
+ "step": 2640
2394
+ },
2395
+ {
2396
+ "epoch": 66.25,
2397
+ "grad_norm": 1.87909827218391e-05,
2398
+ "learning_rate": 5.1697281197746596e-05,
2399
+ "loss": 0.0,
2400
+ "step": 2650
2401
+ },
2402
+ {
2403
+ "epoch": 66.5,
2404
+ "grad_norm": 1.997711297008209e-05,
2405
+ "learning_rate": 5.1006946269227376e-05,
2406
+ "loss": 0.0,
2407
+ "step": 2660
2408
+ },
2409
+ {
2410
+ "epoch": 66.75,
2411
+ "grad_norm": 2.0850015062023886e-05,
2412
+ "learning_rate": 5.03196700573378e-05,
2413
+ "loss": 0.0,
2414
+ "step": 2670
2415
+ },
2416
+ {
2417
+ "epoch": 67.0,
2418
+ "grad_norm": 2.2285566956270486e-05,
2419
+ "learning_rate": 4.963549546985799e-05,
2420
+ "loss": 0.0,
2421
+ "step": 2680
2422
+ },
2423
+ {
2424
+ "epoch": 67.0,
2425
+ "eval_loss": 7.721130259596976e-07,
2426
+ "eval_runtime": 0.3244,
2427
+ "eval_samples_per_second": 110.965,
2428
+ "eval_steps_per_second": 15.412,
2429
+ "step": 2680
2430
+ },
2431
+ {
2432
+ "epoch": 67.25,
2433
+ "grad_norm": 1.6444948414573446e-05,
2434
+ "learning_rate": 4.895446522092868e-05,
2435
+ "loss": 0.0,
2436
+ "step": 2690
2437
+ },
2438
+ {
2439
+ "epoch": 67.5,
2440
+ "grad_norm": 1.5268993593053892e-05,
2441
+ "learning_rate": 4.8276621828384225e-05,
2442
+ "loss": 0.0,
2443
+ "step": 2700
2444
+ },
2445
+ {
2446
+ "epoch": 67.75,
2447
+ "grad_norm": 1.7810820281738415e-05,
2448
+ "learning_rate": 4.760200761109852e-05,
2449
+ "loss": 0.0,
2450
+ "step": 2710
2451
+ },
2452
+ {
2453
+ "epoch": 68.0,
2454
+ "grad_norm": 1.7248778021894395e-05,
2455
+ "learning_rate": 4.6930664686342526e-05,
2456
+ "loss": 0.0,
2457
+ "step": 2720
2458
+ },
2459
+ {
2460
+ "epoch": 68.0,
2461
+ "eval_loss": 7.603679819112585e-07,
2462
+ "eval_runtime": 0.3117,
2463
+ "eval_samples_per_second": 115.513,
2464
+ "eval_steps_per_second": 16.044,
2465
+ "step": 2720
2466
+ },
2467
+ {
2468
+ "epoch": 68.25,
2469
+ "grad_norm": 2.448088525852654e-05,
2470
+ "learning_rate": 4.626263496715525e-05,
2471
+ "loss": 0.0,
2472
+ "step": 2730
2473
+ },
2474
+ {
2475
+ "epoch": 68.5,
2476
+ "grad_norm": 1.745475674397312e-05,
2477
+ "learning_rate": 4.559796015972677e-05,
2478
+ "loss": 0.0,
2479
+ "step": 2740
2480
+ },
2481
+ {
2482
+ "epoch": 68.75,
2483
+ "grad_norm": 1.6836595023050904e-05,
2484
+ "learning_rate": 4.49366817607945e-05,
2485
+ "loss": 0.0,
2486
+ "step": 2750
2487
+ },
2488
+ {
2489
+ "epoch": 69.0,
2490
+ "grad_norm": 2.0379737179609947e-05,
2491
+ "learning_rate": 4.427884105505251e-05,
2492
+ "loss": 0.0,
2493
+ "step": 2760
2494
+ },
2495
+ {
2496
+ "epoch": 69.0,
2497
+ "eval_loss": 7.604816119055613e-07,
2498
+ "eval_runtime": 0.3177,
2499
+ "eval_samples_per_second": 113.329,
2500
+ "eval_steps_per_second": 15.74,
2501
+ "step": 2760
2502
+ },
2503
+ {
2504
+ "epoch": 69.25,
2505
+ "grad_norm": 2.278652391396463e-05,
2506
+ "learning_rate": 4.362447911257406e-05,
2507
+ "loss": 0.0,
2508
+ "step": 2770
2509
+ },
2510
+ {
2511
+ "epoch": 69.5,
2512
+ "grad_norm": 1.2965742826054338e-05,
2513
+ "learning_rate": 4.297363678624753e-05,
2514
+ "loss": 0.0,
2515
+ "step": 2780
2516
+ },
2517
+ {
2518
+ "epoch": 69.75,
2519
+ "grad_norm": 1.8777451259666122e-05,
2520
+ "learning_rate": 4.2326354709225955e-05,
2521
+ "loss": 0.0,
2522
+ "step": 2790
2523
+ },
2524
+ {
2525
+ "epoch": 70.0,
2526
+ "grad_norm": 2.3537781089544296e-05,
2527
+ "learning_rate": 4.168267329239002e-05,
2528
+ "loss": 0.0,
2529
+ "step": 2800
2530
+ },
2531
+ {
2532
+ "epoch": 70.0,
2533
+ "eval_loss": 7.471541039194562e-07,
2534
+ "eval_runtime": 0.3194,
2535
+ "eval_samples_per_second": 112.703,
2536
+ "eval_steps_per_second": 15.653,
2537
+ "step": 2800
2538
+ },
2539
+ {
2540
+ "epoch": 70.25,
2541
+ "grad_norm": 1.4215344890544657e-05,
2542
+ "learning_rate": 4.104263272182546e-05,
2543
+ "loss": 0.0,
2544
+ "step": 2810
2545
+ },
2546
+ {
2547
+ "epoch": 70.5,
2548
+ "grad_norm": 1.8491147784516215e-05,
2549
+ "learning_rate": 4.0406272956313895e-05,
2550
+ "loss": 0.0,
2551
+ "step": 2820
2552
+ },
2553
+ {
2554
+ "epoch": 70.75,
2555
+ "grad_norm": 1.7631069567869417e-05,
2556
+ "learning_rate": 3.9773633724838265e-05,
2557
+ "loss": 0.0,
2558
+ "step": 2830
2559
+ },
2560
+ {
2561
+ "epoch": 71.0,
2562
+ "grad_norm": 1.9227232769480906e-05,
2563
+ "learning_rate": 3.914475452410257e-05,
2564
+ "loss": 0.0,
2565
+ "step": 2840
2566
+ },
2567
+ {
2568
+ "epoch": 71.0,
2569
+ "eval_loss": 7.375128916464746e-07,
2570
+ "eval_runtime": 0.321,
2571
+ "eval_samples_per_second": 112.152,
2572
+ "eval_steps_per_second": 15.577,
2573
+ "step": 2840
2574
+ },
2575
+ {
2576
+ "epoch": 71.25,
2577
+ "grad_norm": 1.6681302440701984e-05,
2578
+ "learning_rate": 3.8519674616065784e-05,
2579
+ "loss": 0.0,
2580
+ "step": 2850
2581
+ },
2582
+ {
2583
+ "epoch": 71.5,
2584
+ "grad_norm": 1.8769558664644137e-05,
2585
+ "learning_rate": 3.789843302549096e-05,
2586
+ "loss": 0.0,
2587
+ "step": 2860
2588
+ },
2589
+ {
2590
+ "epoch": 71.75,
2591
+ "grad_norm": 8.559236448490992e-06,
2592
+ "learning_rate": 3.7281068537508565e-05,
2593
+ "loss": 0.0,
2594
+ "step": 2870
2595
+ },
2596
+ {
2597
+ "epoch": 72.0,
2598
+ "grad_norm": 1.4404205103346612e-05,
2599
+ "learning_rate": 3.6667619695195285e-05,
2600
+ "loss": 0.0,
2601
+ "step": 2880
2602
+ },
2603
+ {
2604
+ "epoch": 72.0,
2605
+ "eval_loss": 7.320029453694588e-07,
2606
+ "eval_runtime": 0.3152,
2607
+ "eval_samples_per_second": 114.223,
2608
+ "eval_steps_per_second": 15.864,
2609
+ "step": 2880
2610
+ },
2611
+ {
2612
+ "epoch": 72.25,
2613
+ "grad_norm": 1.8397522580926307e-05,
2614
+ "learning_rate": 3.605812479716767e-05,
2615
+ "loss": 0.0,
2616
+ "step": 2890
2617
+ },
2618
+ {
2619
+ "epoch": 72.5,
2620
+ "grad_norm": 1.5880750652286224e-05,
2621
+ "learning_rate": 3.545262189519092e-05,
2622
+ "loss": 0.0,
2623
+ "step": 2900
2624
+ },
2625
+ {
2626
+ "epoch": 72.75,
2627
+ "grad_norm": 1.8930764781543985e-05,
2628
+ "learning_rate": 3.4851148791803465e-05,
2629
+ "loss": 0.0,
2630
+ "step": 2910
2631
+ },
2632
+ {
2633
+ "epoch": 73.0,
2634
+ "grad_norm": 4.1914405301213264e-05,
2635
+ "learning_rate": 3.425374303795675e-05,
2636
+ "loss": 0.0,
2637
+ "step": 2920
2638
+ },
2639
+ {
2640
+ "epoch": 73.0,
2641
+ "eval_loss": 7.22367474281782e-07,
2642
+ "eval_runtime": 0.319,
2643
+ "eval_samples_per_second": 112.859,
2644
+ "eval_steps_per_second": 15.675,
2645
+ "step": 2920
2646
+ },
2647
+ {
2648
+ "epoch": 73.25,
2649
+ "grad_norm": 1.0584836672933307e-05,
2650
+ "learning_rate": 3.3660441930671006e-05,
2651
+ "loss": 0.0,
2652
+ "step": 2930
2653
+ },
2654
+ {
2655
+ "epoch": 73.5,
2656
+ "grad_norm": 1.819963290472515e-05,
2657
+ "learning_rate": 3.3071282510706624e-05,
2658
+ "loss": 0.0,
2659
+ "step": 2940
2660
+ },
2661
+ {
2662
+ "epoch": 73.75,
2663
+ "grad_norm": 1.8003340301220305e-05,
2664
+ "learning_rate": 3.248630156025158e-05,
2665
+ "loss": 0.0,
2666
+ "step": 2950
2667
+ },
2668
+ {
2669
+ "epoch": 74.0,
2670
+ "grad_norm": 1.5387213352369145e-05,
2671
+ "learning_rate": 3.1905535600625314e-05,
2672
+ "loss": 0.0,
2673
+ "step": 2960
2674
+ },
2675
+ {
2676
+ "epoch": 74.0,
2677
+ "eval_loss": 7.147688734221447e-07,
2678
+ "eval_runtime": 0.3171,
2679
+ "eval_samples_per_second": 113.526,
2680
+ "eval_steps_per_second": 15.767,
2681
+ "step": 2960
2682
+ },
2683
+ {
2684
+ "epoch": 74.25,
2685
+ "grad_norm": 2.1973037291900255e-05,
2686
+ "learning_rate": 3.1329020889998306e-05,
2687
+ "loss": 0.0,
2688
+ "step": 2970
2689
+ },
2690
+ {
2691
+ "epoch": 74.5,
2692
+ "grad_norm": 1.8727620044955984e-05,
2693
+ "learning_rate": 3.075679342112874e-05,
2694
+ "loss": 0.0,
2695
+ "step": 2980
2696
+ },
2697
+ {
2698
+ "epoch": 74.75,
2699
+ "grad_norm": 1.0095293873746414e-05,
2700
+ "learning_rate": 3.01888889191152e-05,
2701
+ "loss": 0.0,
2702
+ "step": 2990
2703
+ },
2704
+ {
2705
+ "epoch": 75.0,
2706
+ "grad_norm": 1.2027586308249738e-05,
2707
+ "learning_rate": 2.9625342839166316e-05,
2708
+ "loss": 0.0,
2709
+ "step": 3000
2710
+ },
2711
+ {
2712
+ "epoch": 75.0,
2713
+ "eval_loss": 7.11524990038015e-07,
2714
+ "eval_runtime": 0.3322,
2715
+ "eval_samples_per_second": 108.367,
2716
+ "eval_steps_per_second": 15.051,
2717
+ "step": 3000
2718
+ },
2719
+ {
2720
+ "epoch": 75.25,
2721
+ "grad_norm": 2.197036155848764e-05,
2722
+ "learning_rate": 2.9066190364387437e-05,
2723
+ "loss": 0.0,
2724
+ "step": 3010
2725
+ },
2726
+ {
2727
+ "epoch": 75.5,
2728
+ "grad_norm": 1.3477620086632669e-05,
2729
+ "learning_rate": 2.8511466403583766e-05,
2730
+ "loss": 0.0,
2731
+ "step": 3020
2732
+ },
2733
+ {
2734
+ "epoch": 75.75,
2735
+ "grad_norm": 1.1739802175725345e-05,
2736
+ "learning_rate": 2.796120558908124e-05,
2737
+ "loss": 0.0,
2738
+ "step": 3030
2739
+ },
2740
+ {
2741
+ "epoch": 76.0,
2742
+ "grad_norm": 3.1627434509573504e-05,
2743
+ "learning_rate": 2.7415442274564273e-05,
2744
+ "loss": 0.0,
2745
+ "step": 3040
2746
+ },
2747
+ {
2748
+ "epoch": 76.0,
2749
+ "eval_loss": 7.128418815227633e-07,
2750
+ "eval_runtime": 0.315,
2751
+ "eval_samples_per_second": 114.285,
2752
+ "eval_steps_per_second": 15.873,
2753
+ "step": 3040
2754
+ },
2755
+ {
2756
+ "epoch": 76.25,
2757
+ "grad_norm": 9.673092790762894e-06,
2758
+ "learning_rate": 2.6874210532930855e-05,
2759
+ "loss": 0.0,
2760
+ "step": 3050
2761
+ },
2762
+ {
2763
+ "epoch": 76.5,
2764
+ "grad_norm": 1.989353768294677e-05,
2765
+ "learning_rate": 2.6337544154165604e-05,
2766
+ "loss": 0.0,
2767
+ "step": 3060
2768
+ },
2769
+ {
2770
+ "epoch": 76.75,
2771
+ "grad_norm": 1.5490039004362188e-05,
2772
+ "learning_rate": 2.5805476643229952e-05,
2773
+ "loss": 0.0,
2774
+ "step": 3070
2775
+ },
2776
+ {
2777
+ "epoch": 77.0,
2778
+ "grad_norm": 1.1932146662729792e-05,
2779
+ "learning_rate": 2.527804121797048e-05,
2780
+ "loss": 0.0,
2781
+ "step": 3080
2782
+ },
2783
+ {
2784
+ "epoch": 77.0,
2785
+ "eval_loss": 7.000676305324305e-07,
2786
+ "eval_runtime": 0.3245,
2787
+ "eval_samples_per_second": 110.942,
2788
+ "eval_steps_per_second": 15.409,
2789
+ "step": 3080
2790
+ },
2791
+ {
2792
+ "epoch": 77.25,
2793
+ "grad_norm": 1.2189483641122933e-05,
2794
+ "learning_rate": 2.4755270807045174e-05,
2795
+ "loss": 0.0,
2796
+ "step": 3090
2797
+ },
2798
+ {
2799
+ "epoch": 77.5,
2800
+ "grad_norm": 2.792781378957443e-05,
2801
+ "learning_rate": 2.423719804786737e-05,
2802
+ "loss": 0.0,
2803
+ "step": 3100
2804
+ },
2805
+ {
2806
+ "epoch": 77.75,
2807
+ "grad_norm": 1.3213076272222679e-05,
2808
+ "learning_rate": 2.3723855284568462e-05,
2809
+ "loss": 0.0,
2810
+ "step": 3110
2811
+ },
2812
+ {
2813
+ "epoch": 78.0,
2814
+ "grad_norm": 2.2985013856668957e-05,
2815
+ "learning_rate": 2.321527456597833e-05,
2816
+ "loss": 0.0,
2817
+ "step": 3120
2818
+ },
2819
+ {
2820
+ "epoch": 78.0,
2821
+ "eval_loss": 6.937642069715366e-07,
2822
+ "eval_runtime": 0.323,
2823
+ "eval_samples_per_second": 111.463,
2824
+ "eval_steps_per_second": 15.481,
2825
+ "step": 3120
2826
+ },
2827
+ {
2828
+ "epoch": 78.25,
2829
+ "grad_norm": 1.1034126146114431e-05,
2830
+ "learning_rate": 2.2711487643624675e-05,
2831
+ "loss": 0.0,
2832
+ "step": 3130
2833
+ },
2834
+ {
2835
+ "epoch": 78.5,
2836
+ "grad_norm": 1.3156452041584998e-05,
2837
+ "learning_rate": 2.2212525969750643e-05,
2838
+ "loss": 0.0,
2839
+ "step": 3140
2840
+ },
2841
+ {
2842
+ "epoch": 78.75,
2843
+ "grad_norm": 1.0150353773497045e-05,
2844
+ "learning_rate": 2.171842069535116e-05,
2845
+ "loss": 0.0,
2846
+ "step": 3150
2847
+ },
2848
+ {
2849
+ "epoch": 79.0,
2850
+ "grad_norm": 3.457269485807046e-05,
2851
+ "learning_rate": 2.1229202668228197e-05,
2852
+ "loss": 0.0,
2853
+ "step": 3160
2854
+ },
2855
+ {
2856
+ "epoch": 79.0,
2857
+ "eval_loss": 6.983178195696382e-07,
2858
+ "eval_runtime": 0.3211,
2859
+ "eval_samples_per_second": 112.129,
2860
+ "eval_steps_per_second": 15.573,
2861
+ "step": 3160
2862
+ },
2863
+ {
2864
+ "epoch": 79.25,
2865
+ "grad_norm": 1.4804916645516641e-05,
2866
+ "learning_rate": 2.074490243106485e-05,
2867
+ "loss": 0.0,
2868
+ "step": 3170
2869
+ },
2870
+ {
2871
+ "epoch": 79.5,
2872
+ "grad_norm": 1.8004166122409515e-05,
2873
+ "learning_rate": 2.026555021951858e-05,
2874
+ "loss": 0.0,
2875
+ "step": 3180
2876
+ },
2877
+ {
2878
+ "epoch": 79.75,
2879
+ "grad_norm": 2.1705473045585677e-05,
2880
+ "learning_rate": 1.9791175960333487e-05,
2881
+ "loss": 0.0,
2882
+ "step": 3190
2883
+ },
2884
+ {
2885
+ "epoch": 80.0,
2886
+ "grad_norm": 1.0873730388993863e-05,
2887
+ "learning_rate": 1.932180926947189e-05,
2888
+ "loss": 0.0,
2889
+ "step": 3200
2890
+ },
2891
+ {
2892
+ "epoch": 80.0,
2893
+ "eval_loss": 6.858597316750092e-07,
2894
+ "eval_runtime": 0.3385,
2895
+ "eval_samples_per_second": 106.338,
2896
+ "eval_steps_per_second": 14.769,
2897
+ "step": 3200
2898
+ },
2899
+ {
2900
+ "epoch": 80.25,
2901
+ "grad_norm": 1.706531475065276e-05,
2902
+ "learning_rate": 1.8857479450265503e-05,
2903
+ "loss": 0.0,
2904
+ "step": 3210
2905
+ },
2906
+ {
2907
+ "epoch": 80.5,
2908
+ "grad_norm": 2.120017961715348e-05,
2909
+ "learning_rate": 1.839821549158579e-05,
2910
+ "loss": 0.0,
2911
+ "step": 3220
2912
+ },
2913
+ {
2914
+ "epoch": 80.75,
2915
+ "grad_norm": 1.3771560588793363e-05,
2916
+ "learning_rate": 1.794404606603434e-05,
2917
+ "loss": 0.0,
2918
+ "step": 3230
2919
+ },
2920
+ {
2921
+ "epoch": 81.0,
2922
+ "grad_norm": 1.798778430384118e-05,
2923
+ "learning_rate": 1.74949995281526e-05,
2924
+ "loss": 0.0,
2925
+ "step": 3240
2926
+ },
2927
+ {
2928
+ "epoch": 81.0,
2929
+ "eval_loss": 6.865074624329282e-07,
2930
+ "eval_runtime": 0.3201,
2931
+ "eval_samples_per_second": 112.473,
2932
+ "eval_steps_per_second": 15.621,
2933
+ "step": 3240
2934
+ },
2935
+ {
2936
+ "epoch": 81.25,
2937
+ "grad_norm": 1.246057126991218e-05,
2938
+ "learning_rate": 1.705110391265179e-05,
2939
+ "loss": 0.0,
2940
+ "step": 3250
2941
+ },
2942
+ {
2943
+ "epoch": 81.5,
2944
+ "grad_norm": 2.145354483218398e-05,
2945
+ "learning_rate": 1.6612386932662627e-05,
2946
+ "loss": 0.0,
2947
+ "step": 3260
2948
+ },
2949
+ {
2950
+ "epoch": 81.75,
2951
+ "grad_norm": 9.91187789622927e-06,
2952
+ "learning_rate": 1.6178875978005058e-05,
2953
+ "loss": 0.0,
2954
+ "step": 3270
2955
+ },
2956
+ {
2957
+ "epoch": 82.0,
2958
+ "grad_norm": 2.266502815473359e-05,
2959
+ "learning_rate": 1.57505981134784e-05,
2960
+ "loss": 0.0,
2961
+ "step": 3280
2962
+ },
2963
+ {
2964
+ "epoch": 82.0,
2965
+ "eval_loss": 6.804688723605068e-07,
2966
+ "eval_runtime": 0.3188,
2967
+ "eval_samples_per_second": 112.926,
2968
+ "eval_steps_per_second": 15.684,
2969
+ "step": 3280
2970
+ },
2971
+ {
2972
+ "epoch": 82.25,
2973
+ "grad_norm": 1.2877572771685664e-05,
2974
+ "learning_rate": 1.5327580077171587e-05,
2975
+ "loss": 0.0,
2976
+ "step": 3290
2977
+ },
2978
+ {
2979
+ "epoch": 82.5,
2980
+ "grad_norm": 2.6757013984024525e-05,
2981
+ "learning_rate": 1.4909848278793782e-05,
2982
+ "loss": 0.0,
2983
+ "step": 3300
2984
+ },
2985
+ {
2986
+ "epoch": 82.75,
2987
+ "grad_norm": 1.6225705621764064e-05,
2988
+ "learning_rate": 1.4497428798025736e-05,
2989
+ "loss": 0.0,
2990
+ "step": 3310
2991
+ },
2992
+ {
2993
+ "epoch": 83.0,
2994
+ "grad_norm": 1.1286027074675076e-05,
2995
+ "learning_rate": 1.4090347382891455e-05,
2996
+ "loss": 0.0,
2997
+ "step": 3320
2998
+ },
2999
+ {
3000
+ "epoch": 83.0,
3001
+ "eval_loss": 6.749939984729281e-07,
3002
+ "eval_runtime": 0.3162,
3003
+ "eval_samples_per_second": 113.859,
3004
+ "eval_steps_per_second": 15.814,
3005
+ "step": 3320
3006
+ },
3007
+ {
3008
+ "epoch": 83.25,
3009
+ "grad_norm": 1.8980854292749427e-05,
3010
+ "learning_rate": 1.3688629448150747e-05,
3011
+ "loss": 0.0,
3012
+ "step": 3330
3013
+ },
3014
+ {
3015
+ "epoch": 83.5,
3016
+ "grad_norm": 1.4416699741559569e-05,
3017
+ "learning_rate": 1.3292300073712615e-05,
3018
+ "loss": 0.0,
3019
+ "step": 3340
3020
+ },
3021
+ {
3022
+ "epoch": 83.75,
3023
+ "grad_norm": 2.0767629393958487e-05,
3024
+ "learning_rate": 1.2901384003069328e-05,
3025
+ "loss": 0.0,
3026
+ "step": 3350
3027
+ },
3028
+ {
3029
+ "epoch": 84.0,
3030
+ "grad_norm": 1.8946042473544367e-05,
3031
+ "learning_rate": 1.2515905641751824e-05,
3032
+ "loss": 0.0,
3033
+ "step": 3360
3034
+ },
3035
+ {
3036
+ "epoch": 84.0,
3037
+ "eval_loss": 6.791258897465013e-07,
3038
+ "eval_runtime": 0.3165,
3039
+ "eval_samples_per_second": 113.733,
3040
+ "eval_steps_per_second": 15.796,
3041
+ "step": 3360
3042
+ },
3043
+ {
3044
+ "epoch": 84.25,
3045
+ "grad_norm": 2.060659790004138e-05,
3046
+ "learning_rate": 1.2135889055805837e-05,
3047
+ "loss": 0.0,
3048
+ "step": 3370
3049
+ },
3050
+ {
3051
+ "epoch": 84.5,
3052
+ "grad_norm": 2.793761814245954e-05,
3053
+ "learning_rate": 1.1761357970289588e-05,
3054
+ "loss": 0.0,
3055
+ "step": 3380
3056
+ },
3057
+ {
3058
+ "epoch": 84.75,
3059
+ "grad_norm": 1.5529620213783346e-05,
3060
+ "learning_rate": 1.1392335767792505e-05,
3061
+ "loss": 0.0,
3062
+ "step": 3390
3063
+ },
3064
+ {
3065
+ "epoch": 85.0,
3066
+ "grad_norm": 1.4130602721706964e-05,
3067
+ "learning_rate": 1.1028845486975403e-05,
3068
+ "loss": 0.0,
3069
+ "step": 3400
3070
+ },
3071
+ {
3072
+ "epoch": 85.0,
3073
+ "eval_loss": 6.698858783238393e-07,
3074
+ "eval_runtime": 0.3198,
3075
+ "eval_samples_per_second": 112.588,
3076
+ "eval_steps_per_second": 15.637,
3077
+ "step": 3400
3078
+ },
3079
+ {
3080
+ "epoch": 85.25,
3081
+ "grad_norm": 1.6358992070308886e-05,
3082
+ "learning_rate": 1.0670909821132136e-05,
3083
+ "loss": 0.0,
3084
+ "step": 3410
3085
+ },
3086
+ {
3087
+ "epoch": 85.5,
3088
+ "grad_norm": 3.4115200833184645e-05,
3089
+ "learning_rate": 1.0318551116772923e-05,
3090
+ "loss": 0.0,
3091
+ "step": 3420
3092
+ },
3093
+ {
3094
+ "epoch": 85.75,
3095
+ "grad_norm": 1.7895346900331788e-05,
3096
+ "learning_rate": 9.971791372229044e-06,
3097
+ "loss": 0.0,
3098
+ "step": 3430
3099
+ },
3100
+ {
3101
+ "epoch": 86.0,
3102
+ "grad_norm": 1.2962746950506698e-05,
3103
+ "learning_rate": 9.630652236279625e-06,
3104
+ "loss": 0.0,
3105
+ "step": 3440
3106
+ },
3107
+ {
3108
+ "epoch": 86.0,
3109
+ "eval_loss": 6.754976880074537e-07,
3110
+ "eval_runtime": 0.3233,
3111
+ "eval_samples_per_second": 111.361,
3112
+ "eval_steps_per_second": 15.467,
3113
+ "step": 3440
3114
+ },
3115
+ {
3116
+ "epoch": 86.25,
3117
+ "grad_norm": 1.5895795513642952e-05,
3118
+ "learning_rate": 9.295155006799917e-06,
3119
+ "loss": 0.0,
3120
+ "step": 3450
3121
+ },
3122
+ {
3123
+ "epoch": 86.5,
3124
+ "grad_norm": 1.6078374756034464e-05,
3125
+ "learning_rate": 8.96532062943175e-06,
3126
+ "loss": 0.0,
3127
+ "step": 3460
3128
+ },
3129
+ {
3130
+ "epoch": 86.75,
3131
+ "grad_norm": 1.0541101801209152e-05,
3132
+ "learning_rate": 8.641169696275831e-06,
3133
+ "loss": 0.0,
3134
+ "step": 3470
3135
+ },
3136
+ {
3137
+ "epoch": 87.0,
3138
+ "grad_norm": 1.940759102581069e-05,
3139
+ "learning_rate": 8.322722444606079e-06,
3140
+ "loss": 0.0,
3141
+ "step": 3480
3142
+ },
3143
+ {
3144
+ "epoch": 87.0,
3145
+ "eval_loss": 6.688477469651843e-07,
3146
+ "eval_runtime": 0.3141,
3147
+ "eval_samples_per_second": 114.612,
3148
+ "eval_steps_per_second": 15.918,
3149
+ "step": 3480
3150
+ },
3151
+ {
3152
+ "epoch": 87.25,
3153
+ "grad_norm": 1.1041982361348346e-05,
3154
+ "learning_rate": 8.009998755606263e-06,
3155
+ "loss": 0.0,
3156
+ "step": 3490
3157
+ },
3158
+ {
3159
+ "epoch": 87.5,
3160
+ "grad_norm": 2.7860867703566328e-05,
3161
+ "learning_rate": 7.703018153128739e-06,
3162
+ "loss": 0.0,
3163
+ "step": 3500
3164
+ },
3165
+ {
3166
+ "epoch": 87.75,
3167
+ "grad_norm": 8.007168617041316e-06,
3168
+ "learning_rate": 7.401799802475573e-06,
3169
+ "loss": 0.0,
3170
+ "step": 3510
3171
+ },
3172
+ {
3173
+ "epoch": 88.0,
3174
+ "grad_norm": 1.64666762429988e-05,
3175
+ "learning_rate": 7.106362509202036e-06,
3176
+ "loss": 0.0,
3177
+ "step": 3520
3178
+ },
3179
+ {
3180
+ "epoch": 88.0,
3181
+ "eval_loss": 6.721416525579116e-07,
3182
+ "eval_runtime": 0.3256,
3183
+ "eval_samples_per_second": 110.567,
3184
+ "eval_steps_per_second": 15.357,
3185
+ "step": 3520
3186
+ },
3187
+ {
3188
+ "epoch": 88.25,
3189
+ "grad_norm": 1.7286309230257757e-05,
3190
+ "learning_rate": 6.816724717942435e-06,
3191
+ "loss": 0.0,
3192
+ "step": 3530
3193
+ },
3194
+ {
3195
+ "epoch": 88.5,
3196
+ "grad_norm": 2.7998203222523443e-05,
3197
+ "learning_rate": 6.532904511258753e-06,
3198
+ "loss": 0.0,
3199
+ "step": 3540
3200
+ },
3201
+ {
3202
+ "epoch": 88.75,
3203
+ "grad_norm": 1.3463857612805441e-05,
3204
+ "learning_rate": 6.254919608511544e-06,
3205
+ "loss": 0.0,
3206
+ "step": 3550
3207
+ },
3208
+ {
3209
+ "epoch": 89.0,
3210
+ "grad_norm": 1.6592677638982423e-05,
3211
+ "learning_rate": 5.982787364753872e-06,
3212
+ "loss": 0.0,
3213
+ "step": 3560
3214
+ },
3215
+ {
3216
+ "epoch": 89.0,
3217
+ "eval_loss": 6.658329425590637e-07,
3218
+ "eval_runtime": 0.3184,
3219
+ "eval_samples_per_second": 113.061,
3220
+ "eval_steps_per_second": 15.703,
3221
+ "step": 3560
3222
+ },
3223
+ {
3224
+ "epoch": 89.25,
3225
+ "grad_norm": 2.4364608179894276e-05,
3226
+ "learning_rate": 5.716524769647646e-06,
3227
+ "loss": 0.0,
3228
+ "step": 3570
3229
+ },
3230
+ {
3231
+ "epoch": 89.5,
3232
+ "grad_norm": 1.557578070787713e-05,
3233
+ "learning_rate": 5.456148446402976e-06,
3234
+ "loss": 0.0,
3235
+ "step": 3580
3236
+ },
3237
+ {
3238
+ "epoch": 89.75,
3239
+ "grad_norm": 9.06794684851775e-06,
3240
+ "learning_rate": 5.2016746507404295e-06,
3241
+ "loss": 0.0,
3242
+ "step": 3590
3243
+ },
3244
+ {
3245
+ "epoch": 90.0,
3246
+ "grad_norm": 2.0602865333785303e-05,
3247
+ "learning_rate": 4.953119269876061e-06,
3248
+ "loss": 0.0,
3249
+ "step": 3600
3250
+ },
3251
+ {
3252
+ "epoch": 90.0,
3253
+ "eval_loss": 6.674051178379159e-07,
3254
+ "eval_runtime": 0.3268,
3255
+ "eval_samples_per_second": 110.152,
3256
+ "eval_steps_per_second": 15.299,
3257
+ "step": 3600
3258
+ },
3259
+ {
3260
+ "epoch": 90.25,
3261
+ "grad_norm": 2.491854138497729e-05,
3262
+ "learning_rate": 4.710497821529625e-06,
3263
+ "loss": 0.0,
3264
+ "step": 3610
3265
+ },
3266
+ {
3267
+ "epoch": 90.5,
3268
+ "grad_norm": 1.2203651749587152e-05,
3269
+ "learning_rate": 4.473825452955716e-06,
3270
+ "loss": 0.0,
3271
+ "step": 3620
3272
+ },
3273
+ {
3274
+ "epoch": 90.75,
3275
+ "grad_norm": 2.5209032173734158e-05,
3276
+ "learning_rate": 4.2431169399981485e-06,
3277
+ "loss": 0.0,
3278
+ "step": 3630
3279
+ },
3280
+ {
3281
+ "epoch": 91.0,
3282
+ "grad_norm": 1.514551604486769e-05,
3283
+ "learning_rate": 4.018386686167452e-06,
3284
+ "loss": 0.0,
3285
+ "step": 3640
3286
+ },
3287
+ {
3288
+ "epoch": 91.0,
3289
+ "eval_loss": 6.590207135559467e-07,
3290
+ "eval_runtime": 0.3159,
3291
+ "eval_samples_per_second": 113.952,
3292
+ "eval_steps_per_second": 15.827,
3293
+ "step": 3640
3294
+ },
3295
+ {
3296
+ "epoch": 91.25,
3297
+ "grad_norm": 9.24188134376891e-06,
3298
+ "learning_rate": 3.7996487217416223e-06,
3299
+ "loss": 0.0,
3300
+ "step": 3650
3301
+ },
3302
+ {
3303
+ "epoch": 91.5,
3304
+ "grad_norm": 1.9695198716362938e-05,
3305
+ "learning_rate": 3.5869167028902195e-06,
3306
+ "loss": 0.0,
3307
+ "step": 3660
3308
+ },
3309
+ {
3310
+ "epoch": 91.75,
3311
+ "grad_norm": 8.883437658369076e-06,
3312
+ "learning_rate": 3.380203910821833e-06,
3313
+ "loss": 0.0,
3314
+ "step": 3670
3315
+ },
3316
+ {
3317
+ "epoch": 92.0,
3318
+ "grad_norm": 3.180091880494729e-05,
3319
+ "learning_rate": 3.1795232509547633e-06,
3320
+ "loss": 0.0,
3321
+ "step": 3680
3322
+ },
3323
+ {
3324
+ "epoch": 92.0,
3325
+ "eval_loss": 6.601708264497574e-07,
3326
+ "eval_runtime": 0.3151,
3327
+ "eval_samples_per_second": 114.24,
3328
+ "eval_steps_per_second": 15.867,
3329
+ "step": 3680
3330
+ },
3331
+ {
3332
+ "epoch": 92.25,
3333
+ "grad_norm": 2.3148995751398616e-05,
3334
+ "learning_rate": 2.98488725211149e-06,
3335
+ "loss": 0.0,
3336
+ "step": 3690
3337
+ },
3338
+ {
3339
+ "epoch": 92.5,
3340
+ "grad_norm": 1.9166613128618337e-05,
3341
+ "learning_rate": 2.796308065736364e-06,
3342
+ "loss": 0.0,
3343
+ "step": 3700
3344
+ },
3345
+ {
3346
+ "epoch": 92.75,
3347
+ "grad_norm": 1.4863600881653838e-05,
3348
+ "learning_rate": 2.6137974651370134e-06,
3349
+ "loss": 0.0,
3350
+ "step": 3710
3351
+ },
3352
+ {
3353
+ "epoch": 93.0,
3354
+ "grad_norm": 1.7678094081929885e-05,
3355
+ "learning_rate": 2.4373668447493224e-06,
3356
+ "loss": 0.0,
3357
+ "step": 3720
3358
+ },
3359
+ {
3360
+ "epoch": 93.0,
3361
+ "eval_loss": 6.622615842388768e-07,
3362
+ "eval_runtime": 0.3193,
3363
+ "eval_samples_per_second": 112.738,
3364
+ "eval_steps_per_second": 15.658,
3365
+ "step": 3720
3366
+ },
3367
+ {
3368
+ "epoch": 93.25,
3369
+ "grad_norm": 2.3845455871196464e-05,
3370
+ "learning_rate": 2.2670272194260324e-06,
3371
+ "loss": 0.0,
3372
+ "step": 3730
3373
+ },
3374
+ {
3375
+ "epoch": 93.5,
3376
+ "grad_norm": 1.4557038412021939e-05,
3377
+ "learning_rate": 2.102789223749102e-06,
3378
+ "loss": 0.0,
3379
+ "step": 3740
3380
+ },
3381
+ {
3382
+ "epoch": 93.75,
3383
+ "grad_norm": 2.4488541384926066e-05,
3384
+ "learning_rate": 1.9446631113657187e-06,
3385
+ "loss": 0.0,
3386
+ "step": 3750
3387
+ },
3388
+ {
3389
+ "epoch": 94.0,
3390
+ "grad_norm": 1.9359116777195595e-05,
3391
+ "learning_rate": 1.7926587543482088e-06,
3392
+ "loss": 0.0,
3393
+ "step": 3760
3394
+ },
3395
+ {
3396
+ "epoch": 94.0,
3397
+ "eval_loss": 6.639800744778768e-07,
3398
+ "eval_runtime": 0.3201,
3399
+ "eval_samples_per_second": 112.453,
3400
+ "eval_steps_per_second": 15.618,
3401
+ "step": 3760
3402
+ },
3403
+ {
3404
+ "epoch": 94.25,
3405
+ "grad_norm": 1.9722852812265046e-05,
3406
+ "learning_rate": 1.6467856425776863e-06,
3407
+ "loss": 0.0,
3408
+ "step": 3770
3409
+ },
3410
+ {
3411
+ "epoch": 94.5,
3412
+ "grad_norm": 1.831287045206409e-05,
3413
+ "learning_rate": 1.5070528831515384e-06,
3414
+ "loss": 0.0,
3415
+ "step": 3780
3416
+ },
3417
+ {
3418
+ "epoch": 94.75,
3419
+ "grad_norm": 2.3000593500910327e-05,
3420
+ "learning_rate": 1.3734691998149474e-06,
3421
+ "loss": 0.0,
3422
+ "step": 3790
3423
+ },
3424
+ {
3425
+ "epoch": 95.0,
3426
+ "grad_norm": 1.1854316653625574e-05,
3427
+ "learning_rate": 1.246042932416136e-06,
3428
+ "loss": 0.0,
3429
+ "step": 3800
3430
+ },
3431
+ {
3432
+ "epoch": 95.0,
3433
+ "eval_loss": 6.561905934177048e-07,
3434
+ "eval_runtime": 0.318,
3435
+ "eval_samples_per_second": 113.209,
3436
+ "eval_steps_per_second": 15.724,
3437
+ "step": 3800
3438
+ },
3439
+ {
3440
+ "epoch": 95.25,
3441
+ "grad_norm": 1.4117299542704131e-05,
3442
+ "learning_rate": 1.1247820363858075e-06,
3443
+ "loss": 0.0,
3444
+ "step": 3810
3445
+ },
3446
+ {
3447
+ "epoch": 95.5,
3448
+ "grad_norm": 1.986858478630893e-05,
3449
+ "learning_rate": 1.00969408224042e-06,
3450
+ "loss": 0.0,
3451
+ "step": 3820
3452
+ },
3453
+ {
3454
+ "epoch": 95.75,
3455
+ "grad_norm": 2.425446109555196e-05,
3456
+ "learning_rate": 9.007862551095314e-07,
3457
+ "loss": 0.0,
3458
+ "step": 3830
3459
+ },
3460
+ {
3461
+ "epoch": 96.0,
3462
+ "grad_norm": 1.7652260794420727e-05,
3463
+ "learning_rate": 7.980653542872584e-07,
3464
+ "loss": 0.0,
3465
+ "step": 3840
3466
+ },
3467
+ {
3468
+ "epoch": 96.0,
3469
+ "eval_loss": 6.501233542621776e-07,
3470
+ "eval_runtime": 0.3244,
3471
+ "eval_samples_per_second": 110.979,
3472
+ "eval_steps_per_second": 15.414,
3473
+ "step": 3840
3474
+ },
3475
+ {
3476
+ "epoch": 96.25,
3477
+ "grad_norm": 1.0838626621989533e-05,
3478
+ "learning_rate": 7.015377928077827e-07,
3479
+ "loss": 0.0,
3480
+ "step": 3850
3481
+ },
3482
+ {
3483
+ "epoch": 96.5,
3484
+ "grad_norm": 1.3126472367730457e-05,
3485
+ "learning_rate": 6.11209597044926e-07,
3486
+ "loss": 0.0,
3487
+ "step": 3860
3488
+ },
3489
+ {
3490
+ "epoch": 96.75,
3491
+ "grad_norm": 2.100517667713575e-05,
3492
+ "learning_rate": 5.27086406335997e-07,
3493
+ "loss": 0.0,
3494
+ "step": 3870
3495
+ },
3496
+ {
3497
+ "epoch": 97.0,
3498
+ "grad_norm": 1.3467181815940421e-05,
3499
+ "learning_rate": 4.4917347262962705e-07,
3500
+ "loss": 0.0,
3501
+ "step": 3880
3502
+ },
3503
+ {
3504
+ "epoch": 97.0,
3505
+ "eval_loss": 6.613539653699263e-07,
3506
+ "eval_runtime": 0.3133,
3507
+ "eval_samples_per_second": 114.905,
3508
+ "eval_steps_per_second": 15.959,
3509
+ "step": 3880
3510
+ },
3511
+ {
3512
+ "epoch": 97.25,
3513
+ "grad_norm": 2.3665135813644156e-05,
3514
+ "learning_rate": 3.774756601579443e-07,
3515
+ "loss": 0.0,
3516
+ "step": 3890
3517
+ },
3518
+ {
3519
+ "epoch": 97.5,
3520
+ "grad_norm": 1.761297244229354e-05,
3521
+ "learning_rate": 3.119974451328833e-07,
3522
+ "loss": 0.0,
3523
+ "step": 3900
3524
+ },
3525
+ {
3526
+ "epoch": 97.75,
3527
+ "grad_norm": 2.0256773495930247e-05,
3528
+ "learning_rate": 2.5274291546669717e-07,
3529
+ "loss": 0.0,
3530
+ "step": 3910
3531
+ },
3532
+ {
3533
+ "epoch": 98.0,
3534
+ "grad_norm": 1.0930380994977895e-05,
3535
+ "learning_rate": 1.9971577051678404e-07,
3536
+ "loss": 0.0,
3537
+ "step": 3920
3538
+ },
3539
+ {
3540
+ "epoch": 98.0,
3541
+ "eval_loss": 6.56454744785151e-07,
3542
+ "eval_runtime": 0.3159,
3543
+ "eval_samples_per_second": 113.953,
3544
+ "eval_steps_per_second": 15.827,
3545
+ "step": 3920
3546
+ },
3547
+ {
3548
+ "epoch": 98.25,
3549
+ "grad_norm": 2.0974179278709926e-05,
3550
+ "learning_rate": 1.5291932085468307e-07,
3551
+ "loss": 0.0,
3552
+ "step": 3930
3553
+ },
3554
+ {
3555
+ "epoch": 98.5,
3556
+ "grad_norm": 2.5038380044861697e-05,
3557
+ "learning_rate": 1.1235648805945075e-07,
3558
+ "loss": 0.0,
3559
+ "step": 3940
3560
  }
3561
  ],
3562
  "logging_steps": 10,
 
3576
  "attributes": {}
3577
  }
3578
  },
3579
+ "total_flos": 1.658819094595502e+17,
3580
  "train_batch_size": 1,
3581
  "trial_name": null,
3582
  "trial_params": null