ManyingZ commited on
Commit
86adb77
·
verified ·
1 Parent(s): 13babf7

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +1053 -3
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7eaf165321a6e07d20dfb4acf0b71c58ce8bd857e3963bdf551bd937c35ebe5e
3
  size 3705288
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:824a420a29fbca187fa0b6e671b0317cd1adf88bba812da28f574cf5fa0d02a3
3
  size 3705288
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4fb0c49d2beff6cc27e40fe90e9eda9eb8e07a2d6b5742058d0507fc8e982a55
3
  size 2213690
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:73ce32829785e98d533baacbe635c9f455ccb83097a89bb1320503636d55672c
3
  size 2213690
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6d451be845325aaf5529b57ca9d6ff558484e3afd1212dcb496ff63ca3323c12
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:20c684281fc59eb041b568ca6312fe070f3ba7bbd2cfa4e1743a07104a2ddde8
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dd293d9ce0598f9847da19abf5d46d556cd79a0ffc0ab198425114ba155d0d8b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cda7ce864d0e71320eb0cb58ba5c2f7aa8429fdb142b72675c9c8df9d5b58d17
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 73.21537522879805,
5
  "eval_steps": 500,
6
- "global_step": 15000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5257,6 +5257,1056 @@
5257
  "learning_rate": 5.320197044334976e-05,
5258
  "loss": 0.2625,
5259
  "step": 15000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5260
  }
5261
  ],
5262
  "logging_steps": 20,
@@ -5276,7 +6326,7 @@
5276
  "attributes": {}
5277
  }
5278
  },
5279
- "total_flos": 2.988930606140621e+17,
5280
  "train_batch_size": 1,
5281
  "trial_name": null,
5282
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 87.85845027455765,
5
  "eval_steps": 500,
6
+ "global_step": 18000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5257
  "learning_rate": 5.320197044334976e-05,
5258
  "loss": 0.2625,
5259
  "step": 15000
5260
+ },
5261
+ {
5262
+ "epoch": 73.31299572910311,
5263
+ "grad_norm": 3.005783796310425,
5264
+ "learning_rate": 5.3004926108374385e-05,
5265
+ "loss": 0.2589,
5266
+ "step": 15020
5267
+ },
5268
+ {
5269
+ "epoch": 73.41061622940818,
5270
+ "grad_norm": 2.7578892707824707,
5271
+ "learning_rate": 5.280788177339901e-05,
5272
+ "loss": 0.2519,
5273
+ "step": 15040
5274
+ },
5275
+ {
5276
+ "epoch": 73.50823672971325,
5277
+ "grad_norm": 3.286733627319336,
5278
+ "learning_rate": 5.2610837438423646e-05,
5279
+ "loss": 0.2603,
5280
+ "step": 15060
5281
+ },
5282
+ {
5283
+ "epoch": 73.6058572300183,
5284
+ "grad_norm": 2.323225975036621,
5285
+ "learning_rate": 5.241379310344828e-05,
5286
+ "loss": 0.2576,
5287
+ "step": 15080
5288
+ },
5289
+ {
5290
+ "epoch": 73.70347773032337,
5291
+ "grad_norm": 2.407222032546997,
5292
+ "learning_rate": 5.2216748768472914e-05,
5293
+ "loss": 0.253,
5294
+ "step": 15100
5295
+ },
5296
+ {
5297
+ "epoch": 73.80109823062843,
5298
+ "grad_norm": 3.0755960941314697,
5299
+ "learning_rate": 5.201970443349754e-05,
5300
+ "loss": 0.261,
5301
+ "step": 15120
5302
+ },
5303
+ {
5304
+ "epoch": 73.8987187309335,
5305
+ "grad_norm": 1.9469565153121948,
5306
+ "learning_rate": 5.182266009852217e-05,
5307
+ "loss": 0.2556,
5308
+ "step": 15140
5309
+ },
5310
+ {
5311
+ "epoch": 73.99633923123857,
5312
+ "grad_norm": 3.5689964294433594,
5313
+ "learning_rate": 5.1625615763546795e-05,
5314
+ "loss": 0.2718,
5315
+ "step": 15160
5316
+ },
5317
+ {
5318
+ "epoch": 74.09395973154362,
5319
+ "grad_norm": 1.9299124479293823,
5320
+ "learning_rate": 5.142857142857143e-05,
5321
+ "loss": 0.2497,
5322
+ "step": 15180
5323
+ },
5324
+ {
5325
+ "epoch": 74.19158023184869,
5326
+ "grad_norm": 2.1597163677215576,
5327
+ "learning_rate": 5.123152709359606e-05,
5328
+ "loss": 0.2526,
5329
+ "step": 15200
5330
+ },
5331
+ {
5332
+ "epoch": 74.28920073215376,
5333
+ "grad_norm": 2.4359443187713623,
5334
+ "learning_rate": 5.10344827586207e-05,
5335
+ "loss": 0.2557,
5336
+ "step": 15220
5337
+ },
5338
+ {
5339
+ "epoch": 74.38682123245881,
5340
+ "grad_norm": 2.449601411819458,
5341
+ "learning_rate": 5.0837438423645324e-05,
5342
+ "loss": 0.2628,
5343
+ "step": 15240
5344
+ },
5345
+ {
5346
+ "epoch": 74.48444173276388,
5347
+ "grad_norm": 2.5450046062469482,
5348
+ "learning_rate": 5.064039408866995e-05,
5349
+ "loss": 0.2683,
5350
+ "step": 15260
5351
+ },
5352
+ {
5353
+ "epoch": 74.58206223306894,
5354
+ "grad_norm": 2.499568462371826,
5355
+ "learning_rate": 5.044334975369458e-05,
5356
+ "loss": 0.2456,
5357
+ "step": 15280
5358
+ },
5359
+ {
5360
+ "epoch": 74.67968273337401,
5361
+ "grad_norm": 2.276536703109741,
5362
+ "learning_rate": 5.024630541871922e-05,
5363
+ "loss": 0.2613,
5364
+ "step": 15300
5365
+ },
5366
+ {
5367
+ "epoch": 74.77730323367908,
5368
+ "grad_norm": 6.047021865844727,
5369
+ "learning_rate": 5.0049261083743846e-05,
5370
+ "loss": 0.2591,
5371
+ "step": 15320
5372
+ },
5373
+ {
5374
+ "epoch": 74.87492373398413,
5375
+ "grad_norm": 2.7853705883026123,
5376
+ "learning_rate": 4.985221674876848e-05,
5377
+ "loss": 0.2584,
5378
+ "step": 15340
5379
+ },
5380
+ {
5381
+ "epoch": 74.9725442342892,
5382
+ "grad_norm": 2.658870220184326,
5383
+ "learning_rate": 4.9655172413793107e-05,
5384
+ "loss": 0.2485,
5385
+ "step": 15360
5386
+ },
5387
+ {
5388
+ "epoch": 75.07016473459427,
5389
+ "grad_norm": 1.9290242195129395,
5390
+ "learning_rate": 4.9458128078817734e-05,
5391
+ "loss": 0.2456,
5392
+ "step": 15380
5393
+ },
5394
+ {
5395
+ "epoch": 75.16778523489933,
5396
+ "grad_norm": 2.4340288639068604,
5397
+ "learning_rate": 4.926108374384237e-05,
5398
+ "loss": 0.2517,
5399
+ "step": 15400
5400
+ },
5401
+ {
5402
+ "epoch": 75.2654057352044,
5403
+ "grad_norm": 1.7368818521499634,
5404
+ "learning_rate": 4.9064039408866995e-05,
5405
+ "loss": 0.245,
5406
+ "step": 15420
5407
+ },
5408
+ {
5409
+ "epoch": 75.36302623550945,
5410
+ "grad_norm": 3.224472999572754,
5411
+ "learning_rate": 4.886699507389163e-05,
5412
+ "loss": 0.2512,
5413
+ "step": 15440
5414
+ },
5415
+ {
5416
+ "epoch": 75.46064673581452,
5417
+ "grad_norm": 2.9347827434539795,
5418
+ "learning_rate": 4.866995073891626e-05,
5419
+ "loss": 0.252,
5420
+ "step": 15460
5421
+ },
5422
+ {
5423
+ "epoch": 75.55826723611959,
5424
+ "grad_norm": 3.1281368732452393,
5425
+ "learning_rate": 4.847290640394089e-05,
5426
+ "loss": 0.2662,
5427
+ "step": 15480
5428
+ },
5429
+ {
5430
+ "epoch": 75.65588773642465,
5431
+ "grad_norm": 2.1834158897399902,
5432
+ "learning_rate": 4.827586206896552e-05,
5433
+ "loss": 0.2549,
5434
+ "step": 15500
5435
+ },
5436
+ {
5437
+ "epoch": 75.75350823672972,
5438
+ "grad_norm": 2.4959053993225098,
5439
+ "learning_rate": 4.807881773399015e-05,
5440
+ "loss": 0.2489,
5441
+ "step": 15520
5442
+ },
5443
+ {
5444
+ "epoch": 75.85112873703477,
5445
+ "grad_norm": 1.9630552530288696,
5446
+ "learning_rate": 4.788177339901478e-05,
5447
+ "loss": 0.2685,
5448
+ "step": 15540
5449
+ },
5450
+ {
5451
+ "epoch": 75.94874923733984,
5452
+ "grad_norm": 2.9730660915374756,
5453
+ "learning_rate": 4.768472906403941e-05,
5454
+ "loss": 0.2568,
5455
+ "step": 15560
5456
+ },
5457
+ {
5458
+ "epoch": 76.04636973764491,
5459
+ "grad_norm": 2.492307186126709,
5460
+ "learning_rate": 4.748768472906404e-05,
5461
+ "loss": 0.254,
5462
+ "step": 15580
5463
+ },
5464
+ {
5465
+ "epoch": 76.14399023794996,
5466
+ "grad_norm": 2.1463494300842285,
5467
+ "learning_rate": 4.729064039408867e-05,
5468
+ "loss": 0.2623,
5469
+ "step": 15600
5470
+ },
5471
+ {
5472
+ "epoch": 76.24161073825503,
5473
+ "grad_norm": 2.957017421722412,
5474
+ "learning_rate": 4.7093596059113306e-05,
5475
+ "loss": 0.2576,
5476
+ "step": 15620
5477
+ },
5478
+ {
5479
+ "epoch": 76.3392312385601,
5480
+ "grad_norm": 2.1611711978912354,
5481
+ "learning_rate": 4.689655172413793e-05,
5482
+ "loss": 0.2447,
5483
+ "step": 15640
5484
+ },
5485
+ {
5486
+ "epoch": 76.43685173886516,
5487
+ "grad_norm": 3.1399998664855957,
5488
+ "learning_rate": 4.669950738916256e-05,
5489
+ "loss": 0.2586,
5490
+ "step": 15660
5491
+ },
5492
+ {
5493
+ "epoch": 76.53447223917023,
5494
+ "grad_norm": 2.817157030105591,
5495
+ "learning_rate": 4.6502463054187194e-05,
5496
+ "loss": 0.2439,
5497
+ "step": 15680
5498
+ },
5499
+ {
5500
+ "epoch": 76.63209273947528,
5501
+ "grad_norm": 1.3343191146850586,
5502
+ "learning_rate": 4.630541871921182e-05,
5503
+ "loss": 0.2522,
5504
+ "step": 15700
5505
+ },
5506
+ {
5507
+ "epoch": 76.72971323978035,
5508
+ "grad_norm": 2.9455504417419434,
5509
+ "learning_rate": 4.6108374384236455e-05,
5510
+ "loss": 0.2606,
5511
+ "step": 15720
5512
+ },
5513
+ {
5514
+ "epoch": 76.82733374008542,
5515
+ "grad_norm": 2.981264352798462,
5516
+ "learning_rate": 4.591133004926109e-05,
5517
+ "loss": 0.2482,
5518
+ "step": 15740
5519
+ },
5520
+ {
5521
+ "epoch": 76.92495424039048,
5522
+ "grad_norm": 2.9296011924743652,
5523
+ "learning_rate": 4.5714285714285716e-05,
5524
+ "loss": 0.2578,
5525
+ "step": 15760
5526
+ },
5527
+ {
5528
+ "epoch": 77.02257474069555,
5529
+ "grad_norm": 2.8159282207489014,
5530
+ "learning_rate": 4.551724137931035e-05,
5531
+ "loss": 0.2571,
5532
+ "step": 15780
5533
+ },
5534
+ {
5535
+ "epoch": 77.12019524100062,
5536
+ "grad_norm": 2.184053421020508,
5537
+ "learning_rate": 4.532019704433498e-05,
5538
+ "loss": 0.2548,
5539
+ "step": 15800
5540
+ },
5541
+ {
5542
+ "epoch": 77.21781574130567,
5543
+ "grad_norm": 2.1801810264587402,
5544
+ "learning_rate": 4.5123152709359604e-05,
5545
+ "loss": 0.2367,
5546
+ "step": 15820
5547
+ },
5548
+ {
5549
+ "epoch": 77.31543624161074,
5550
+ "grad_norm": 2.510050058364868,
5551
+ "learning_rate": 4.492610837438424e-05,
5552
+ "loss": 0.2522,
5553
+ "step": 15840
5554
+ },
5555
+ {
5556
+ "epoch": 77.4130567419158,
5557
+ "grad_norm": 2.849837303161621,
5558
+ "learning_rate": 4.472906403940887e-05,
5559
+ "loss": 0.2524,
5560
+ "step": 15860
5561
+ },
5562
+ {
5563
+ "epoch": 77.51067724222086,
5564
+ "grad_norm": 3.769998788833618,
5565
+ "learning_rate": 4.45320197044335e-05,
5566
+ "loss": 0.2568,
5567
+ "step": 15880
5568
+ },
5569
+ {
5570
+ "epoch": 77.60829774252593,
5571
+ "grad_norm": 3.2575082778930664,
5572
+ "learning_rate": 4.433497536945813e-05,
5573
+ "loss": 0.2565,
5574
+ "step": 15900
5575
+ },
5576
+ {
5577
+ "epoch": 77.70591824283099,
5578
+ "grad_norm": 2.199042797088623,
5579
+ "learning_rate": 4.413793103448276e-05,
5580
+ "loss": 0.2508,
5581
+ "step": 15920
5582
+ },
5583
+ {
5584
+ "epoch": 77.80353874313606,
5585
+ "grad_norm": 1.9908735752105713,
5586
+ "learning_rate": 4.394088669950739e-05,
5587
+ "loss": 0.2612,
5588
+ "step": 15940
5589
+ },
5590
+ {
5591
+ "epoch": 77.90115924344113,
5592
+ "grad_norm": 2.091723680496216,
5593
+ "learning_rate": 4.374384236453202e-05,
5594
+ "loss": 0.2491,
5595
+ "step": 15960
5596
+ },
5597
+ {
5598
+ "epoch": 77.99877974374618,
5599
+ "grad_norm": 2.705829381942749,
5600
+ "learning_rate": 4.3546798029556655e-05,
5601
+ "loss": 0.2596,
5602
+ "step": 15980
5603
+ },
5604
+ {
5605
+ "epoch": 78.09640024405125,
5606
+ "grad_norm": 2.6604998111724854,
5607
+ "learning_rate": 4.334975369458129e-05,
5608
+ "loss": 0.2475,
5609
+ "step": 16000
5610
+ },
5611
+ {
5612
+ "epoch": 78.19402074435631,
5613
+ "grad_norm": 2.4286489486694336,
5614
+ "learning_rate": 4.3152709359605916e-05,
5615
+ "loss": 0.2509,
5616
+ "step": 16020
5617
+ },
5618
+ {
5619
+ "epoch": 78.29164124466138,
5620
+ "grad_norm": 3.3478493690490723,
5621
+ "learning_rate": 4.295566502463054e-05,
5622
+ "loss": 0.2491,
5623
+ "step": 16040
5624
+ },
5625
+ {
5626
+ "epoch": 78.38926174496645,
5627
+ "grad_norm": 2.9512908458709717,
5628
+ "learning_rate": 4.275862068965518e-05,
5629
+ "loss": 0.2362,
5630
+ "step": 16060
5631
+ },
5632
+ {
5633
+ "epoch": 78.4868822452715,
5634
+ "grad_norm": 2.0870890617370605,
5635
+ "learning_rate": 4.2561576354679804e-05,
5636
+ "loss": 0.2546,
5637
+ "step": 16080
5638
+ },
5639
+ {
5640
+ "epoch": 78.58450274557657,
5641
+ "grad_norm": 2.3549749851226807,
5642
+ "learning_rate": 4.236453201970443e-05,
5643
+ "loss": 0.2544,
5644
+ "step": 16100
5645
+ },
5646
+ {
5647
+ "epoch": 78.68212324588164,
5648
+ "grad_norm": 2.296377658843994,
5649
+ "learning_rate": 4.2167487684729065e-05,
5650
+ "loss": 0.2524,
5651
+ "step": 16120
5652
+ },
5653
+ {
5654
+ "epoch": 78.7797437461867,
5655
+ "grad_norm": 2.9563801288604736,
5656
+ "learning_rate": 4.19704433497537e-05,
5657
+ "loss": 0.2534,
5658
+ "step": 16140
5659
+ },
5660
+ {
5661
+ "epoch": 78.87736424649177,
5662
+ "grad_norm": 3.3844058513641357,
5663
+ "learning_rate": 4.1773399014778326e-05,
5664
+ "loss": 0.2629,
5665
+ "step": 16160
5666
+ },
5667
+ {
5668
+ "epoch": 78.97498474679682,
5669
+ "grad_norm": 1.9131345748901367,
5670
+ "learning_rate": 4.157635467980296e-05,
5671
+ "loss": 0.2478,
5672
+ "step": 16180
5673
+ },
5674
+ {
5675
+ "epoch": 79.07260524710189,
5676
+ "grad_norm": 3.4866435527801514,
5677
+ "learning_rate": 4.1379310344827587e-05,
5678
+ "loss": 0.2464,
5679
+ "step": 16200
5680
+ },
5681
+ {
5682
+ "epoch": 79.17022574740696,
5683
+ "grad_norm": 2.0751941204071045,
5684
+ "learning_rate": 4.1182266009852214e-05,
5685
+ "loss": 0.2435,
5686
+ "step": 16220
5687
+ },
5688
+ {
5689
+ "epoch": 79.26784624771201,
5690
+ "grad_norm": 1.776879072189331,
5691
+ "learning_rate": 4.098522167487685e-05,
5692
+ "loss": 0.2501,
5693
+ "step": 16240
5694
+ },
5695
+ {
5696
+ "epoch": 79.36546674801708,
5697
+ "grad_norm": 3.9006545543670654,
5698
+ "learning_rate": 4.078817733990148e-05,
5699
+ "loss": 0.2586,
5700
+ "step": 16260
5701
+ },
5702
+ {
5703
+ "epoch": 79.46308724832215,
5704
+ "grad_norm": 2.390000581741333,
5705
+ "learning_rate": 4.0591133004926115e-05,
5706
+ "loss": 0.2408,
5707
+ "step": 16280
5708
+ },
5709
+ {
5710
+ "epoch": 79.56070774862721,
5711
+ "grad_norm": 3.1795706748962402,
5712
+ "learning_rate": 4.039408866995074e-05,
5713
+ "loss": 0.2469,
5714
+ "step": 16300
5715
+ },
5716
+ {
5717
+ "epoch": 79.65832824893228,
5718
+ "grad_norm": 2.6821188926696777,
5719
+ "learning_rate": 4.019704433497537e-05,
5720
+ "loss": 0.2429,
5721
+ "step": 16320
5722
+ },
5723
+ {
5724
+ "epoch": 79.75594874923733,
5725
+ "grad_norm": 3.01457142829895,
5726
+ "learning_rate": 4e-05,
5727
+ "loss": 0.2598,
5728
+ "step": 16340
5729
+ },
5730
+ {
5731
+ "epoch": 79.8535692495424,
5732
+ "grad_norm": 2.8440592288970947,
5733
+ "learning_rate": 3.980295566502463e-05,
5734
+ "loss": 0.2494,
5735
+ "step": 16360
5736
+ },
5737
+ {
5738
+ "epoch": 79.95118974984747,
5739
+ "grad_norm": 3.210845708847046,
5740
+ "learning_rate": 3.9605911330049264e-05,
5741
+ "loss": 0.2521,
5742
+ "step": 16380
5743
+ },
5744
+ {
5745
+ "epoch": 80.04881025015253,
5746
+ "grad_norm": 3.9740731716156006,
5747
+ "learning_rate": 3.94088669950739e-05,
5748
+ "loss": 0.2537,
5749
+ "step": 16400
5750
+ },
5751
+ {
5752
+ "epoch": 80.1464307504576,
5753
+ "grad_norm": 2.3433115482330322,
5754
+ "learning_rate": 3.9211822660098525e-05,
5755
+ "loss": 0.2441,
5756
+ "step": 16420
5757
+ },
5758
+ {
5759
+ "epoch": 80.24405125076267,
5760
+ "grad_norm": 2.5279314517974854,
5761
+ "learning_rate": 3.901477832512315e-05,
5762
+ "loss": 0.2564,
5763
+ "step": 16440
5764
+ },
5765
+ {
5766
+ "epoch": 80.34167175106772,
5767
+ "grad_norm": 2.8062689304351807,
5768
+ "learning_rate": 3.8817733990147786e-05,
5769
+ "loss": 0.245,
5770
+ "step": 16460
5771
+ },
5772
+ {
5773
+ "epoch": 80.43929225137279,
5774
+ "grad_norm": 1.9689416885375977,
5775
+ "learning_rate": 3.862068965517241e-05,
5776
+ "loss": 0.2497,
5777
+ "step": 16480
5778
+ },
5779
+ {
5780
+ "epoch": 80.53691275167785,
5781
+ "grad_norm": 2.462744951248169,
5782
+ "learning_rate": 3.842364532019704e-05,
5783
+ "loss": 0.2525,
5784
+ "step": 16500
5785
+ },
5786
+ {
5787
+ "epoch": 80.63453325198292,
5788
+ "grad_norm": 1.9201568365097046,
5789
+ "learning_rate": 3.822660098522168e-05,
5790
+ "loss": 0.2495,
5791
+ "step": 16520
5792
+ },
5793
+ {
5794
+ "epoch": 80.73215375228799,
5795
+ "grad_norm": 1.7118130922317505,
5796
+ "learning_rate": 3.802955665024631e-05,
5797
+ "loss": 0.2415,
5798
+ "step": 16540
5799
+ },
5800
+ {
5801
+ "epoch": 80.82977425259304,
5802
+ "grad_norm": 2.311931848526001,
5803
+ "learning_rate": 3.783251231527094e-05,
5804
+ "loss": 0.247,
5805
+ "step": 16560
5806
+ },
5807
+ {
5808
+ "epoch": 80.92739475289811,
5809
+ "grad_norm": 2.030750274658203,
5810
+ "learning_rate": 3.763546798029557e-05,
5811
+ "loss": 0.2415,
5812
+ "step": 16580
5813
+ },
5814
+ {
5815
+ "epoch": 81.02501525320318,
5816
+ "grad_norm": 1.949194312095642,
5817
+ "learning_rate": 3.7438423645320196e-05,
5818
+ "loss": 0.2555,
5819
+ "step": 16600
5820
+ },
5821
+ {
5822
+ "epoch": 81.12263575350823,
5823
+ "grad_norm": 1.8409544229507446,
5824
+ "learning_rate": 3.724137931034483e-05,
5825
+ "loss": 0.2412,
5826
+ "step": 16620
5827
+ },
5828
+ {
5829
+ "epoch": 81.2202562538133,
5830
+ "grad_norm": 2.5164377689361572,
5831
+ "learning_rate": 3.704433497536946e-05,
5832
+ "loss": 0.2326,
5833
+ "step": 16640
5834
+ },
5835
+ {
5836
+ "epoch": 81.31787675411836,
5837
+ "grad_norm": 2.3859026432037354,
5838
+ "learning_rate": 3.684729064039409e-05,
5839
+ "loss": 0.2499,
5840
+ "step": 16660
5841
+ },
5842
+ {
5843
+ "epoch": 81.41549725442343,
5844
+ "grad_norm": 2.753124713897705,
5845
+ "learning_rate": 3.6650246305418725e-05,
5846
+ "loss": 0.2504,
5847
+ "step": 16680
5848
+ },
5849
+ {
5850
+ "epoch": 81.5131177547285,
5851
+ "grad_norm": 2.294701099395752,
5852
+ "learning_rate": 3.645320197044335e-05,
5853
+ "loss": 0.2433,
5854
+ "step": 16700
5855
+ },
5856
+ {
5857
+ "epoch": 81.61073825503355,
5858
+ "grad_norm": 2.179985761642456,
5859
+ "learning_rate": 3.625615763546798e-05,
5860
+ "loss": 0.2511,
5861
+ "step": 16720
5862
+ },
5863
+ {
5864
+ "epoch": 81.70835875533862,
5865
+ "grad_norm": 2.242023229598999,
5866
+ "learning_rate": 3.605911330049261e-05,
5867
+ "loss": 0.2558,
5868
+ "step": 16740
5869
+ },
5870
+ {
5871
+ "epoch": 81.80597925564369,
5872
+ "grad_norm": 2.9500415325164795,
5873
+ "learning_rate": 3.586206896551724e-05,
5874
+ "loss": 0.2423,
5875
+ "step": 16760
5876
+ },
5877
+ {
5878
+ "epoch": 81.90359975594875,
5879
+ "grad_norm": 2.372332811355591,
5880
+ "learning_rate": 3.5665024630541874e-05,
5881
+ "loss": 0.2503,
5882
+ "step": 16780
5883
+ },
5884
+ {
5885
+ "epoch": 82.00122025625382,
5886
+ "grad_norm": 2.8338615894317627,
5887
+ "learning_rate": 3.546798029556651e-05,
5888
+ "loss": 0.2442,
5889
+ "step": 16800
5890
+ },
5891
+ {
5892
+ "epoch": 82.09884075655887,
5893
+ "grad_norm": 2.5122156143188477,
5894
+ "learning_rate": 3.5270935960591135e-05,
5895
+ "loss": 0.2386,
5896
+ "step": 16820
5897
+ },
5898
+ {
5899
+ "epoch": 82.19646125686394,
5900
+ "grad_norm": 2.6733508110046387,
5901
+ "learning_rate": 3.507389162561577e-05,
5902
+ "loss": 0.2376,
5903
+ "step": 16840
5904
+ },
5905
+ {
5906
+ "epoch": 82.29408175716901,
5907
+ "grad_norm": 1.9639496803283691,
5908
+ "learning_rate": 3.4876847290640396e-05,
5909
+ "loss": 0.2366,
5910
+ "step": 16860
5911
+ },
5912
+ {
5913
+ "epoch": 82.39170225747407,
5914
+ "grad_norm": 2.2403128147125244,
5915
+ "learning_rate": 3.467980295566502e-05,
5916
+ "loss": 0.2478,
5917
+ "step": 16880
5918
+ },
5919
+ {
5920
+ "epoch": 82.48932275777914,
5921
+ "grad_norm": 2.3874387741088867,
5922
+ "learning_rate": 3.4482758620689657e-05,
5923
+ "loss": 0.2561,
5924
+ "step": 16900
5925
+ },
5926
+ {
5927
+ "epoch": 82.5869432580842,
5928
+ "grad_norm": 3.6774182319641113,
5929
+ "learning_rate": 3.428571428571429e-05,
5930
+ "loss": 0.2448,
5931
+ "step": 16920
5932
+ },
5933
+ {
5934
+ "epoch": 82.68456375838926,
5935
+ "grad_norm": 1.8325834274291992,
5936
+ "learning_rate": 3.408866995073892e-05,
5937
+ "loss": 0.2515,
5938
+ "step": 16940
5939
+ },
5940
+ {
5941
+ "epoch": 82.78218425869433,
5942
+ "grad_norm": 2.846112012863159,
5943
+ "learning_rate": 3.389162561576355e-05,
5944
+ "loss": 0.2481,
5945
+ "step": 16960
5946
+ },
5947
+ {
5948
+ "epoch": 82.87980475899938,
5949
+ "grad_norm": 3.7636115550994873,
5950
+ "learning_rate": 3.369458128078818e-05,
5951
+ "loss": 0.2529,
5952
+ "step": 16980
5953
+ },
5954
+ {
5955
+ "epoch": 82.97742525930445,
5956
+ "grad_norm": 2.4501962661743164,
5957
+ "learning_rate": 3.3497536945812806e-05,
5958
+ "loss": 0.2344,
5959
+ "step": 17000
5960
+ },
5961
+ {
5962
+ "epoch": 83.07504575960952,
5963
+ "grad_norm": 2.4377410411834717,
5964
+ "learning_rate": 3.330049261083744e-05,
5965
+ "loss": 0.2373,
5966
+ "step": 17020
5967
+ },
5968
+ {
5969
+ "epoch": 83.17266625991458,
5970
+ "grad_norm": 2.180765151977539,
5971
+ "learning_rate": 3.310344827586207e-05,
5972
+ "loss": 0.2395,
5973
+ "step": 17040
5974
+ },
5975
+ {
5976
+ "epoch": 83.27028676021965,
5977
+ "grad_norm": 3.2704169750213623,
5978
+ "learning_rate": 3.29064039408867e-05,
5979
+ "loss": 0.2407,
5980
+ "step": 17060
5981
+ },
5982
+ {
5983
+ "epoch": 83.36790726052472,
5984
+ "grad_norm": 2.74991512298584,
5985
+ "learning_rate": 3.2709359605911334e-05,
5986
+ "loss": 0.2351,
5987
+ "step": 17080
5988
+ },
5989
+ {
5990
+ "epoch": 83.46552776082977,
5991
+ "grad_norm": 1.780633807182312,
5992
+ "learning_rate": 3.251231527093596e-05,
5993
+ "loss": 0.2379,
5994
+ "step": 17100
5995
+ },
5996
+ {
5997
+ "epoch": 83.56314826113484,
5998
+ "grad_norm": 2.352802038192749,
5999
+ "learning_rate": 3.2315270935960595e-05,
6000
+ "loss": 0.244,
6001
+ "step": 17120
6002
+ },
6003
+ {
6004
+ "epoch": 83.6607687614399,
6005
+ "grad_norm": 3.505608320236206,
6006
+ "learning_rate": 3.211822660098522e-05,
6007
+ "loss": 0.2443,
6008
+ "step": 17140
6009
+ },
6010
+ {
6011
+ "epoch": 83.75838926174497,
6012
+ "grad_norm": 2.568233013153076,
6013
+ "learning_rate": 3.192118226600985e-05,
6014
+ "loss": 0.2499,
6015
+ "step": 17160
6016
+ },
6017
+ {
6018
+ "epoch": 83.85600976205004,
6019
+ "grad_norm": 1.864367961883545,
6020
+ "learning_rate": 3.172413793103448e-05,
6021
+ "loss": 0.2543,
6022
+ "step": 17180
6023
+ },
6024
+ {
6025
+ "epoch": 83.95363026235509,
6026
+ "grad_norm": 2.386052370071411,
6027
+ "learning_rate": 3.152709359605912e-05,
6028
+ "loss": 0.2505,
6029
+ "step": 17200
6030
+ },
6031
+ {
6032
+ "epoch": 84.05125076266016,
6033
+ "grad_norm": 4.361128330230713,
6034
+ "learning_rate": 3.1330049261083744e-05,
6035
+ "loss": 0.2505,
6036
+ "step": 17220
6037
+ },
6038
+ {
6039
+ "epoch": 84.14887126296523,
6040
+ "grad_norm": 1.4861139059066772,
6041
+ "learning_rate": 3.113300492610838e-05,
6042
+ "loss": 0.2314,
6043
+ "step": 17240
6044
+ },
6045
+ {
6046
+ "epoch": 84.24649176327028,
6047
+ "grad_norm": 1.9692414999008179,
6048
+ "learning_rate": 3.0935960591133005e-05,
6049
+ "loss": 0.2499,
6050
+ "step": 17260
6051
+ },
6052
+ {
6053
+ "epoch": 84.34411226357535,
6054
+ "grad_norm": 2.245277166366577,
6055
+ "learning_rate": 3.073891625615763e-05,
6056
+ "loss": 0.243,
6057
+ "step": 17280
6058
+ },
6059
+ {
6060
+ "epoch": 84.44173276388041,
6061
+ "grad_norm": 2.0669002532958984,
6062
+ "learning_rate": 3.0541871921182266e-05,
6063
+ "loss": 0.2388,
6064
+ "step": 17300
6065
+ },
6066
+ {
6067
+ "epoch": 84.53935326418548,
6068
+ "grad_norm": 2.377110004425049,
6069
+ "learning_rate": 3.0344827586206897e-05,
6070
+ "loss": 0.2431,
6071
+ "step": 17320
6072
+ },
6073
+ {
6074
+ "epoch": 84.63697376449055,
6075
+ "grad_norm": 2.4260573387145996,
6076
+ "learning_rate": 3.0147783251231527e-05,
6077
+ "loss": 0.2393,
6078
+ "step": 17340
6079
+ },
6080
+ {
6081
+ "epoch": 84.7345942647956,
6082
+ "grad_norm": 1.7577930688858032,
6083
+ "learning_rate": 2.995073891625616e-05,
6084
+ "loss": 0.2444,
6085
+ "step": 17360
6086
+ },
6087
+ {
6088
+ "epoch": 84.83221476510067,
6089
+ "grad_norm": 2.4844295978546143,
6090
+ "learning_rate": 2.9753694581280788e-05,
6091
+ "loss": 0.2474,
6092
+ "step": 17380
6093
+ },
6094
+ {
6095
+ "epoch": 84.92983526540573,
6096
+ "grad_norm": 2.7530508041381836,
6097
+ "learning_rate": 2.9556650246305422e-05,
6098
+ "loss": 0.2459,
6099
+ "step": 17400
6100
+ },
6101
+ {
6102
+ "epoch": 85.0274557657108,
6103
+ "grad_norm": 1.6418040990829468,
6104
+ "learning_rate": 2.9359605911330052e-05,
6105
+ "loss": 0.2491,
6106
+ "step": 17420
6107
+ },
6108
+ {
6109
+ "epoch": 85.12507626601587,
6110
+ "grad_norm": 2.0329489707946777,
6111
+ "learning_rate": 2.916256157635468e-05,
6112
+ "loss": 0.2426,
6113
+ "step": 17440
6114
+ },
6115
+ {
6116
+ "epoch": 85.22269676632092,
6117
+ "grad_norm": 1.6439207792282104,
6118
+ "learning_rate": 2.8965517241379313e-05,
6119
+ "loss": 0.2351,
6120
+ "step": 17460
6121
+ },
6122
+ {
6123
+ "epoch": 85.32031726662599,
6124
+ "grad_norm": 1.6182892322540283,
6125
+ "learning_rate": 2.8768472906403944e-05,
6126
+ "loss": 0.2468,
6127
+ "step": 17480
6128
+ },
6129
+ {
6130
+ "epoch": 85.41793776693106,
6131
+ "grad_norm": 3.263887882232666,
6132
+ "learning_rate": 2.857142857142857e-05,
6133
+ "loss": 0.2426,
6134
+ "step": 17500
6135
+ },
6136
+ {
6137
+ "epoch": 85.51555826723612,
6138
+ "grad_norm": 3.062742233276367,
6139
+ "learning_rate": 2.8374384236453205e-05,
6140
+ "loss": 0.2386,
6141
+ "step": 17520
6142
+ },
6143
+ {
6144
+ "epoch": 85.61317876754119,
6145
+ "grad_norm": 2.8203582763671875,
6146
+ "learning_rate": 2.8177339901477835e-05,
6147
+ "loss": 0.2407,
6148
+ "step": 17540
6149
+ },
6150
+ {
6151
+ "epoch": 85.71079926784624,
6152
+ "grad_norm": 2.3993334770202637,
6153
+ "learning_rate": 2.7980295566502462e-05,
6154
+ "loss": 0.2418,
6155
+ "step": 17560
6156
+ },
6157
+ {
6158
+ "epoch": 85.80841976815131,
6159
+ "grad_norm": 1.7914482355117798,
6160
+ "learning_rate": 2.7783251231527096e-05,
6161
+ "loss": 0.2377,
6162
+ "step": 17580
6163
+ },
6164
+ {
6165
+ "epoch": 85.90604026845638,
6166
+ "grad_norm": 3.20501971244812,
6167
+ "learning_rate": 2.7586206896551727e-05,
6168
+ "loss": 0.2398,
6169
+ "step": 17600
6170
+ },
6171
+ {
6172
+ "epoch": 86.00366076876143,
6173
+ "grad_norm": 1.6623684167861938,
6174
+ "learning_rate": 2.7389162561576354e-05,
6175
+ "loss": 0.2442,
6176
+ "step": 17620
6177
+ },
6178
+ {
6179
+ "epoch": 86.1012812690665,
6180
+ "grad_norm": 2.3433034420013428,
6181
+ "learning_rate": 2.7192118226600988e-05,
6182
+ "loss": 0.2358,
6183
+ "step": 17640
6184
+ },
6185
+ {
6186
+ "epoch": 86.19890176937157,
6187
+ "grad_norm": 2.6188597679138184,
6188
+ "learning_rate": 2.6995073891625615e-05,
6189
+ "loss": 0.2336,
6190
+ "step": 17660
6191
+ },
6192
+ {
6193
+ "epoch": 86.29652226967663,
6194
+ "grad_norm": 3.1089391708374023,
6195
+ "learning_rate": 2.6798029556650245e-05,
6196
+ "loss": 0.239,
6197
+ "step": 17680
6198
+ },
6199
+ {
6200
+ "epoch": 86.3941427699817,
6201
+ "grad_norm": 2.378998041152954,
6202
+ "learning_rate": 2.660098522167488e-05,
6203
+ "loss": 0.2336,
6204
+ "step": 17700
6205
+ },
6206
+ {
6207
+ "epoch": 86.49176327028675,
6208
+ "grad_norm": 2.4956347942352295,
6209
+ "learning_rate": 2.6403940886699506e-05,
6210
+ "loss": 0.2497,
6211
+ "step": 17720
6212
+ },
6213
+ {
6214
+ "epoch": 86.58938377059182,
6215
+ "grad_norm": 2.529139757156372,
6216
+ "learning_rate": 2.620689655172414e-05,
6217
+ "loss": 0.2436,
6218
+ "step": 17740
6219
+ },
6220
+ {
6221
+ "epoch": 86.68700427089689,
6222
+ "grad_norm": 2.6899948120117188,
6223
+ "learning_rate": 2.600985221674877e-05,
6224
+ "loss": 0.2445,
6225
+ "step": 17760
6226
+ },
6227
+ {
6228
+ "epoch": 86.78462477120195,
6229
+ "grad_norm": 1.8922455310821533,
6230
+ "learning_rate": 2.5812807881773398e-05,
6231
+ "loss": 0.2366,
6232
+ "step": 17780
6233
+ },
6234
+ {
6235
+ "epoch": 86.88224527150702,
6236
+ "grad_norm": 1.9104729890823364,
6237
+ "learning_rate": 2.561576354679803e-05,
6238
+ "loss": 0.2345,
6239
+ "step": 17800
6240
+ },
6241
+ {
6242
+ "epoch": 86.97986577181209,
6243
+ "grad_norm": 3.2369461059570312,
6244
+ "learning_rate": 2.5418719211822662e-05,
6245
+ "loss": 0.2515,
6246
+ "step": 17820
6247
+ },
6248
+ {
6249
+ "epoch": 87.07748627211714,
6250
+ "grad_norm": 2.2592508792877197,
6251
+ "learning_rate": 2.522167487684729e-05,
6252
+ "loss": 0.2333,
6253
+ "step": 17840
6254
+ },
6255
+ {
6256
+ "epoch": 87.17510677242221,
6257
+ "grad_norm": 2.302445888519287,
6258
+ "learning_rate": 2.5024630541871923e-05,
6259
+ "loss": 0.2308,
6260
+ "step": 17860
6261
+ },
6262
+ {
6263
+ "epoch": 87.27272727272727,
6264
+ "grad_norm": 2.0607619285583496,
6265
+ "learning_rate": 2.4827586206896553e-05,
6266
+ "loss": 0.2323,
6267
+ "step": 17880
6268
+ },
6269
+ {
6270
+ "epoch": 87.37034777303234,
6271
+ "grad_norm": 2.4503376483917236,
6272
+ "learning_rate": 2.4630541871921184e-05,
6273
+ "loss": 0.2399,
6274
+ "step": 17900
6275
+ },
6276
+ {
6277
+ "epoch": 87.4679682733374,
6278
+ "grad_norm": 1.7061033248901367,
6279
+ "learning_rate": 2.4433497536945814e-05,
6280
+ "loss": 0.249,
6281
+ "step": 17920
6282
+ },
6283
+ {
6284
+ "epoch": 87.56558877364246,
6285
+ "grad_norm": 2.1557867527008057,
6286
+ "learning_rate": 2.4236453201970445e-05,
6287
+ "loss": 0.243,
6288
+ "step": 17940
6289
+ },
6290
+ {
6291
+ "epoch": 87.66320927394753,
6292
+ "grad_norm": 2.0752928256988525,
6293
+ "learning_rate": 2.4039408866995075e-05,
6294
+ "loss": 0.236,
6295
+ "step": 17960
6296
+ },
6297
+ {
6298
+ "epoch": 87.7608297742526,
6299
+ "grad_norm": 1.9939770698547363,
6300
+ "learning_rate": 2.3842364532019706e-05,
6301
+ "loss": 0.24,
6302
+ "step": 17980
6303
+ },
6304
+ {
6305
+ "epoch": 87.85845027455765,
6306
+ "grad_norm": 2.043842315673828,
6307
+ "learning_rate": 2.3645320197044336e-05,
6308
+ "loss": 0.2438,
6309
+ "step": 18000
6310
  }
6311
  ],
6312
  "logging_steps": 20,
 
6326
  "attributes": {}
6327
  }
6328
  },
6329
+ "total_flos": 3.586273126839091e+17,
6330
  "train_batch_size": 1,
6331
  "trial_name": null,
6332
  "trial_params": null