error577 commited on
Commit
97cac69
·
verified ·
1 Parent(s): ca16059

Training in progress, step 2400, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c0f3344c939664491da45ddbb458b11f72bfc2f8316695ca448d39f79c7e8629
3
  size 201361312
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:371aa2eba24d0f5f91495c5196526d36db51055b6cdb43e12fe4134f1b4dd4cb
3
  size 201361312
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3a8871fa48a5e627566726e122ae56195c767c8827a5cb1d651967e1b481ae1d
3
  size 102537812
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3bd5a98fb8233303bb539a3f1d8dcbce9cb285843a4e28ac388aa117048b5b4e
3
  size 102537812
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9775773b44f1d1fda8f5a1508d5b31bfe38bbda4e2dd5db270131d56ee4f6b1c
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:732dadfe5f65735a5f10b3788b0ddf2f5467e863a8a5cd2cddcd862fee24ee9e
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c1f6423f350d9adad4e4f7dbc8ff6e978445c69e880a2ec072a741084aafc7c1
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:631ea393c048f682d46e325b2ee675fb46a8894ea646e45c81e01edbe6269527
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 1.602339506149292,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-2200",
4
- "epoch": 0.10499815060075647,
5
  "eval_steps": 200,
6
- "global_step": 2200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -15503,6 +15503,1414 @@
15503
  "eval_samples_per_second": 8.733,
15504
  "eval_steps_per_second": 4.372,
15505
  "step": 2200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
15506
  }
15507
  ],
15508
  "logging_steps": 1,
@@ -15517,7 +16925,7 @@
15517
  "early_stopping_threshold": 0.0
15518
  },
15519
  "attributes": {
15520
- "early_stopping_patience_counter": 0
15521
  }
15522
  },
15523
  "TrainerControl": {
@@ -15531,7 +16939,7 @@
15531
  "attributes": {}
15532
  }
15533
  },
15534
- "total_flos": 2.039907115597824e+17,
15535
  "train_batch_size": 2,
15536
  "trial_name": null,
15537
  "trial_params": null
 
1
  {
2
  "best_metric": 1.602339506149292,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-2200",
4
+ "epoch": 0.11454343701900706,
5
  "eval_steps": 200,
6
+ "global_step": 2400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
15503
  "eval_samples_per_second": 8.733,
15504
  "eval_steps_per_second": 4.372,
15505
  "step": 2200
15506
+ },
15507
+ {
15508
+ "epoch": 0.10504587703284772,
15509
+ "grad_norm": 5.450164318084717,
15510
+ "learning_rate": 0.00019941131358930373,
15511
+ "loss": 6.1929,
15512
+ "step": 2201
15513
+ },
15514
+ {
15515
+ "epoch": 0.10509360346493897,
15516
+ "grad_norm": 5.591408729553223,
15517
+ "learning_rate": 0.00019941077167953225,
15518
+ "loss": 6.1391,
15519
+ "step": 2202
15520
+ },
15521
+ {
15522
+ "epoch": 0.10514132989703022,
15523
+ "grad_norm": 5.992808818817139,
15524
+ "learning_rate": 0.00019941022952118747,
15525
+ "loss": 4.8693,
15526
+ "step": 2203
15527
+ },
15528
+ {
15529
+ "epoch": 0.10518905632912147,
15530
+ "grad_norm": 4.80279016494751,
15531
+ "learning_rate": 0.0001994096871142708,
15532
+ "loss": 5.2619,
15533
+ "step": 2204
15534
+ },
15535
+ {
15536
+ "epoch": 0.10523678276121273,
15537
+ "grad_norm": 5.691819667816162,
15538
+ "learning_rate": 0.00019940914445878367,
15539
+ "loss": 5.3011,
15540
+ "step": 2205
15541
+ },
15542
+ {
15543
+ "epoch": 0.10528450919330398,
15544
+ "grad_norm": 5.115384578704834,
15545
+ "learning_rate": 0.00019940860155472732,
15546
+ "loss": 4.359,
15547
+ "step": 2206
15548
+ },
15549
+ {
15550
+ "epoch": 0.10533223562539523,
15551
+ "grad_norm": 5.720730781555176,
15552
+ "learning_rate": 0.00019940805840210318,
15553
+ "loss": 5.9681,
15554
+ "step": 2207
15555
+ },
15556
+ {
15557
+ "epoch": 0.10537996205748648,
15558
+ "grad_norm": 4.984778881072998,
15559
+ "learning_rate": 0.00019940751500091257,
15560
+ "loss": 5.6348,
15561
+ "step": 2208
15562
+ },
15563
+ {
15564
+ "epoch": 0.10542768848957774,
15565
+ "grad_norm": 5.787764072418213,
15566
+ "learning_rate": 0.00019940697135115688,
15567
+ "loss": 6.2302,
15568
+ "step": 2209
15569
+ },
15570
+ {
15571
+ "epoch": 0.105475414921669,
15572
+ "grad_norm": 5.652523040771484,
15573
+ "learning_rate": 0.00019940642745283746,
15574
+ "loss": 5.879,
15575
+ "step": 2210
15576
+ },
15577
+ {
15578
+ "epoch": 0.10552314135376024,
15579
+ "grad_norm": 7.101466655731201,
15580
+ "learning_rate": 0.00019940588330595563,
15581
+ "loss": 7.963,
15582
+ "step": 2211
15583
+ },
15584
+ {
15585
+ "epoch": 0.1055708677858515,
15586
+ "grad_norm": 6.2562713623046875,
15587
+ "learning_rate": 0.00019940533891051282,
15588
+ "loss": 6.9716,
15589
+ "step": 2212
15590
+ },
15591
+ {
15592
+ "epoch": 0.10561859421794276,
15593
+ "grad_norm": 5.532405376434326,
15594
+ "learning_rate": 0.00019940479426651034,
15595
+ "loss": 6.9063,
15596
+ "step": 2213
15597
+ },
15598
+ {
15599
+ "epoch": 0.105666320650034,
15600
+ "grad_norm": 6.955551624298096,
15601
+ "learning_rate": 0.00019940424937394958,
15602
+ "loss": 6.0961,
15603
+ "step": 2214
15604
+ },
15605
+ {
15606
+ "epoch": 0.10571404708212526,
15607
+ "grad_norm": 8.936443328857422,
15608
+ "learning_rate": 0.00019940370423283187,
15609
+ "loss": 8.8187,
15610
+ "step": 2215
15611
+ },
15612
+ {
15613
+ "epoch": 0.1057617735142165,
15614
+ "grad_norm": 5.99800443649292,
15615
+ "learning_rate": 0.00019940315884315864,
15616
+ "loss": 6.5717,
15617
+ "step": 2216
15618
+ },
15619
+ {
15620
+ "epoch": 0.10580949994630777,
15621
+ "grad_norm": 6.92852783203125,
15622
+ "learning_rate": 0.00019940261320493114,
15623
+ "loss": 6.509,
15624
+ "step": 2217
15625
+ },
15626
+ {
15627
+ "epoch": 0.10585722637839902,
15628
+ "grad_norm": 6.274646282196045,
15629
+ "learning_rate": 0.00019940206731815086,
15630
+ "loss": 7.7704,
15631
+ "step": 2218
15632
+ },
15633
+ {
15634
+ "epoch": 0.10590495281049027,
15635
+ "grad_norm": 6.350011348724365,
15636
+ "learning_rate": 0.00019940152118281908,
15637
+ "loss": 7.1323,
15638
+ "step": 2219
15639
+ },
15640
+ {
15641
+ "epoch": 0.10595267924258152,
15642
+ "grad_norm": 5.615455150604248,
15643
+ "learning_rate": 0.00019940097479893718,
15644
+ "loss": 6.8173,
15645
+ "step": 2220
15646
+ },
15647
+ {
15648
+ "epoch": 0.10600040567467278,
15649
+ "grad_norm": 6.136722087860107,
15650
+ "learning_rate": 0.00019940042816650656,
15651
+ "loss": 7.6495,
15652
+ "step": 2221
15653
+ },
15654
+ {
15655
+ "epoch": 0.10604813210676403,
15656
+ "grad_norm": 6.436617374420166,
15657
+ "learning_rate": 0.00019939988128552853,
15658
+ "loss": 6.2319,
15659
+ "step": 2222
15660
+ },
15661
+ {
15662
+ "epoch": 0.10609585853885528,
15663
+ "grad_norm": 5.910126686096191,
15664
+ "learning_rate": 0.00019939933415600452,
15665
+ "loss": 6.2024,
15666
+ "step": 2223
15667
+ },
15668
+ {
15669
+ "epoch": 0.10614358497094653,
15670
+ "grad_norm": 6.70936393737793,
15671
+ "learning_rate": 0.0001993987867779359,
15672
+ "loss": 7.4669,
15673
+ "step": 2224
15674
+ },
15675
+ {
15676
+ "epoch": 0.1061913114030378,
15677
+ "grad_norm": 6.343003273010254,
15678
+ "learning_rate": 0.00019939823915132395,
15679
+ "loss": 6.854,
15680
+ "step": 2225
15681
+ },
15682
+ {
15683
+ "epoch": 0.10623903783512904,
15684
+ "grad_norm": 5.298125743865967,
15685
+ "learning_rate": 0.00019939769127617015,
15686
+ "loss": 5.9439,
15687
+ "step": 2226
15688
+ },
15689
+ {
15690
+ "epoch": 0.1062867642672203,
15691
+ "grad_norm": 5.3317108154296875,
15692
+ "learning_rate": 0.0001993971431524758,
15693
+ "loss": 5.5212,
15694
+ "step": 2227
15695
+ },
15696
+ {
15697
+ "epoch": 0.10633449069931154,
15698
+ "grad_norm": 7.667644500732422,
15699
+ "learning_rate": 0.00019939659478024227,
15700
+ "loss": 8.6898,
15701
+ "step": 2228
15702
+ },
15703
+ {
15704
+ "epoch": 0.10638221713140279,
15705
+ "grad_norm": 5.852370262145996,
15706
+ "learning_rate": 0.00019939604615947095,
15707
+ "loss": 5.7408,
15708
+ "step": 2229
15709
+ },
15710
+ {
15711
+ "epoch": 0.10642994356349406,
15712
+ "grad_norm": 5.767739772796631,
15713
+ "learning_rate": 0.00019939549729016326,
15714
+ "loss": 6.2188,
15715
+ "step": 2230
15716
+ },
15717
+ {
15718
+ "epoch": 0.1064776699955853,
15719
+ "grad_norm": 24.669878005981445,
15720
+ "learning_rate": 0.00019939494817232048,
15721
+ "loss": 5.4811,
15722
+ "step": 2231
15723
+ },
15724
+ {
15725
+ "epoch": 0.10652539642767656,
15726
+ "grad_norm": 6.24949836730957,
15727
+ "learning_rate": 0.00019939439880594403,
15728
+ "loss": 6.7981,
15729
+ "step": 2232
15730
+ },
15731
+ {
15732
+ "epoch": 0.1065731228597678,
15733
+ "grad_norm": 4.919851303100586,
15734
+ "learning_rate": 0.0001993938491910353,
15735
+ "loss": 5.7305,
15736
+ "step": 2233
15737
+ },
15738
+ {
15739
+ "epoch": 0.10662084929185907,
15740
+ "grad_norm": 4.707479000091553,
15741
+ "learning_rate": 0.00019939329932759566,
15742
+ "loss": 4.4757,
15743
+ "step": 2234
15744
+ },
15745
+ {
15746
+ "epoch": 0.10666857572395032,
15747
+ "grad_norm": 5.307102680206299,
15748
+ "learning_rate": 0.00019939274921562645,
15749
+ "loss": 6.0117,
15750
+ "step": 2235
15751
+ },
15752
+ {
15753
+ "epoch": 0.10671630215604157,
15754
+ "grad_norm": 5.719334602355957,
15755
+ "learning_rate": 0.00019939219885512906,
15756
+ "loss": 5.803,
15757
+ "step": 2236
15758
+ },
15759
+ {
15760
+ "epoch": 0.10676402858813282,
15761
+ "grad_norm": 4.507400035858154,
15762
+ "learning_rate": 0.00019939164824610487,
15763
+ "loss": 4.8236,
15764
+ "step": 2237
15765
+ },
15766
+ {
15767
+ "epoch": 0.10681175502022408,
15768
+ "grad_norm": 5.215142726898193,
15769
+ "learning_rate": 0.00019939109738855527,
15770
+ "loss": 6.0824,
15771
+ "step": 2238
15772
+ },
15773
+ {
15774
+ "epoch": 0.10685948145231533,
15775
+ "grad_norm": 5.201887130737305,
15776
+ "learning_rate": 0.00019939054628248163,
15777
+ "loss": 5.8014,
15778
+ "step": 2239
15779
+ },
15780
+ {
15781
+ "epoch": 0.10690720788440658,
15782
+ "grad_norm": 5.401710510253906,
15783
+ "learning_rate": 0.00019938999492788532,
15784
+ "loss": 7.0493,
15785
+ "step": 2240
15786
+ },
15787
+ {
15788
+ "epoch": 0.10695493431649783,
15789
+ "grad_norm": 6.155087471008301,
15790
+ "learning_rate": 0.0001993894433247677,
15791
+ "loss": 7.3769,
15792
+ "step": 2241
15793
+ },
15794
+ {
15795
+ "epoch": 0.10700266074858909,
15796
+ "grad_norm": 5.142300128936768,
15797
+ "learning_rate": 0.0001993888914731302,
15798
+ "loss": 5.3895,
15799
+ "step": 2242
15800
+ },
15801
+ {
15802
+ "epoch": 0.10705038718068034,
15803
+ "grad_norm": 8.86355972290039,
15804
+ "learning_rate": 0.00019938833937297416,
15805
+ "loss": 8.0173,
15806
+ "step": 2243
15807
+ },
15808
+ {
15809
+ "epoch": 0.10709811361277159,
15810
+ "grad_norm": 5.095742225646973,
15811
+ "learning_rate": 0.00019938778702430096,
15812
+ "loss": 5.1925,
15813
+ "step": 2244
15814
+ },
15815
+ {
15816
+ "epoch": 0.10714584004486284,
15817
+ "grad_norm": 6.408175945281982,
15818
+ "learning_rate": 0.00019938723442711203,
15819
+ "loss": 6.9968,
15820
+ "step": 2245
15821
+ },
15822
+ {
15823
+ "epoch": 0.1071935664769541,
15824
+ "grad_norm": 7.479118824005127,
15825
+ "learning_rate": 0.0001993866815814087,
15826
+ "loss": 7.813,
15827
+ "step": 2246
15828
+ },
15829
+ {
15830
+ "epoch": 0.10724129290904535,
15831
+ "grad_norm": 5.595974922180176,
15832
+ "learning_rate": 0.00019938612848719237,
15833
+ "loss": 5.5132,
15834
+ "step": 2247
15835
+ },
15836
+ {
15837
+ "epoch": 0.1072890193411366,
15838
+ "grad_norm": 5.417313575744629,
15839
+ "learning_rate": 0.0001993855751444644,
15840
+ "loss": 5.7089,
15841
+ "step": 2248
15842
+ },
15843
+ {
15844
+ "epoch": 0.10733674577322785,
15845
+ "grad_norm": 5.91009521484375,
15846
+ "learning_rate": 0.0001993850215532262,
15847
+ "loss": 6.8627,
15848
+ "step": 2249
15849
+ },
15850
+ {
15851
+ "epoch": 0.10738447220531912,
15852
+ "grad_norm": 6.116936683654785,
15853
+ "learning_rate": 0.00019938446771347915,
15854
+ "loss": 7.3076,
15855
+ "step": 2250
15856
+ },
15857
+ {
15858
+ "epoch": 0.10743219863741037,
15859
+ "grad_norm": 5.593759059906006,
15860
+ "learning_rate": 0.00019938391362522468,
15861
+ "loss": 6.352,
15862
+ "step": 2251
15863
+ },
15864
+ {
15865
+ "epoch": 0.10747992506950162,
15866
+ "grad_norm": 6.780364513397217,
15867
+ "learning_rate": 0.00019938335928846408,
15868
+ "loss": 7.6296,
15869
+ "step": 2252
15870
+ },
15871
+ {
15872
+ "epoch": 0.10752765150159287,
15873
+ "grad_norm": 7.030237674713135,
15874
+ "learning_rate": 0.00019938280470319878,
15875
+ "loss": 7.8474,
15876
+ "step": 2253
15877
+ },
15878
+ {
15879
+ "epoch": 0.10757537793368412,
15880
+ "grad_norm": 8.07816219329834,
15881
+ "learning_rate": 0.00019938224986943022,
15882
+ "loss": 7.5247,
15883
+ "step": 2254
15884
+ },
15885
+ {
15886
+ "epoch": 0.10762310436577538,
15887
+ "grad_norm": 7.469743728637695,
15888
+ "learning_rate": 0.0001993816947871597,
15889
+ "loss": 8.2702,
15890
+ "step": 2255
15891
+ },
15892
+ {
15893
+ "epoch": 0.10767083079786663,
15894
+ "grad_norm": 5.907149791717529,
15895
+ "learning_rate": 0.00019938113945638865,
15896
+ "loss": 6.131,
15897
+ "step": 2256
15898
+ },
15899
+ {
15900
+ "epoch": 0.10771855722995788,
15901
+ "grad_norm": 6.085369110107422,
15902
+ "learning_rate": 0.00019938058387711845,
15903
+ "loss": 5.569,
15904
+ "step": 2257
15905
+ },
15906
+ {
15907
+ "epoch": 0.10776628366204913,
15908
+ "grad_norm": 5.916553497314453,
15909
+ "learning_rate": 0.00019938002804935053,
15910
+ "loss": 6.8827,
15911
+ "step": 2258
15912
+ },
15913
+ {
15914
+ "epoch": 0.10781401009414039,
15915
+ "grad_norm": 5.946355819702148,
15916
+ "learning_rate": 0.00019937947197308623,
15917
+ "loss": 6.3029,
15918
+ "step": 2259
15919
+ },
15920
+ {
15921
+ "epoch": 0.10786173652623164,
15922
+ "grad_norm": 5.058459281921387,
15923
+ "learning_rate": 0.00019937891564832694,
15924
+ "loss": 6.0389,
15925
+ "step": 2260
15926
+ },
15927
+ {
15928
+ "epoch": 0.10790946295832289,
15929
+ "grad_norm": 5.020669460296631,
15930
+ "learning_rate": 0.00019937835907507404,
15931
+ "loss": 7.4807,
15932
+ "step": 2261
15933
+ },
15934
+ {
15935
+ "epoch": 0.10795718939041414,
15936
+ "grad_norm": 5.872036933898926,
15937
+ "learning_rate": 0.000199377802253329,
15938
+ "loss": 7.3551,
15939
+ "step": 2262
15940
+ },
15941
+ {
15942
+ "epoch": 0.1080049158225054,
15943
+ "grad_norm": 6.965964317321777,
15944
+ "learning_rate": 0.00019937724518309316,
15945
+ "loss": 5.4708,
15946
+ "step": 2263
15947
+ },
15948
+ {
15949
+ "epoch": 0.10805264225459665,
15950
+ "grad_norm": 5.607543468475342,
15951
+ "learning_rate": 0.00019937668786436787,
15952
+ "loss": 7.897,
15953
+ "step": 2264
15954
+ },
15955
+ {
15956
+ "epoch": 0.1081003686866879,
15957
+ "grad_norm": 5.302212715148926,
15958
+ "learning_rate": 0.0001993761302971546,
15959
+ "loss": 5.4608,
15960
+ "step": 2265
15961
+ },
15962
+ {
15963
+ "epoch": 0.10814809511877915,
15964
+ "grad_norm": 4.950501918792725,
15965
+ "learning_rate": 0.00019937557248145472,
15966
+ "loss": 5.9577,
15967
+ "step": 2266
15968
+ },
15969
+ {
15970
+ "epoch": 0.10819582155087042,
15971
+ "grad_norm": 6.807582855224609,
15972
+ "learning_rate": 0.0001993750144172696,
15973
+ "loss": 9.1126,
15974
+ "step": 2267
15975
+ },
15976
+ {
15977
+ "epoch": 0.10824354798296167,
15978
+ "grad_norm": 4.571179389953613,
15979
+ "learning_rate": 0.00019937445610460067,
15980
+ "loss": 5.1932,
15981
+ "step": 2268
15982
+ },
15983
+ {
15984
+ "epoch": 0.10829127441505292,
15985
+ "grad_norm": 6.727152347564697,
15986
+ "learning_rate": 0.0001993738975434493,
15987
+ "loss": 7.5464,
15988
+ "step": 2269
15989
+ },
15990
+ {
15991
+ "epoch": 0.10833900084714417,
15992
+ "grad_norm": 6.7499871253967285,
15993
+ "learning_rate": 0.00019937333873381685,
15994
+ "loss": 7.0233,
15995
+ "step": 2270
15996
+ },
15997
+ {
15998
+ "epoch": 0.10838672727923543,
15999
+ "grad_norm": 6.338409900665283,
16000
+ "learning_rate": 0.0001993727796757048,
16001
+ "loss": 7.9402,
16002
+ "step": 2271
16003
+ },
16004
+ {
16005
+ "epoch": 0.10843445371132668,
16006
+ "grad_norm": 5.187378406524658,
16007
+ "learning_rate": 0.0001993722203691145,
16008
+ "loss": 6.3124,
16009
+ "step": 2272
16010
+ },
16011
+ {
16012
+ "epoch": 0.10848218014341793,
16013
+ "grad_norm": 6.8389997482299805,
16014
+ "learning_rate": 0.00019937166081404736,
16015
+ "loss": 5.4769,
16016
+ "step": 2273
16017
+ },
16018
+ {
16019
+ "epoch": 0.10852990657550918,
16020
+ "grad_norm": 6.336965560913086,
16021
+ "learning_rate": 0.00019937110101050478,
16022
+ "loss": 7.4738,
16023
+ "step": 2274
16024
+ },
16025
+ {
16026
+ "epoch": 0.10857763300760044,
16027
+ "grad_norm": 5.328413963317871,
16028
+ "learning_rate": 0.00019937054095848814,
16029
+ "loss": 5.5843,
16030
+ "step": 2275
16031
+ },
16032
+ {
16033
+ "epoch": 0.10862535943969169,
16034
+ "grad_norm": 6.723316669464111,
16035
+ "learning_rate": 0.0001993699806579989,
16036
+ "loss": 7.3747,
16037
+ "step": 2276
16038
+ },
16039
+ {
16040
+ "epoch": 0.10867308587178294,
16041
+ "grad_norm": 8.220144271850586,
16042
+ "learning_rate": 0.00019936942010903837,
16043
+ "loss": 7.368,
16044
+ "step": 2277
16045
+ },
16046
+ {
16047
+ "epoch": 0.10872081230387419,
16048
+ "grad_norm": 5.896597862243652,
16049
+ "learning_rate": 0.00019936885931160801,
16050
+ "loss": 7.4897,
16051
+ "step": 2278
16052
+ },
16053
+ {
16054
+ "epoch": 0.10876853873596544,
16055
+ "grad_norm": 5.127669334411621,
16056
+ "learning_rate": 0.00019936829826570923,
16057
+ "loss": 5.2628,
16058
+ "step": 2279
16059
+ },
16060
+ {
16061
+ "epoch": 0.1088162651680567,
16062
+ "grad_norm": 5.313838481903076,
16063
+ "learning_rate": 0.0001993677369713434,
16064
+ "loss": 5.643,
16065
+ "step": 2280
16066
+ },
16067
+ {
16068
+ "epoch": 0.10886399160014795,
16069
+ "grad_norm": 5.881006240844727,
16070
+ "learning_rate": 0.00019936717542851199,
16071
+ "loss": 6.6248,
16072
+ "step": 2281
16073
+ },
16074
+ {
16075
+ "epoch": 0.1089117180322392,
16076
+ "grad_norm": 4.9843244552612305,
16077
+ "learning_rate": 0.00019936661363721626,
16078
+ "loss": 5.4418,
16079
+ "step": 2282
16080
+ },
16081
+ {
16082
+ "epoch": 0.10895944446433045,
16083
+ "grad_norm": 6.7661943435668945,
16084
+ "learning_rate": 0.00019936605159745778,
16085
+ "loss": 7.1359,
16086
+ "step": 2283
16087
+ },
16088
+ {
16089
+ "epoch": 0.10900717089642172,
16090
+ "grad_norm": 4.885817527770996,
16091
+ "learning_rate": 0.00019936548930923786,
16092
+ "loss": 6.0781,
16093
+ "step": 2284
16094
+ },
16095
+ {
16096
+ "epoch": 0.10905489732851296,
16097
+ "grad_norm": 6.349702835083008,
16098
+ "learning_rate": 0.00019936492677255792,
16099
+ "loss": 6.7283,
16100
+ "step": 2285
16101
+ },
16102
+ {
16103
+ "epoch": 0.10910262376060421,
16104
+ "grad_norm": 7.6741461753845215,
16105
+ "learning_rate": 0.00019936436398741939,
16106
+ "loss": 6.876,
16107
+ "step": 2286
16108
+ },
16109
+ {
16110
+ "epoch": 0.10915035019269546,
16111
+ "grad_norm": 4.658005714416504,
16112
+ "learning_rate": 0.00019936380095382365,
16113
+ "loss": 5.0804,
16114
+ "step": 2287
16115
+ },
16116
+ {
16117
+ "epoch": 0.10919807662478673,
16118
+ "grad_norm": 6.007474899291992,
16119
+ "learning_rate": 0.00019936323767177214,
16120
+ "loss": 5.9884,
16121
+ "step": 2288
16122
+ },
16123
+ {
16124
+ "epoch": 0.10924580305687798,
16125
+ "grad_norm": 7.069979190826416,
16126
+ "learning_rate": 0.00019936267414126621,
16127
+ "loss": 5.87,
16128
+ "step": 2289
16129
+ },
16130
+ {
16131
+ "epoch": 0.10929352948896923,
16132
+ "grad_norm": 7.070275783538818,
16133
+ "learning_rate": 0.00019936211036230734,
16134
+ "loss": 7.335,
16135
+ "step": 2290
16136
+ },
16137
+ {
16138
+ "epoch": 0.10934125592106048,
16139
+ "grad_norm": 5.51244592666626,
16140
+ "learning_rate": 0.0001993615463348969,
16141
+ "loss": 5.12,
16142
+ "step": 2291
16143
+ },
16144
+ {
16145
+ "epoch": 0.10938898235315174,
16146
+ "grad_norm": 6.348170757293701,
16147
+ "learning_rate": 0.0001993609820590363,
16148
+ "loss": 6.1544,
16149
+ "step": 2292
16150
+ },
16151
+ {
16152
+ "epoch": 0.10943670878524299,
16153
+ "grad_norm": 7.591483116149902,
16154
+ "learning_rate": 0.00019936041753472697,
16155
+ "loss": 7.2094,
16156
+ "step": 2293
16157
+ },
16158
+ {
16159
+ "epoch": 0.10948443521733424,
16160
+ "grad_norm": 6.927452564239502,
16161
+ "learning_rate": 0.0001993598527619703,
16162
+ "loss": 7.4317,
16163
+ "step": 2294
16164
+ },
16165
+ {
16166
+ "epoch": 0.10953216164942549,
16167
+ "grad_norm": 6.805290699005127,
16168
+ "learning_rate": 0.00019935928774076774,
16169
+ "loss": 7.6707,
16170
+ "step": 2295
16171
+ },
16172
+ {
16173
+ "epoch": 0.10957988808151675,
16174
+ "grad_norm": 4.375084400177002,
16175
+ "learning_rate": 0.00019935872247112065,
16176
+ "loss": 4.3418,
16177
+ "step": 2296
16178
+ },
16179
+ {
16180
+ "epoch": 0.109627614513608,
16181
+ "grad_norm": 5.1622633934021,
16182
+ "learning_rate": 0.00019935815695303047,
16183
+ "loss": 6.8221,
16184
+ "step": 2297
16185
+ },
16186
+ {
16187
+ "epoch": 0.10967534094569925,
16188
+ "grad_norm": 4.2949066162109375,
16189
+ "learning_rate": 0.00019935759118649862,
16190
+ "loss": 6.0277,
16191
+ "step": 2298
16192
+ },
16193
+ {
16194
+ "epoch": 0.1097230673777905,
16195
+ "grad_norm": 7.153820037841797,
16196
+ "learning_rate": 0.00019935702517152648,
16197
+ "loss": 6.82,
16198
+ "step": 2299
16199
+ },
16200
+ {
16201
+ "epoch": 0.10977079380988176,
16202
+ "grad_norm": 5.745052814483643,
16203
+ "learning_rate": 0.0001993564589081155,
16204
+ "loss": 6.2553,
16205
+ "step": 2300
16206
+ },
16207
+ {
16208
+ "epoch": 0.10981852024197301,
16209
+ "grad_norm": 6.87201452255249,
16210
+ "learning_rate": 0.00019935589239626712,
16211
+ "loss": 7.7752,
16212
+ "step": 2301
16213
+ },
16214
+ {
16215
+ "epoch": 0.10986624667406426,
16216
+ "grad_norm": 5.777369022369385,
16217
+ "learning_rate": 0.00019935532563598272,
16218
+ "loss": 6.3414,
16219
+ "step": 2302
16220
+ },
16221
+ {
16222
+ "epoch": 0.10991397310615551,
16223
+ "grad_norm": 7.546662330627441,
16224
+ "learning_rate": 0.0001993547586272637,
16225
+ "loss": 8.5535,
16226
+ "step": 2303
16227
+ },
16228
+ {
16229
+ "epoch": 0.10996169953824676,
16230
+ "grad_norm": 6.240353584289551,
16231
+ "learning_rate": 0.00019935419137011152,
16232
+ "loss": 5.8689,
16233
+ "step": 2304
16234
+ },
16235
+ {
16236
+ "epoch": 0.11000942597033803,
16237
+ "grad_norm": 6.683908939361572,
16238
+ "learning_rate": 0.00019935362386452757,
16239
+ "loss": 6.5744,
16240
+ "step": 2305
16241
+ },
16242
+ {
16243
+ "epoch": 0.11005715240242928,
16244
+ "grad_norm": 6.688528060913086,
16245
+ "learning_rate": 0.0001993530561105133,
16246
+ "loss": 6.5041,
16247
+ "step": 2306
16248
+ },
16249
+ {
16250
+ "epoch": 0.11010487883452053,
16251
+ "grad_norm": 6.669954776763916,
16252
+ "learning_rate": 0.00019935248810807007,
16253
+ "loss": 8.4592,
16254
+ "step": 2307
16255
+ },
16256
+ {
16257
+ "epoch": 0.11015260526661177,
16258
+ "grad_norm": 5.248333930969238,
16259
+ "learning_rate": 0.00019935191985719937,
16260
+ "loss": 5.163,
16261
+ "step": 2308
16262
+ },
16263
+ {
16264
+ "epoch": 0.11020033169870304,
16265
+ "grad_norm": 6.443370342254639,
16266
+ "learning_rate": 0.00019935135135790258,
16267
+ "loss": 7.1714,
16268
+ "step": 2309
16269
+ },
16270
+ {
16271
+ "epoch": 0.11024805813079429,
16272
+ "grad_norm": 5.921457290649414,
16273
+ "learning_rate": 0.0001993507826101811,
16274
+ "loss": 6.3727,
16275
+ "step": 2310
16276
+ },
16277
+ {
16278
+ "epoch": 0.11029578456288554,
16279
+ "grad_norm": 5.955488204956055,
16280
+ "learning_rate": 0.00019935021361403642,
16281
+ "loss": 6.4379,
16282
+ "step": 2311
16283
+ },
16284
+ {
16285
+ "epoch": 0.11034351099497679,
16286
+ "grad_norm": 5.717413902282715,
16287
+ "learning_rate": 0.00019934964436946987,
16288
+ "loss": 6.7091,
16289
+ "step": 2312
16290
+ },
16291
+ {
16292
+ "epoch": 0.11039123742706805,
16293
+ "grad_norm": 6.291435718536377,
16294
+ "learning_rate": 0.00019934907487648298,
16295
+ "loss": 7.9312,
16296
+ "step": 2313
16297
+ },
16298
+ {
16299
+ "epoch": 0.1104389638591593,
16300
+ "grad_norm": 6.957582950592041,
16301
+ "learning_rate": 0.00019934850513507712,
16302
+ "loss": 8.0919,
16303
+ "step": 2314
16304
+ },
16305
+ {
16306
+ "epoch": 0.11048669029125055,
16307
+ "grad_norm": 7.492276191711426,
16308
+ "learning_rate": 0.00019934793514525371,
16309
+ "loss": 7.1227,
16310
+ "step": 2315
16311
+ },
16312
+ {
16313
+ "epoch": 0.1105344167233418,
16314
+ "grad_norm": 6.058623313903809,
16315
+ "learning_rate": 0.00019934736490701417,
16316
+ "loss": 6.6442,
16317
+ "step": 2316
16318
+ },
16319
+ {
16320
+ "epoch": 0.11058214315543306,
16321
+ "grad_norm": 7.71964693069458,
16322
+ "learning_rate": 0.00019934679442035997,
16323
+ "loss": 8.5892,
16324
+ "step": 2317
16325
+ },
16326
+ {
16327
+ "epoch": 0.11062986958752431,
16328
+ "grad_norm": 6.302182197570801,
16329
+ "learning_rate": 0.00019934622368529244,
16330
+ "loss": 6.2054,
16331
+ "step": 2318
16332
+ },
16333
+ {
16334
+ "epoch": 0.11067759601961556,
16335
+ "grad_norm": 5.68353271484375,
16336
+ "learning_rate": 0.00019934565270181317,
16337
+ "loss": 5.8535,
16338
+ "step": 2319
16339
+ },
16340
+ {
16341
+ "epoch": 0.11072532245170681,
16342
+ "grad_norm": 13.180729866027832,
16343
+ "learning_rate": 0.00019934508146992341,
16344
+ "loss": 5.0452,
16345
+ "step": 2320
16346
+ },
16347
+ {
16348
+ "epoch": 0.11077304888379808,
16349
+ "grad_norm": 6.95402193069458,
16350
+ "learning_rate": 0.00019934450998962468,
16351
+ "loss": 6.5574,
16352
+ "step": 2321
16353
+ },
16354
+ {
16355
+ "epoch": 0.11082077531588932,
16356
+ "grad_norm": 4.98831033706665,
16357
+ "learning_rate": 0.00019934393826091841,
16358
+ "loss": 4.8938,
16359
+ "step": 2322
16360
+ },
16361
+ {
16362
+ "epoch": 0.11086850174798057,
16363
+ "grad_norm": 6.9891510009765625,
16364
+ "learning_rate": 0.000199343366283806,
16365
+ "loss": 5.9829,
16366
+ "step": 2323
16367
+ },
16368
+ {
16369
+ "epoch": 0.11091622818007182,
16370
+ "grad_norm": 5.644136905670166,
16371
+ "learning_rate": 0.00019934279405828893,
16372
+ "loss": 6.7659,
16373
+ "step": 2324
16374
+ },
16375
+ {
16376
+ "epoch": 0.11096395461216309,
16377
+ "grad_norm": 5.159231662750244,
16378
+ "learning_rate": 0.00019934222158436856,
16379
+ "loss": 5.5547,
16380
+ "step": 2325
16381
+ },
16382
+ {
16383
+ "epoch": 0.11101168104425434,
16384
+ "grad_norm": 5.834488391876221,
16385
+ "learning_rate": 0.0001993416488620464,
16386
+ "loss": 7.0846,
16387
+ "step": 2326
16388
+ },
16389
+ {
16390
+ "epoch": 0.11105940747634559,
16391
+ "grad_norm": 6.442501544952393,
16392
+ "learning_rate": 0.0001993410758913238,
16393
+ "loss": 6.5023,
16394
+ "step": 2327
16395
+ },
16396
+ {
16397
+ "epoch": 0.11110713390843684,
16398
+ "grad_norm": 6.493159294128418,
16399
+ "learning_rate": 0.00019934050267220226,
16400
+ "loss": 6.8592,
16401
+ "step": 2328
16402
+ },
16403
+ {
16404
+ "epoch": 0.11115486034052809,
16405
+ "grad_norm": 5.3274712562561035,
16406
+ "learning_rate": 0.00019933992920468318,
16407
+ "loss": 5.79,
16408
+ "step": 2329
16409
+ },
16410
+ {
16411
+ "epoch": 0.11120258677261935,
16412
+ "grad_norm": 7.033855438232422,
16413
+ "learning_rate": 0.00019933935548876802,
16414
+ "loss": 6.8646,
16415
+ "step": 2330
16416
+ },
16417
+ {
16418
+ "epoch": 0.1112503132047106,
16419
+ "grad_norm": 7.091256618499756,
16420
+ "learning_rate": 0.00019933878152445815,
16421
+ "loss": 8.0637,
16422
+ "step": 2331
16423
+ },
16424
+ {
16425
+ "epoch": 0.11129803963680185,
16426
+ "grad_norm": 5.766811370849609,
16427
+ "learning_rate": 0.00019933820731175508,
16428
+ "loss": 6.6315,
16429
+ "step": 2332
16430
+ },
16431
+ {
16432
+ "epoch": 0.1113457660688931,
16433
+ "grad_norm": 6.875061511993408,
16434
+ "learning_rate": 0.0001993376328506602,
16435
+ "loss": 7.5878,
16436
+ "step": 2333
16437
+ },
16438
+ {
16439
+ "epoch": 0.11139349250098436,
16440
+ "grad_norm": 6.680387496948242,
16441
+ "learning_rate": 0.00019933705814117496,
16442
+ "loss": 5.9366,
16443
+ "step": 2334
16444
+ },
16445
+ {
16446
+ "epoch": 0.11144121893307561,
16447
+ "grad_norm": 6.255440711975098,
16448
+ "learning_rate": 0.00019933648318330081,
16449
+ "loss": 6.6987,
16450
+ "step": 2335
16451
+ },
16452
+ {
16453
+ "epoch": 0.11148894536516686,
16454
+ "grad_norm": 6.5973711013793945,
16455
+ "learning_rate": 0.0001993359079770392,
16456
+ "loss": 6.6335,
16457
+ "step": 2336
16458
+ },
16459
+ {
16460
+ "epoch": 0.11153667179725811,
16461
+ "grad_norm": 7.028340816497803,
16462
+ "learning_rate": 0.00019933533252239151,
16463
+ "loss": 6.9884,
16464
+ "step": 2337
16465
+ },
16466
+ {
16467
+ "epoch": 0.11158439822934937,
16468
+ "grad_norm": 5.201953411102295,
16469
+ "learning_rate": 0.00019933475681935923,
16470
+ "loss": 6.3241,
16471
+ "step": 2338
16472
+ },
16473
+ {
16474
+ "epoch": 0.11163212466144062,
16475
+ "grad_norm": 6.204700469970703,
16476
+ "learning_rate": 0.0001993341808679438,
16477
+ "loss": 7.4391,
16478
+ "step": 2339
16479
+ },
16480
+ {
16481
+ "epoch": 0.11167985109353187,
16482
+ "grad_norm": 6.416488170623779,
16483
+ "learning_rate": 0.0001993336046681466,
16484
+ "loss": 7.4533,
16485
+ "step": 2340
16486
+ },
16487
+ {
16488
+ "epoch": 0.11172757752562312,
16489
+ "grad_norm": 4.511433124542236,
16490
+ "learning_rate": 0.00019933302821996916,
16491
+ "loss": 4.9382,
16492
+ "step": 2341
16493
+ },
16494
+ {
16495
+ "epoch": 0.11177530395771439,
16496
+ "grad_norm": 4.712959289550781,
16497
+ "learning_rate": 0.00019933245152341288,
16498
+ "loss": 4.7801,
16499
+ "step": 2342
16500
+ },
16501
+ {
16502
+ "epoch": 0.11182303038980564,
16503
+ "grad_norm": 4.192983627319336,
16504
+ "learning_rate": 0.00019933187457847918,
16505
+ "loss": 6.1418,
16506
+ "step": 2343
16507
+ },
16508
+ {
16509
+ "epoch": 0.11187075682189689,
16510
+ "grad_norm": 8.828011512756348,
16511
+ "learning_rate": 0.0001993312973851695,
16512
+ "loss": 7.6646,
16513
+ "step": 2344
16514
+ },
16515
+ {
16516
+ "epoch": 0.11191848325398814,
16517
+ "grad_norm": 8.318449020385742,
16518
+ "learning_rate": 0.00019933071994348534,
16519
+ "loss": 9.4005,
16520
+ "step": 2345
16521
+ },
16522
+ {
16523
+ "epoch": 0.1119662096860794,
16524
+ "grad_norm": 5.3740386962890625,
16525
+ "learning_rate": 0.00019933014225342806,
16526
+ "loss": 5.7934,
16527
+ "step": 2346
16528
+ },
16529
+ {
16530
+ "epoch": 0.11201393611817065,
16531
+ "grad_norm": 6.731147766113281,
16532
+ "learning_rate": 0.0001993295643149992,
16533
+ "loss": 6.8445,
16534
+ "step": 2347
16535
+ },
16536
+ {
16537
+ "epoch": 0.1120616625502619,
16538
+ "grad_norm": 4.421756267547607,
16539
+ "learning_rate": 0.00019932898612820015,
16540
+ "loss": 4.8008,
16541
+ "step": 2348
16542
+ },
16543
+ {
16544
+ "epoch": 0.11210938898235315,
16545
+ "grad_norm": 8.543274879455566,
16546
+ "learning_rate": 0.00019932840769303236,
16547
+ "loss": 5.5817,
16548
+ "step": 2349
16549
+ },
16550
+ {
16551
+ "epoch": 0.11215711541444441,
16552
+ "grad_norm": 7.155072212219238,
16553
+ "learning_rate": 0.00019932782900949726,
16554
+ "loss": 6.2773,
16555
+ "step": 2350
16556
+ },
16557
+ {
16558
+ "epoch": 0.11220484184653566,
16559
+ "grad_norm": 9.269936561584473,
16560
+ "learning_rate": 0.00019932725007759634,
16561
+ "loss": 8.2326,
16562
+ "step": 2351
16563
+ },
16564
+ {
16565
+ "epoch": 0.11225256827862691,
16566
+ "grad_norm": 7.568048477172852,
16567
+ "learning_rate": 0.000199326670897331,
16568
+ "loss": 7.7525,
16569
+ "step": 2352
16570
+ },
16571
+ {
16572
+ "epoch": 0.11230029471071816,
16573
+ "grad_norm": 5.6857991218566895,
16574
+ "learning_rate": 0.00019932609146870272,
16575
+ "loss": 6.557,
16576
+ "step": 2353
16577
+ },
16578
+ {
16579
+ "epoch": 0.11234802114280942,
16580
+ "grad_norm": 8.984227180480957,
16581
+ "learning_rate": 0.000199325511791713,
16582
+ "loss": 7.3694,
16583
+ "step": 2354
16584
+ },
16585
+ {
16586
+ "epoch": 0.11239574757490067,
16587
+ "grad_norm": 5.334461212158203,
16588
+ "learning_rate": 0.00019932493186636317,
16589
+ "loss": 6.5095,
16590
+ "step": 2355
16591
+ },
16592
+ {
16593
+ "epoch": 0.11244347400699192,
16594
+ "grad_norm": 4.5501251220703125,
16595
+ "learning_rate": 0.00019932435169265475,
16596
+ "loss": 5.0719,
16597
+ "step": 2356
16598
+ },
16599
+ {
16600
+ "epoch": 0.11249120043908317,
16601
+ "grad_norm": 6.914137363433838,
16602
+ "learning_rate": 0.0001993237712705892,
16603
+ "loss": 8.3949,
16604
+ "step": 2357
16605
+ },
16606
+ {
16607
+ "epoch": 0.11253892687117442,
16608
+ "grad_norm": 6.041475296020508,
16609
+ "learning_rate": 0.00019932319060016792,
16610
+ "loss": 6.8818,
16611
+ "step": 2358
16612
+ },
16613
+ {
16614
+ "epoch": 0.11258665330326569,
16615
+ "grad_norm": 4.7477803230285645,
16616
+ "learning_rate": 0.0001993226096813924,
16617
+ "loss": 6.2313,
16618
+ "step": 2359
16619
+ },
16620
+ {
16621
+ "epoch": 0.11263437973535693,
16622
+ "grad_norm": 7.208108901977539,
16623
+ "learning_rate": 0.00019932202851426412,
16624
+ "loss": 7.2228,
16625
+ "step": 2360
16626
+ },
16627
+ {
16628
+ "epoch": 0.11268210616744818,
16629
+ "grad_norm": 6.3531670570373535,
16630
+ "learning_rate": 0.00019932144709878448,
16631
+ "loss": 6.8451,
16632
+ "step": 2361
16633
+ },
16634
+ {
16635
+ "epoch": 0.11272983259953943,
16636
+ "grad_norm": 5.461609840393066,
16637
+ "learning_rate": 0.00019932086543495496,
16638
+ "loss": 7.7151,
16639
+ "step": 2362
16640
+ },
16641
+ {
16642
+ "epoch": 0.1127775590316307,
16643
+ "grad_norm": 5.988696575164795,
16644
+ "learning_rate": 0.00019932028352277702,
16645
+ "loss": 6.6906,
16646
+ "step": 2363
16647
+ },
16648
+ {
16649
+ "epoch": 0.11282528546372195,
16650
+ "grad_norm": 4.52699613571167,
16651
+ "learning_rate": 0.0001993197013622521,
16652
+ "loss": 5.4023,
16653
+ "step": 2364
16654
+ },
16655
+ {
16656
+ "epoch": 0.1128730118958132,
16657
+ "grad_norm": 6.659121036529541,
16658
+ "learning_rate": 0.00019931911895338162,
16659
+ "loss": 6.355,
16660
+ "step": 2365
16661
+ },
16662
+ {
16663
+ "epoch": 0.11292073832790445,
16664
+ "grad_norm": 4.363926887512207,
16665
+ "learning_rate": 0.0001993185362961671,
16666
+ "loss": 4.5778,
16667
+ "step": 2366
16668
+ },
16669
+ {
16670
+ "epoch": 0.11296846475999571,
16671
+ "grad_norm": 5.3649115562438965,
16672
+ "learning_rate": 0.00019931795339061,
16673
+ "loss": 4.2701,
16674
+ "step": 2367
16675
+ },
16676
+ {
16677
+ "epoch": 0.11301619119208696,
16678
+ "grad_norm": 6.213987827301025,
16679
+ "learning_rate": 0.00019931737023671172,
16680
+ "loss": 5.5372,
16681
+ "step": 2368
16682
+ },
16683
+ {
16684
+ "epoch": 0.11306391762417821,
16685
+ "grad_norm": 5.593975067138672,
16686
+ "learning_rate": 0.00019931678683447377,
16687
+ "loss": 6.3435,
16688
+ "step": 2369
16689
+ },
16690
+ {
16691
+ "epoch": 0.11311164405626946,
16692
+ "grad_norm": 4.41213846206665,
16693
+ "learning_rate": 0.00019931620318389755,
16694
+ "loss": 5.769,
16695
+ "step": 2370
16696
+ },
16697
+ {
16698
+ "epoch": 0.11315937048836072,
16699
+ "grad_norm": 6.6761627197265625,
16700
+ "learning_rate": 0.00019931561928498458,
16701
+ "loss": 6.7361,
16702
+ "step": 2371
16703
+ },
16704
+ {
16705
+ "epoch": 0.11320709692045197,
16706
+ "grad_norm": 5.262270927429199,
16707
+ "learning_rate": 0.0001993150351377363,
16708
+ "loss": 7.0394,
16709
+ "step": 2372
16710
+ },
16711
+ {
16712
+ "epoch": 0.11325482335254322,
16713
+ "grad_norm": 5.07050895690918,
16714
+ "learning_rate": 0.00019931445074215418,
16715
+ "loss": 5.0472,
16716
+ "step": 2373
16717
+ },
16718
+ {
16719
+ "epoch": 0.11330254978463447,
16720
+ "grad_norm": 6.702690124511719,
16721
+ "learning_rate": 0.00019931386609823966,
16722
+ "loss": 7.3641,
16723
+ "step": 2374
16724
+ },
16725
+ {
16726
+ "epoch": 0.11335027621672573,
16727
+ "grad_norm": 6.738053798675537,
16728
+ "learning_rate": 0.0001993132812059942,
16729
+ "loss": 6.3667,
16730
+ "step": 2375
16731
+ },
16732
+ {
16733
+ "epoch": 0.11339800264881698,
16734
+ "grad_norm": 6.065093517303467,
16735
+ "learning_rate": 0.0001993126960654193,
16736
+ "loss": 6.2547,
16737
+ "step": 2376
16738
+ },
16739
+ {
16740
+ "epoch": 0.11344572908090823,
16741
+ "grad_norm": 11.0866060256958,
16742
+ "learning_rate": 0.00019931211067651634,
16743
+ "loss": 6.9068,
16744
+ "step": 2377
16745
+ },
16746
+ {
16747
+ "epoch": 0.11349345551299948,
16748
+ "grad_norm": 6.7252197265625,
16749
+ "learning_rate": 0.00019931152503928687,
16750
+ "loss": 5.4051,
16751
+ "step": 2378
16752
+ },
16753
+ {
16754
+ "epoch": 0.11354118194509075,
16755
+ "grad_norm": 6.592766284942627,
16756
+ "learning_rate": 0.00019931093915373236,
16757
+ "loss": 5.6256,
16758
+ "step": 2379
16759
+ },
16760
+ {
16761
+ "epoch": 0.113588908377182,
16762
+ "grad_norm": 5.081091403961182,
16763
+ "learning_rate": 0.00019931035301985422,
16764
+ "loss": 5.7141,
16765
+ "step": 2380
16766
+ },
16767
+ {
16768
+ "epoch": 0.11363663480927325,
16769
+ "grad_norm": 4.645683288574219,
16770
+ "learning_rate": 0.0001993097666376539,
16771
+ "loss": 5.7581,
16772
+ "step": 2381
16773
+ },
16774
+ {
16775
+ "epoch": 0.1136843612413645,
16776
+ "grad_norm": 9.910128593444824,
16777
+ "learning_rate": 0.00019930918000713292,
16778
+ "loss": 7.054,
16779
+ "step": 2382
16780
+ },
16781
+ {
16782
+ "epoch": 0.11373208767345575,
16783
+ "grad_norm": 5.0828447341918945,
16784
+ "learning_rate": 0.00019930859312829275,
16785
+ "loss": 6.108,
16786
+ "step": 2383
16787
+ },
16788
+ {
16789
+ "epoch": 0.11377981410554701,
16790
+ "grad_norm": 5.93762731552124,
16791
+ "learning_rate": 0.0001993080060011348,
16792
+ "loss": 6.5221,
16793
+ "step": 2384
16794
+ },
16795
+ {
16796
+ "epoch": 0.11382754053763826,
16797
+ "grad_norm": 5.379035949707031,
16798
+ "learning_rate": 0.0001993074186256606,
16799
+ "loss": 5.5101,
16800
+ "step": 2385
16801
+ },
16802
+ {
16803
+ "epoch": 0.11387526696972951,
16804
+ "grad_norm": 7.046672344207764,
16805
+ "learning_rate": 0.00019930683100187157,
16806
+ "loss": 6.0654,
16807
+ "step": 2386
16808
+ },
16809
+ {
16810
+ "epoch": 0.11392299340182076,
16811
+ "grad_norm": 5.484672546386719,
16812
+ "learning_rate": 0.00019930624312976925,
16813
+ "loss": 6.6674,
16814
+ "step": 2387
16815
+ },
16816
+ {
16817
+ "epoch": 0.11397071983391202,
16818
+ "grad_norm": 5.460198879241943,
16819
+ "learning_rate": 0.000199305655009355,
16820
+ "loss": 6.2622,
16821
+ "step": 2388
16822
+ },
16823
+ {
16824
+ "epoch": 0.11401844626600327,
16825
+ "grad_norm": 6.094839096069336,
16826
+ "learning_rate": 0.0001993050666406304,
16827
+ "loss": 6.5156,
16828
+ "step": 2389
16829
+ },
16830
+ {
16831
+ "epoch": 0.11406617269809452,
16832
+ "grad_norm": 6.646234035491943,
16833
+ "learning_rate": 0.00019930447802359686,
16834
+ "loss": 7.9221,
16835
+ "step": 2390
16836
+ },
16837
+ {
16838
+ "epoch": 0.11411389913018577,
16839
+ "grad_norm": 7.640484809875488,
16840
+ "learning_rate": 0.00019930388915825585,
16841
+ "loss": 8.555,
16842
+ "step": 2391
16843
+ },
16844
+ {
16845
+ "epoch": 0.11416162556227703,
16846
+ "grad_norm": 5.273614406585693,
16847
+ "learning_rate": 0.00019930330004460885,
16848
+ "loss": 6.1841,
16849
+ "step": 2392
16850
+ },
16851
+ {
16852
+ "epoch": 0.11420935199436828,
16853
+ "grad_norm": 5.593787670135498,
16854
+ "learning_rate": 0.00019930271068265736,
16855
+ "loss": 5.6689,
16856
+ "step": 2393
16857
+ },
16858
+ {
16859
+ "epoch": 0.11425707842645953,
16860
+ "grad_norm": 7.496115684509277,
16861
+ "learning_rate": 0.00019930212107240286,
16862
+ "loss": 7.1425,
16863
+ "step": 2394
16864
+ },
16865
+ {
16866
+ "epoch": 0.11430480485855078,
16867
+ "grad_norm": 4.734747409820557,
16868
+ "learning_rate": 0.00019930153121384676,
16869
+ "loss": 4.4183,
16870
+ "step": 2395
16871
+ },
16872
+ {
16873
+ "epoch": 0.11435253129064205,
16874
+ "grad_norm": 5.430137634277344,
16875
+ "learning_rate": 0.0001993009411069906,
16876
+ "loss": 5.1923,
16877
+ "step": 2396
16878
+ },
16879
+ {
16880
+ "epoch": 0.1144002577227333,
16881
+ "grad_norm": 5.818052291870117,
16882
+ "learning_rate": 0.0001993003507518358,
16883
+ "loss": 6.9959,
16884
+ "step": 2397
16885
+ },
16886
+ {
16887
+ "epoch": 0.11444798415482454,
16888
+ "grad_norm": 8.082784652709961,
16889
+ "learning_rate": 0.00019929976014838389,
16890
+ "loss": 6.6515,
16891
+ "step": 2398
16892
+ },
16893
+ {
16894
+ "epoch": 0.1144957105869158,
16895
+ "grad_norm": 5.44492244720459,
16896
+ "learning_rate": 0.0001992991692966363,
16897
+ "loss": 5.7843,
16898
+ "step": 2399
16899
+ },
16900
+ {
16901
+ "epoch": 0.11454343701900706,
16902
+ "grad_norm": 6.5203447341918945,
16903
+ "learning_rate": 0.00019929857819659454,
16904
+ "loss": 6.4552,
16905
+ "step": 2400
16906
+ },
16907
+ {
16908
+ "epoch": 0.11454343701900706,
16909
+ "eval_loss": 1.6121469736099243,
16910
+ "eval_runtime": 96.4975,
16911
+ "eval_samples_per_second": 8.736,
16912
+ "eval_steps_per_second": 4.373,
16913
+ "step": 2400
16914
  }
16915
  ],
16916
  "logging_steps": 1,
 
16925
  "early_stopping_threshold": 0.0
16926
  },
16927
  "attributes": {
16928
+ "early_stopping_patience_counter": 1
16929
  }
16930
  },
16931
  "TrainerControl": {
 
16939
  "attributes": {}
16940
  }
16941
  },
16942
+ "total_flos": 2.225353217015808e+17,
16943
  "train_batch_size": 2,
16944
  "trial_name": null,
16945
  "trial_params": null