error577 commited on
Commit
9d02bf0
·
verified ·
1 Parent(s): 5186ab9

Training in progress, step 400, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dafa4b35903272d9a5875a528613d55b70de489a4cba4b0c5d90b8e7372447d6
3
  size 201361312
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:23e7a6d5b7aad440e78deec56146ff348af3d4e8f8beae15cf733c5f24d05919
3
  size 201361312
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1cf933217f2a1496df6e505c373994ec60d2e9cb4e4182654a65e173712ea973
3
- size 102537556
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:51ada906bb55415a9b47ce9b7358d4c6ec8104de8825a3ecb6529237e55d1768
3
+ size 102537812
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9fe7d0a617f855b2bc9dfdd7c58ade6a034334dc9ab8264f32d86ab4c71b68ff
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6754fab244ca44d88a841a60271b5dc8c5d8d98d90006bf01abc71d28f65b63d
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e2a83f712de79bb514499d2ca3730c9bd34c456c994df59c25a6345a223b9b1e
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:23d544576b5cbfe5ea315089265e38649a716f01fec6390e5015f8bf833d3574
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 1.6985455751419067,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-200",
4
- "epoch": 0.009545286418250587,
5
  "eval_steps": 200,
6
- "global_step": 200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1423,6 +1423,1414 @@
1423
  "eval_samples_per_second": 8.738,
1424
  "eval_steps_per_second": 4.374,
1425
  "step": 200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1426
  }
1427
  ],
1428
  "logging_steps": 1,
@@ -1451,7 +2859,7 @@
1451
  "attributes": {}
1452
  }
1453
  },
1454
- "total_flos": 1.85446101417984e+16,
1455
  "train_batch_size": 2,
1456
  "trial_name": null,
1457
  "trial_params": null
 
1
  {
2
+ "best_metric": 1.665988564491272,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
+ "epoch": 0.019090572836501174,
5
  "eval_steps": 200,
6
+ "global_step": 400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1423
  "eval_samples_per_second": 8.738,
1424
  "eval_steps_per_second": 4.374,
1425
  "step": 200
1426
+ },
1427
+ {
1428
+ "epoch": 0.00959301285034184,
1429
+ "grad_norm": 3.706386089324951,
1430
+ "learning_rate": 0.00019999634421619673,
1431
+ "loss": 5.2003,
1432
+ "step": 201
1433
+ },
1434
+ {
1435
+ "epoch": 0.009640739282433093,
1436
+ "grad_norm": 4.2931294441223145,
1437
+ "learning_rate": 0.00019999630133373325,
1438
+ "loss": 5.9312,
1439
+ "step": 202
1440
+ },
1441
+ {
1442
+ "epoch": 0.009688465714524346,
1443
+ "grad_norm": 4.851586818695068,
1444
+ "learning_rate": 0.00019999625820123245,
1445
+ "loss": 6.7144,
1446
+ "step": 203
1447
+ },
1448
+ {
1449
+ "epoch": 0.0097361921466156,
1450
+ "grad_norm": 5.349869728088379,
1451
+ "learning_rate": 0.0001999962148186944,
1452
+ "loss": 6.6918,
1453
+ "step": 204
1454
+ },
1455
+ {
1456
+ "epoch": 0.009783918578706852,
1457
+ "grad_norm": 5.367208003997803,
1458
+ "learning_rate": 0.00019999617118611924,
1459
+ "loss": 7.5381,
1460
+ "step": 205
1461
+ },
1462
+ {
1463
+ "epoch": 0.009831645010798105,
1464
+ "grad_norm": 4.719504356384277,
1465
+ "learning_rate": 0.00019999612730350707,
1466
+ "loss": 6.669,
1467
+ "step": 206
1468
+ },
1469
+ {
1470
+ "epoch": 0.009879371442889359,
1471
+ "grad_norm": 5.995404243469238,
1472
+ "learning_rate": 0.000199996083170858,
1473
+ "loss": 7.8411,
1474
+ "step": 207
1475
+ },
1476
+ {
1477
+ "epoch": 0.009927097874980612,
1478
+ "grad_norm": 5.326706409454346,
1479
+ "learning_rate": 0.0001999960387881721,
1480
+ "loss": 6.2895,
1481
+ "step": 208
1482
+ },
1483
+ {
1484
+ "epoch": 0.009974824307071865,
1485
+ "grad_norm": 4.975574016571045,
1486
+ "learning_rate": 0.00019999599415544957,
1487
+ "loss": 5.5179,
1488
+ "step": 209
1489
+ },
1490
+ {
1491
+ "epoch": 0.010022550739163118,
1492
+ "grad_norm": 5.673884391784668,
1493
+ "learning_rate": 0.00019999594927269047,
1494
+ "loss": 6.7112,
1495
+ "step": 210
1496
+ },
1497
+ {
1498
+ "epoch": 0.01007027717125437,
1499
+ "grad_norm": 5.526071071624756,
1500
+ "learning_rate": 0.0001999959041398949,
1501
+ "loss": 6.4561,
1502
+ "step": 211
1503
+ },
1504
+ {
1505
+ "epoch": 0.010118003603345622,
1506
+ "grad_norm": 5.906366348266602,
1507
+ "learning_rate": 0.000199995858757063,
1508
+ "loss": 6.8685,
1509
+ "step": 212
1510
+ },
1511
+ {
1512
+ "epoch": 0.010165730035436875,
1513
+ "grad_norm": 5.4884257316589355,
1514
+ "learning_rate": 0.0001999958131241949,
1515
+ "loss": 8.4239,
1516
+ "step": 213
1517
+ },
1518
+ {
1519
+ "epoch": 0.010213456467528128,
1520
+ "grad_norm": 3.8919754028320312,
1521
+ "learning_rate": 0.0001999957672412906,
1522
+ "loss": 6.4004,
1523
+ "step": 214
1524
+ },
1525
+ {
1526
+ "epoch": 0.010261182899619381,
1527
+ "grad_norm": 5.335618495941162,
1528
+ "learning_rate": 0.0001999957211083504,
1529
+ "loss": 5.9267,
1530
+ "step": 215
1531
+ },
1532
+ {
1533
+ "epoch": 0.010308909331710634,
1534
+ "grad_norm": 5.428693771362305,
1535
+ "learning_rate": 0.00019999567472537424,
1536
+ "loss": 7.1497,
1537
+ "step": 216
1538
+ },
1539
+ {
1540
+ "epoch": 0.010356635763801888,
1541
+ "grad_norm": 3.8885908126831055,
1542
+ "learning_rate": 0.0001999956280923623,
1543
+ "loss": 5.886,
1544
+ "step": 217
1545
+ },
1546
+ {
1547
+ "epoch": 0.01040436219589314,
1548
+ "grad_norm": 4.225867748260498,
1549
+ "learning_rate": 0.0001999955812093148,
1550
+ "loss": 7.0125,
1551
+ "step": 218
1552
+ },
1553
+ {
1554
+ "epoch": 0.010452088627984394,
1555
+ "grad_norm": 4.775414943695068,
1556
+ "learning_rate": 0.0001999955340762317,
1557
+ "loss": 6.0621,
1558
+ "step": 219
1559
+ },
1560
+ {
1561
+ "epoch": 0.010499815060075647,
1562
+ "grad_norm": 4.572904586791992,
1563
+ "learning_rate": 0.00019999548669311318,
1564
+ "loss": 5.5764,
1565
+ "step": 220
1566
+ },
1567
+ {
1568
+ "epoch": 0.0105475414921669,
1569
+ "grad_norm": 5.60729455947876,
1570
+ "learning_rate": 0.00019999543905995938,
1571
+ "loss": 8.5128,
1572
+ "step": 221
1573
+ },
1574
+ {
1575
+ "epoch": 0.010595267924258153,
1576
+ "grad_norm": 5.341472148895264,
1577
+ "learning_rate": 0.0001999953911767704,
1578
+ "loss": 7.4026,
1579
+ "step": 222
1580
+ },
1581
+ {
1582
+ "epoch": 0.010642994356349406,
1583
+ "grad_norm": 3.933389663696289,
1584
+ "learning_rate": 0.00019999534304354635,
1585
+ "loss": 4.8309,
1586
+ "step": 223
1587
+ },
1588
+ {
1589
+ "epoch": 0.010690720788440657,
1590
+ "grad_norm": 5.747697830200195,
1591
+ "learning_rate": 0.00019999529466028737,
1592
+ "loss": 7.3435,
1593
+ "step": 224
1594
+ },
1595
+ {
1596
+ "epoch": 0.01073844722053191,
1597
+ "grad_norm": 4.927333831787109,
1598
+ "learning_rate": 0.00019999524602699358,
1599
+ "loss": 6.4677,
1600
+ "step": 225
1601
+ },
1602
+ {
1603
+ "epoch": 0.010786173652623163,
1604
+ "grad_norm": 3.5867760181427,
1605
+ "learning_rate": 0.0001999951971436651,
1606
+ "loss": 5.4795,
1607
+ "step": 226
1608
+ },
1609
+ {
1610
+ "epoch": 0.010833900084714417,
1611
+ "grad_norm": 4.812954425811768,
1612
+ "learning_rate": 0.000199995148010302,
1613
+ "loss": 6.1549,
1614
+ "step": 227
1615
+ },
1616
+ {
1617
+ "epoch": 0.01088162651680567,
1618
+ "grad_norm": 6.369991302490234,
1619
+ "learning_rate": 0.00019999509862690448,
1620
+ "loss": 7.4918,
1621
+ "step": 228
1622
+ },
1623
+ {
1624
+ "epoch": 0.010929352948896923,
1625
+ "grad_norm": 5.212950229644775,
1626
+ "learning_rate": 0.00019999504899347262,
1627
+ "loss": 5.5875,
1628
+ "step": 229
1629
+ },
1630
+ {
1631
+ "epoch": 0.010977079380988176,
1632
+ "grad_norm": 4.195418357849121,
1633
+ "learning_rate": 0.00019999499911000656,
1634
+ "loss": 5.2198,
1635
+ "step": 230
1636
+ },
1637
+ {
1638
+ "epoch": 0.011024805813079429,
1639
+ "grad_norm": 4.676207065582275,
1640
+ "learning_rate": 0.00019999494897650645,
1641
+ "loss": 6.0417,
1642
+ "step": 231
1643
+ },
1644
+ {
1645
+ "epoch": 0.011072532245170682,
1646
+ "grad_norm": 4.369086265563965,
1647
+ "learning_rate": 0.00019999489859297235,
1648
+ "loss": 4.7328,
1649
+ "step": 232
1650
+ },
1651
+ {
1652
+ "epoch": 0.011120258677261935,
1653
+ "grad_norm": 5.925018310546875,
1654
+ "learning_rate": 0.00019999484795940443,
1655
+ "loss": 6.0987,
1656
+ "step": 233
1657
+ },
1658
+ {
1659
+ "epoch": 0.011167985109353188,
1660
+ "grad_norm": 4.76014518737793,
1661
+ "learning_rate": 0.00019999479707580282,
1662
+ "loss": 6.571,
1663
+ "step": 234
1664
+ },
1665
+ {
1666
+ "epoch": 0.011215711541444441,
1667
+ "grad_norm": 5.120473861694336,
1668
+ "learning_rate": 0.00019999474594216762,
1669
+ "loss": 7.5342,
1670
+ "step": 235
1671
+ },
1672
+ {
1673
+ "epoch": 0.011263437973535694,
1674
+ "grad_norm": 5.6909027099609375,
1675
+ "learning_rate": 0.000199994694558499,
1676
+ "loss": 8.6062,
1677
+ "step": 236
1678
+ },
1679
+ {
1680
+ "epoch": 0.011311164405626946,
1681
+ "grad_norm": 8.290360450744629,
1682
+ "learning_rate": 0.00019999464292479703,
1683
+ "loss": 7.7553,
1684
+ "step": 237
1685
+ },
1686
+ {
1687
+ "epoch": 0.011358890837718199,
1688
+ "grad_norm": 5.976494312286377,
1689
+ "learning_rate": 0.00019999459104106187,
1690
+ "loss": 8.6744,
1691
+ "step": 238
1692
+ },
1693
+ {
1694
+ "epoch": 0.011406617269809452,
1695
+ "grad_norm": 10.440987586975098,
1696
+ "learning_rate": 0.0001999945389072937,
1697
+ "loss": 8.9354,
1698
+ "step": 239
1699
+ },
1700
+ {
1701
+ "epoch": 0.011454343701900705,
1702
+ "grad_norm": 4.592039585113525,
1703
+ "learning_rate": 0.00019999448652349258,
1704
+ "loss": 7.377,
1705
+ "step": 240
1706
+ },
1707
+ {
1708
+ "epoch": 0.011502070133991958,
1709
+ "grad_norm": 4.670874118804932,
1710
+ "learning_rate": 0.00019999443388965863,
1711
+ "loss": 7.5659,
1712
+ "step": 241
1713
+ },
1714
+ {
1715
+ "epoch": 0.011549796566083211,
1716
+ "grad_norm": 4.679845809936523,
1717
+ "learning_rate": 0.00019999438100579204,
1718
+ "loss": 6.6256,
1719
+ "step": 242
1720
+ },
1721
+ {
1722
+ "epoch": 0.011597522998174464,
1723
+ "grad_norm": 4.715898036956787,
1724
+ "learning_rate": 0.0001999943278718929,
1725
+ "loss": 6.702,
1726
+ "step": 243
1727
+ },
1728
+ {
1729
+ "epoch": 0.011645249430265717,
1730
+ "grad_norm": 7.395649433135986,
1731
+ "learning_rate": 0.0001999942744879614,
1732
+ "loss": 7.1643,
1733
+ "step": 244
1734
+ },
1735
+ {
1736
+ "epoch": 0.01169297586235697,
1737
+ "grad_norm": 4.151764392852783,
1738
+ "learning_rate": 0.0001999942208539976,
1739
+ "loss": 5.9845,
1740
+ "step": 245
1741
+ },
1742
+ {
1743
+ "epoch": 0.011740702294448223,
1744
+ "grad_norm": 5.3397345542907715,
1745
+ "learning_rate": 0.00019999416697000165,
1746
+ "loss": 8.978,
1747
+ "step": 246
1748
+ },
1749
+ {
1750
+ "epoch": 0.011788428726539476,
1751
+ "grad_norm": 5.556086540222168,
1752
+ "learning_rate": 0.00019999411283597374,
1753
+ "loss": 7.4888,
1754
+ "step": 247
1755
+ },
1756
+ {
1757
+ "epoch": 0.01183615515863073,
1758
+ "grad_norm": 4.385659217834473,
1759
+ "learning_rate": 0.00019999405845191393,
1760
+ "loss": 6.167,
1761
+ "step": 248
1762
+ },
1763
+ {
1764
+ "epoch": 0.011883881590721982,
1765
+ "grad_norm": 4.701001167297363,
1766
+ "learning_rate": 0.00019999400381782244,
1767
+ "loss": 6.2042,
1768
+ "step": 249
1769
+ },
1770
+ {
1771
+ "epoch": 0.011931608022813234,
1772
+ "grad_norm": 4.775174140930176,
1773
+ "learning_rate": 0.0001999939489336993,
1774
+ "loss": 7.4549,
1775
+ "step": 250
1776
+ },
1777
+ {
1778
+ "epoch": 0.011979334454904487,
1779
+ "grad_norm": 5.019827365875244,
1780
+ "learning_rate": 0.00019999389379954477,
1781
+ "loss": 5.8486,
1782
+ "step": 251
1783
+ },
1784
+ {
1785
+ "epoch": 0.01202706088699574,
1786
+ "grad_norm": 5.453334331512451,
1787
+ "learning_rate": 0.00019999383841535888,
1788
+ "loss": 7.1586,
1789
+ "step": 252
1790
+ },
1791
+ {
1792
+ "epoch": 0.012074787319086993,
1793
+ "grad_norm": 4.455638408660889,
1794
+ "learning_rate": 0.00019999378278114183,
1795
+ "loss": 5.3958,
1796
+ "step": 253
1797
+ },
1798
+ {
1799
+ "epoch": 0.012122513751178246,
1800
+ "grad_norm": 4.937852382659912,
1801
+ "learning_rate": 0.00019999372689689376,
1802
+ "loss": 7.0083,
1803
+ "step": 254
1804
+ },
1805
+ {
1806
+ "epoch": 0.012170240183269499,
1807
+ "grad_norm": 4.422460079193115,
1808
+ "learning_rate": 0.00019999367076261476,
1809
+ "loss": 6.4996,
1810
+ "step": 255
1811
+ },
1812
+ {
1813
+ "epoch": 0.012217966615360752,
1814
+ "grad_norm": 3.780395269393921,
1815
+ "learning_rate": 0.000199993614378305,
1816
+ "loss": 6.0372,
1817
+ "step": 256
1818
+ },
1819
+ {
1820
+ "epoch": 0.012265693047452005,
1821
+ "grad_norm": 5.636499404907227,
1822
+ "learning_rate": 0.00019999355774396465,
1823
+ "loss": 6.3515,
1824
+ "step": 257
1825
+ },
1826
+ {
1827
+ "epoch": 0.012313419479543258,
1828
+ "grad_norm": 5.77448844909668,
1829
+ "learning_rate": 0.0001999935008595938,
1830
+ "loss": 8.0423,
1831
+ "step": 258
1832
+ },
1833
+ {
1834
+ "epoch": 0.012361145911634511,
1835
+ "grad_norm": 4.834639549255371,
1836
+ "learning_rate": 0.00019999344372519264,
1837
+ "loss": 5.8949,
1838
+ "step": 259
1839
+ },
1840
+ {
1841
+ "epoch": 0.012408872343725764,
1842
+ "grad_norm": 6.200581073760986,
1843
+ "learning_rate": 0.00019999338634076126,
1844
+ "loss": 8.6784,
1845
+ "step": 260
1846
+ },
1847
+ {
1848
+ "epoch": 0.012456598775817018,
1849
+ "grad_norm": 5.017780303955078,
1850
+ "learning_rate": 0.00019999332870629987,
1851
+ "loss": 5.4993,
1852
+ "step": 261
1853
+ },
1854
+ {
1855
+ "epoch": 0.01250432520790827,
1856
+ "grad_norm": 4.737110137939453,
1857
+ "learning_rate": 0.00019999327082180854,
1858
+ "loss": 6.2233,
1859
+ "step": 262
1860
+ },
1861
+ {
1862
+ "epoch": 0.012552051639999522,
1863
+ "grad_norm": 4.9615278244018555,
1864
+ "learning_rate": 0.00019999321268728747,
1865
+ "loss": 6.5653,
1866
+ "step": 263
1867
+ },
1868
+ {
1869
+ "epoch": 0.012599778072090775,
1870
+ "grad_norm": 4.462545871734619,
1871
+ "learning_rate": 0.00019999315430273683,
1872
+ "loss": 6.815,
1873
+ "step": 264
1874
+ },
1875
+ {
1876
+ "epoch": 0.012647504504182028,
1877
+ "grad_norm": 5.788268566131592,
1878
+ "learning_rate": 0.00019999309566815665,
1879
+ "loss": 5.2953,
1880
+ "step": 265
1881
+ },
1882
+ {
1883
+ "epoch": 0.012695230936273281,
1884
+ "grad_norm": 5.634494304656982,
1885
+ "learning_rate": 0.0001999930367835472,
1886
+ "loss": 6.1009,
1887
+ "step": 266
1888
+ },
1889
+ {
1890
+ "epoch": 0.012742957368364534,
1891
+ "grad_norm": 6.640275955200195,
1892
+ "learning_rate": 0.00019999297764890854,
1893
+ "loss": 6.454,
1894
+ "step": 267
1895
+ },
1896
+ {
1897
+ "epoch": 0.012790683800455787,
1898
+ "grad_norm": 5.759767055511475,
1899
+ "learning_rate": 0.0001999929182642409,
1900
+ "loss": 8.0766,
1901
+ "step": 268
1902
+ },
1903
+ {
1904
+ "epoch": 0.01283841023254704,
1905
+ "grad_norm": 4.624085426330566,
1906
+ "learning_rate": 0.00019999285862954436,
1907
+ "loss": 6.848,
1908
+ "step": 269
1909
+ },
1910
+ {
1911
+ "epoch": 0.012886136664638293,
1912
+ "grad_norm": 3.952364206314087,
1913
+ "learning_rate": 0.00019999279874481908,
1914
+ "loss": 5.7864,
1915
+ "step": 270
1916
+ },
1917
+ {
1918
+ "epoch": 0.012933863096729547,
1919
+ "grad_norm": 5.424389839172363,
1920
+ "learning_rate": 0.00019999273861006525,
1921
+ "loss": 6.1687,
1922
+ "step": 271
1923
+ },
1924
+ {
1925
+ "epoch": 0.0129815895288208,
1926
+ "grad_norm": 4.6196088790893555,
1927
+ "learning_rate": 0.00019999267822528297,
1928
+ "loss": 6.6814,
1929
+ "step": 272
1930
+ },
1931
+ {
1932
+ "epoch": 0.013029315960912053,
1933
+ "grad_norm": 4.935333251953125,
1934
+ "learning_rate": 0.00019999261759047243,
1935
+ "loss": 5.5486,
1936
+ "step": 273
1937
+ },
1938
+ {
1939
+ "epoch": 0.013077042393003306,
1940
+ "grad_norm": 5.395534038543701,
1941
+ "learning_rate": 0.00019999255670563376,
1942
+ "loss": 6.8173,
1943
+ "step": 274
1944
+ },
1945
+ {
1946
+ "epoch": 0.013124768825094559,
1947
+ "grad_norm": 6.942729949951172,
1948
+ "learning_rate": 0.0001999924955707671,
1949
+ "loss": 8.094,
1950
+ "step": 275
1951
+ },
1952
+ {
1953
+ "epoch": 0.01317249525718581,
1954
+ "grad_norm": 5.219112396240234,
1955
+ "learning_rate": 0.00019999243418587266,
1956
+ "loss": 6.5134,
1957
+ "step": 276
1958
+ },
1959
+ {
1960
+ "epoch": 0.013220221689277063,
1961
+ "grad_norm": 4.332059383392334,
1962
+ "learning_rate": 0.00019999237255095053,
1963
+ "loss": 6.2888,
1964
+ "step": 277
1965
+ },
1966
+ {
1967
+ "epoch": 0.013267948121368316,
1968
+ "grad_norm": 5.0153679847717285,
1969
+ "learning_rate": 0.0001999923106660009,
1970
+ "loss": 6.3642,
1971
+ "step": 278
1972
+ },
1973
+ {
1974
+ "epoch": 0.01331567455345957,
1975
+ "grad_norm": 3.461423873901367,
1976
+ "learning_rate": 0.0001999922485310239,
1977
+ "loss": 5.3825,
1978
+ "step": 279
1979
+ },
1980
+ {
1981
+ "epoch": 0.013363400985550822,
1982
+ "grad_norm": 4.702268600463867,
1983
+ "learning_rate": 0.0001999921861460197,
1984
+ "loss": 5.971,
1985
+ "step": 280
1986
+ },
1987
+ {
1988
+ "epoch": 0.013411127417642076,
1989
+ "grad_norm": 4.084397792816162,
1990
+ "learning_rate": 0.00019999212351098846,
1991
+ "loss": 6.3295,
1992
+ "step": 281
1993
+ },
1994
+ {
1995
+ "epoch": 0.013458853849733329,
1996
+ "grad_norm": 6.114694118499756,
1997
+ "learning_rate": 0.00019999206062593032,
1998
+ "loss": 7.4146,
1999
+ "step": 282
2000
+ },
2001
+ {
2002
+ "epoch": 0.013506580281824582,
2003
+ "grad_norm": 6.846054553985596,
2004
+ "learning_rate": 0.00019999199749084546,
2005
+ "loss": 6.3659,
2006
+ "step": 283
2007
+ },
2008
+ {
2009
+ "epoch": 0.013554306713915835,
2010
+ "grad_norm": 4.534778594970703,
2011
+ "learning_rate": 0.00019999193410573404,
2012
+ "loss": 6.4923,
2013
+ "step": 284
2014
+ },
2015
+ {
2016
+ "epoch": 0.013602033146007088,
2017
+ "grad_norm": 8.201200485229492,
2018
+ "learning_rate": 0.0001999918704705962,
2019
+ "loss": 8.3697,
2020
+ "step": 285
2021
+ },
2022
+ {
2023
+ "epoch": 0.013649759578098341,
2024
+ "grad_norm": 4.86665153503418,
2025
+ "learning_rate": 0.00019999180658543207,
2026
+ "loss": 6.4496,
2027
+ "step": 286
2028
+ },
2029
+ {
2030
+ "epoch": 0.013697486010189594,
2031
+ "grad_norm": 5.482726573944092,
2032
+ "learning_rate": 0.00019999174245024186,
2033
+ "loss": 6.7978,
2034
+ "step": 287
2035
+ },
2036
+ {
2037
+ "epoch": 0.013745212442280845,
2038
+ "grad_norm": 5.493237018585205,
2039
+ "learning_rate": 0.00019999167806502573,
2040
+ "loss": 7.1984,
2041
+ "step": 288
2042
+ },
2043
+ {
2044
+ "epoch": 0.013792938874372098,
2045
+ "grad_norm": 5.953492641448975,
2046
+ "learning_rate": 0.0001999916134297838,
2047
+ "loss": 7.8598,
2048
+ "step": 289
2049
+ },
2050
+ {
2051
+ "epoch": 0.013840665306463351,
2052
+ "grad_norm": 6.032693386077881,
2053
+ "learning_rate": 0.0001999915485445163,
2054
+ "loss": 9.7618,
2055
+ "step": 290
2056
+ },
2057
+ {
2058
+ "epoch": 0.013888391738554605,
2059
+ "grad_norm": 5.2243733406066895,
2060
+ "learning_rate": 0.00019999148340922333,
2061
+ "loss": 8.777,
2062
+ "step": 291
2063
+ },
2064
+ {
2065
+ "epoch": 0.013936118170645858,
2066
+ "grad_norm": 4.763432025909424,
2067
+ "learning_rate": 0.00019999141802390505,
2068
+ "loss": 8.0905,
2069
+ "step": 292
2070
+ },
2071
+ {
2072
+ "epoch": 0.01398384460273711,
2073
+ "grad_norm": 4.205863952636719,
2074
+ "learning_rate": 0.00019999135238856164,
2075
+ "loss": 4.598,
2076
+ "step": 293
2077
+ },
2078
+ {
2079
+ "epoch": 0.014031571034828364,
2080
+ "grad_norm": 4.153672218322754,
2081
+ "learning_rate": 0.0001999912865031933,
2082
+ "loss": 7.0555,
2083
+ "step": 294
2084
+ },
2085
+ {
2086
+ "epoch": 0.014079297466919617,
2087
+ "grad_norm": 4.621336460113525,
2088
+ "learning_rate": 0.00019999122036780013,
2089
+ "loss": 5.8933,
2090
+ "step": 295
2091
+ },
2092
+ {
2093
+ "epoch": 0.01412702389901087,
2094
+ "grad_norm": 4.004661560058594,
2095
+ "learning_rate": 0.00019999115398238235,
2096
+ "loss": 7.7509,
2097
+ "step": 296
2098
+ },
2099
+ {
2100
+ "epoch": 0.014174750331102123,
2101
+ "grad_norm": 4.914793014526367,
2102
+ "learning_rate": 0.00019999108734694012,
2103
+ "loss": 7.7317,
2104
+ "step": 297
2105
+ },
2106
+ {
2107
+ "epoch": 0.014222476763193376,
2108
+ "grad_norm": 5.124854564666748,
2109
+ "learning_rate": 0.00019999102046147358,
2110
+ "loss": 7.1103,
2111
+ "step": 298
2112
+ },
2113
+ {
2114
+ "epoch": 0.01427020319528463,
2115
+ "grad_norm": 4.222902297973633,
2116
+ "learning_rate": 0.0001999909533259829,
2117
+ "loss": 6.7856,
2118
+ "step": 299
2119
+ },
2120
+ {
2121
+ "epoch": 0.014317929627375882,
2122
+ "grad_norm": 3.855794668197632,
2123
+ "learning_rate": 0.00019999088594046827,
2124
+ "loss": 7.6669,
2125
+ "step": 300
2126
+ },
2127
+ {
2128
+ "epoch": 0.014365656059467134,
2129
+ "grad_norm": 4.996542453765869,
2130
+ "learning_rate": 0.00019999081830492983,
2131
+ "loss": 7.5863,
2132
+ "step": 301
2133
+ },
2134
+ {
2135
+ "epoch": 0.014413382491558387,
2136
+ "grad_norm": 3.9295811653137207,
2137
+ "learning_rate": 0.0001999907504193678,
2138
+ "loss": 6.4964,
2139
+ "step": 302
2140
+ },
2141
+ {
2142
+ "epoch": 0.01446110892364964,
2143
+ "grad_norm": 5.005653381347656,
2144
+ "learning_rate": 0.00019999068228378225,
2145
+ "loss": 7.0248,
2146
+ "step": 303
2147
+ },
2148
+ {
2149
+ "epoch": 0.014508835355740893,
2150
+ "grad_norm": 5.204959392547607,
2151
+ "learning_rate": 0.00019999061389817347,
2152
+ "loss": 6.8771,
2153
+ "step": 304
2154
+ },
2155
+ {
2156
+ "epoch": 0.014556561787832146,
2157
+ "grad_norm": 5.9217681884765625,
2158
+ "learning_rate": 0.00019999054526254154,
2159
+ "loss": 6.7342,
2160
+ "step": 305
2161
+ },
2162
+ {
2163
+ "epoch": 0.014604288219923399,
2164
+ "grad_norm": 6.10482931137085,
2165
+ "learning_rate": 0.0001999904763768867,
2166
+ "loss": 7.8614,
2167
+ "step": 306
2168
+ },
2169
+ {
2170
+ "epoch": 0.014652014652014652,
2171
+ "grad_norm": 4.919510841369629,
2172
+ "learning_rate": 0.00019999040724120909,
2173
+ "loss": 6.5849,
2174
+ "step": 307
2175
+ },
2176
+ {
2177
+ "epoch": 0.014699741084105905,
2178
+ "grad_norm": 3.9289333820343018,
2179
+ "learning_rate": 0.00019999033785550886,
2180
+ "loss": 4.5725,
2181
+ "step": 308
2182
+ },
2183
+ {
2184
+ "epoch": 0.014747467516197158,
2185
+ "grad_norm": 5.739213943481445,
2186
+ "learning_rate": 0.0001999902682197862,
2187
+ "loss": 7.8427,
2188
+ "step": 309
2189
+ },
2190
+ {
2191
+ "epoch": 0.014795193948288411,
2192
+ "grad_norm": 3.7051210403442383,
2193
+ "learning_rate": 0.00019999019833404132,
2194
+ "loss": 6.2502,
2195
+ "step": 310
2196
+ },
2197
+ {
2198
+ "epoch": 0.014842920380379664,
2199
+ "grad_norm": 4.647250175476074,
2200
+ "learning_rate": 0.00019999012819827433,
2201
+ "loss": 6.5101,
2202
+ "step": 311
2203
+ },
2204
+ {
2205
+ "epoch": 0.014890646812470917,
2206
+ "grad_norm": 3.8817758560180664,
2207
+ "learning_rate": 0.0001999900578124855,
2208
+ "loss": 4.8714,
2209
+ "step": 312
2210
+ },
2211
+ {
2212
+ "epoch": 0.01493837324456217,
2213
+ "grad_norm": 4.8853607177734375,
2214
+ "learning_rate": 0.0001999899871766749,
2215
+ "loss": 7.3876,
2216
+ "step": 313
2217
+ },
2218
+ {
2219
+ "epoch": 0.014986099676653422,
2220
+ "grad_norm": 5.011137962341309,
2221
+ "learning_rate": 0.00019998991629084276,
2222
+ "loss": 5.4221,
2223
+ "step": 314
2224
+ },
2225
+ {
2226
+ "epoch": 0.015033826108744675,
2227
+ "grad_norm": 4.79543399810791,
2228
+ "learning_rate": 0.00019998984515498926,
2229
+ "loss": 5.3682,
2230
+ "step": 315
2231
+ },
2232
+ {
2233
+ "epoch": 0.015081552540835928,
2234
+ "grad_norm": 4.967861652374268,
2235
+ "learning_rate": 0.00019998977376911454,
2236
+ "loss": 6.0652,
2237
+ "step": 316
2238
+ },
2239
+ {
2240
+ "epoch": 0.015129278972927181,
2241
+ "grad_norm": 5.12961483001709,
2242
+ "learning_rate": 0.00019998970213321883,
2243
+ "loss": 6.722,
2244
+ "step": 317
2245
+ },
2246
+ {
2247
+ "epoch": 0.015177005405018434,
2248
+ "grad_norm": 5.37574577331543,
2249
+ "learning_rate": 0.0001999896302473023,
2250
+ "loss": 6.4294,
2251
+ "step": 318
2252
+ },
2253
+ {
2254
+ "epoch": 0.015224731837109687,
2255
+ "grad_norm": 4.319894790649414,
2256
+ "learning_rate": 0.0001999895581113651,
2257
+ "loss": 6.6173,
2258
+ "step": 319
2259
+ },
2260
+ {
2261
+ "epoch": 0.01527245826920094,
2262
+ "grad_norm": 4.902976989746094,
2263
+ "learning_rate": 0.0001999894857254074,
2264
+ "loss": 6.5298,
2265
+ "step": 320
2266
+ },
2267
+ {
2268
+ "epoch": 0.015320184701292193,
2269
+ "grad_norm": 5.665980815887451,
2270
+ "learning_rate": 0.00019998941308942944,
2271
+ "loss": 6.9341,
2272
+ "step": 321
2273
+ },
2274
+ {
2275
+ "epoch": 0.015367911133383446,
2276
+ "grad_norm": 4.651304721832275,
2277
+ "learning_rate": 0.00019998934020343137,
2278
+ "loss": 5.3411,
2279
+ "step": 322
2280
+ },
2281
+ {
2282
+ "epoch": 0.0154156375654747,
2283
+ "grad_norm": 5.079586982727051,
2284
+ "learning_rate": 0.00019998926706741335,
2285
+ "loss": 5.7383,
2286
+ "step": 323
2287
+ },
2288
+ {
2289
+ "epoch": 0.015463363997565953,
2290
+ "grad_norm": 5.262585163116455,
2291
+ "learning_rate": 0.0001999891936813756,
2292
+ "loss": 7.7724,
2293
+ "step": 324
2294
+ },
2295
+ {
2296
+ "epoch": 0.015511090429657206,
2297
+ "grad_norm": 4.025634288787842,
2298
+ "learning_rate": 0.00019998912004531828,
2299
+ "loss": 4.6858,
2300
+ "step": 325
2301
+ },
2302
+ {
2303
+ "epoch": 0.015558816861748459,
2304
+ "grad_norm": 4.3046393394470215,
2305
+ "learning_rate": 0.00019998904615924158,
2306
+ "loss": 5.6154,
2307
+ "step": 326
2308
+ },
2309
+ {
2310
+ "epoch": 0.01560654329383971,
2311
+ "grad_norm": 5.861588478088379,
2312
+ "learning_rate": 0.00019998897202314569,
2313
+ "loss": 7.1517,
2314
+ "step": 327
2315
+ },
2316
+ {
2317
+ "epoch": 0.015654269725930963,
2318
+ "grad_norm": 4.287512302398682,
2319
+ "learning_rate": 0.00019998889763703077,
2320
+ "loss": 5.763,
2321
+ "step": 328
2322
+ },
2323
+ {
2324
+ "epoch": 0.015701996158022216,
2325
+ "grad_norm": 5.883302211761475,
2326
+ "learning_rate": 0.00019998882300089704,
2327
+ "loss": 7.2864,
2328
+ "step": 329
2329
+ },
2330
+ {
2331
+ "epoch": 0.01574972259011347,
2332
+ "grad_norm": 5.099184989929199,
2333
+ "learning_rate": 0.0001999887481147447,
2334
+ "loss": 7.4756,
2335
+ "step": 330
2336
+ },
2337
+ {
2338
+ "epoch": 0.015797449022204722,
2339
+ "grad_norm": 4.795839309692383,
2340
+ "learning_rate": 0.00019998867297857387,
2341
+ "loss": 7.5285,
2342
+ "step": 331
2343
+ },
2344
+ {
2345
+ "epoch": 0.015845175454295975,
2346
+ "grad_norm": 4.008845329284668,
2347
+ "learning_rate": 0.0001999885975923848,
2348
+ "loss": 5.1818,
2349
+ "step": 332
2350
+ },
2351
+ {
2352
+ "epoch": 0.01589290188638723,
2353
+ "grad_norm": 5.107858180999756,
2354
+ "learning_rate": 0.00019998852195617767,
2355
+ "loss": 7.3373,
2356
+ "step": 333
2357
+ },
2358
+ {
2359
+ "epoch": 0.01594062831847848,
2360
+ "grad_norm": 4.369069576263428,
2361
+ "learning_rate": 0.00019998844606995263,
2362
+ "loss": 6.1056,
2363
+ "step": 334
2364
+ },
2365
+ {
2366
+ "epoch": 0.015988354750569735,
2367
+ "grad_norm": 4.465891361236572,
2368
+ "learning_rate": 0.0001999883699337099,
2369
+ "loss": 6.0833,
2370
+ "step": 335
2371
+ },
2372
+ {
2373
+ "epoch": 0.016036081182660988,
2374
+ "grad_norm": 4.340141773223877,
2375
+ "learning_rate": 0.0001999882935474497,
2376
+ "loss": 7.0717,
2377
+ "step": 336
2378
+ },
2379
+ {
2380
+ "epoch": 0.01608380761475224,
2381
+ "grad_norm": 4.589889049530029,
2382
+ "learning_rate": 0.00019998821691117217,
2383
+ "loss": 5.5123,
2384
+ "step": 337
2385
+ },
2386
+ {
2387
+ "epoch": 0.016131534046843494,
2388
+ "grad_norm": 4.784783840179443,
2389
+ "learning_rate": 0.0001999881400248775,
2390
+ "loss": 7.857,
2391
+ "step": 338
2392
+ },
2393
+ {
2394
+ "epoch": 0.016179260478934747,
2395
+ "grad_norm": 5.159041881561279,
2396
+ "learning_rate": 0.00019998806288856592,
2397
+ "loss": 6.3091,
2398
+ "step": 339
2399
+ },
2400
+ {
2401
+ "epoch": 0.016226986911026,
2402
+ "grad_norm": 4.404861927032471,
2403
+ "learning_rate": 0.00019998798550223762,
2404
+ "loss": 7.1938,
2405
+ "step": 340
2406
+ },
2407
+ {
2408
+ "epoch": 0.016274713343117253,
2409
+ "grad_norm": 4.286370277404785,
2410
+ "learning_rate": 0.00019998790786589275,
2411
+ "loss": 7.7826,
2412
+ "step": 341
2413
+ },
2414
+ {
2415
+ "epoch": 0.016322439775208506,
2416
+ "grad_norm": 4.845062732696533,
2417
+ "learning_rate": 0.00019998782997953155,
2418
+ "loss": 7.5879,
2419
+ "step": 342
2420
+ },
2421
+ {
2422
+ "epoch": 0.01637016620729976,
2423
+ "grad_norm": 4.884746074676514,
2424
+ "learning_rate": 0.0001999877518431542,
2425
+ "loss": 6.0634,
2426
+ "step": 343
2427
+ },
2428
+ {
2429
+ "epoch": 0.016417892639391012,
2430
+ "grad_norm": 5.123991012573242,
2431
+ "learning_rate": 0.00019998767345676087,
2432
+ "loss": 7.1257,
2433
+ "step": 344
2434
+ },
2435
+ {
2436
+ "epoch": 0.016465619071482265,
2437
+ "grad_norm": 5.908779144287109,
2438
+ "learning_rate": 0.0001999875948203518,
2439
+ "loss": 9.0678,
2440
+ "step": 345
2441
+ },
2442
+ {
2443
+ "epoch": 0.016513345503573515,
2444
+ "grad_norm": 4.132058143615723,
2445
+ "learning_rate": 0.00019998751593392714,
2446
+ "loss": 5.7171,
2447
+ "step": 346
2448
+ },
2449
+ {
2450
+ "epoch": 0.016561071935664768,
2451
+ "grad_norm": 3.8147695064544678,
2452
+ "learning_rate": 0.00019998743679748712,
2453
+ "loss": 5.4728,
2454
+ "step": 347
2455
+ },
2456
+ {
2457
+ "epoch": 0.01660879836775602,
2458
+ "grad_norm": 3.7608211040496826,
2459
+ "learning_rate": 0.00019998735741103194,
2460
+ "loss": 5.5926,
2461
+ "step": 348
2462
+ },
2463
+ {
2464
+ "epoch": 0.016656524799847274,
2465
+ "grad_norm": 5.518613815307617,
2466
+ "learning_rate": 0.00019998727777456178,
2467
+ "loss": 7.8168,
2468
+ "step": 349
2469
+ },
2470
+ {
2471
+ "epoch": 0.016704251231938527,
2472
+ "grad_norm": 5.009797096252441,
2473
+ "learning_rate": 0.00019998719788807688,
2474
+ "loss": 7.069,
2475
+ "step": 350
2476
+ },
2477
+ {
2478
+ "epoch": 0.01675197766402978,
2479
+ "grad_norm": 4.233580589294434,
2480
+ "learning_rate": 0.00019998711775157734,
2481
+ "loss": 6.5305,
2482
+ "step": 351
2483
+ },
2484
+ {
2485
+ "epoch": 0.016799704096121033,
2486
+ "grad_norm": 3.6126842498779297,
2487
+ "learning_rate": 0.0001999870373650635,
2488
+ "loss": 4.6525,
2489
+ "step": 352
2490
+ },
2491
+ {
2492
+ "epoch": 0.016847430528212286,
2493
+ "grad_norm": 5.284352779388428,
2494
+ "learning_rate": 0.00019998695672853546,
2495
+ "loss": 7.4143,
2496
+ "step": 353
2497
+ },
2498
+ {
2499
+ "epoch": 0.01689515696030354,
2500
+ "grad_norm": 5.172549724578857,
2501
+ "learning_rate": 0.00019998687584199342,
2502
+ "loss": 7.0653,
2503
+ "step": 354
2504
+ },
2505
+ {
2506
+ "epoch": 0.016942883392394793,
2507
+ "grad_norm": 4.566983699798584,
2508
+ "learning_rate": 0.00019998679470543764,
2509
+ "loss": 7.1398,
2510
+ "step": 355
2511
+ },
2512
+ {
2513
+ "epoch": 0.016990609824486046,
2514
+ "grad_norm": 6.174628734588623,
2515
+ "learning_rate": 0.0001999867133188683,
2516
+ "loss": 6.8418,
2517
+ "step": 356
2518
+ },
2519
+ {
2520
+ "epoch": 0.0170383362565773,
2521
+ "grad_norm": 6.573761463165283,
2522
+ "learning_rate": 0.0001999866316822856,
2523
+ "loss": 7.3079,
2524
+ "step": 357
2525
+ },
2526
+ {
2527
+ "epoch": 0.017086062688668552,
2528
+ "grad_norm": 4.254095554351807,
2529
+ "learning_rate": 0.00019998654979568975,
2530
+ "loss": 5.5805,
2531
+ "step": 358
2532
+ },
2533
+ {
2534
+ "epoch": 0.017133789120759805,
2535
+ "grad_norm": 5.071292400360107,
2536
+ "learning_rate": 0.00019998646765908093,
2537
+ "loss": 7.3112,
2538
+ "step": 359
2539
+ },
2540
+ {
2541
+ "epoch": 0.017181515552851058,
2542
+ "grad_norm": 6.035824298858643,
2543
+ "learning_rate": 0.00019998638527245937,
2544
+ "loss": 7.6335,
2545
+ "step": 360
2546
+ },
2547
+ {
2548
+ "epoch": 0.01722924198494231,
2549
+ "grad_norm": 4.634344577789307,
2550
+ "learning_rate": 0.00019998630263582526,
2551
+ "loss": 6.9934,
2552
+ "step": 361
2553
+ },
2554
+ {
2555
+ "epoch": 0.017276968417033564,
2556
+ "grad_norm": 4.159761428833008,
2557
+ "learning_rate": 0.00019998621974917885,
2558
+ "loss": 5.933,
2559
+ "step": 362
2560
+ },
2561
+ {
2562
+ "epoch": 0.017324694849124817,
2563
+ "grad_norm": 5.788492679595947,
2564
+ "learning_rate": 0.0001999861366125203,
2565
+ "loss": 9.5469,
2566
+ "step": 363
2567
+ },
2568
+ {
2569
+ "epoch": 0.01737242128121607,
2570
+ "grad_norm": 5.0350542068481445,
2571
+ "learning_rate": 0.0001999860532258498,
2572
+ "loss": 7.0258,
2573
+ "step": 364
2574
+ },
2575
+ {
2576
+ "epoch": 0.017420147713307323,
2577
+ "grad_norm": 3.9429879188537598,
2578
+ "learning_rate": 0.00019998596958916763,
2579
+ "loss": 6.1842,
2580
+ "step": 365
2581
+ },
2582
+ {
2583
+ "epoch": 0.017467874145398576,
2584
+ "grad_norm": 4.744482517242432,
2585
+ "learning_rate": 0.00019998588570247395,
2586
+ "loss": 6.4803,
2587
+ "step": 366
2588
+ },
2589
+ {
2590
+ "epoch": 0.01751560057748983,
2591
+ "grad_norm": 3.6584131717681885,
2592
+ "learning_rate": 0.00019998580156576894,
2593
+ "loss": 4.6629,
2594
+ "step": 367
2595
+ },
2596
+ {
2597
+ "epoch": 0.017563327009581083,
2598
+ "grad_norm": 4.291102409362793,
2599
+ "learning_rate": 0.00019998571717905287,
2600
+ "loss": 6.2968,
2601
+ "step": 368
2602
+ },
2603
+ {
2604
+ "epoch": 0.017611053441672336,
2605
+ "grad_norm": 4.7433247566223145,
2606
+ "learning_rate": 0.00019998563254232594,
2607
+ "loss": 5.3619,
2608
+ "step": 369
2609
+ },
2610
+ {
2611
+ "epoch": 0.01765877987376359,
2612
+ "grad_norm": 7.7083048820495605,
2613
+ "learning_rate": 0.00019998554765558835,
2614
+ "loss": 7.1767,
2615
+ "step": 370
2616
+ },
2617
+ {
2618
+ "epoch": 0.017706506305854842,
2619
+ "grad_norm": 6.283130168914795,
2620
+ "learning_rate": 0.00019998546251884033,
2621
+ "loss": 5.8467,
2622
+ "step": 371
2623
+ },
2624
+ {
2625
+ "epoch": 0.01775423273794609,
2626
+ "grad_norm": 5.176546573638916,
2627
+ "learning_rate": 0.00019998537713208206,
2628
+ "loss": 7.7189,
2629
+ "step": 372
2630
+ },
2631
+ {
2632
+ "epoch": 0.017801959170037344,
2633
+ "grad_norm": 4.718236446380615,
2634
+ "learning_rate": 0.00019998529149531374,
2635
+ "loss": 7.1753,
2636
+ "step": 373
2637
+ },
2638
+ {
2639
+ "epoch": 0.017849685602128598,
2640
+ "grad_norm": 4.217880725860596,
2641
+ "learning_rate": 0.00019998520560853567,
2642
+ "loss": 6.6313,
2643
+ "step": 374
2644
+ },
2645
+ {
2646
+ "epoch": 0.01789741203421985,
2647
+ "grad_norm": 4.156486511230469,
2648
+ "learning_rate": 0.00019998511947174797,
2649
+ "loss": 6.8616,
2650
+ "step": 375
2651
+ },
2652
+ {
2653
+ "epoch": 0.017945138466311104,
2654
+ "grad_norm": 5.970060348510742,
2655
+ "learning_rate": 0.00019998503308495092,
2656
+ "loss": 8.0937,
2657
+ "step": 376
2658
+ },
2659
+ {
2660
+ "epoch": 0.017992864898402357,
2661
+ "grad_norm": 5.400389671325684,
2662
+ "learning_rate": 0.00019998494644814468,
2663
+ "loss": 7.7833,
2664
+ "step": 377
2665
+ },
2666
+ {
2667
+ "epoch": 0.01804059133049361,
2668
+ "grad_norm": 6.085134983062744,
2669
+ "learning_rate": 0.00019998485956132953,
2670
+ "loss": 8.5722,
2671
+ "step": 378
2672
+ },
2673
+ {
2674
+ "epoch": 0.018088317762584863,
2675
+ "grad_norm": 4.581125736236572,
2676
+ "learning_rate": 0.00019998477242450565,
2677
+ "loss": 4.9362,
2678
+ "step": 379
2679
+ },
2680
+ {
2681
+ "epoch": 0.018136044194676116,
2682
+ "grad_norm": 4.854187965393066,
2683
+ "learning_rate": 0.00019998468503767324,
2684
+ "loss": 5.7646,
2685
+ "step": 380
2686
+ },
2687
+ {
2688
+ "epoch": 0.01818377062676737,
2689
+ "grad_norm": 5.279097080230713,
2690
+ "learning_rate": 0.00019998459740083255,
2691
+ "loss": 5.9699,
2692
+ "step": 381
2693
+ },
2694
+ {
2695
+ "epoch": 0.018231497058858622,
2696
+ "grad_norm": 6.0616655349731445,
2697
+ "learning_rate": 0.0001999845095139838,
2698
+ "loss": 6.7272,
2699
+ "step": 382
2700
+ },
2701
+ {
2702
+ "epoch": 0.018279223490949875,
2703
+ "grad_norm": 4.58502197265625,
2704
+ "learning_rate": 0.00019998442137712718,
2705
+ "loss": 5.8863,
2706
+ "step": 383
2707
+ },
2708
+ {
2709
+ "epoch": 0.01832694992304113,
2710
+ "grad_norm": 5.454066753387451,
2711
+ "learning_rate": 0.00019998433299026297,
2712
+ "loss": 7.9997,
2713
+ "step": 384
2714
+ },
2715
+ {
2716
+ "epoch": 0.01837467635513238,
2717
+ "grad_norm": 5.5297017097473145,
2718
+ "learning_rate": 0.00019998424435339128,
2719
+ "loss": 9.2768,
2720
+ "step": 385
2721
+ },
2722
+ {
2723
+ "epoch": 0.018422402787223634,
2724
+ "grad_norm": 6.259234428405762,
2725
+ "learning_rate": 0.00019998415546651247,
2726
+ "loss": 7.4493,
2727
+ "step": 386
2728
+ },
2729
+ {
2730
+ "epoch": 0.018470129219314887,
2731
+ "grad_norm": 7.039416790008545,
2732
+ "learning_rate": 0.00019998406632962666,
2733
+ "loss": 9.3582,
2734
+ "step": 387
2735
+ },
2736
+ {
2737
+ "epoch": 0.01851785565140614,
2738
+ "grad_norm": 5.677418231964111,
2739
+ "learning_rate": 0.0001999839769427341,
2740
+ "loss": 6.5286,
2741
+ "step": 388
2742
+ },
2743
+ {
2744
+ "epoch": 0.018565582083497394,
2745
+ "grad_norm": 5.97587776184082,
2746
+ "learning_rate": 0.00019998388730583505,
2747
+ "loss": 7.9887,
2748
+ "step": 389
2749
+ },
2750
+ {
2751
+ "epoch": 0.018613308515588647,
2752
+ "grad_norm": 20.873300552368164,
2753
+ "learning_rate": 0.00019998379741892973,
2754
+ "loss": 8.7424,
2755
+ "step": 390
2756
+ },
2757
+ {
2758
+ "epoch": 0.0186610349476799,
2759
+ "grad_norm": 5.740731239318848,
2760
+ "learning_rate": 0.00019998370728201828,
2761
+ "loss": 8.7783,
2762
+ "step": 391
2763
+ },
2764
+ {
2765
+ "epoch": 0.018708761379771153,
2766
+ "grad_norm": 6.921543121337891,
2767
+ "learning_rate": 0.00019998361689510104,
2768
+ "loss": 7.8717,
2769
+ "step": 392
2770
+ },
2771
+ {
2772
+ "epoch": 0.018756487811862406,
2773
+ "grad_norm": 4.221953868865967,
2774
+ "learning_rate": 0.00019998352625817813,
2775
+ "loss": 6.5247,
2776
+ "step": 393
2777
+ },
2778
+ {
2779
+ "epoch": 0.01880421424395366,
2780
+ "grad_norm": 4.8449249267578125,
2781
+ "learning_rate": 0.00019998343537124986,
2782
+ "loss": 6.8002,
2783
+ "step": 394
2784
+ },
2785
+ {
2786
+ "epoch": 0.018851940676044912,
2787
+ "grad_norm": 4.915500164031982,
2788
+ "learning_rate": 0.0001999833442343164,
2789
+ "loss": 6.2396,
2790
+ "step": 395
2791
+ },
2792
+ {
2793
+ "epoch": 0.018899667108136165,
2794
+ "grad_norm": 3.3595244884490967,
2795
+ "learning_rate": 0.00019998325284737806,
2796
+ "loss": 4.481,
2797
+ "step": 396
2798
+ },
2799
+ {
2800
+ "epoch": 0.018947393540227415,
2801
+ "grad_norm": 4.997402667999268,
2802
+ "learning_rate": 0.00019998316121043493,
2803
+ "loss": 5.8485,
2804
+ "step": 397
2805
+ },
2806
+ {
2807
+ "epoch": 0.018995119972318668,
2808
+ "grad_norm": 5.331072807312012,
2809
+ "learning_rate": 0.0001999830693234874,
2810
+ "loss": 6.5482,
2811
+ "step": 398
2812
+ },
2813
+ {
2814
+ "epoch": 0.01904284640440992,
2815
+ "grad_norm": 5.49896764755249,
2816
+ "learning_rate": 0.00019998297718653557,
2817
+ "loss": 7.7411,
2818
+ "step": 399
2819
+ },
2820
+ {
2821
+ "epoch": 0.019090572836501174,
2822
+ "grad_norm": 5.086883068084717,
2823
+ "learning_rate": 0.0001999828847995797,
2824
+ "loss": 6.3793,
2825
+ "step": 400
2826
+ },
2827
+ {
2828
+ "epoch": 0.019090572836501174,
2829
+ "eval_loss": 1.665988564491272,
2830
+ "eval_runtime": 96.4558,
2831
+ "eval_samples_per_second": 8.74,
2832
+ "eval_steps_per_second": 4.375,
2833
+ "step": 400
2834
  }
2835
  ],
2836
  "logging_steps": 1,
 
2859
  "attributes": {}
2860
  }
2861
  },
2862
+ "total_flos": 3.70892202835968e+16,
2863
  "train_batch_size": 2,
2864
  "trial_name": null,
2865
  "trial_params": null