{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 0.008888888888888889, "eval_steps": 500, "global_step": 1000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 8.888888888888888e-06, "grad_norm": 2.509453058242798, "learning_rate": 0.0, "loss": 3.3319, "step": 1 }, { "epoch": 1.7777777777777777e-05, "grad_norm": 2.011197805404663, "learning_rate": 4e-05, "loss": 3.1761, "step": 2 }, { "epoch": 2.6666666666666667e-05, "grad_norm": 1.8610643148422241, "learning_rate": 8e-05, "loss": 2.8625, "step": 3 }, { "epoch": 3.555555555555555e-05, "grad_norm": 1.658347487449646, "learning_rate": 0.00012, "loss": 2.7361, "step": 4 }, { "epoch": 4.4444444444444447e-05, "grad_norm": 2.3018438816070557, "learning_rate": 0.00016, "loss": 3.2751, "step": 5 }, { "epoch": 5.333333333333333e-05, "grad_norm": 1.9242829084396362, "learning_rate": 0.0002, "loss": 2.576, "step": 6 }, { "epoch": 6.222222222222222e-05, "grad_norm": 1.9054077863693237, "learning_rate": 0.00019999822214320637, "loss": 2.1401, "step": 7 }, { "epoch": 7.11111111111111e-05, "grad_norm": 1.9810965061187744, "learning_rate": 0.00019999644428641273, "loss": 2.0309, "step": 8 }, { "epoch": 8e-05, "grad_norm": 1.6146843433380127, "learning_rate": 0.00019999466642961911, "loss": 2.056, "step": 9 }, { "epoch": 8.888888888888889e-05, "grad_norm": 1.510761022567749, "learning_rate": 0.00019999288857282547, "loss": 1.8206, "step": 10 }, { "epoch": 9.777777777777778e-05, "grad_norm": 1.2588778734207153, "learning_rate": 0.00019999111071603183, "loss": 1.4559, "step": 11 }, { "epoch": 0.00010666666666666667, "grad_norm": 1.7369227409362793, "learning_rate": 0.0001999893328592382, "loss": 1.5387, "step": 12 }, { "epoch": 0.00011555555555555555, "grad_norm": 1.288206934928894, "learning_rate": 0.00019998755500244458, "loss": 1.3578, "step": 13 }, { "epoch": 0.00012444444444444444, "grad_norm": 1.3472907543182373, "learning_rate": 0.0001999857771456509, "loss": 1.2126, "step": 14 }, { "epoch": 0.00013333333333333334, "grad_norm": 1.4109561443328857, "learning_rate": 0.0001999839992888573, "loss": 0.9152, "step": 15 }, { "epoch": 0.0001422222222222222, "grad_norm": 1.4718525409698486, "learning_rate": 0.00019998222143206365, "loss": 1.0797, "step": 16 }, { "epoch": 0.0001511111111111111, "grad_norm": 1.319872498512268, "learning_rate": 0.00019998044357527001, "loss": 1.1594, "step": 17 }, { "epoch": 0.00016, "grad_norm": 1.3983396291732788, "learning_rate": 0.0001999786657184764, "loss": 0.8371, "step": 18 }, { "epoch": 0.00016888888888888889, "grad_norm": 1.2984753847122192, "learning_rate": 0.00019997688786168276, "loss": 0.8112, "step": 19 }, { "epoch": 0.00017777777777777779, "grad_norm": 1.43406343460083, "learning_rate": 0.00019997511000488912, "loss": 0.8416, "step": 20 }, { "epoch": 0.00018666666666666666, "grad_norm": 1.224656343460083, "learning_rate": 0.00019997333214809548, "loss": 0.9221, "step": 21 }, { "epoch": 0.00019555555555555556, "grad_norm": 1.443000316619873, "learning_rate": 0.00019997155429130186, "loss": 0.9195, "step": 22 }, { "epoch": 0.00020444444444444443, "grad_norm": 1.169407844543457, "learning_rate": 0.0001999697764345082, "loss": 0.5881, "step": 23 }, { "epoch": 0.00021333333333333333, "grad_norm": 1.3276804685592651, "learning_rate": 0.00019996799857771458, "loss": 0.836, "step": 24 }, { "epoch": 0.00022222222222222223, "grad_norm": 1.2855207920074463, "learning_rate": 0.00019996622072092094, "loss": 0.7474, "step": 25 }, { "epoch": 0.0002311111111111111, "grad_norm": 1.3713988065719604, "learning_rate": 0.0001999644428641273, "loss": 0.7881, "step": 26 }, { "epoch": 0.00024, "grad_norm": 1.1027705669403076, "learning_rate": 0.00019996266500733366, "loss": 0.5209, "step": 27 }, { "epoch": 0.0002488888888888889, "grad_norm": 1.3908610343933105, "learning_rate": 0.00019996088715054004, "loss": 0.5429, "step": 28 }, { "epoch": 0.0002577777777777778, "grad_norm": 1.5597686767578125, "learning_rate": 0.0001999591092937464, "loss": 0.6697, "step": 29 }, { "epoch": 0.0002666666666666667, "grad_norm": 1.2614802122116089, "learning_rate": 0.00019995733143695276, "loss": 0.4198, "step": 30 }, { "epoch": 0.0002755555555555556, "grad_norm": 1.08330237865448, "learning_rate": 0.00019995555358015915, "loss": 0.333, "step": 31 }, { "epoch": 0.0002844444444444444, "grad_norm": 1.089289665222168, "learning_rate": 0.00019995377572336548, "loss": 0.3479, "step": 32 }, { "epoch": 0.0002933333333333333, "grad_norm": 1.3168431520462036, "learning_rate": 0.00019995199786657187, "loss": 0.4098, "step": 33 }, { "epoch": 0.0003022222222222222, "grad_norm": 1.1589837074279785, "learning_rate": 0.00019995022000977823, "loss": 0.2753, "step": 34 }, { "epoch": 0.0003111111111111111, "grad_norm": 1.4565573930740356, "learning_rate": 0.00019994844215298459, "loss": 0.4974, "step": 35 }, { "epoch": 0.00032, "grad_norm": 1.487587571144104, "learning_rate": 0.00019994666429619094, "loss": 0.4012, "step": 36 }, { "epoch": 0.00032888888888888887, "grad_norm": 2.168774366378784, "learning_rate": 0.0001999448864393973, "loss": 0.3265, "step": 37 }, { "epoch": 0.00033777777777777777, "grad_norm": 1.2275283336639404, "learning_rate": 0.0001999431085826037, "loss": 0.1998, "step": 38 }, { "epoch": 0.00034666666666666667, "grad_norm": 1.1855751276016235, "learning_rate": 0.00019994133072581005, "loss": 0.2689, "step": 39 }, { "epoch": 0.00035555555555555557, "grad_norm": 1.8231340646743774, "learning_rate": 0.0001999395528690164, "loss": 0.5561, "step": 40 }, { "epoch": 0.0003644444444444444, "grad_norm": 0.769957959651947, "learning_rate": 0.00019993777501222277, "loss": 0.1308, "step": 41 }, { "epoch": 0.0003733333333333333, "grad_norm": 2.1421055793762207, "learning_rate": 0.00019993599715542915, "loss": 0.3593, "step": 42 }, { "epoch": 0.0003822222222222222, "grad_norm": 1.2684881687164307, "learning_rate": 0.00019993421929863549, "loss": 0.2681, "step": 43 }, { "epoch": 0.0003911111111111111, "grad_norm": 1.5037626028060913, "learning_rate": 0.00019993244144184187, "loss": 0.2122, "step": 44 }, { "epoch": 0.0004, "grad_norm": 1.0892541408538818, "learning_rate": 0.00019993066358504823, "loss": 0.3245, "step": 45 }, { "epoch": 0.00040888888888888887, "grad_norm": 2.1137728691101074, "learning_rate": 0.0001999288857282546, "loss": 0.264, "step": 46 }, { "epoch": 0.00041777777777777777, "grad_norm": 1.0123019218444824, "learning_rate": 0.00019992710787146095, "loss": 0.1065, "step": 47 }, { "epoch": 0.00042666666666666667, "grad_norm": 1.1046335697174072, "learning_rate": 0.00019992533001466733, "loss": 0.14, "step": 48 }, { "epoch": 0.00043555555555555557, "grad_norm": 1.0902122259140015, "learning_rate": 0.0001999235521578737, "loss": 0.1828, "step": 49 }, { "epoch": 0.00044444444444444447, "grad_norm": 0.95635586977005, "learning_rate": 0.00019992177430108005, "loss": 0.1436, "step": 50 }, { "epoch": 0.0004533333333333333, "grad_norm": 0.9768276214599609, "learning_rate": 0.00019991999644428644, "loss": 0.1927, "step": 51 }, { "epoch": 0.0004622222222222222, "grad_norm": 0.9323930144309998, "learning_rate": 0.00019991821858749277, "loss": 0.0833, "step": 52 }, { "epoch": 0.0004711111111111111, "grad_norm": 0.4024631679058075, "learning_rate": 0.00019991644073069916, "loss": 0.0984, "step": 53 }, { "epoch": 0.00048, "grad_norm": 0.9203476309776306, "learning_rate": 0.00019991466287390552, "loss": 0.2626, "step": 54 }, { "epoch": 0.0004888888888888889, "grad_norm": 1.176267147064209, "learning_rate": 0.00019991288501711188, "loss": 0.2139, "step": 55 }, { "epoch": 0.0004977777777777778, "grad_norm": 1.1404753923416138, "learning_rate": 0.00019991110716031823, "loss": 0.1089, "step": 56 }, { "epoch": 0.0005066666666666667, "grad_norm": 0.9271647930145264, "learning_rate": 0.00019990932930352462, "loss": 0.1793, "step": 57 }, { "epoch": 0.0005155555555555556, "grad_norm": 0.45268017053604126, "learning_rate": 0.00019990755144673098, "loss": 0.1162, "step": 58 }, { "epoch": 0.0005244444444444445, "grad_norm": 0.5800138115882874, "learning_rate": 0.00019990577358993734, "loss": 0.0409, "step": 59 }, { "epoch": 0.0005333333333333334, "grad_norm": 0.5283566117286682, "learning_rate": 0.00019990399573314372, "loss": 0.0623, "step": 60 }, { "epoch": 0.0005422222222222223, "grad_norm": 0.8735077381134033, "learning_rate": 0.00019990221787635006, "loss": 0.0467, "step": 61 }, { "epoch": 0.0005511111111111112, "grad_norm": 0.4898022711277008, "learning_rate": 0.00019990044001955644, "loss": 0.0944, "step": 62 }, { "epoch": 0.00056, "grad_norm": 1.4653600454330444, "learning_rate": 0.0001998986621627628, "loss": 0.1567, "step": 63 }, { "epoch": 0.0005688888888888889, "grad_norm": 0.7866577506065369, "learning_rate": 0.00019989688430596916, "loss": 0.1063, "step": 64 }, { "epoch": 0.0005777777777777778, "grad_norm": 0.8391381502151489, "learning_rate": 0.00019989510644917552, "loss": 0.0576, "step": 65 }, { "epoch": 0.0005866666666666667, "grad_norm": 0.476295530796051, "learning_rate": 0.0001998933285923819, "loss": 0.0326, "step": 66 }, { "epoch": 0.0005955555555555556, "grad_norm": 0.7402093410491943, "learning_rate": 0.00019989155073558824, "loss": 0.0838, "step": 67 }, { "epoch": 0.0006044444444444445, "grad_norm": 2.238701581954956, "learning_rate": 0.00019988977287879462, "loss": 0.2343, "step": 68 }, { "epoch": 0.0006133333333333334, "grad_norm": 0.6236722469329834, "learning_rate": 0.00019988799502200098, "loss": 0.065, "step": 69 }, { "epoch": 0.0006222222222222223, "grad_norm": 0.2215302586555481, "learning_rate": 0.00019988621716520734, "loss": 0.0281, "step": 70 }, { "epoch": 0.0006311111111111112, "grad_norm": 1.2392359972000122, "learning_rate": 0.00019988443930841373, "loss": 0.2018, "step": 71 }, { "epoch": 0.00064, "grad_norm": 0.9709681868553162, "learning_rate": 0.0001998826614516201, "loss": 0.1434, "step": 72 }, { "epoch": 0.0006488888888888888, "grad_norm": 0.5045838356018066, "learning_rate": 0.00019988088359482645, "loss": 0.1104, "step": 73 }, { "epoch": 0.0006577777777777777, "grad_norm": 0.6498463153839111, "learning_rate": 0.0001998791057380328, "loss": 0.0568, "step": 74 }, { "epoch": 0.0006666666666666666, "grad_norm": 1.809417724609375, "learning_rate": 0.0001998773278812392, "loss": 0.2041, "step": 75 }, { "epoch": 0.0006755555555555555, "grad_norm": 1.1265465021133423, "learning_rate": 0.00019987555002444552, "loss": 0.1553, "step": 76 }, { "epoch": 0.0006844444444444444, "grad_norm": 0.4890582263469696, "learning_rate": 0.0001998737721676519, "loss": 0.1288, "step": 77 }, { "epoch": 0.0006933333333333333, "grad_norm": 0.32008081674575806, "learning_rate": 0.00019987199431085827, "loss": 0.0529, "step": 78 }, { "epoch": 0.0007022222222222222, "grad_norm": 0.688513457775116, "learning_rate": 0.00019987021645406463, "loss": 0.1595, "step": 79 }, { "epoch": 0.0007111111111111111, "grad_norm": 0.35211288928985596, "learning_rate": 0.00019986843859727101, "loss": 0.0579, "step": 80 }, { "epoch": 0.00072, "grad_norm": 0.791588306427002, "learning_rate": 0.00019986666074047737, "loss": 0.0987, "step": 81 }, { "epoch": 0.0007288888888888888, "grad_norm": 0.26132506132125854, "learning_rate": 0.00019986488288368373, "loss": 0.0194, "step": 82 }, { "epoch": 0.0007377777777777777, "grad_norm": 0.4289974272251129, "learning_rate": 0.0001998631050268901, "loss": 0.0375, "step": 83 }, { "epoch": 0.0007466666666666666, "grad_norm": 0.06589008867740631, "learning_rate": 0.00019986132717009648, "loss": 0.0045, "step": 84 }, { "epoch": 0.0007555555555555555, "grad_norm": 0.9311643838882446, "learning_rate": 0.0001998595493133028, "loss": 0.099, "step": 85 }, { "epoch": 0.0007644444444444444, "grad_norm": 0.3291153013706207, "learning_rate": 0.0001998577714565092, "loss": 0.0723, "step": 86 }, { "epoch": 0.0007733333333333333, "grad_norm": 0.2553896903991699, "learning_rate": 0.00019985599359971556, "loss": 0.0318, "step": 87 }, { "epoch": 0.0007822222222222222, "grad_norm": 1.9191373586654663, "learning_rate": 0.00019985421574292191, "loss": 0.2272, "step": 88 }, { "epoch": 0.0007911111111111111, "grad_norm": 0.8159066438674927, "learning_rate": 0.00019985243788612827, "loss": 0.171, "step": 89 }, { "epoch": 0.0008, "grad_norm": 0.36339715123176575, "learning_rate": 0.00019985066002933466, "loss": 0.0972, "step": 90 }, { "epoch": 0.0008088888888888889, "grad_norm": 0.09493248909711838, "learning_rate": 0.00019984888217254102, "loss": 0.0176, "step": 91 }, { "epoch": 0.0008177777777777777, "grad_norm": 0.11167139559984207, "learning_rate": 0.00019984710431574738, "loss": 0.0349, "step": 92 }, { "epoch": 0.0008266666666666666, "grad_norm": 0.24224887788295746, "learning_rate": 0.00019984532645895374, "loss": 0.0602, "step": 93 }, { "epoch": 0.0008355555555555555, "grad_norm": 0.683293342590332, "learning_rate": 0.0001998435486021601, "loss": 0.1193, "step": 94 }, { "epoch": 0.0008444444444444444, "grad_norm": 0.23291079699993134, "learning_rate": 0.00019984177074536648, "loss": 0.0862, "step": 95 }, { "epoch": 0.0008533333333333333, "grad_norm": 0.3003248870372772, "learning_rate": 0.00019983999288857281, "loss": 0.0897, "step": 96 }, { "epoch": 0.0008622222222222222, "grad_norm": 0.32272055745124817, "learning_rate": 0.0001998382150317792, "loss": 0.038, "step": 97 }, { "epoch": 0.0008711111111111111, "grad_norm": 2.172278642654419, "learning_rate": 0.00019983643717498556, "loss": 0.3441, "step": 98 }, { "epoch": 0.00088, "grad_norm": 1.5030051469802856, "learning_rate": 0.00019983465931819192, "loss": 0.2183, "step": 99 }, { "epoch": 0.0008888888888888889, "grad_norm": 0.3478816747665405, "learning_rate": 0.0001998328814613983, "loss": 0.0726, "step": 100 }, { "epoch": 0.0008977777777777778, "grad_norm": 0.3467679023742676, "learning_rate": 0.00019983110360460466, "loss": 0.0991, "step": 101 }, { "epoch": 0.0009066666666666666, "grad_norm": 0.4115495979785919, "learning_rate": 0.00019982932574781102, "loss": 0.1022, "step": 102 }, { "epoch": 0.0009155555555555555, "grad_norm": 0.09511878341436386, "learning_rate": 0.00019982754789101738, "loss": 0.0062, "step": 103 }, { "epoch": 0.0009244444444444444, "grad_norm": 0.14707589149475098, "learning_rate": 0.00019982577003422377, "loss": 0.0355, "step": 104 }, { "epoch": 0.0009333333333333333, "grad_norm": 0.1643153578042984, "learning_rate": 0.0001998239921774301, "loss": 0.0498, "step": 105 }, { "epoch": 0.0009422222222222222, "grad_norm": 0.10440447181463242, "learning_rate": 0.00019982221432063649, "loss": 0.0197, "step": 106 }, { "epoch": 0.0009511111111111111, "grad_norm": 0.3088759481906891, "learning_rate": 0.00019982043646384285, "loss": 0.101, "step": 107 }, { "epoch": 0.00096, "grad_norm": 0.22242297232151031, "learning_rate": 0.0001998186586070492, "loss": 0.0422, "step": 108 }, { "epoch": 0.0009688888888888889, "grad_norm": 0.20703697204589844, "learning_rate": 0.00019981688075025556, "loss": 0.0577, "step": 109 }, { "epoch": 0.0009777777777777777, "grad_norm": 0.3917987644672394, "learning_rate": 0.00019981510289346195, "loss": 0.0216, "step": 110 }, { "epoch": 0.0009866666666666667, "grad_norm": 0.1762261539697647, "learning_rate": 0.0001998133250366683, "loss": 0.0532, "step": 111 }, { "epoch": 0.0009955555555555555, "grad_norm": 0.32604631781578064, "learning_rate": 0.00019981154717987467, "loss": 0.0999, "step": 112 }, { "epoch": 0.0010044444444444445, "grad_norm": 0.17677462100982666, "learning_rate": 0.00019980976932308105, "loss": 0.0553, "step": 113 }, { "epoch": 0.0010133333333333333, "grad_norm": 0.21720314025878906, "learning_rate": 0.00019980799146628739, "loss": 0.0625, "step": 114 }, { "epoch": 0.0010222222222222223, "grad_norm": 0.31082990765571594, "learning_rate": 0.00019980621360949377, "loss": 0.0719, "step": 115 }, { "epoch": 0.0010311111111111111, "grad_norm": 0.2921847105026245, "learning_rate": 0.00019980443575270013, "loss": 0.0704, "step": 116 }, { "epoch": 0.00104, "grad_norm": 0.24539917707443237, "learning_rate": 0.0001998026578959065, "loss": 0.0737, "step": 117 }, { "epoch": 0.001048888888888889, "grad_norm": 0.10821938514709473, "learning_rate": 0.00019980088003911285, "loss": 0.0121, "step": 118 }, { "epoch": 0.0010577777777777777, "grad_norm": 0.22241011261940002, "learning_rate": 0.00019979910218231924, "loss": 0.068, "step": 119 }, { "epoch": 0.0010666666666666667, "grad_norm": 0.1390863060951233, "learning_rate": 0.0001997973243255256, "loss": 0.0367, "step": 120 }, { "epoch": 0.0010755555555555555, "grad_norm": 0.12387244403362274, "learning_rate": 0.00019979554646873195, "loss": 0.0214, "step": 121 }, { "epoch": 0.0010844444444444445, "grad_norm": 0.00975712202489376, "learning_rate": 0.0001997937686119383, "loss": 0.001, "step": 122 }, { "epoch": 0.0010933333333333333, "grad_norm": 0.2222510427236557, "learning_rate": 0.00019979199075514467, "loss": 0.055, "step": 123 }, { "epoch": 0.0011022222222222223, "grad_norm": 0.429592490196228, "learning_rate": 0.00019979021289835106, "loss": 0.0131, "step": 124 }, { "epoch": 0.0011111111111111111, "grad_norm": 0.20166721940040588, "learning_rate": 0.00019978843504155742, "loss": 0.0475, "step": 125 }, { "epoch": 0.00112, "grad_norm": 0.30655330419540405, "learning_rate": 0.00019978665718476378, "loss": 0.097, "step": 126 }, { "epoch": 0.001128888888888889, "grad_norm": 0.2538444995880127, "learning_rate": 0.00019978487932797014, "loss": 0.0856, "step": 127 }, { "epoch": 0.0011377777777777777, "grad_norm": 0.4884449541568756, "learning_rate": 0.00019978310147117652, "loss": 0.1618, "step": 128 }, { "epoch": 0.0011466666666666667, "grad_norm": 1.3284107446670532, "learning_rate": 0.00019978132361438285, "loss": 0.0754, "step": 129 }, { "epoch": 0.0011555555555555555, "grad_norm": 0.1899631917476654, "learning_rate": 0.00019977954575758924, "loss": 0.0618, "step": 130 }, { "epoch": 0.0011644444444444445, "grad_norm": 0.0927666574716568, "learning_rate": 0.0001997777679007956, "loss": 0.0328, "step": 131 }, { "epoch": 0.0011733333333333333, "grad_norm": 0.11313474923372269, "learning_rate": 0.00019977599004400196, "loss": 0.0374, "step": 132 }, { "epoch": 0.0011822222222222223, "grad_norm": 0.21986903250217438, "learning_rate": 0.00019977421218720834, "loss": 0.1015, "step": 133 }, { "epoch": 0.001191111111111111, "grad_norm": 0.10889822989702225, "learning_rate": 0.0001997724343304147, "loss": 0.0414, "step": 134 }, { "epoch": 0.0012, "grad_norm": 0.2376369684934616, "learning_rate": 0.00019977065647362106, "loss": 0.131, "step": 135 }, { "epoch": 0.001208888888888889, "grad_norm": 0.2573927938938141, "learning_rate": 0.00019976887861682742, "loss": 0.1031, "step": 136 }, { "epoch": 0.0012177777777777777, "grad_norm": 0.6046450138092041, "learning_rate": 0.0001997671007600338, "loss": 0.0711, "step": 137 }, { "epoch": 0.0012266666666666667, "grad_norm": 0.9663668870925903, "learning_rate": 0.00019976532290324014, "loss": 0.0622, "step": 138 }, { "epoch": 0.0012355555555555555, "grad_norm": 0.33328160643577576, "learning_rate": 0.00019976354504644653, "loss": 0.0666, "step": 139 }, { "epoch": 0.0012444444444444445, "grad_norm": 0.19966910779476166, "learning_rate": 0.00019976176718965288, "loss": 0.0706, "step": 140 }, { "epoch": 0.0012533333333333333, "grad_norm": 0.19533023238182068, "learning_rate": 0.00019975998933285924, "loss": 0.0686, "step": 141 }, { "epoch": 0.0012622222222222223, "grad_norm": 0.1251738965511322, "learning_rate": 0.0001997582114760656, "loss": 0.0164, "step": 142 }, { "epoch": 0.001271111111111111, "grad_norm": 0.13933968544006348, "learning_rate": 0.000199756433619272, "loss": 0.0499, "step": 143 }, { "epoch": 0.00128, "grad_norm": 0.13361267745494843, "learning_rate": 0.00019975465576247835, "loss": 0.0398, "step": 144 }, { "epoch": 0.001288888888888889, "grad_norm": 0.2322838306427002, "learning_rate": 0.0001997528779056847, "loss": 0.0826, "step": 145 }, { "epoch": 0.0012977777777777777, "grad_norm": 0.2205543965101242, "learning_rate": 0.0001997511000488911, "loss": 0.0193, "step": 146 }, { "epoch": 0.0013066666666666667, "grad_norm": 0.13343976438045502, "learning_rate": 0.00019974932219209743, "loss": 0.0175, "step": 147 }, { "epoch": 0.0013155555555555555, "grad_norm": 1.7850672006607056, "learning_rate": 0.0001997475443353038, "loss": 0.4291, "step": 148 }, { "epoch": 0.0013244444444444445, "grad_norm": 0.15269550681114197, "learning_rate": 0.00019974576647851014, "loss": 0.0192, "step": 149 }, { "epoch": 0.0013333333333333333, "grad_norm": 0.1662476509809494, "learning_rate": 0.00019974398862171653, "loss": 0.0319, "step": 150 }, { "epoch": 0.0013422222222222223, "grad_norm": 0.17259350419044495, "learning_rate": 0.0001997422107649229, "loss": 0.0459, "step": 151 }, { "epoch": 0.001351111111111111, "grad_norm": 0.3661608099937439, "learning_rate": 0.00019974043290812925, "loss": 0.0597, "step": 152 }, { "epoch": 0.00136, "grad_norm": 1.884972095489502, "learning_rate": 0.00019973865505133563, "loss": 0.2163, "step": 153 }, { "epoch": 0.0013688888888888889, "grad_norm": 0.49519073963165283, "learning_rate": 0.000199736877194542, "loss": 0.1694, "step": 154 }, { "epoch": 0.0013777777777777777, "grad_norm": 0.25101497769355774, "learning_rate": 0.00019973509933774835, "loss": 0.0934, "step": 155 }, { "epoch": 0.0013866666666666667, "grad_norm": 0.2666507661342621, "learning_rate": 0.0001997333214809547, "loss": 0.077, "step": 156 }, { "epoch": 0.0013955555555555555, "grad_norm": 0.27126309275627136, "learning_rate": 0.0001997315436241611, "loss": 0.0548, "step": 157 }, { "epoch": 0.0014044444444444445, "grad_norm": 0.1539837270975113, "learning_rate": 0.00019972976576736743, "loss": 0.041, "step": 158 }, { "epoch": 0.0014133333333333333, "grad_norm": 0.27206969261169434, "learning_rate": 0.00019972798791057382, "loss": 0.0819, "step": 159 }, { "epoch": 0.0014222222222222223, "grad_norm": 0.3427540957927704, "learning_rate": 0.00019972621005378017, "loss": 0.0729, "step": 160 }, { "epoch": 0.001431111111111111, "grad_norm": 0.27861857414245605, "learning_rate": 0.00019972443219698653, "loss": 0.0692, "step": 161 }, { "epoch": 0.00144, "grad_norm": 0.20948776602745056, "learning_rate": 0.0001997226543401929, "loss": 0.0621, "step": 162 }, { "epoch": 0.0014488888888888889, "grad_norm": 0.2676871418952942, "learning_rate": 0.00019972087648339928, "loss": 0.0989, "step": 163 }, { "epoch": 0.0014577777777777777, "grad_norm": 0.1815245896577835, "learning_rate": 0.00019971909862660564, "loss": 0.0725, "step": 164 }, { "epoch": 0.0014666666666666667, "grad_norm": 0.14719197154045105, "learning_rate": 0.000199717320769812, "loss": 0.0418, "step": 165 }, { "epoch": 0.0014755555555555555, "grad_norm": 0.15747804939746857, "learning_rate": 0.00019971554291301838, "loss": 0.0687, "step": 166 }, { "epoch": 0.0014844444444444445, "grad_norm": 0.14108623564243317, "learning_rate": 0.00019971376505622472, "loss": 0.0649, "step": 167 }, { "epoch": 0.0014933333333333333, "grad_norm": 0.12628023326396942, "learning_rate": 0.0001997119871994311, "loss": 0.0424, "step": 168 }, { "epoch": 0.0015022222222222223, "grad_norm": 0.15303702652454376, "learning_rate": 0.00019971020934263746, "loss": 0.085, "step": 169 }, { "epoch": 0.001511111111111111, "grad_norm": 0.17367209494113922, "learning_rate": 0.00019970843148584382, "loss": 0.0876, "step": 170 }, { "epoch": 0.00152, "grad_norm": 0.17708049714565277, "learning_rate": 0.00019970665362905018, "loss": 0.0795, "step": 171 }, { "epoch": 0.0015288888888888889, "grad_norm": 0.15364761650562286, "learning_rate": 0.00019970487577225656, "loss": 0.0816, "step": 172 }, { "epoch": 0.0015377777777777779, "grad_norm": 0.15587268769741058, "learning_rate": 0.00019970309791546292, "loss": 0.0662, "step": 173 }, { "epoch": 0.0015466666666666667, "grad_norm": 0.5124840140342712, "learning_rate": 0.00019970132005866928, "loss": 0.2177, "step": 174 }, { "epoch": 0.0015555555555555555, "grad_norm": 0.08462116867303848, "learning_rate": 0.00019969954220187567, "loss": 0.0329, "step": 175 }, { "epoch": 0.0015644444444444445, "grad_norm": 0.07264042645692825, "learning_rate": 0.000199697764345082, "loss": 0.0184, "step": 176 }, { "epoch": 0.0015733333333333333, "grad_norm": 1.075095772743225, "learning_rate": 0.0001996959864882884, "loss": 0.2897, "step": 177 }, { "epoch": 0.0015822222222222223, "grad_norm": 0.1671728789806366, "learning_rate": 0.00019969420863149475, "loss": 0.0882, "step": 178 }, { "epoch": 0.001591111111111111, "grad_norm": 0.08167525380849838, "learning_rate": 0.0001996924307747011, "loss": 0.0184, "step": 179 }, { "epoch": 0.0016, "grad_norm": 0.26045674085617065, "learning_rate": 0.00019969065291790746, "loss": 0.0807, "step": 180 }, { "epoch": 0.0016088888888888889, "grad_norm": 0.07509206235408783, "learning_rate": 0.00019968887506111385, "loss": 0.0272, "step": 181 }, { "epoch": 0.0016177777777777779, "grad_norm": 0.10948513448238373, "learning_rate": 0.00019968709720432018, "loss": 0.0215, "step": 182 }, { "epoch": 0.0016266666666666667, "grad_norm": 0.21771766245365143, "learning_rate": 0.00019968531934752657, "loss": 0.0177, "step": 183 }, { "epoch": 0.0016355555555555555, "grad_norm": 0.1279963254928589, "learning_rate": 0.00019968354149073293, "loss": 0.0498, "step": 184 }, { "epoch": 0.0016444444444444445, "grad_norm": 0.17994441092014313, "learning_rate": 0.0001996817636339393, "loss": 0.1043, "step": 185 }, { "epoch": 0.0016533333333333333, "grad_norm": 0.13629502058029175, "learning_rate": 0.00019967998577714567, "loss": 0.0433, "step": 186 }, { "epoch": 0.0016622222222222223, "grad_norm": 0.847290575504303, "learning_rate": 0.00019967820792035203, "loss": 0.0224, "step": 187 }, { "epoch": 0.001671111111111111, "grad_norm": 0.1411862075328827, "learning_rate": 0.0001996764300635584, "loss": 0.047, "step": 188 }, { "epoch": 0.00168, "grad_norm": 0.12872685492038727, "learning_rate": 0.00019967465220676475, "loss": 0.0401, "step": 189 }, { "epoch": 0.0016888888888888889, "grad_norm": 0.35447484254837036, "learning_rate": 0.00019967287434997114, "loss": 0.0429, "step": 190 }, { "epoch": 0.0016977777777777779, "grad_norm": 0.8160991072654724, "learning_rate": 0.00019967109649317747, "loss": 0.0769, "step": 191 }, { "epoch": 0.0017066666666666667, "grad_norm": 0.13470084965229034, "learning_rate": 0.00019966931863638385, "loss": 0.0438, "step": 192 }, { "epoch": 0.0017155555555555555, "grad_norm": 0.09070076793432236, "learning_rate": 0.00019966754077959021, "loss": 0.0454, "step": 193 }, { "epoch": 0.0017244444444444445, "grad_norm": 0.1598002314567566, "learning_rate": 0.00019966576292279657, "loss": 0.0645, "step": 194 }, { "epoch": 0.0017333333333333333, "grad_norm": 0.22574616968631744, "learning_rate": 0.00019966398506600296, "loss": 0.1181, "step": 195 }, { "epoch": 0.0017422222222222223, "grad_norm": 0.22925183176994324, "learning_rate": 0.00019966220720920932, "loss": 0.133, "step": 196 }, { "epoch": 0.001751111111111111, "grad_norm": 0.12679871916770935, "learning_rate": 0.00019966042935241568, "loss": 0.0396, "step": 197 }, { "epoch": 0.00176, "grad_norm": 0.16506832838058472, "learning_rate": 0.00019965865149562204, "loss": 0.0503, "step": 198 }, { "epoch": 0.0017688888888888889, "grad_norm": 0.1793918013572693, "learning_rate": 0.00019965687363882842, "loss": 0.0986, "step": 199 }, { "epoch": 0.0017777777777777779, "grad_norm": 0.08784222602844238, "learning_rate": 0.00019965509578203475, "loss": 0.016, "step": 200 }, { "epoch": 0.0017866666666666667, "grad_norm": 0.3387273848056793, "learning_rate": 0.00019965331792524114, "loss": 0.1057, "step": 201 }, { "epoch": 0.0017955555555555557, "grad_norm": 0.14650027453899384, "learning_rate": 0.0001996515400684475, "loss": 0.0599, "step": 202 }, { "epoch": 0.0018044444444444445, "grad_norm": 0.11592870205640793, "learning_rate": 0.00019964976221165386, "loss": 0.0426, "step": 203 }, { "epoch": 0.0018133333333333332, "grad_norm": 0.07162843644618988, "learning_rate": 0.00019964798435486022, "loss": 0.0201, "step": 204 }, { "epoch": 0.0018222222222222223, "grad_norm": 0.00740217138081789, "learning_rate": 0.0001996462064980666, "loss": 0.0006, "step": 205 }, { "epoch": 0.001831111111111111, "grad_norm": 0.09760746359825134, "learning_rate": 0.00019964442864127296, "loss": 0.0323, "step": 206 }, { "epoch": 0.00184, "grad_norm": 0.1282486617565155, "learning_rate": 0.00019964265078447932, "loss": 0.0417, "step": 207 }, { "epoch": 0.0018488888888888888, "grad_norm": 0.14483033120632172, "learning_rate": 0.00019964087292768568, "loss": 0.0612, "step": 208 }, { "epoch": 0.0018577777777777779, "grad_norm": 0.2553538978099823, "learning_rate": 0.00019963909507089204, "loss": 0.0548, "step": 209 }, { "epoch": 0.0018666666666666666, "grad_norm": 0.09759464859962463, "learning_rate": 0.00019963731721409843, "loss": 0.0415, "step": 210 }, { "epoch": 0.0018755555555555557, "grad_norm": 0.21910490095615387, "learning_rate": 0.00019963553935730476, "loss": 0.0773, "step": 211 }, { "epoch": 0.0018844444444444444, "grad_norm": 0.08499377965927124, "learning_rate": 0.00019963376150051114, "loss": 0.0309, "step": 212 }, { "epoch": 0.0018933333333333332, "grad_norm": 0.09653854370117188, "learning_rate": 0.0001996319836437175, "loss": 0.0155, "step": 213 }, { "epoch": 0.0019022222222222222, "grad_norm": 0.16424641013145447, "learning_rate": 0.00019963020578692386, "loss": 0.0922, "step": 214 }, { "epoch": 0.001911111111111111, "grad_norm": 0.10858893394470215, "learning_rate": 0.00019962842793013022, "loss": 0.0369, "step": 215 }, { "epoch": 0.00192, "grad_norm": 0.31773823499679565, "learning_rate": 0.0001996266500733366, "loss": 0.0385, "step": 216 }, { "epoch": 0.0019288888888888888, "grad_norm": 0.14265641570091248, "learning_rate": 0.00019962487221654297, "loss": 0.0348, "step": 217 }, { "epoch": 0.0019377777777777778, "grad_norm": 0.10559012740850449, "learning_rate": 0.00019962309435974933, "loss": 0.0581, "step": 218 }, { "epoch": 0.0019466666666666666, "grad_norm": 0.08315975964069366, "learning_rate": 0.0001996213165029557, "loss": 0.0239, "step": 219 }, { "epoch": 0.0019555555555555554, "grad_norm": 0.11771313846111298, "learning_rate": 0.00019961953864616204, "loss": 0.0376, "step": 220 }, { "epoch": 0.0019644444444444444, "grad_norm": 0.22794702649116516, "learning_rate": 0.00019961776078936843, "loss": 0.0583, "step": 221 }, { "epoch": 0.0019733333333333334, "grad_norm": 0.19051073491573334, "learning_rate": 0.0001996159829325748, "loss": 0.0898, "step": 222 }, { "epoch": 0.001982222222222222, "grad_norm": 0.1700773984193802, "learning_rate": 0.00019961420507578115, "loss": 0.0964, "step": 223 }, { "epoch": 0.001991111111111111, "grad_norm": 0.06349897384643555, "learning_rate": 0.0001996124272189875, "loss": 0.0126, "step": 224 }, { "epoch": 0.002, "grad_norm": 0.08789634704589844, "learning_rate": 0.0001996106493621939, "loss": 0.0264, "step": 225 }, { "epoch": 0.002008888888888889, "grad_norm": 0.11306924372911453, "learning_rate": 0.00019960887150540025, "loss": 0.0602, "step": 226 }, { "epoch": 0.0020177777777777776, "grad_norm": 0.12480989098548889, "learning_rate": 0.0001996070936486066, "loss": 0.0697, "step": 227 }, { "epoch": 0.0020266666666666666, "grad_norm": 0.10547734051942825, "learning_rate": 0.000199605315791813, "loss": 0.0182, "step": 228 }, { "epoch": 0.0020355555555555556, "grad_norm": 0.1366795003414154, "learning_rate": 0.00019960353793501933, "loss": 0.0569, "step": 229 }, { "epoch": 0.0020444444444444447, "grad_norm": 0.15075142681598663, "learning_rate": 0.00019960176007822572, "loss": 0.1117, "step": 230 }, { "epoch": 0.0020533333333333332, "grad_norm": 0.12377150356769562, "learning_rate": 0.00019959998222143208, "loss": 0.0531, "step": 231 }, { "epoch": 0.0020622222222222222, "grad_norm": 0.13166821002960205, "learning_rate": 0.00019959820436463843, "loss": 0.0542, "step": 232 }, { "epoch": 0.0020711111111111112, "grad_norm": 0.004413477145135403, "learning_rate": 0.0001995964265078448, "loss": 0.0004, "step": 233 }, { "epoch": 0.00208, "grad_norm": 0.07100208848714828, "learning_rate": 0.00019959464865105118, "loss": 0.0159, "step": 234 }, { "epoch": 0.002088888888888889, "grad_norm": 0.004061812534928322, "learning_rate": 0.0001995928707942575, "loss": 0.0005, "step": 235 }, { "epoch": 0.002097777777777778, "grad_norm": 0.16325247287750244, "learning_rate": 0.0001995910929374639, "loss": 0.0465, "step": 236 }, { "epoch": 0.002106666666666667, "grad_norm": 0.12772145867347717, "learning_rate": 0.00019958931508067026, "loss": 0.0423, "step": 237 }, { "epoch": 0.0021155555555555554, "grad_norm": 0.1928284466266632, "learning_rate": 0.00019958753722387662, "loss": 0.0922, "step": 238 }, { "epoch": 0.0021244444444444444, "grad_norm": 0.100382961332798, "learning_rate": 0.000199585759367083, "loss": 0.0316, "step": 239 }, { "epoch": 0.0021333333333333334, "grad_norm": 0.10902101546525955, "learning_rate": 0.00019958398151028936, "loss": 0.0511, "step": 240 }, { "epoch": 0.002142222222222222, "grad_norm": 0.07824265211820602, "learning_rate": 0.00019958220365349572, "loss": 0.0348, "step": 241 }, { "epoch": 0.002151111111111111, "grad_norm": 0.133406862616539, "learning_rate": 0.00019958042579670208, "loss": 0.072, "step": 242 }, { "epoch": 0.00216, "grad_norm": 0.11319364607334137, "learning_rate": 0.00019957864793990847, "loss": 0.0366, "step": 243 }, { "epoch": 0.002168888888888889, "grad_norm": 0.156160369515419, "learning_rate": 0.0001995768700831148, "loss": 0.0861, "step": 244 }, { "epoch": 0.0021777777777777776, "grad_norm": 0.14222390949726105, "learning_rate": 0.00019957509222632118, "loss": 0.0589, "step": 245 }, { "epoch": 0.0021866666666666666, "grad_norm": 0.3415241539478302, "learning_rate": 0.00019957331436952754, "loss": 0.0616, "step": 246 }, { "epoch": 0.0021955555555555556, "grad_norm": 0.1211593747138977, "learning_rate": 0.0001995715365127339, "loss": 0.0531, "step": 247 }, { "epoch": 0.0022044444444444446, "grad_norm": 0.22572652995586395, "learning_rate": 0.0001995697586559403, "loss": 0.0842, "step": 248 }, { "epoch": 0.002213333333333333, "grad_norm": 0.07336794584989548, "learning_rate": 0.00019956798079914665, "loss": 0.0225, "step": 249 }, { "epoch": 0.0022222222222222222, "grad_norm": 0.1942785382270813, "learning_rate": 0.000199566202942353, "loss": 0.0784, "step": 250 }, { "epoch": 0.0022311111111111112, "grad_norm": 0.1286279410123825, "learning_rate": 0.00019956442508555937, "loss": 0.0314, "step": 251 }, { "epoch": 0.00224, "grad_norm": 0.22064140439033508, "learning_rate": 0.00019956264722876575, "loss": 0.0941, "step": 252 }, { "epoch": 0.002248888888888889, "grad_norm": 0.2540065348148346, "learning_rate": 0.00019956086937197208, "loss": 0.1224, "step": 253 }, { "epoch": 0.002257777777777778, "grad_norm": 0.162026509642601, "learning_rate": 0.00019955909151517847, "loss": 0.0669, "step": 254 }, { "epoch": 0.002266666666666667, "grad_norm": 0.12582270801067352, "learning_rate": 0.00019955731365838483, "loss": 0.0445, "step": 255 }, { "epoch": 0.0022755555555555554, "grad_norm": 0.15663649141788483, "learning_rate": 0.0001995555358015912, "loss": 0.039, "step": 256 }, { "epoch": 0.0022844444444444444, "grad_norm": 0.22042249143123627, "learning_rate": 0.00019955375794479755, "loss": 0.0585, "step": 257 }, { "epoch": 0.0022933333333333334, "grad_norm": 0.003275202354416251, "learning_rate": 0.00019955198008800393, "loss": 0.0003, "step": 258 }, { "epoch": 0.0023022222222222224, "grad_norm": 0.1127839982509613, "learning_rate": 0.0001995502022312103, "loss": 0.0054, "step": 259 }, { "epoch": 0.002311111111111111, "grad_norm": 0.20637008547782898, "learning_rate": 0.00019954842437441665, "loss": 0.0964, "step": 260 }, { "epoch": 0.00232, "grad_norm": 0.10494936257600784, "learning_rate": 0.00019954664651762304, "loss": 0.0543, "step": 261 }, { "epoch": 0.002328888888888889, "grad_norm": 0.09378483891487122, "learning_rate": 0.00019954486866082937, "loss": 0.0399, "step": 262 }, { "epoch": 0.0023377777777777776, "grad_norm": 0.08597429096698761, "learning_rate": 0.00019954309080403576, "loss": 0.0211, "step": 263 }, { "epoch": 0.0023466666666666666, "grad_norm": 0.11946983635425568, "learning_rate": 0.0001995413129472421, "loss": 0.0605, "step": 264 }, { "epoch": 0.0023555555555555556, "grad_norm": 0.1836663782596588, "learning_rate": 0.00019953953509044847, "loss": 0.1398, "step": 265 }, { "epoch": 0.0023644444444444446, "grad_norm": 0.11169340461492538, "learning_rate": 0.00019953775723365483, "loss": 0.0584, "step": 266 }, { "epoch": 0.002373333333333333, "grad_norm": 0.19307614862918854, "learning_rate": 0.0001995359793768612, "loss": 0.0992, "step": 267 }, { "epoch": 0.002382222222222222, "grad_norm": 0.002424470381811261, "learning_rate": 0.00019953420152006758, "loss": 0.0003, "step": 268 }, { "epoch": 0.002391111111111111, "grad_norm": 0.14248616993427277, "learning_rate": 0.00019953242366327394, "loss": 0.1033, "step": 269 }, { "epoch": 0.0024, "grad_norm": 0.07570000737905502, "learning_rate": 0.0001995306458064803, "loss": 0.0324, "step": 270 }, { "epoch": 0.002408888888888889, "grad_norm": 0.11341042816638947, "learning_rate": 0.00019952886794968666, "loss": 0.0453, "step": 271 }, { "epoch": 0.002417777777777778, "grad_norm": 0.21478143334388733, "learning_rate": 0.00019952709009289304, "loss": 0.0833, "step": 272 }, { "epoch": 0.002426666666666667, "grad_norm": 0.15766853094100952, "learning_rate": 0.00019952531223609937, "loss": 0.1015, "step": 273 }, { "epoch": 0.0024355555555555554, "grad_norm": 0.09977411478757858, "learning_rate": 0.00019952353437930576, "loss": 0.0372, "step": 274 }, { "epoch": 0.0024444444444444444, "grad_norm": 0.13127222657203674, "learning_rate": 0.00019952175652251212, "loss": 0.0802, "step": 275 }, { "epoch": 0.0024533333333333334, "grad_norm": 0.17320048809051514, "learning_rate": 0.00019951997866571848, "loss": 0.0843, "step": 276 }, { "epoch": 0.0024622222222222224, "grad_norm": 0.13533629477024078, "learning_rate": 0.00019951820080892484, "loss": 0.0617, "step": 277 }, { "epoch": 0.002471111111111111, "grad_norm": 0.1339944303035736, "learning_rate": 0.00019951642295213122, "loss": 0.0517, "step": 278 }, { "epoch": 0.00248, "grad_norm": 0.0023625120520591736, "learning_rate": 0.00019951464509533758, "loss": 0.0002, "step": 279 }, { "epoch": 0.002488888888888889, "grad_norm": 0.07070937007665634, "learning_rate": 0.00019951286723854394, "loss": 0.0178, "step": 280 }, { "epoch": 0.0024977777777777776, "grad_norm": 0.1208026260137558, "learning_rate": 0.00019951108938175033, "loss": 0.0415, "step": 281 }, { "epoch": 0.0025066666666666666, "grad_norm": 0.3133951723575592, "learning_rate": 0.00019950931152495666, "loss": 0.0345, "step": 282 }, { "epoch": 0.0025155555555555556, "grad_norm": 0.14612872898578644, "learning_rate": 0.00019950753366816305, "loss": 0.0581, "step": 283 }, { "epoch": 0.0025244444444444446, "grad_norm": 0.048019204288721085, "learning_rate": 0.0001995057558113694, "loss": 0.0135, "step": 284 }, { "epoch": 0.002533333333333333, "grad_norm": 0.19485004246234894, "learning_rate": 0.00019950397795457576, "loss": 0.1144, "step": 285 }, { "epoch": 0.002542222222222222, "grad_norm": 0.1187213659286499, "learning_rate": 0.00019950220009778212, "loss": 0.05, "step": 286 }, { "epoch": 0.002551111111111111, "grad_norm": 0.06897536665201187, "learning_rate": 0.0001995004222409885, "loss": 0.0243, "step": 287 }, { "epoch": 0.00256, "grad_norm": 0.11647119373083115, "learning_rate": 0.00019949864438419487, "loss": 0.0577, "step": 288 }, { "epoch": 0.002568888888888889, "grad_norm": 0.14038805663585663, "learning_rate": 0.00019949686652740123, "loss": 0.0654, "step": 289 }, { "epoch": 0.002577777777777778, "grad_norm": 0.08581017702817917, "learning_rate": 0.00019949508867060759, "loss": 0.0148, "step": 290 }, { "epoch": 0.002586666666666667, "grad_norm": 0.16710315644741058, "learning_rate": 0.00019949331081381395, "loss": 0.0694, "step": 291 }, { "epoch": 0.0025955555555555554, "grad_norm": 0.054240744560956955, "learning_rate": 0.00019949153295702033, "loss": 0.017, "step": 292 }, { "epoch": 0.0026044444444444444, "grad_norm": 0.05700751394033432, "learning_rate": 0.0001994897551002267, "loss": 0.0193, "step": 293 }, { "epoch": 0.0026133333333333334, "grad_norm": 0.10016138106584549, "learning_rate": 0.00019948797724343305, "loss": 0.0269, "step": 294 }, { "epoch": 0.0026222222222222224, "grad_norm": 0.10971491783857346, "learning_rate": 0.0001994861993866394, "loss": 0.0364, "step": 295 }, { "epoch": 0.002631111111111111, "grad_norm": 0.07290440052747726, "learning_rate": 0.0001994844215298458, "loss": 0.0198, "step": 296 }, { "epoch": 0.00264, "grad_norm": 0.1262405663728714, "learning_rate": 0.00019948264367305213, "loss": 0.045, "step": 297 }, { "epoch": 0.002648888888888889, "grad_norm": 0.2993808686733246, "learning_rate": 0.0001994808658162585, "loss": 0.161, "step": 298 }, { "epoch": 0.0026577777777777776, "grad_norm": 0.0023537089582532644, "learning_rate": 0.00019947908795946487, "loss": 0.0002, "step": 299 }, { "epoch": 0.0026666666666666666, "grad_norm": 0.0018052503000944853, "learning_rate": 0.00019947731010267123, "loss": 0.0002, "step": 300 }, { "epoch": 0.0026755555555555556, "grad_norm": 0.1618211418390274, "learning_rate": 0.00019947553224587762, "loss": 0.0428, "step": 301 }, { "epoch": 0.0026844444444444446, "grad_norm": 0.10045135021209717, "learning_rate": 0.00019947375438908398, "loss": 0.0399, "step": 302 }, { "epoch": 0.002693333333333333, "grad_norm": 0.06804809719324112, "learning_rate": 0.00019947197653229034, "loss": 0.0322, "step": 303 }, { "epoch": 0.002702222222222222, "grad_norm": 0.10247176885604858, "learning_rate": 0.0001994701986754967, "loss": 0.0656, "step": 304 }, { "epoch": 0.002711111111111111, "grad_norm": 0.14011606574058533, "learning_rate": 0.00019946842081870308, "loss": 0.057, "step": 305 }, { "epoch": 0.00272, "grad_norm": 0.09053125232458115, "learning_rate": 0.0001994666429619094, "loss": 0.0468, "step": 306 }, { "epoch": 0.0027288888888888888, "grad_norm": 0.0893089696764946, "learning_rate": 0.0001994648651051158, "loss": 0.0348, "step": 307 }, { "epoch": 0.0027377777777777778, "grad_norm": 1.3462049961090088, "learning_rate": 0.00019946308724832216, "loss": 0.347, "step": 308 }, { "epoch": 0.002746666666666667, "grad_norm": 0.1532629132270813, "learning_rate": 0.00019946130939152852, "loss": 0.0831, "step": 309 }, { "epoch": 0.0027555555555555554, "grad_norm": 0.06766197830438614, "learning_rate": 0.00019945953153473488, "loss": 0.0306, "step": 310 }, { "epoch": 0.0027644444444444444, "grad_norm": 0.07818041741847992, "learning_rate": 0.00019945775367794126, "loss": 0.0302, "step": 311 }, { "epoch": 0.0027733333333333334, "grad_norm": 0.04977310821413994, "learning_rate": 0.00019945597582114762, "loss": 0.0176, "step": 312 }, { "epoch": 0.0027822222222222224, "grad_norm": 0.1038113608956337, "learning_rate": 0.00019945419796435398, "loss": 0.0385, "step": 313 }, { "epoch": 0.002791111111111111, "grad_norm": 0.12518461048603058, "learning_rate": 0.00019945242010756037, "loss": 0.0595, "step": 314 }, { "epoch": 0.0028, "grad_norm": 0.19262859225273132, "learning_rate": 0.0001994506422507667, "loss": 0.0189, "step": 315 }, { "epoch": 0.002808888888888889, "grad_norm": 1.4467278718948364, "learning_rate": 0.00019944886439397308, "loss": 0.0682, "step": 316 }, { "epoch": 0.002817777777777778, "grad_norm": 0.12299764901399612, "learning_rate": 0.00019944708653717944, "loss": 0.0643, "step": 317 }, { "epoch": 0.0028266666666666666, "grad_norm": 1.0831143856048584, "learning_rate": 0.0001994453086803858, "loss": 0.2641, "step": 318 }, { "epoch": 0.0028355555555555556, "grad_norm": 0.07955212891101837, "learning_rate": 0.00019944353082359216, "loss": 0.02, "step": 319 }, { "epoch": 0.0028444444444444446, "grad_norm": 1.0435909032821655, "learning_rate": 0.00019944175296679852, "loss": 0.0464, "step": 320 }, { "epoch": 0.002853333333333333, "grad_norm": 0.2622143626213074, "learning_rate": 0.0001994399751100049, "loss": 0.1082, "step": 321 }, { "epoch": 0.002862222222222222, "grad_norm": 1.7306833267211914, "learning_rate": 0.00019943819725321127, "loss": 0.0869, "step": 322 }, { "epoch": 0.002871111111111111, "grad_norm": 0.11751534789800644, "learning_rate": 0.00019943641939641763, "loss": 0.0469, "step": 323 }, { "epoch": 0.00288, "grad_norm": 1.285711407661438, "learning_rate": 0.00019943464153962398, "loss": 0.1774, "step": 324 }, { "epoch": 0.0028888888888888888, "grad_norm": 0.6012202501296997, "learning_rate": 0.00019943286368283037, "loss": 0.1031, "step": 325 }, { "epoch": 0.0028977777777777778, "grad_norm": 0.35515961050987244, "learning_rate": 0.0001994310858260367, "loss": 0.0442, "step": 326 }, { "epoch": 0.0029066666666666668, "grad_norm": 0.17042414844036102, "learning_rate": 0.0001994293079692431, "loss": 0.0727, "step": 327 }, { "epoch": 0.0029155555555555553, "grad_norm": 0.23411601781845093, "learning_rate": 0.00019942753011244945, "loss": 0.0881, "step": 328 }, { "epoch": 0.0029244444444444444, "grad_norm": 0.23101648688316345, "learning_rate": 0.0001994257522556558, "loss": 0.0641, "step": 329 }, { "epoch": 0.0029333333333333334, "grad_norm": 0.1359112560749054, "learning_rate": 0.00019942397439886217, "loss": 0.0421, "step": 330 }, { "epoch": 0.0029422222222222224, "grad_norm": 0.11845628917217255, "learning_rate": 0.00019942219654206855, "loss": 0.0687, "step": 331 }, { "epoch": 0.002951111111111111, "grad_norm": 0.1251729428768158, "learning_rate": 0.0001994204186852749, "loss": 0.0444, "step": 332 }, { "epoch": 0.00296, "grad_norm": 0.20294539630413055, "learning_rate": 0.00019941864082848127, "loss": 0.1008, "step": 333 }, { "epoch": 0.002968888888888889, "grad_norm": 0.2088899165391922, "learning_rate": 0.00019941686297168766, "loss": 0.139, "step": 334 }, { "epoch": 0.002977777777777778, "grad_norm": 0.1754894256591797, "learning_rate": 0.000199415085114894, "loss": 0.0883, "step": 335 }, { "epoch": 0.0029866666666666665, "grad_norm": 0.12244688719511032, "learning_rate": 0.00019941330725810037, "loss": 0.0554, "step": 336 }, { "epoch": 0.0029955555555555556, "grad_norm": 0.18299803137779236, "learning_rate": 0.00019941152940130673, "loss": 0.1099, "step": 337 }, { "epoch": 0.0030044444444444446, "grad_norm": 0.12053350359201431, "learning_rate": 0.0001994097515445131, "loss": 0.0193, "step": 338 }, { "epoch": 0.003013333333333333, "grad_norm": 0.16407041251659393, "learning_rate": 0.00019940797368771945, "loss": 0.0515, "step": 339 }, { "epoch": 0.003022222222222222, "grad_norm": 0.6800181269645691, "learning_rate": 0.00019940619583092584, "loss": 0.0352, "step": 340 }, { "epoch": 0.003031111111111111, "grad_norm": 0.1263183057308197, "learning_rate": 0.0001994044179741322, "loss": 0.064, "step": 341 }, { "epoch": 0.00304, "grad_norm": 0.06658758223056793, "learning_rate": 0.00019940264011733856, "loss": 0.0195, "step": 342 }, { "epoch": 0.0030488888888888887, "grad_norm": 0.17282803356647491, "learning_rate": 0.00019940086226054494, "loss": 0.1119, "step": 343 }, { "epoch": 0.0030577777777777778, "grad_norm": 0.012513167224824429, "learning_rate": 0.00019939908440375127, "loss": 0.0008, "step": 344 }, { "epoch": 0.0030666666666666668, "grad_norm": 0.14330032467842102, "learning_rate": 0.00019939730654695766, "loss": 0.0635, "step": 345 }, { "epoch": 0.0030755555555555558, "grad_norm": 0.05205005779862404, "learning_rate": 0.00019939552869016402, "loss": 0.0154, "step": 346 }, { "epoch": 0.0030844444444444443, "grad_norm": 1.3241561651229858, "learning_rate": 0.00019939375083337038, "loss": 0.0903, "step": 347 }, { "epoch": 0.0030933333333333334, "grad_norm": 0.06541303545236588, "learning_rate": 0.00019939197297657674, "loss": 0.0191, "step": 348 }, { "epoch": 0.0031022222222222224, "grad_norm": 0.017217358574271202, "learning_rate": 0.00019939019511978312, "loss": 0.001, "step": 349 }, { "epoch": 0.003111111111111111, "grad_norm": 0.10956587642431259, "learning_rate": 0.00019938841726298946, "loss": 0.0288, "step": 350 }, { "epoch": 0.00312, "grad_norm": 0.13131166994571686, "learning_rate": 0.00019938663940619584, "loss": 0.0553, "step": 351 }, { "epoch": 0.003128888888888889, "grad_norm": 0.3449736535549164, "learning_rate": 0.0001993848615494022, "loss": 0.0375, "step": 352 }, { "epoch": 0.003137777777777778, "grad_norm": 0.34711554646492004, "learning_rate": 0.00019938308369260856, "loss": 0.1264, "step": 353 }, { "epoch": 0.0031466666666666665, "grad_norm": 0.14620862901210785, "learning_rate": 0.00019938130583581495, "loss": 0.0726, "step": 354 }, { "epoch": 0.0031555555555555555, "grad_norm": 0.15998640656471252, "learning_rate": 0.0001993795279790213, "loss": 0.034, "step": 355 }, { "epoch": 0.0031644444444444446, "grad_norm": 0.11527565121650696, "learning_rate": 0.00019937775012222766, "loss": 0.0559, "step": 356 }, { "epoch": 0.003173333333333333, "grad_norm": 0.16884347796440125, "learning_rate": 0.00019937597226543402, "loss": 0.0537, "step": 357 }, { "epoch": 0.003182222222222222, "grad_norm": 0.1063135415315628, "learning_rate": 0.0001993741944086404, "loss": 0.0378, "step": 358 }, { "epoch": 0.003191111111111111, "grad_norm": 0.48941943049430847, "learning_rate": 0.00019937241655184674, "loss": 0.0261, "step": 359 }, { "epoch": 0.0032, "grad_norm": 0.12846724689006805, "learning_rate": 0.00019937063869505313, "loss": 0.0541, "step": 360 }, { "epoch": 0.0032088888888888887, "grad_norm": 0.0866396501660347, "learning_rate": 0.0001993688608382595, "loss": 0.0321, "step": 361 }, { "epoch": 0.0032177777777777777, "grad_norm": 0.5473254323005676, "learning_rate": 0.00019936708298146585, "loss": 0.0969, "step": 362 }, { "epoch": 0.0032266666666666667, "grad_norm": 0.12119778990745544, "learning_rate": 0.00019936530512467223, "loss": 0.0784, "step": 363 }, { "epoch": 0.0032355555555555558, "grad_norm": 0.11783423274755478, "learning_rate": 0.0001993635272678786, "loss": 0.0539, "step": 364 }, { "epoch": 0.0032444444444444443, "grad_norm": 0.36522600054740906, "learning_rate": 0.00019936174941108495, "loss": 0.0668, "step": 365 }, { "epoch": 0.0032533333333333333, "grad_norm": 0.06879499554634094, "learning_rate": 0.0001993599715542913, "loss": 0.0315, "step": 366 }, { "epoch": 0.0032622222222222223, "grad_norm": 0.07819674909114838, "learning_rate": 0.0001993581936974977, "loss": 0.0181, "step": 367 }, { "epoch": 0.003271111111111111, "grad_norm": 0.1641242355108261, "learning_rate": 0.00019935641584070403, "loss": 0.0822, "step": 368 }, { "epoch": 0.00328, "grad_norm": 0.07231553643941879, "learning_rate": 0.00019935463798391041, "loss": 0.0164, "step": 369 }, { "epoch": 0.003288888888888889, "grad_norm": 0.09069142490625381, "learning_rate": 0.00019935286012711677, "loss": 0.0364, "step": 370 }, { "epoch": 0.003297777777777778, "grad_norm": 0.0994807630777359, "learning_rate": 0.00019935108227032313, "loss": 0.0613, "step": 371 }, { "epoch": 0.0033066666666666665, "grad_norm": 0.7642621397972107, "learning_rate": 0.0001993493044135295, "loss": 0.0329, "step": 372 }, { "epoch": 0.0033155555555555555, "grad_norm": 0.14024491608142853, "learning_rate": 0.00019934752655673588, "loss": 0.0906, "step": 373 }, { "epoch": 0.0033244444444444445, "grad_norm": 0.14920800924301147, "learning_rate": 0.00019934574869994224, "loss": 0.0625, "step": 374 }, { "epoch": 0.0033333333333333335, "grad_norm": 0.13392847776412964, "learning_rate": 0.0001993439708431486, "loss": 0.0884, "step": 375 }, { "epoch": 0.003342222222222222, "grad_norm": 0.2594558894634247, "learning_rate": 0.00019934219298635498, "loss": 0.1023, "step": 376 }, { "epoch": 0.003351111111111111, "grad_norm": 0.33482810854911804, "learning_rate": 0.0001993404151295613, "loss": 0.0716, "step": 377 }, { "epoch": 0.00336, "grad_norm": 0.06770750135183334, "learning_rate": 0.0001993386372727677, "loss": 0.0128, "step": 378 }, { "epoch": 0.0033688888888888887, "grad_norm": 0.7048748135566711, "learning_rate": 0.00019933685941597403, "loss": 0.1263, "step": 379 }, { "epoch": 0.0033777777777777777, "grad_norm": 0.04372774064540863, "learning_rate": 0.00019933508155918042, "loss": 0.0128, "step": 380 }, { "epoch": 0.0033866666666666667, "grad_norm": 0.08209197223186493, "learning_rate": 0.00019933330370238678, "loss": 0.0223, "step": 381 }, { "epoch": 0.0033955555555555557, "grad_norm": 0.02102140337228775, "learning_rate": 0.00019933152584559314, "loss": 0.0008, "step": 382 }, { "epoch": 0.0034044444444444443, "grad_norm": 0.16687233746051788, "learning_rate": 0.00019932974798879952, "loss": 0.0901, "step": 383 }, { "epoch": 0.0034133333333333333, "grad_norm": 0.18695688247680664, "learning_rate": 0.00019932797013200588, "loss": 0.1502, "step": 384 }, { "epoch": 0.0034222222222222223, "grad_norm": 0.12163776159286499, "learning_rate": 0.00019932619227521224, "loss": 0.043, "step": 385 }, { "epoch": 0.003431111111111111, "grad_norm": 0.26911264657974243, "learning_rate": 0.0001993244144184186, "loss": 0.0728, "step": 386 }, { "epoch": 0.00344, "grad_norm": 0.2276047021150589, "learning_rate": 0.00019932263656162499, "loss": 0.1132, "step": 387 }, { "epoch": 0.003448888888888889, "grad_norm": 0.09594772011041641, "learning_rate": 0.00019932085870483132, "loss": 0.0401, "step": 388 }, { "epoch": 0.003457777777777778, "grad_norm": 0.10261677950620651, "learning_rate": 0.0001993190808480377, "loss": 0.0173, "step": 389 }, { "epoch": 0.0034666666666666665, "grad_norm": 0.019077075645327568, "learning_rate": 0.00019931730299124406, "loss": 0.0011, "step": 390 }, { "epoch": 0.0034755555555555555, "grad_norm": 0.08964148908853531, "learning_rate": 0.00019931552513445042, "loss": 0.0494, "step": 391 }, { "epoch": 0.0034844444444444445, "grad_norm": 0.0761595293879509, "learning_rate": 0.00019931374727765678, "loss": 0.0244, "step": 392 }, { "epoch": 0.0034933333333333335, "grad_norm": 0.10194255411624908, "learning_rate": 0.00019931196942086317, "loss": 0.0435, "step": 393 }, { "epoch": 0.003502222222222222, "grad_norm": 0.33433830738067627, "learning_rate": 0.00019931019156406953, "loss": 0.2104, "step": 394 }, { "epoch": 0.003511111111111111, "grad_norm": 0.048927586525678635, "learning_rate": 0.00019930841370727589, "loss": 0.0159, "step": 395 }, { "epoch": 0.00352, "grad_norm": 0.19783301651477814, "learning_rate": 0.00019930663585048227, "loss": 0.0723, "step": 396 }, { "epoch": 0.0035288888888888887, "grad_norm": 0.0919305831193924, "learning_rate": 0.0001993048579936886, "loss": 0.0376, "step": 397 }, { "epoch": 0.0035377777777777777, "grad_norm": 0.07716043293476105, "learning_rate": 0.000199303080136895, "loss": 0.0169, "step": 398 }, { "epoch": 0.0035466666666666667, "grad_norm": 0.09938719868659973, "learning_rate": 0.00019930130228010135, "loss": 0.0378, "step": 399 }, { "epoch": 0.0035555555555555557, "grad_norm": 0.11861502379179001, "learning_rate": 0.0001992995244233077, "loss": 0.0723, "step": 400 }, { "epoch": 0.0035644444444444443, "grad_norm": 0.0887940526008606, "learning_rate": 0.00019929774656651407, "loss": 0.0408, "step": 401 }, { "epoch": 0.0035733333333333333, "grad_norm": 0.17921485006809235, "learning_rate": 0.00019929596870972045, "loss": 0.0575, "step": 402 }, { "epoch": 0.0035822222222222223, "grad_norm": 0.09692369401454926, "learning_rate": 0.0001992941908529268, "loss": 0.0586, "step": 403 }, { "epoch": 0.0035911111111111113, "grad_norm": 0.1446571797132492, "learning_rate": 0.00019929241299613317, "loss": 0.0881, "step": 404 }, { "epoch": 0.0036, "grad_norm": 0.11960558593273163, "learning_rate": 0.00019929063513933953, "loss": 0.0907, "step": 405 }, { "epoch": 0.003608888888888889, "grad_norm": 0.09102517366409302, "learning_rate": 0.0001992888572825459, "loss": 0.0535, "step": 406 }, { "epoch": 0.003617777777777778, "grad_norm": 0.04341551288962364, "learning_rate": 0.00019928707942575228, "loss": 0.0139, "step": 407 }, { "epoch": 0.0036266666666666665, "grad_norm": 0.0695016160607338, "learning_rate": 0.00019928530156895863, "loss": 0.0301, "step": 408 }, { "epoch": 0.0036355555555555555, "grad_norm": 0.06850829720497131, "learning_rate": 0.000199283523712165, "loss": 0.0328, "step": 409 }, { "epoch": 0.0036444444444444445, "grad_norm": 0.10800215601921082, "learning_rate": 0.00019928174585537135, "loss": 0.0638, "step": 410 }, { "epoch": 0.0036533333333333335, "grad_norm": 0.10037580132484436, "learning_rate": 0.00019927996799857774, "loss": 0.0523, "step": 411 }, { "epoch": 0.003662222222222222, "grad_norm": 0.08917130529880524, "learning_rate": 0.00019927819014178407, "loss": 0.0355, "step": 412 }, { "epoch": 0.003671111111111111, "grad_norm": 0.05408530682325363, "learning_rate": 0.00019927641228499046, "loss": 0.0176, "step": 413 }, { "epoch": 0.00368, "grad_norm": 0.06467803567647934, "learning_rate": 0.00019927463442819682, "loss": 0.0257, "step": 414 }, { "epoch": 0.0036888888888888887, "grad_norm": 0.10033304244279861, "learning_rate": 0.00019927285657140318, "loss": 0.041, "step": 415 }, { "epoch": 0.0036977777777777777, "grad_norm": 0.04279926046729088, "learning_rate": 0.00019927107871460956, "loss": 0.0144, "step": 416 }, { "epoch": 0.0037066666666666667, "grad_norm": 0.11879125982522964, "learning_rate": 0.00019926930085781592, "loss": 0.0429, "step": 417 }, { "epoch": 0.0037155555555555557, "grad_norm": 0.09165719896554947, "learning_rate": 0.00019926752300102228, "loss": 0.0439, "step": 418 }, { "epoch": 0.0037244444444444443, "grad_norm": 0.0800209566950798, "learning_rate": 0.00019926574514422864, "loss": 0.0343, "step": 419 }, { "epoch": 0.0037333333333333333, "grad_norm": 0.06925273686647415, "learning_rate": 0.00019926396728743502, "loss": 0.0207, "step": 420 }, { "epoch": 0.0037422222222222223, "grad_norm": 0.16757334768772125, "learning_rate": 0.00019926218943064136, "loss": 0.098, "step": 421 }, { "epoch": 0.0037511111111111113, "grad_norm": 0.11174864321947098, "learning_rate": 0.00019926041157384774, "loss": 0.0605, "step": 422 }, { "epoch": 0.00376, "grad_norm": 0.14584532380104065, "learning_rate": 0.0001992586337170541, "loss": 0.0676, "step": 423 }, { "epoch": 0.003768888888888889, "grad_norm": 0.1649121344089508, "learning_rate": 0.00019925685586026046, "loss": 0.1014, "step": 424 }, { "epoch": 0.003777777777777778, "grad_norm": 0.09892472624778748, "learning_rate": 0.00019925507800346682, "loss": 0.0486, "step": 425 }, { "epoch": 0.0037866666666666665, "grad_norm": 0.089553602039814, "learning_rate": 0.0001992533001466732, "loss": 0.036, "step": 426 }, { "epoch": 0.0037955555555555555, "grad_norm": 0.12826012074947357, "learning_rate": 0.00019925152228987957, "loss": 0.0592, "step": 427 }, { "epoch": 0.0038044444444444445, "grad_norm": 0.29797521233558655, "learning_rate": 0.00019924974443308592, "loss": 0.079, "step": 428 }, { "epoch": 0.0038133333333333335, "grad_norm": 0.09852869063615799, "learning_rate": 0.0001992479665762923, "loss": 0.0377, "step": 429 }, { "epoch": 0.003822222222222222, "grad_norm": 0.0950450599193573, "learning_rate": 0.00019924618871949864, "loss": 0.0339, "step": 430 }, { "epoch": 0.003831111111111111, "grad_norm": 0.08894429355859756, "learning_rate": 0.00019924441086270503, "loss": 0.0302, "step": 431 }, { "epoch": 0.00384, "grad_norm": 0.1063244417309761, "learning_rate": 0.0001992426330059114, "loss": 0.0718, "step": 432 }, { "epoch": 0.0038488888888888887, "grad_norm": 0.061694007366895676, "learning_rate": 0.00019924085514911775, "loss": 0.0163, "step": 433 }, { "epoch": 0.0038577777777777777, "grad_norm": 0.09887385368347168, "learning_rate": 0.0001992390772923241, "loss": 0.0343, "step": 434 }, { "epoch": 0.0038666666666666667, "grad_norm": 0.001991924364119768, "learning_rate": 0.00019923729943553047, "loss": 0.0002, "step": 435 }, { "epoch": 0.0038755555555555557, "grad_norm": 0.06569657474756241, "learning_rate": 0.00019923552157873685, "loss": 0.0289, "step": 436 }, { "epoch": 0.0038844444444444443, "grad_norm": 0.10482277721166611, "learning_rate": 0.0001992337437219432, "loss": 0.0559, "step": 437 }, { "epoch": 0.0038933333333333333, "grad_norm": 0.12418483942747116, "learning_rate": 0.00019923196586514957, "loss": 0.0478, "step": 438 }, { "epoch": 0.0039022222222222223, "grad_norm": 0.11854451149702072, "learning_rate": 0.00019923018800835593, "loss": 0.0285, "step": 439 }, { "epoch": 0.003911111111111111, "grad_norm": 0.09590640664100647, "learning_rate": 0.00019922841015156231, "loss": 0.0418, "step": 440 }, { "epoch": 0.00392, "grad_norm": 0.020873218774795532, "learning_rate": 0.00019922663229476865, "loss": 0.0014, "step": 441 }, { "epoch": 0.003928888888888889, "grad_norm": 0.08921918272972107, "learning_rate": 0.00019922485443797503, "loss": 0.0471, "step": 442 }, { "epoch": 0.003937777777777778, "grad_norm": 0.07741513848304749, "learning_rate": 0.0001992230765811814, "loss": 0.0398, "step": 443 }, { "epoch": 0.003946666666666667, "grad_norm": 0.09878257662057877, "learning_rate": 0.00019922129872438775, "loss": 0.0328, "step": 444 }, { "epoch": 0.003955555555555556, "grad_norm": 0.19487273693084717, "learning_rate": 0.0001992195208675941, "loss": 0.0915, "step": 445 }, { "epoch": 0.003964444444444444, "grad_norm": 0.06901960074901581, "learning_rate": 0.0001992177430108005, "loss": 0.0163, "step": 446 }, { "epoch": 0.003973333333333333, "grad_norm": 0.034375544637441635, "learning_rate": 0.00019921596515400686, "loss": 0.0134, "step": 447 }, { "epoch": 0.003982222222222222, "grad_norm": 0.5978841185569763, "learning_rate": 0.00019921418729721321, "loss": 0.0629, "step": 448 }, { "epoch": 0.003991111111111111, "grad_norm": 0.049954526126384735, "learning_rate": 0.0001992124094404196, "loss": 0.019, "step": 449 }, { "epoch": 0.004, "grad_norm": 0.09875892102718353, "learning_rate": 0.00019921063158362593, "loss": 0.057, "step": 450 }, { "epoch": 0.004008888888888889, "grad_norm": 0.07502461969852448, "learning_rate": 0.00019920885372683232, "loss": 0.0353, "step": 451 }, { "epoch": 0.004017777777777778, "grad_norm": 0.15480898320674896, "learning_rate": 0.00019920707587003868, "loss": 0.0892, "step": 452 }, { "epoch": 0.004026666666666666, "grad_norm": 0.08933235704898834, "learning_rate": 0.00019920529801324504, "loss": 0.0408, "step": 453 }, { "epoch": 0.004035555555555555, "grad_norm": 0.08540872484445572, "learning_rate": 0.0001992035201564514, "loss": 0.0333, "step": 454 }, { "epoch": 0.004044444444444444, "grad_norm": 0.09270567446947098, "learning_rate": 0.00019920174229965778, "loss": 0.0365, "step": 455 }, { "epoch": 0.004053333333333333, "grad_norm": 0.10497794300317764, "learning_rate": 0.00019919996444286414, "loss": 0.0568, "step": 456 }, { "epoch": 0.004062222222222222, "grad_norm": 0.19592589139938354, "learning_rate": 0.0001991981865860705, "loss": 0.1163, "step": 457 }, { "epoch": 0.004071111111111111, "grad_norm": 0.16186293959617615, "learning_rate": 0.00019919640872927689, "loss": 0.0833, "step": 458 }, { "epoch": 0.00408, "grad_norm": 0.07263296097517014, "learning_rate": 0.00019919463087248322, "loss": 0.0341, "step": 459 }, { "epoch": 0.004088888888888889, "grad_norm": 0.0625765472650528, "learning_rate": 0.0001991928530156896, "loss": 0.026, "step": 460 }, { "epoch": 0.0040977777777777774, "grad_norm": 0.11954548954963684, "learning_rate": 0.00019919107515889596, "loss": 0.0794, "step": 461 }, { "epoch": 0.0041066666666666665, "grad_norm": 0.21894432604312897, "learning_rate": 0.00019918929730210232, "loss": 0.0426, "step": 462 }, { "epoch": 0.0041155555555555555, "grad_norm": 0.10861644148826599, "learning_rate": 0.00019918751944530868, "loss": 0.0555, "step": 463 }, { "epoch": 0.0041244444444444445, "grad_norm": 0.04093541204929352, "learning_rate": 0.00019918574158851507, "loss": 0.0185, "step": 464 }, { "epoch": 0.0041333333333333335, "grad_norm": 0.1823602020740509, "learning_rate": 0.0001991839637317214, "loss": 0.0452, "step": 465 }, { "epoch": 0.0041422222222222225, "grad_norm": 0.12472200393676758, "learning_rate": 0.00019918218587492779, "loss": 0.0799, "step": 466 }, { "epoch": 0.0041511111111111115, "grad_norm": 0.04180539399385452, "learning_rate": 0.00019918040801813415, "loss": 0.0186, "step": 467 }, { "epoch": 0.00416, "grad_norm": 0.06335745751857758, "learning_rate": 0.0001991786301613405, "loss": 0.0325, "step": 468 }, { "epoch": 0.004168888888888889, "grad_norm": 0.08661117404699326, "learning_rate": 0.0001991768523045469, "loss": 0.0504, "step": 469 }, { "epoch": 0.004177777777777778, "grad_norm": 0.12187471985816956, "learning_rate": 0.00019917507444775325, "loss": 0.0826, "step": 470 }, { "epoch": 0.004186666666666667, "grad_norm": 0.10874395817518234, "learning_rate": 0.0001991732965909596, "loss": 0.0939, "step": 471 }, { "epoch": 0.004195555555555556, "grad_norm": 0.08891891688108444, "learning_rate": 0.00019917151873416597, "loss": 0.0431, "step": 472 }, { "epoch": 0.004204444444444445, "grad_norm": 0.1077650859951973, "learning_rate": 0.00019916974087737235, "loss": 0.0498, "step": 473 }, { "epoch": 0.004213333333333334, "grad_norm": 0.11157704889774323, "learning_rate": 0.00019916796302057869, "loss": 0.074, "step": 474 }, { "epoch": 0.004222222222222222, "grad_norm": 0.15548288822174072, "learning_rate": 0.00019916618516378507, "loss": 0.0922, "step": 475 }, { "epoch": 0.004231111111111111, "grad_norm": 0.08997693657875061, "learning_rate": 0.00019916440730699143, "loss": 0.036, "step": 476 }, { "epoch": 0.00424, "grad_norm": 0.10394251346588135, "learning_rate": 0.0001991626294501978, "loss": 0.0668, "step": 477 }, { "epoch": 0.004248888888888889, "grad_norm": 0.2822097837924957, "learning_rate": 0.00019916085159340418, "loss": 0.0234, "step": 478 }, { "epoch": 0.004257777777777778, "grad_norm": 0.051268141716718674, "learning_rate": 0.00019915907373661054, "loss": 0.0183, "step": 479 }, { "epoch": 0.004266666666666667, "grad_norm": 0.11055604368448257, "learning_rate": 0.0001991572958798169, "loss": 0.0593, "step": 480 }, { "epoch": 0.004275555555555556, "grad_norm": 0.1646908074617386, "learning_rate": 0.00019915551802302325, "loss": 0.0826, "step": 481 }, { "epoch": 0.004284444444444444, "grad_norm": 0.1199202761054039, "learning_rate": 0.00019915374016622964, "loss": 0.0722, "step": 482 }, { "epoch": 0.004293333333333333, "grad_norm": 0.1555316299200058, "learning_rate": 0.00019915196230943597, "loss": 0.0954, "step": 483 }, { "epoch": 0.004302222222222222, "grad_norm": 0.448927640914917, "learning_rate": 0.00019915018445264236, "loss": 0.09, "step": 484 }, { "epoch": 0.004311111111111111, "grad_norm": 0.1000860184431076, "learning_rate": 0.00019914840659584872, "loss": 0.0467, "step": 485 }, { "epoch": 0.00432, "grad_norm": 0.06061674654483795, "learning_rate": 0.00019914662873905508, "loss": 0.0125, "step": 486 }, { "epoch": 0.004328888888888889, "grad_norm": 0.19713546335697174, "learning_rate": 0.00019914485088226144, "loss": 0.1185, "step": 487 }, { "epoch": 0.004337777777777778, "grad_norm": 0.12896832823753357, "learning_rate": 0.00019914307302546782, "loss": 0.0551, "step": 488 }, { "epoch": 0.004346666666666667, "grad_norm": 0.20375943183898926, "learning_rate": 0.00019914129516867418, "loss": 0.0832, "step": 489 }, { "epoch": 0.004355555555555555, "grad_norm": 0.11086197197437286, "learning_rate": 0.00019913951731188054, "loss": 0.0403, "step": 490 }, { "epoch": 0.004364444444444444, "grad_norm": 0.09467757493257523, "learning_rate": 0.0001991377394550869, "loss": 0.0327, "step": 491 }, { "epoch": 0.004373333333333333, "grad_norm": 0.1487191915512085, "learning_rate": 0.00019913596159829326, "loss": 0.072, "step": 492 }, { "epoch": 0.004382222222222222, "grad_norm": 0.054733823984861374, "learning_rate": 0.00019913418374149964, "loss": 0.0137, "step": 493 }, { "epoch": 0.004391111111111111, "grad_norm": 0.15355806052684784, "learning_rate": 0.00019913240588470598, "loss": 0.0604, "step": 494 }, { "epoch": 0.0044, "grad_norm": 0.1371174305677414, "learning_rate": 0.00019913062802791236, "loss": 0.0571, "step": 495 }, { "epoch": 0.004408888888888889, "grad_norm": 0.07478534430265427, "learning_rate": 0.00019912885017111872, "loss": 0.028, "step": 496 }, { "epoch": 0.004417777777777777, "grad_norm": 0.1122274324297905, "learning_rate": 0.00019912707231432508, "loss": 0.0399, "step": 497 }, { "epoch": 0.004426666666666666, "grad_norm": 0.04684552550315857, "learning_rate": 0.00019912529445753147, "loss": 0.0144, "step": 498 }, { "epoch": 0.004435555555555555, "grad_norm": 0.20405927300453186, "learning_rate": 0.00019912351660073783, "loss": 0.1008, "step": 499 }, { "epoch": 0.0044444444444444444, "grad_norm": 0.1435936689376831, "learning_rate": 0.00019912173874394418, "loss": 0.0527, "step": 500 }, { "epoch": 0.0044533333333333334, "grad_norm": 0.15527696907520294, "learning_rate": 0.00019911996088715054, "loss": 0.0663, "step": 501 }, { "epoch": 0.0044622222222222225, "grad_norm": 0.16261029243469238, "learning_rate": 0.00019911818303035693, "loss": 0.0698, "step": 502 }, { "epoch": 0.0044711111111111115, "grad_norm": 0.1004384234547615, "learning_rate": 0.00019911640517356326, "loss": 0.0428, "step": 503 }, { "epoch": 0.00448, "grad_norm": 0.05822478607296944, "learning_rate": 0.00019911462731676965, "loss": 0.0263, "step": 504 }, { "epoch": 0.004488888888888889, "grad_norm": 0.14732308685779572, "learning_rate": 0.000199112849459976, "loss": 0.0607, "step": 505 }, { "epoch": 0.004497777777777778, "grad_norm": 0.08134689182043076, "learning_rate": 0.00019911107160318237, "loss": 0.0315, "step": 506 }, { "epoch": 0.004506666666666667, "grad_norm": 0.1859583705663681, "learning_rate": 0.00019910929374638873, "loss": 0.0801, "step": 507 }, { "epoch": 0.004515555555555556, "grad_norm": 0.053309306502342224, "learning_rate": 0.0001991075158895951, "loss": 0.0125, "step": 508 }, { "epoch": 0.004524444444444445, "grad_norm": 0.1217823252081871, "learning_rate": 0.00019910573803280147, "loss": 0.0521, "step": 509 }, { "epoch": 0.004533333333333334, "grad_norm": 0.3468538522720337, "learning_rate": 0.00019910396017600783, "loss": 0.1687, "step": 510 }, { "epoch": 0.004542222222222222, "grad_norm": 0.013774099759757519, "learning_rate": 0.00019910218231921422, "loss": 0.0006, "step": 511 }, { "epoch": 0.004551111111111111, "grad_norm": 0.13857296109199524, "learning_rate": 0.00019910040446242055, "loss": 0.0704, "step": 512 }, { "epoch": 0.00456, "grad_norm": 0.15762244164943695, "learning_rate": 0.00019909862660562693, "loss": 0.0938, "step": 513 }, { "epoch": 0.004568888888888889, "grad_norm": 0.1127619743347168, "learning_rate": 0.0001990968487488333, "loss": 0.0404, "step": 514 }, { "epoch": 0.004577777777777778, "grad_norm": 0.050816118717193604, "learning_rate": 0.00019909507089203965, "loss": 0.0135, "step": 515 }, { "epoch": 0.004586666666666667, "grad_norm": 0.05569329112768173, "learning_rate": 0.000199093293035246, "loss": 0.0272, "step": 516 }, { "epoch": 0.004595555555555556, "grad_norm": 0.28260350227355957, "learning_rate": 0.0001990915151784524, "loss": 0.1231, "step": 517 }, { "epoch": 0.004604444444444445, "grad_norm": 0.09001442790031433, "learning_rate": 0.00019908973732165873, "loss": 0.0378, "step": 518 }, { "epoch": 0.004613333333333333, "grad_norm": 0.04802201688289642, "learning_rate": 0.00019908795946486512, "loss": 0.0178, "step": 519 }, { "epoch": 0.004622222222222222, "grad_norm": 0.11585588753223419, "learning_rate": 0.00019908618160807147, "loss": 0.0729, "step": 520 }, { "epoch": 0.004631111111111111, "grad_norm": 0.13048876821994781, "learning_rate": 0.00019908440375127783, "loss": 0.0593, "step": 521 }, { "epoch": 0.00464, "grad_norm": 0.14911086857318878, "learning_rate": 0.00019908262589448422, "loss": 0.044, "step": 522 }, { "epoch": 0.004648888888888889, "grad_norm": 0.13908490538597107, "learning_rate": 0.00019908084803769058, "loss": 0.0589, "step": 523 }, { "epoch": 0.004657777777777778, "grad_norm": 0.12535767257213593, "learning_rate": 0.00019907907018089694, "loss": 0.0372, "step": 524 }, { "epoch": 0.004666666666666667, "grad_norm": 0.21462689340114594, "learning_rate": 0.0001990772923241033, "loss": 0.0291, "step": 525 }, { "epoch": 0.004675555555555555, "grad_norm": 0.12280919402837753, "learning_rate": 0.00019907551446730968, "loss": 0.0528, "step": 526 }, { "epoch": 0.004684444444444444, "grad_norm": 0.1435868740081787, "learning_rate": 0.00019907373661051601, "loss": 0.0556, "step": 527 }, { "epoch": 0.004693333333333333, "grad_norm": 0.1671004742383957, "learning_rate": 0.0001990719587537224, "loss": 0.0541, "step": 528 }, { "epoch": 0.004702222222222222, "grad_norm": 0.1416492462158203, "learning_rate": 0.00019907018089692876, "loss": 0.0382, "step": 529 }, { "epoch": 0.004711111111111111, "grad_norm": 0.14212124049663544, "learning_rate": 0.00019906840304013512, "loss": 0.0541, "step": 530 }, { "epoch": 0.00472, "grad_norm": 0.047930873930454254, "learning_rate": 0.0001990666251833415, "loss": 0.0082, "step": 531 }, { "epoch": 0.004728888888888889, "grad_norm": 0.1416860818862915, "learning_rate": 0.00019906484732654786, "loss": 0.0482, "step": 532 }, { "epoch": 0.004737777777777777, "grad_norm": 0.13235829770565033, "learning_rate": 0.00019906306946975422, "loss": 0.0557, "step": 533 }, { "epoch": 0.004746666666666666, "grad_norm": 0.11777564883232117, "learning_rate": 0.00019906129161296058, "loss": 0.0371, "step": 534 }, { "epoch": 0.004755555555555555, "grad_norm": 0.13000831007957458, "learning_rate": 0.00019905951375616697, "loss": 0.0427, "step": 535 }, { "epoch": 0.004764444444444444, "grad_norm": 0.16153277456760406, "learning_rate": 0.0001990577358993733, "loss": 0.0681, "step": 536 }, { "epoch": 0.004773333333333333, "grad_norm": 0.12625201046466827, "learning_rate": 0.0001990559580425797, "loss": 0.0445, "step": 537 }, { "epoch": 0.004782222222222222, "grad_norm": 0.12616297602653503, "learning_rate": 0.00019905418018578605, "loss": 0.0583, "step": 538 }, { "epoch": 0.0047911111111111114, "grad_norm": 0.13753841817378998, "learning_rate": 0.0001990524023289924, "loss": 0.0577, "step": 539 }, { "epoch": 0.0048, "grad_norm": 0.1747966706752777, "learning_rate": 0.00019905062447219876, "loss": 0.0405, "step": 540 }, { "epoch": 0.004808888888888889, "grad_norm": 0.18292586505413055, "learning_rate": 0.00019904884661540515, "loss": 0.0551, "step": 541 }, { "epoch": 0.004817777777777778, "grad_norm": 0.0531788170337677, "learning_rate": 0.0001990470687586115, "loss": 0.0137, "step": 542 }, { "epoch": 0.004826666666666667, "grad_norm": 0.0015222093788906932, "learning_rate": 0.00019904529090181787, "loss": 0.0002, "step": 543 }, { "epoch": 0.004835555555555556, "grad_norm": 0.12947604060173035, "learning_rate": 0.00019904351304502425, "loss": 0.0503, "step": 544 }, { "epoch": 0.004844444444444445, "grad_norm": 0.14870381355285645, "learning_rate": 0.0001990417351882306, "loss": 0.0626, "step": 545 }, { "epoch": 0.004853333333333334, "grad_norm": 0.10456770658493042, "learning_rate": 0.00019903995733143697, "loss": 0.0664, "step": 546 }, { "epoch": 0.004862222222222223, "grad_norm": 0.05664299800992012, "learning_rate": 0.0001990381794746433, "loss": 0.0148, "step": 547 }, { "epoch": 0.004871111111111111, "grad_norm": 0.079279825091362, "learning_rate": 0.0001990364016178497, "loss": 0.0287, "step": 548 }, { "epoch": 0.00488, "grad_norm": 0.15939386188983917, "learning_rate": 0.00019903462376105605, "loss": 0.0658, "step": 549 }, { "epoch": 0.004888888888888889, "grad_norm": 0.0754045844078064, "learning_rate": 0.0001990328459042624, "loss": 0.0198, "step": 550 }, { "epoch": 0.004897777777777778, "grad_norm": 0.30337804555892944, "learning_rate": 0.0001990310680474688, "loss": 0.1464, "step": 551 }, { "epoch": 0.004906666666666667, "grad_norm": 0.11008965224027634, "learning_rate": 0.00019902929019067515, "loss": 0.0623, "step": 552 }, { "epoch": 0.004915555555555556, "grad_norm": 0.08381074666976929, "learning_rate": 0.0001990275123338815, "loss": 0.0389, "step": 553 }, { "epoch": 0.004924444444444445, "grad_norm": 0.16405236721038818, "learning_rate": 0.00019902573447708787, "loss": 0.063, "step": 554 }, { "epoch": 0.004933333333333333, "grad_norm": 0.10506322979927063, "learning_rate": 0.00019902395662029426, "loss": 0.0415, "step": 555 }, { "epoch": 0.004942222222222222, "grad_norm": 0.12844935059547424, "learning_rate": 0.0001990221787635006, "loss": 0.0743, "step": 556 }, { "epoch": 0.004951111111111111, "grad_norm": 0.12141770124435425, "learning_rate": 0.00019902040090670698, "loss": 0.0644, "step": 557 }, { "epoch": 0.00496, "grad_norm": 0.10184381902217865, "learning_rate": 0.00019901862304991334, "loss": 0.0362, "step": 558 }, { "epoch": 0.004968888888888889, "grad_norm": 0.103836290538311, "learning_rate": 0.0001990168451931197, "loss": 0.0375, "step": 559 }, { "epoch": 0.004977777777777778, "grad_norm": 0.1519399881362915, "learning_rate": 0.00019901506733632605, "loss": 0.0527, "step": 560 }, { "epoch": 0.004986666666666667, "grad_norm": 0.13870882987976074, "learning_rate": 0.00019901328947953244, "loss": 0.0721, "step": 561 }, { "epoch": 0.004995555555555555, "grad_norm": 0.08003102988004684, "learning_rate": 0.0001990115116227388, "loss": 0.0289, "step": 562 }, { "epoch": 0.005004444444444444, "grad_norm": 0.08605322986841202, "learning_rate": 0.00019900973376594516, "loss": 0.0391, "step": 563 }, { "epoch": 0.005013333333333333, "grad_norm": 0.06218907609581947, "learning_rate": 0.00019900795590915154, "loss": 0.0173, "step": 564 }, { "epoch": 0.005022222222222222, "grad_norm": 0.09217114001512527, "learning_rate": 0.00019900617805235788, "loss": 0.0472, "step": 565 }, { "epoch": 0.005031111111111111, "grad_norm": 0.08369658887386322, "learning_rate": 0.00019900440019556426, "loss": 0.0258, "step": 566 }, { "epoch": 0.00504, "grad_norm": 0.11085669696331024, "learning_rate": 0.00019900262233877062, "loss": 0.0438, "step": 567 }, { "epoch": 0.005048888888888889, "grad_norm": 0.07833948731422424, "learning_rate": 0.00019900084448197698, "loss": 0.0256, "step": 568 }, { "epoch": 0.005057777777777777, "grad_norm": 0.10613135248422623, "learning_rate": 0.00019899906662518334, "loss": 0.0279, "step": 569 }, { "epoch": 0.005066666666666666, "grad_norm": 0.12019161134958267, "learning_rate": 0.00019899728876838973, "loss": 0.0432, "step": 570 }, { "epoch": 0.005075555555555555, "grad_norm": 0.08177312463521957, "learning_rate": 0.00019899551091159609, "loss": 0.0226, "step": 571 }, { "epoch": 0.005084444444444444, "grad_norm": 0.08385462313890457, "learning_rate": 0.00019899373305480244, "loss": 0.0274, "step": 572 }, { "epoch": 0.005093333333333333, "grad_norm": 0.1288483887910843, "learning_rate": 0.00019899195519800883, "loss": 0.0417, "step": 573 }, { "epoch": 0.005102222222222222, "grad_norm": 0.09683244675397873, "learning_rate": 0.00019899017734121516, "loss": 0.0243, "step": 574 }, { "epoch": 0.005111111111111111, "grad_norm": 0.1121845543384552, "learning_rate": 0.00019898839948442155, "loss": 0.0373, "step": 575 }, { "epoch": 0.00512, "grad_norm": 0.12302599847316742, "learning_rate": 0.0001989866216276279, "loss": 0.0431, "step": 576 }, { "epoch": 0.0051288888888888886, "grad_norm": 0.17790500819683075, "learning_rate": 0.00019898484377083427, "loss": 0.0766, "step": 577 }, { "epoch": 0.005137777777777778, "grad_norm": 0.13871590793132782, "learning_rate": 0.00019898306591404063, "loss": 0.0611, "step": 578 }, { "epoch": 0.005146666666666667, "grad_norm": 0.06328252702951431, "learning_rate": 0.000198981288057247, "loss": 0.0124, "step": 579 }, { "epoch": 0.005155555555555556, "grad_norm": 0.1555212438106537, "learning_rate": 0.00019897951020045334, "loss": 0.0813, "step": 580 }, { "epoch": 0.005164444444444445, "grad_norm": 0.18181784451007843, "learning_rate": 0.00019897773234365973, "loss": 0.0688, "step": 581 }, { "epoch": 0.005173333333333334, "grad_norm": 0.16949468851089478, "learning_rate": 0.0001989759544868661, "loss": 0.0385, "step": 582 }, { "epoch": 0.005182222222222223, "grad_norm": 0.3512648046016693, "learning_rate": 0.00019897417663007245, "loss": 0.0306, "step": 583 }, { "epoch": 0.005191111111111111, "grad_norm": 0.18712429702281952, "learning_rate": 0.00019897239877327883, "loss": 0.0581, "step": 584 }, { "epoch": 0.0052, "grad_norm": 0.11902690678834915, "learning_rate": 0.0001989706209164852, "loss": 0.0644, "step": 585 }, { "epoch": 0.005208888888888889, "grad_norm": 0.1777316778898239, "learning_rate": 0.00019896884305969155, "loss": 0.0978, "step": 586 }, { "epoch": 0.005217777777777778, "grad_norm": 0.06583179533481598, "learning_rate": 0.0001989670652028979, "loss": 0.0126, "step": 587 }, { "epoch": 0.005226666666666667, "grad_norm": 0.04552346467971802, "learning_rate": 0.0001989652873461043, "loss": 0.0024, "step": 588 }, { "epoch": 0.005235555555555556, "grad_norm": 0.15129780769348145, "learning_rate": 0.00019896350948931063, "loss": 0.0562, "step": 589 }, { "epoch": 0.005244444444444445, "grad_norm": 0.14001058042049408, "learning_rate": 0.00019896173163251702, "loss": 0.0482, "step": 590 }, { "epoch": 0.005253333333333333, "grad_norm": 0.12815748155117035, "learning_rate": 0.00019895995377572338, "loss": 0.0581, "step": 591 }, { "epoch": 0.005262222222222222, "grad_norm": 0.08504925668239594, "learning_rate": 0.00019895817591892973, "loss": 0.0144, "step": 592 }, { "epoch": 0.005271111111111111, "grad_norm": 0.0860627293586731, "learning_rate": 0.0001989563980621361, "loss": 0.0364, "step": 593 }, { "epoch": 0.00528, "grad_norm": 0.11703208088874817, "learning_rate": 0.00019895462020534248, "loss": 0.0404, "step": 594 }, { "epoch": 0.005288888888888889, "grad_norm": 0.18928274512290955, "learning_rate": 0.00019895284234854884, "loss": 0.1013, "step": 595 }, { "epoch": 0.005297777777777778, "grad_norm": 0.1175018772482872, "learning_rate": 0.0001989510644917552, "loss": 0.0739, "step": 596 }, { "epoch": 0.005306666666666667, "grad_norm": 0.05528504028916359, "learning_rate": 0.00019894928663496158, "loss": 0.0189, "step": 597 }, { "epoch": 0.005315555555555555, "grad_norm": 0.07015389204025269, "learning_rate": 0.00019894750877816792, "loss": 0.0164, "step": 598 }, { "epoch": 0.005324444444444444, "grad_norm": 0.07079171389341354, "learning_rate": 0.0001989457309213743, "loss": 0.0455, "step": 599 }, { "epoch": 0.005333333333333333, "grad_norm": 0.04198252037167549, "learning_rate": 0.00019894395306458066, "loss": 0.0144, "step": 600 }, { "epoch": 0.005342222222222222, "grad_norm": 0.16465649008750916, "learning_rate": 0.00019894217520778702, "loss": 0.0765, "step": 601 }, { "epoch": 0.005351111111111111, "grad_norm": 0.08566084504127502, "learning_rate": 0.00019894039735099338, "loss": 0.0519, "step": 602 }, { "epoch": 0.00536, "grad_norm": 0.060007043182849884, "learning_rate": 0.00019893861949419977, "loss": 0.0138, "step": 603 }, { "epoch": 0.005368888888888889, "grad_norm": 0.04241699352860451, "learning_rate": 0.00019893684163740612, "loss": 0.013, "step": 604 }, { "epoch": 0.005377777777777778, "grad_norm": 0.06828556209802628, "learning_rate": 0.00019893506378061248, "loss": 0.0274, "step": 605 }, { "epoch": 0.005386666666666666, "grad_norm": 0.07623100280761719, "learning_rate": 0.00019893328592381884, "loss": 0.0364, "step": 606 }, { "epoch": 0.005395555555555555, "grad_norm": 0.13281729817390442, "learning_rate": 0.0001989315080670252, "loss": 0.0623, "step": 607 }, { "epoch": 0.005404444444444444, "grad_norm": 0.11598619818687439, "learning_rate": 0.0001989297302102316, "loss": 0.0572, "step": 608 }, { "epoch": 0.005413333333333333, "grad_norm": 0.11778091639280319, "learning_rate": 0.00019892795235343792, "loss": 0.0626, "step": 609 }, { "epoch": 0.005422222222222222, "grad_norm": 0.04542151093482971, "learning_rate": 0.0001989261744966443, "loss": 0.0144, "step": 610 }, { "epoch": 0.005431111111111111, "grad_norm": 0.0884331464767456, "learning_rate": 0.00019892439663985067, "loss": 0.0373, "step": 611 }, { "epoch": 0.00544, "grad_norm": 0.11303913593292236, "learning_rate": 0.00019892261878305702, "loss": 0.0417, "step": 612 }, { "epoch": 0.0054488888888888885, "grad_norm": 0.10610049962997437, "learning_rate": 0.00019892084092626338, "loss": 0.0683, "step": 613 }, { "epoch": 0.0054577777777777775, "grad_norm": 0.09655574709177017, "learning_rate": 0.00019891906306946977, "loss": 0.0388, "step": 614 }, { "epoch": 0.0054666666666666665, "grad_norm": 0.056780170649290085, "learning_rate": 0.00019891728521267613, "loss": 0.0342, "step": 615 }, { "epoch": 0.0054755555555555556, "grad_norm": 0.09665887802839279, "learning_rate": 0.0001989155073558825, "loss": 0.0676, "step": 616 }, { "epoch": 0.005484444444444445, "grad_norm": 0.1495521068572998, "learning_rate": 0.00019891372949908887, "loss": 0.0917, "step": 617 }, { "epoch": 0.005493333333333334, "grad_norm": 0.05205799639225006, "learning_rate": 0.0001989119516422952, "loss": 0.0202, "step": 618 }, { "epoch": 0.005502222222222223, "grad_norm": 0.11127573251724243, "learning_rate": 0.0001989101737855016, "loss": 0.0754, "step": 619 }, { "epoch": 0.005511111111111111, "grad_norm": 0.05983711779117584, "learning_rate": 0.00019890839592870795, "loss": 0.0176, "step": 620 }, { "epoch": 0.00552, "grad_norm": 0.11271446943283081, "learning_rate": 0.0001989066180719143, "loss": 0.0539, "step": 621 }, { "epoch": 0.005528888888888889, "grad_norm": 0.0009767223382368684, "learning_rate": 0.00019890484021512067, "loss": 0.0001, "step": 622 }, { "epoch": 0.005537777777777778, "grad_norm": 0.04931814968585968, "learning_rate": 0.00019890306235832706, "loss": 0.0183, "step": 623 }, { "epoch": 0.005546666666666667, "grad_norm": 0.42367586493492126, "learning_rate": 0.00019890128450153341, "loss": 0.0347, "step": 624 }, { "epoch": 0.005555555555555556, "grad_norm": 0.1178974136710167, "learning_rate": 0.00019889950664473977, "loss": 0.0629, "step": 625 }, { "epoch": 0.005564444444444445, "grad_norm": 0.11120294779539108, "learning_rate": 0.00019889772878794616, "loss": 0.0794, "step": 626 }, { "epoch": 0.005573333333333333, "grad_norm": 0.15008114278316498, "learning_rate": 0.0001988959509311525, "loss": 0.0749, "step": 627 }, { "epoch": 0.005582222222222222, "grad_norm": 0.12380599230527878, "learning_rate": 0.00019889417307435888, "loss": 0.0764, "step": 628 }, { "epoch": 0.005591111111111111, "grad_norm": 0.17376476526260376, "learning_rate": 0.00019889239521756524, "loss": 0.1061, "step": 629 }, { "epoch": 0.0056, "grad_norm": 0.13941772282123566, "learning_rate": 0.0001988906173607716, "loss": 0.0654, "step": 630 }, { "epoch": 0.005608888888888889, "grad_norm": 0.0801539495587349, "learning_rate": 0.00019888883950397796, "loss": 0.0366, "step": 631 }, { "epoch": 0.005617777777777778, "grad_norm": 0.043187785893678665, "learning_rate": 0.00019888706164718434, "loss": 0.0145, "step": 632 }, { "epoch": 0.005626666666666667, "grad_norm": 0.11180572211742401, "learning_rate": 0.00019888528379039067, "loss": 0.0498, "step": 633 }, { "epoch": 0.005635555555555556, "grad_norm": 0.04474987834692001, "learning_rate": 0.00019888350593359706, "loss": 0.0168, "step": 634 }, { "epoch": 0.005644444444444444, "grad_norm": 0.10564803332090378, "learning_rate": 0.00019888172807680342, "loss": 0.0867, "step": 635 }, { "epoch": 0.005653333333333333, "grad_norm": 0.5201244354248047, "learning_rate": 0.00019887995022000978, "loss": 0.0731, "step": 636 }, { "epoch": 0.005662222222222222, "grad_norm": 0.08512871712446213, "learning_rate": 0.00019887817236321616, "loss": 0.0367, "step": 637 }, { "epoch": 0.005671111111111111, "grad_norm": 0.06137924641370773, "learning_rate": 0.00019887639450642252, "loss": 0.0154, "step": 638 }, { "epoch": 0.00568, "grad_norm": 0.04822414740920067, "learning_rate": 0.00019887461664962888, "loss": 0.0112, "step": 639 }, { "epoch": 0.005688888888888889, "grad_norm": 0.05983152613043785, "learning_rate": 0.00019887283879283524, "loss": 0.0136, "step": 640 }, { "epoch": 0.005697777777777778, "grad_norm": 0.11715856194496155, "learning_rate": 0.00019887106093604163, "loss": 0.0802, "step": 641 }, { "epoch": 0.005706666666666666, "grad_norm": 0.08066880702972412, "learning_rate": 0.00019886928307924796, "loss": 0.0418, "step": 642 }, { "epoch": 0.005715555555555555, "grad_norm": 0.10602820664644241, "learning_rate": 0.00019886750522245435, "loss": 0.0481, "step": 643 }, { "epoch": 0.005724444444444444, "grad_norm": 0.10426747798919678, "learning_rate": 0.0001988657273656607, "loss": 0.0749, "step": 644 }, { "epoch": 0.005733333333333333, "grad_norm": 0.060365766286849976, "learning_rate": 0.00019886394950886706, "loss": 0.0153, "step": 645 }, { "epoch": 0.005742222222222222, "grad_norm": 0.1189998984336853, "learning_rate": 0.00019886217165207345, "loss": 0.0672, "step": 646 }, { "epoch": 0.005751111111111111, "grad_norm": 0.14122900366783142, "learning_rate": 0.0001988603937952798, "loss": 0.0844, "step": 647 }, { "epoch": 0.00576, "grad_norm": 0.13387352228164673, "learning_rate": 0.00019885861593848617, "loss": 0.0433, "step": 648 }, { "epoch": 0.0057688888888888885, "grad_norm": 0.11245180666446686, "learning_rate": 0.00019885683808169253, "loss": 0.0607, "step": 649 }, { "epoch": 0.0057777777777777775, "grad_norm": 0.07452944666147232, "learning_rate": 0.0001988550602248989, "loss": 0.0344, "step": 650 }, { "epoch": 0.0057866666666666665, "grad_norm": 0.10988760739564896, "learning_rate": 0.00019885328236810524, "loss": 0.0541, "step": 651 }, { "epoch": 0.0057955555555555555, "grad_norm": 0.055626627057790756, "learning_rate": 0.00019885150451131163, "loss": 0.0156, "step": 652 }, { "epoch": 0.0058044444444444445, "grad_norm": 0.10707959532737732, "learning_rate": 0.000198849726654518, "loss": 0.0559, "step": 653 }, { "epoch": 0.0058133333333333335, "grad_norm": 0.10179635137319565, "learning_rate": 0.00019884794879772435, "loss": 0.0322, "step": 654 }, { "epoch": 0.0058222222222222226, "grad_norm": 0.09020909667015076, "learning_rate": 0.0001988461709409307, "loss": 0.0345, "step": 655 }, { "epoch": 0.005831111111111111, "grad_norm": 0.0908130556344986, "learning_rate": 0.0001988443930841371, "loss": 0.0295, "step": 656 }, { "epoch": 0.00584, "grad_norm": 0.1640070527791977, "learning_rate": 0.00019884261522734345, "loss": 0.0737, "step": 657 }, { "epoch": 0.005848888888888889, "grad_norm": 0.11907931417226791, "learning_rate": 0.0001988408373705498, "loss": 0.0576, "step": 658 }, { "epoch": 0.005857777777777778, "grad_norm": 0.06844700127840042, "learning_rate": 0.0001988390595137562, "loss": 0.0191, "step": 659 }, { "epoch": 0.005866666666666667, "grad_norm": 0.14518669247627258, "learning_rate": 0.00019883728165696253, "loss": 0.0337, "step": 660 }, { "epoch": 0.005875555555555556, "grad_norm": 0.13986138999462128, "learning_rate": 0.00019883550380016892, "loss": 0.1018, "step": 661 }, { "epoch": 0.005884444444444445, "grad_norm": 0.07941272109746933, "learning_rate": 0.00019883372594337525, "loss": 0.026, "step": 662 }, { "epoch": 0.005893333333333334, "grad_norm": 0.07279442995786667, "learning_rate": 0.00019883194808658164, "loss": 0.0339, "step": 663 }, { "epoch": 0.005902222222222222, "grad_norm": 0.16094337403774261, "learning_rate": 0.000198830170229788, "loss": 0.068, "step": 664 }, { "epoch": 0.005911111111111111, "grad_norm": 0.0820232704281807, "learning_rate": 0.00019882839237299435, "loss": 0.0231, "step": 665 }, { "epoch": 0.00592, "grad_norm": 0.16309168934822083, "learning_rate": 0.00019882661451620074, "loss": 0.0766, "step": 666 }, { "epoch": 0.005928888888888889, "grad_norm": 0.07663410156965256, "learning_rate": 0.0001988248366594071, "loss": 0.0211, "step": 667 }, { "epoch": 0.005937777777777778, "grad_norm": 0.11447980999946594, "learning_rate": 0.00019882305880261346, "loss": 0.0538, "step": 668 }, { "epoch": 0.005946666666666667, "grad_norm": 0.11691868305206299, "learning_rate": 0.00019882128094581982, "loss": 0.0497, "step": 669 }, { "epoch": 0.005955555555555556, "grad_norm": 0.17441701889038086, "learning_rate": 0.0001988195030890262, "loss": 0.0771, "step": 670 }, { "epoch": 0.005964444444444444, "grad_norm": 0.14702175557613373, "learning_rate": 0.00019881772523223253, "loss": 0.0797, "step": 671 }, { "epoch": 0.005973333333333333, "grad_norm": 0.1688450127840042, "learning_rate": 0.00019881594737543892, "loss": 0.0846, "step": 672 }, { "epoch": 0.005982222222222222, "grad_norm": 0.16868436336517334, "learning_rate": 0.00019881416951864528, "loss": 0.1505, "step": 673 }, { "epoch": 0.005991111111111111, "grad_norm": 0.042391348630189896, "learning_rate": 0.00019881239166185164, "loss": 0.015, "step": 674 }, { "epoch": 0.006, "grad_norm": 0.136674165725708, "learning_rate": 0.000198810613805058, "loss": 0.0715, "step": 675 }, { "epoch": 0.006008888888888889, "grad_norm": 0.09761163592338562, "learning_rate": 0.00019880883594826438, "loss": 0.0408, "step": 676 }, { "epoch": 0.006017777777777778, "grad_norm": 0.06823251396417618, "learning_rate": 0.00019880705809147074, "loss": 0.0333, "step": 677 }, { "epoch": 0.006026666666666666, "grad_norm": 0.06104745343327522, "learning_rate": 0.0001988052802346771, "loss": 0.0329, "step": 678 }, { "epoch": 0.006035555555555555, "grad_norm": 0.05972731485962868, "learning_rate": 0.0001988035023778835, "loss": 0.0199, "step": 679 }, { "epoch": 0.006044444444444444, "grad_norm": 0.1425091028213501, "learning_rate": 0.00019880172452108982, "loss": 0.054, "step": 680 }, { "epoch": 0.006053333333333333, "grad_norm": 0.1163160502910614, "learning_rate": 0.0001987999466642962, "loss": 0.0631, "step": 681 }, { "epoch": 0.006062222222222222, "grad_norm": 0.09292151033878326, "learning_rate": 0.00019879816880750257, "loss": 0.0573, "step": 682 }, { "epoch": 0.006071111111111111, "grad_norm": 0.0423516221344471, "learning_rate": 0.00019879639095070893, "loss": 0.0163, "step": 683 }, { "epoch": 0.00608, "grad_norm": 0.10096906870603561, "learning_rate": 0.00019879461309391528, "loss": 0.0787, "step": 684 }, { "epoch": 0.0060888888888888885, "grad_norm": 0.12203869968652725, "learning_rate": 0.00019879283523712167, "loss": 0.0539, "step": 685 }, { "epoch": 0.0060977777777777775, "grad_norm": 0.11663995683193207, "learning_rate": 0.00019879105738032803, "loss": 0.0684, "step": 686 }, { "epoch": 0.0061066666666666665, "grad_norm": 0.08131591230630875, "learning_rate": 0.0001987892795235344, "loss": 0.0542, "step": 687 }, { "epoch": 0.0061155555555555555, "grad_norm": 0.10127807408571243, "learning_rate": 0.00019878750166674075, "loss": 0.0634, "step": 688 }, { "epoch": 0.0061244444444444445, "grad_norm": 0.09145286679267883, "learning_rate": 0.0001987857238099471, "loss": 0.0408, "step": 689 }, { "epoch": 0.0061333333333333335, "grad_norm": 0.10803788900375366, "learning_rate": 0.0001987839459531535, "loss": 0.0326, "step": 690 }, { "epoch": 0.0061422222222222225, "grad_norm": 0.09346303343772888, "learning_rate": 0.00019878216809635985, "loss": 0.0485, "step": 691 }, { "epoch": 0.0061511111111111115, "grad_norm": 0.07309988141059875, "learning_rate": 0.0001987803902395662, "loss": 0.0321, "step": 692 }, { "epoch": 0.00616, "grad_norm": 0.11558669805526733, "learning_rate": 0.00019877861238277257, "loss": 0.083, "step": 693 }, { "epoch": 0.006168888888888889, "grad_norm": 0.050474271178245544, "learning_rate": 0.00019877683452597896, "loss": 0.0276, "step": 694 }, { "epoch": 0.006177777777777778, "grad_norm": 0.08884242177009583, "learning_rate": 0.0001987750566691853, "loss": 0.067, "step": 695 }, { "epoch": 0.006186666666666667, "grad_norm": 0.05527935549616814, "learning_rate": 0.00019877327881239167, "loss": 0.018, "step": 696 }, { "epoch": 0.006195555555555556, "grad_norm": 0.08617312461137772, "learning_rate": 0.00019877150095559803, "loss": 0.0553, "step": 697 }, { "epoch": 0.006204444444444445, "grad_norm": 0.1367974728345871, "learning_rate": 0.0001987697230988044, "loss": 0.0825, "step": 698 }, { "epoch": 0.006213333333333334, "grad_norm": 0.11757655441761017, "learning_rate": 0.00019876794524201078, "loss": 0.0788, "step": 699 }, { "epoch": 0.006222222222222222, "grad_norm": 0.11562392115592957, "learning_rate": 0.00019876616738521714, "loss": 0.0756, "step": 700 }, { "epoch": 0.006231111111111111, "grad_norm": 0.1420765370130539, "learning_rate": 0.0001987643895284235, "loss": 0.0651, "step": 701 }, { "epoch": 0.00624, "grad_norm": 0.06918297708034515, "learning_rate": 0.00019876261167162986, "loss": 0.0197, "step": 702 }, { "epoch": 0.006248888888888889, "grad_norm": 0.0362442247569561, "learning_rate": 0.00019876083381483624, "loss": 0.0154, "step": 703 }, { "epoch": 0.006257777777777778, "grad_norm": 0.11870021373033524, "learning_rate": 0.00019875905595804257, "loss": 0.0776, "step": 704 }, { "epoch": 0.006266666666666667, "grad_norm": 0.09864253550767899, "learning_rate": 0.00019875727810124896, "loss": 0.0508, "step": 705 }, { "epoch": 0.006275555555555556, "grad_norm": 0.11084353178739548, "learning_rate": 0.00019875550024445532, "loss": 0.0752, "step": 706 }, { "epoch": 0.006284444444444444, "grad_norm": 0.06850207597017288, "learning_rate": 0.00019875372238766168, "loss": 0.0207, "step": 707 }, { "epoch": 0.006293333333333333, "grad_norm": 0.21652421355247498, "learning_rate": 0.00019875194453086804, "loss": 0.1288, "step": 708 }, { "epoch": 0.006302222222222222, "grad_norm": 0.11675219982862473, "learning_rate": 0.00019875016667407442, "loss": 0.0576, "step": 709 }, { "epoch": 0.006311111111111111, "grad_norm": 0.10829915851354599, "learning_rate": 0.00019874838881728078, "loss": 0.0623, "step": 710 }, { "epoch": 0.00632, "grad_norm": 0.09345487505197525, "learning_rate": 0.00019874661096048714, "loss": 0.0395, "step": 711 }, { "epoch": 0.006328888888888889, "grad_norm": 0.09314026683568954, "learning_rate": 0.00019874483310369353, "loss": 0.0345, "step": 712 }, { "epoch": 0.006337777777777778, "grad_norm": 0.12897978723049164, "learning_rate": 0.00019874305524689986, "loss": 0.0999, "step": 713 }, { "epoch": 0.006346666666666666, "grad_norm": 0.05659504234790802, "learning_rate": 0.00019874127739010625, "loss": 0.0156, "step": 714 }, { "epoch": 0.006355555555555555, "grad_norm": 0.13721372187137604, "learning_rate": 0.0001987394995333126, "loss": 0.0533, "step": 715 }, { "epoch": 0.006364444444444444, "grad_norm": 0.10167653858661652, "learning_rate": 0.00019873772167651896, "loss": 0.0435, "step": 716 }, { "epoch": 0.006373333333333333, "grad_norm": 0.16324229538440704, "learning_rate": 0.00019873594381972532, "loss": 0.1319, "step": 717 }, { "epoch": 0.006382222222222222, "grad_norm": 0.21117135882377625, "learning_rate": 0.00019873416596293168, "loss": 0.0845, "step": 718 }, { "epoch": 0.006391111111111111, "grad_norm": 0.10683051496744156, "learning_rate": 0.00019873238810613807, "loss": 0.0543, "step": 719 }, { "epoch": 0.0064, "grad_norm": 0.16552914679050446, "learning_rate": 0.00019873061024934443, "loss": 0.0635, "step": 720 }, { "epoch": 0.006408888888888889, "grad_norm": 0.05830131471157074, "learning_rate": 0.0001987288323925508, "loss": 0.0152, "step": 721 }, { "epoch": 0.0064177777777777775, "grad_norm": 0.11337212473154068, "learning_rate": 0.00019872705453575715, "loss": 0.0534, "step": 722 }, { "epoch": 0.0064266666666666665, "grad_norm": 0.09128183871507645, "learning_rate": 0.00019872527667896353, "loss": 0.045, "step": 723 }, { "epoch": 0.0064355555555555555, "grad_norm": 0.12389864027500153, "learning_rate": 0.00019872349882216986, "loss": 0.0623, "step": 724 }, { "epoch": 0.0064444444444444445, "grad_norm": 0.1149178221821785, "learning_rate": 0.00019872172096537625, "loss": 0.076, "step": 725 }, { "epoch": 0.0064533333333333335, "grad_norm": 0.15988463163375854, "learning_rate": 0.0001987199431085826, "loss": 0.0846, "step": 726 }, { "epoch": 0.0064622222222222225, "grad_norm": 0.13046765327453613, "learning_rate": 0.00019871816525178897, "loss": 0.0495, "step": 727 }, { "epoch": 0.0064711111111111115, "grad_norm": 0.11832978576421738, "learning_rate": 0.00019871638739499533, "loss": 0.0742, "step": 728 }, { "epoch": 0.00648, "grad_norm": 0.07292316854000092, "learning_rate": 0.00019871460953820171, "loss": 0.021, "step": 729 }, { "epoch": 0.006488888888888889, "grad_norm": 0.0949019342660904, "learning_rate": 0.00019871283168140807, "loss": 0.0297, "step": 730 }, { "epoch": 0.006497777777777778, "grad_norm": 0.07120300084352493, "learning_rate": 0.00019871105382461443, "loss": 0.0201, "step": 731 }, { "epoch": 0.006506666666666667, "grad_norm": 0.2220473736524582, "learning_rate": 0.00019870927596782082, "loss": 0.0875, "step": 732 }, { "epoch": 0.006515555555555556, "grad_norm": 0.20675867795944214, "learning_rate": 0.00019870749811102715, "loss": 0.092, "step": 733 }, { "epoch": 0.006524444444444445, "grad_norm": 0.06173873692750931, "learning_rate": 0.00019870572025423354, "loss": 0.0137, "step": 734 }, { "epoch": 0.006533333333333334, "grad_norm": 0.10689020901918411, "learning_rate": 0.0001987039423974399, "loss": 0.0572, "step": 735 }, { "epoch": 0.006542222222222222, "grad_norm": 0.056087180972099304, "learning_rate": 0.00019870216454064625, "loss": 0.0181, "step": 736 }, { "epoch": 0.006551111111111111, "grad_norm": 0.07412096858024597, "learning_rate": 0.0001987003866838526, "loss": 0.0179, "step": 737 }, { "epoch": 0.00656, "grad_norm": 0.15892335772514343, "learning_rate": 0.000198698608827059, "loss": 0.0534, "step": 738 }, { "epoch": 0.006568888888888889, "grad_norm": 0.1431831568479538, "learning_rate": 0.00019869683097026536, "loss": 0.0574, "step": 739 }, { "epoch": 0.006577777777777778, "grad_norm": 0.08691935986280441, "learning_rate": 0.00019869505311347172, "loss": 0.0305, "step": 740 }, { "epoch": 0.006586666666666667, "grad_norm": 0.09864593297243118, "learning_rate": 0.0001986932752566781, "loss": 0.0347, "step": 741 }, { "epoch": 0.006595555555555556, "grad_norm": 0.10870430618524551, "learning_rate": 0.00019869149739988444, "loss": 0.0472, "step": 742 }, { "epoch": 0.006604444444444444, "grad_norm": 0.07434215396642685, "learning_rate": 0.00019868971954309082, "loss": 0.0181, "step": 743 }, { "epoch": 0.006613333333333333, "grad_norm": 0.13828307390213013, "learning_rate": 0.00019868794168629718, "loss": 0.0475, "step": 744 }, { "epoch": 0.006622222222222222, "grad_norm": 0.15674173831939697, "learning_rate": 0.00019868616382950354, "loss": 0.0611, "step": 745 }, { "epoch": 0.006631111111111111, "grad_norm": 0.19204771518707275, "learning_rate": 0.0001986843859727099, "loss": 0.0493, "step": 746 }, { "epoch": 0.00664, "grad_norm": 0.1348128318786621, "learning_rate": 0.00019868260811591629, "loss": 0.0516, "step": 747 }, { "epoch": 0.006648888888888889, "grad_norm": 0.15004995465278625, "learning_rate": 0.00019868083025912262, "loss": 0.0739, "step": 748 }, { "epoch": 0.006657777777777778, "grad_norm": 0.1671522557735443, "learning_rate": 0.000198679052402329, "loss": 0.0678, "step": 749 }, { "epoch": 0.006666666666666667, "grad_norm": 0.1111856997013092, "learning_rate": 0.00019867727454553536, "loss": 0.0281, "step": 750 }, { "epoch": 0.006675555555555555, "grad_norm": 0.16854700446128845, "learning_rate": 0.00019867549668874172, "loss": 0.054, "step": 751 }, { "epoch": 0.006684444444444444, "grad_norm": 0.004731441382318735, "learning_rate": 0.0001986737188319481, "loss": 0.0004, "step": 752 }, { "epoch": 0.006693333333333333, "grad_norm": 0.17074161767959595, "learning_rate": 0.00019867194097515447, "loss": 0.08, "step": 753 }, { "epoch": 0.006702222222222222, "grad_norm": 0.1295998990535736, "learning_rate": 0.00019867016311836083, "loss": 0.064, "step": 754 }, { "epoch": 0.006711111111111111, "grad_norm": 0.04891315847635269, "learning_rate": 0.00019866838526156719, "loss": 0.0207, "step": 755 }, { "epoch": 0.00672, "grad_norm": 0.06348457932472229, "learning_rate": 0.00019866660740477357, "loss": 0.0362, "step": 756 }, { "epoch": 0.006728888888888889, "grad_norm": 0.138231560587883, "learning_rate": 0.0001986648295479799, "loss": 0.0805, "step": 757 }, { "epoch": 0.006737777777777777, "grad_norm": 0.06374397873878479, "learning_rate": 0.0001986630516911863, "loss": 0.0347, "step": 758 }, { "epoch": 0.0067466666666666664, "grad_norm": 0.0006239773938432336, "learning_rate": 0.00019866127383439265, "loss": 0.0001, "step": 759 }, { "epoch": 0.0067555555555555554, "grad_norm": 0.07347343862056732, "learning_rate": 0.000198659495977599, "loss": 0.0471, "step": 760 }, { "epoch": 0.0067644444444444445, "grad_norm": 0.04086429625749588, "learning_rate": 0.0001986577181208054, "loss": 0.0186, "step": 761 }, { "epoch": 0.0067733333333333335, "grad_norm": 0.12295595556497574, "learning_rate": 0.00019865594026401175, "loss": 0.0588, "step": 762 }, { "epoch": 0.0067822222222222225, "grad_norm": 0.12000931054353714, "learning_rate": 0.0001986541624072181, "loss": 0.0747, "step": 763 }, { "epoch": 0.0067911111111111115, "grad_norm": 0.13686853647232056, "learning_rate": 0.00019865238455042447, "loss": 0.067, "step": 764 }, { "epoch": 0.0068, "grad_norm": 0.08571132272481918, "learning_rate": 0.00019865060669363086, "loss": 0.0518, "step": 765 }, { "epoch": 0.006808888888888889, "grad_norm": 0.08596307784318924, "learning_rate": 0.0001986488288368372, "loss": 0.0626, "step": 766 }, { "epoch": 0.006817777777777778, "grad_norm": 0.058497652411460876, "learning_rate": 0.00019864705098004358, "loss": 0.0332, "step": 767 }, { "epoch": 0.006826666666666667, "grad_norm": 0.09088750928640366, "learning_rate": 0.00019864527312324993, "loss": 0.0585, "step": 768 }, { "epoch": 0.006835555555555556, "grad_norm": 0.11733422428369522, "learning_rate": 0.0001986434952664563, "loss": 0.0614, "step": 769 }, { "epoch": 0.006844444444444445, "grad_norm": 0.07798782736063004, "learning_rate": 0.00019864171740966265, "loss": 0.0375, "step": 770 }, { "epoch": 0.006853333333333334, "grad_norm": 0.08126822113990784, "learning_rate": 0.00019863993955286904, "loss": 0.041, "step": 771 }, { "epoch": 0.006862222222222222, "grad_norm": 0.13292670249938965, "learning_rate": 0.0001986381616960754, "loss": 0.0877, "step": 772 }, { "epoch": 0.006871111111111111, "grad_norm": 0.0005547669716179371, "learning_rate": 0.00019863638383928176, "loss": 0.0001, "step": 773 }, { "epoch": 0.00688, "grad_norm": 0.07510965317487717, "learning_rate": 0.00019863460598248814, "loss": 0.0319, "step": 774 }, { "epoch": 0.006888888888888889, "grad_norm": 0.08563093841075897, "learning_rate": 0.00019863282812569448, "loss": 0.0347, "step": 775 }, { "epoch": 0.006897777777777778, "grad_norm": 0.0849655270576477, "learning_rate": 0.00019863105026890086, "loss": 0.0504, "step": 776 }, { "epoch": 0.006906666666666667, "grad_norm": 0.07748845219612122, "learning_rate": 0.0001986292724121072, "loss": 0.036, "step": 777 }, { "epoch": 0.006915555555555556, "grad_norm": 0.09575201570987701, "learning_rate": 0.00019862749455531358, "loss": 0.0402, "step": 778 }, { "epoch": 0.006924444444444445, "grad_norm": 0.2333398312330246, "learning_rate": 0.00019862571669851994, "loss": 0.107, "step": 779 }, { "epoch": 0.006933333333333333, "grad_norm": 0.11239732056856155, "learning_rate": 0.0001986239388417263, "loss": 0.0651, "step": 780 }, { "epoch": 0.006942222222222222, "grad_norm": 0.06521745771169662, "learning_rate": 0.00019862216098493268, "loss": 0.0273, "step": 781 }, { "epoch": 0.006951111111111111, "grad_norm": 0.08925168216228485, "learning_rate": 0.00019862038312813904, "loss": 0.0552, "step": 782 }, { "epoch": 0.00696, "grad_norm": 0.08343403041362762, "learning_rate": 0.0001986186052713454, "loss": 0.0523, "step": 783 }, { "epoch": 0.006968888888888889, "grad_norm": 0.07093968987464905, "learning_rate": 0.00019861682741455176, "loss": 0.023, "step": 784 }, { "epoch": 0.006977777777777778, "grad_norm": 0.03752230480313301, "learning_rate": 0.00019861504955775815, "loss": 0.0161, "step": 785 }, { "epoch": 0.006986666666666667, "grad_norm": 0.13537445664405823, "learning_rate": 0.00019861327170096448, "loss": 0.0751, "step": 786 }, { "epoch": 0.006995555555555555, "grad_norm": 0.07846067100763321, "learning_rate": 0.00019861149384417087, "loss": 0.0412, "step": 787 }, { "epoch": 0.007004444444444444, "grad_norm": 0.06361797451972961, "learning_rate": 0.00019860971598737722, "loss": 0.0353, "step": 788 }, { "epoch": 0.007013333333333333, "grad_norm": 0.062348078936338425, "learning_rate": 0.00019860793813058358, "loss": 0.0306, "step": 789 }, { "epoch": 0.007022222222222222, "grad_norm": 0.0529479905962944, "learning_rate": 0.00019860616027378994, "loss": 0.0282, "step": 790 }, { "epoch": 0.007031111111111111, "grad_norm": 0.06582195311784744, "learning_rate": 0.00019860438241699633, "loss": 0.0227, "step": 791 }, { "epoch": 0.00704, "grad_norm": 0.038137611001729965, "learning_rate": 0.0001986026045602027, "loss": 0.0126, "step": 792 }, { "epoch": 0.007048888888888889, "grad_norm": 0.09816594421863556, "learning_rate": 0.00019860082670340905, "loss": 0.0762, "step": 793 }, { "epoch": 0.007057777777777777, "grad_norm": 0.05647514387965202, "learning_rate": 0.00019859904884661543, "loss": 0.0335, "step": 794 }, { "epoch": 0.007066666666666666, "grad_norm": 0.0913252979516983, "learning_rate": 0.00019859727098982176, "loss": 0.0503, "step": 795 }, { "epoch": 0.007075555555555555, "grad_norm": 0.0852409228682518, "learning_rate": 0.00019859549313302815, "loss": 0.0407, "step": 796 }, { "epoch": 0.007084444444444444, "grad_norm": 0.14750352501869202, "learning_rate": 0.0001985937152762345, "loss": 0.099, "step": 797 }, { "epoch": 0.0070933333333333334, "grad_norm": 0.07600760459899902, "learning_rate": 0.00019859193741944087, "loss": 0.0462, "step": 798 }, { "epoch": 0.0071022222222222224, "grad_norm": 0.09898846596479416, "learning_rate": 0.00019859015956264723, "loss": 0.0611, "step": 799 }, { "epoch": 0.0071111111111111115, "grad_norm": 0.19561505317687988, "learning_rate": 0.00019858838170585361, "loss": 0.1302, "step": 800 }, { "epoch": 0.00712, "grad_norm": 0.09264039993286133, "learning_rate": 0.00019858660384905997, "loss": 0.0877, "step": 801 }, { "epoch": 0.007128888888888889, "grad_norm": 0.09725356847047806, "learning_rate": 0.00019858482599226633, "loss": 0.0637, "step": 802 }, { "epoch": 0.007137777777777778, "grad_norm": 0.04544920474290848, "learning_rate": 0.0001985830481354727, "loss": 0.0174, "step": 803 }, { "epoch": 0.007146666666666667, "grad_norm": 0.1368061602115631, "learning_rate": 0.00019858127027867905, "loss": 0.0619, "step": 804 }, { "epoch": 0.007155555555555556, "grad_norm": 0.03657493740320206, "learning_rate": 0.00019857949242188544, "loss": 0.0149, "step": 805 }, { "epoch": 0.007164444444444445, "grad_norm": 0.17696581780910492, "learning_rate": 0.0001985777145650918, "loss": 0.0988, "step": 806 }, { "epoch": 0.007173333333333334, "grad_norm": 0.07920773327350616, "learning_rate": 0.00019857593670829816, "loss": 0.0592, "step": 807 }, { "epoch": 0.007182222222222223, "grad_norm": 0.000455433881143108, "learning_rate": 0.00019857415885150451, "loss": 0.0001, "step": 808 }, { "epoch": 0.007191111111111111, "grad_norm": 0.04943494498729706, "learning_rate": 0.0001985723809947109, "loss": 0.0189, "step": 809 }, { "epoch": 0.0072, "grad_norm": 0.07117834687232971, "learning_rate": 0.00019857060313791723, "loss": 0.0369, "step": 810 }, { "epoch": 0.007208888888888889, "grad_norm": 0.08351873606443405, "learning_rate": 0.00019856882528112362, "loss": 0.0404, "step": 811 }, { "epoch": 0.007217777777777778, "grad_norm": 0.08205081522464752, "learning_rate": 0.00019856704742432998, "loss": 0.0487, "step": 812 }, { "epoch": 0.007226666666666667, "grad_norm": 0.0004285921750124544, "learning_rate": 0.00019856526956753634, "loss": 0.0001, "step": 813 }, { "epoch": 0.007235555555555556, "grad_norm": 0.1411365568637848, "learning_rate": 0.00019856349171074272, "loss": 0.0838, "step": 814 }, { "epoch": 0.007244444444444445, "grad_norm": 0.0799662321805954, "learning_rate": 0.00019856171385394908, "loss": 0.0377, "step": 815 }, { "epoch": 0.007253333333333333, "grad_norm": 0.002248684875667095, "learning_rate": 0.00019855993599715544, "loss": 0.0001, "step": 816 }, { "epoch": 0.007262222222222222, "grad_norm": 0.12702739238739014, "learning_rate": 0.0001985581581403618, "loss": 0.0433, "step": 817 }, { "epoch": 0.007271111111111111, "grad_norm": 0.13787269592285156, "learning_rate": 0.00019855638028356819, "loss": 0.0725, "step": 818 }, { "epoch": 0.00728, "grad_norm": 0.08176235109567642, "learning_rate": 0.00019855460242677452, "loss": 0.0389, "step": 819 }, { "epoch": 0.007288888888888889, "grad_norm": 0.08872456848621368, "learning_rate": 0.0001985528245699809, "loss": 0.0363, "step": 820 }, { "epoch": 0.007297777777777778, "grad_norm": 0.16620565950870514, "learning_rate": 0.00019855104671318726, "loss": 0.0714, "step": 821 }, { "epoch": 0.007306666666666667, "grad_norm": 0.08016341924667358, "learning_rate": 0.00019854926885639362, "loss": 0.027, "step": 822 }, { "epoch": 0.007315555555555555, "grad_norm": 0.09759405255317688, "learning_rate": 0.00019854749099959998, "loss": 0.0379, "step": 823 }, { "epoch": 0.007324444444444444, "grad_norm": 0.08509071171283722, "learning_rate": 0.00019854571314280637, "loss": 0.0364, "step": 824 }, { "epoch": 0.007333333333333333, "grad_norm": 0.0005064305732958019, "learning_rate": 0.00019854393528601273, "loss": 0.0001, "step": 825 }, { "epoch": 0.007342222222222222, "grad_norm": 0.08157160878181458, "learning_rate": 0.00019854215742921909, "loss": 0.0203, "step": 826 }, { "epoch": 0.007351111111111111, "grad_norm": 0.15650761127471924, "learning_rate": 0.00019854037957242547, "loss": 0.1012, "step": 827 }, { "epoch": 0.00736, "grad_norm": 0.13011474907398224, "learning_rate": 0.0001985386017156318, "loss": 0.0811, "step": 828 }, { "epoch": 0.007368888888888889, "grad_norm": 0.08567006140947342, "learning_rate": 0.0001985368238588382, "loss": 0.0362, "step": 829 }, { "epoch": 0.007377777777777777, "grad_norm": 0.08410054445266724, "learning_rate": 0.00019853504600204455, "loss": 0.037, "step": 830 }, { "epoch": 0.007386666666666666, "grad_norm": 0.12753558158874512, "learning_rate": 0.0001985332681452509, "loss": 0.0602, "step": 831 }, { "epoch": 0.007395555555555555, "grad_norm": 0.09592390060424805, "learning_rate": 0.00019853149028845727, "loss": 0.0437, "step": 832 }, { "epoch": 0.007404444444444444, "grad_norm": 0.1314147561788559, "learning_rate": 0.00019852971243166363, "loss": 0.0793, "step": 833 }, { "epoch": 0.007413333333333333, "grad_norm": 0.10244124382734299, "learning_rate": 0.00019852793457487, "loss": 0.0748, "step": 834 }, { "epoch": 0.007422222222222222, "grad_norm": 0.08080361783504486, "learning_rate": 0.00019852615671807637, "loss": 0.055, "step": 835 }, { "epoch": 0.007431111111111111, "grad_norm": 0.06001868098974228, "learning_rate": 0.00019852437886128273, "loss": 0.0329, "step": 836 }, { "epoch": 0.00744, "grad_norm": 0.15898634493350983, "learning_rate": 0.0001985226010044891, "loss": 0.1231, "step": 837 }, { "epoch": 0.007448888888888889, "grad_norm": 0.066802479326725, "learning_rate": 0.00019852082314769548, "loss": 0.0313, "step": 838 }, { "epoch": 0.007457777777777778, "grad_norm": 0.07882090657949448, "learning_rate": 0.0001985190452909018, "loss": 0.037, "step": 839 }, { "epoch": 0.007466666666666667, "grad_norm": 0.09237024933099747, "learning_rate": 0.0001985172674341082, "loss": 0.0427, "step": 840 }, { "epoch": 0.007475555555555556, "grad_norm": 0.06343010067939758, "learning_rate": 0.00019851548957731455, "loss": 0.0376, "step": 841 }, { "epoch": 0.007484444444444445, "grad_norm": 0.10027500987052917, "learning_rate": 0.0001985137117205209, "loss": 0.0498, "step": 842 }, { "epoch": 0.007493333333333334, "grad_norm": 0.17016297578811646, "learning_rate": 0.00019851193386372727, "loss": 0.1194, "step": 843 }, { "epoch": 0.007502222222222223, "grad_norm": 0.07126303017139435, "learning_rate": 0.00019851015600693366, "loss": 0.0372, "step": 844 }, { "epoch": 0.007511111111111111, "grad_norm": 0.04772026836872101, "learning_rate": 0.00019850837815014002, "loss": 0.0312, "step": 845 }, { "epoch": 0.00752, "grad_norm": 0.08670488744974136, "learning_rate": 0.00019850660029334638, "loss": 0.074, "step": 846 }, { "epoch": 0.007528888888888889, "grad_norm": 0.07792576402425766, "learning_rate": 0.00019850482243655276, "loss": 0.0362, "step": 847 }, { "epoch": 0.007537777777777778, "grad_norm": 0.058885134756565094, "learning_rate": 0.0001985030445797591, "loss": 0.0354, "step": 848 }, { "epoch": 0.007546666666666667, "grad_norm": 0.06537828594446182, "learning_rate": 0.00019850126672296548, "loss": 0.0325, "step": 849 }, { "epoch": 0.007555555555555556, "grad_norm": 0.047794878482818604, "learning_rate": 0.00019849948886617184, "loss": 0.0149, "step": 850 }, { "epoch": 0.007564444444444445, "grad_norm": 0.09929505735635757, "learning_rate": 0.0001984977110093782, "loss": 0.0968, "step": 851 }, { "epoch": 0.007573333333333333, "grad_norm": 0.08304254710674286, "learning_rate": 0.00019849593315258456, "loss": 0.0392, "step": 852 }, { "epoch": 0.007582222222222222, "grad_norm": 0.04529000446200371, "learning_rate": 0.00019849415529579094, "loss": 0.0164, "step": 853 }, { "epoch": 0.007591111111111111, "grad_norm": 0.06483054906129837, "learning_rate": 0.0001984923774389973, "loss": 0.0347, "step": 854 }, { "epoch": 0.0076, "grad_norm": 0.00042140146251767874, "learning_rate": 0.00019849059958220366, "loss": 0.0001, "step": 855 }, { "epoch": 0.007608888888888889, "grad_norm": 0.08930125087499619, "learning_rate": 0.00019848882172541005, "loss": 0.0501, "step": 856 }, { "epoch": 0.007617777777777778, "grad_norm": 0.07405055314302444, "learning_rate": 0.00019848704386861638, "loss": 0.0343, "step": 857 }, { "epoch": 0.007626666666666667, "grad_norm": 0.04844611510634422, "learning_rate": 0.00019848526601182277, "loss": 0.017, "step": 858 }, { "epoch": 0.007635555555555555, "grad_norm": 0.13266539573669434, "learning_rate": 0.00019848348815502913, "loss": 0.0924, "step": 859 }, { "epoch": 0.007644444444444444, "grad_norm": 0.00046591716818511486, "learning_rate": 0.00019848171029823548, "loss": 0.0001, "step": 860 }, { "epoch": 0.007653333333333333, "grad_norm": 0.19659404456615448, "learning_rate": 0.00019847993244144184, "loss": 0.1055, "step": 861 }, { "epoch": 0.007662222222222222, "grad_norm": 0.10660171508789062, "learning_rate": 0.00019847815458464823, "loss": 0.0753, "step": 862 }, { "epoch": 0.007671111111111111, "grad_norm": 0.11853267252445221, "learning_rate": 0.00019847637672785456, "loss": 0.1037, "step": 863 }, { "epoch": 0.00768, "grad_norm": 0.048185091465711594, "learning_rate": 0.00019847459887106095, "loss": 0.0185, "step": 864 }, { "epoch": 0.007688888888888889, "grad_norm": 0.061471473425626755, "learning_rate": 0.0001984728210142673, "loss": 0.0286, "step": 865 }, { "epoch": 0.007697777777777777, "grad_norm": 0.08382819592952728, "learning_rate": 0.00019847104315747367, "loss": 0.0366, "step": 866 }, { "epoch": 0.007706666666666666, "grad_norm": 0.04207276180386543, "learning_rate": 0.00019846926530068005, "loss": 0.015, "step": 867 }, { "epoch": 0.007715555555555555, "grad_norm": 0.047350816428661346, "learning_rate": 0.0001984674874438864, "loss": 0.0132, "step": 868 }, { "epoch": 0.007724444444444444, "grad_norm": 0.08750060945749283, "learning_rate": 0.00019846570958709277, "loss": 0.0424, "step": 869 }, { "epoch": 0.007733333333333333, "grad_norm": 0.08880649507045746, "learning_rate": 0.00019846393173029913, "loss": 0.051, "step": 870 }, { "epoch": 0.007742222222222222, "grad_norm": 0.10651759058237076, "learning_rate": 0.00019846215387350552, "loss": 0.0641, "step": 871 }, { "epoch": 0.007751111111111111, "grad_norm": 0.08853752911090851, "learning_rate": 0.00019846037601671185, "loss": 0.0722, "step": 872 }, { "epoch": 0.00776, "grad_norm": 0.06445609778165817, "learning_rate": 0.00019845859815991823, "loss": 0.0287, "step": 873 }, { "epoch": 0.0077688888888888885, "grad_norm": 0.13998861610889435, "learning_rate": 0.0001984568203031246, "loss": 0.111, "step": 874 }, { "epoch": 0.0077777777777777776, "grad_norm": 0.07702822983264923, "learning_rate": 0.00019845504244633095, "loss": 0.0511, "step": 875 }, { "epoch": 0.0077866666666666666, "grad_norm": 0.05576295778155327, "learning_rate": 0.00019845326458953734, "loss": 0.0288, "step": 876 }, { "epoch": 0.007795555555555556, "grad_norm": 0.09783664345741272, "learning_rate": 0.0001984514867327437, "loss": 0.074, "step": 877 }, { "epoch": 0.007804444444444445, "grad_norm": 0.1014695018529892, "learning_rate": 0.00019844970887595006, "loss": 0.0828, "step": 878 }, { "epoch": 0.007813333333333334, "grad_norm": 0.13310858607292175, "learning_rate": 0.00019844793101915642, "loss": 0.084, "step": 879 }, { "epoch": 0.007822222222222222, "grad_norm": 0.06080053746700287, "learning_rate": 0.0001984461531623628, "loss": 0.035, "step": 880 }, { "epoch": 0.007831111111111112, "grad_norm": 0.14521683752536774, "learning_rate": 0.00019844437530556913, "loss": 0.1317, "step": 881 }, { "epoch": 0.00784, "grad_norm": 0.06059917062520981, "learning_rate": 0.00019844259744877552, "loss": 0.0334, "step": 882 }, { "epoch": 0.00784888888888889, "grad_norm": 0.0007020982448011637, "learning_rate": 0.00019844081959198188, "loss": 0.0001, "step": 883 }, { "epoch": 0.007857777777777778, "grad_norm": 0.10717571526765823, "learning_rate": 0.00019843904173518824, "loss": 0.0822, "step": 884 }, { "epoch": 0.007866666666666666, "grad_norm": 0.05567452684044838, "learning_rate": 0.0001984372638783946, "loss": 0.0333, "step": 885 }, { "epoch": 0.007875555555555556, "grad_norm": 0.1025327667593956, "learning_rate": 0.00019843548602160098, "loss": 0.0347, "step": 886 }, { "epoch": 0.007884444444444444, "grad_norm": 0.09011328965425491, "learning_rate": 0.00019843370816480734, "loss": 0.0578, "step": 887 }, { "epoch": 0.007893333333333334, "grad_norm": 0.0781644806265831, "learning_rate": 0.0001984319303080137, "loss": 0.0414, "step": 888 }, { "epoch": 0.007902222222222222, "grad_norm": 0.04639657214283943, "learning_rate": 0.00019843015245122006, "loss": 0.0155, "step": 889 }, { "epoch": 0.007911111111111112, "grad_norm": 0.082664854824543, "learning_rate": 0.00019842837459442642, "loss": 0.0609, "step": 890 }, { "epoch": 0.00792, "grad_norm": 0.043168190866708755, "learning_rate": 0.0001984265967376328, "loss": 0.0163, "step": 891 }, { "epoch": 0.007928888888888888, "grad_norm": 0.055719684809446335, "learning_rate": 0.00019842481888083914, "loss": 0.0302, "step": 892 }, { "epoch": 0.007937777777777778, "grad_norm": 0.00038701496669091284, "learning_rate": 0.00019842304102404552, "loss": 0.0001, "step": 893 }, { "epoch": 0.007946666666666666, "grad_norm": 0.10097550600767136, "learning_rate": 0.00019842126316725188, "loss": 0.0819, "step": 894 }, { "epoch": 0.007955555555555556, "grad_norm": 0.06762385368347168, "learning_rate": 0.00019841948531045824, "loss": 0.0501, "step": 895 }, { "epoch": 0.007964444444444444, "grad_norm": 0.07017973810434341, "learning_rate": 0.0001984177074536646, "loss": 0.0357, "step": 896 }, { "epoch": 0.007973333333333334, "grad_norm": 0.07711895555257797, "learning_rate": 0.000198415929596871, "loss": 0.0536, "step": 897 }, { "epoch": 0.007982222222222222, "grad_norm": 0.07155244052410126, "learning_rate": 0.00019841415174007735, "loss": 0.0491, "step": 898 }, { "epoch": 0.00799111111111111, "grad_norm": 0.15056827664375305, "learning_rate": 0.0001984123738832837, "loss": 0.0851, "step": 899 }, { "epoch": 0.008, "grad_norm": 0.13690365850925446, "learning_rate": 0.0001984105960264901, "loss": 0.0754, "step": 900 }, { "epoch": 0.008008888888888888, "grad_norm": 0.09156232327222824, "learning_rate": 0.00019840881816969642, "loss": 0.0731, "step": 901 }, { "epoch": 0.008017777777777778, "grad_norm": 0.06878039985895157, "learning_rate": 0.0001984070403129028, "loss": 0.0341, "step": 902 }, { "epoch": 0.008026666666666666, "grad_norm": 0.06641554087400436, "learning_rate": 0.00019840526245610917, "loss": 0.0283, "step": 903 }, { "epoch": 0.008035555555555556, "grad_norm": 0.07848472148180008, "learning_rate": 0.00019840348459931553, "loss": 0.0472, "step": 904 }, { "epoch": 0.008044444444444444, "grad_norm": 0.08281851559877396, "learning_rate": 0.0001984017067425219, "loss": 0.0368, "step": 905 }, { "epoch": 0.008053333333333332, "grad_norm": 0.1912524402141571, "learning_rate": 0.00019839992888572827, "loss": 0.0822, "step": 906 }, { "epoch": 0.008062222222222222, "grad_norm": 0.11443886160850525, "learning_rate": 0.00019839815102893463, "loss": 0.0646, "step": 907 }, { "epoch": 0.00807111111111111, "grad_norm": 0.07339106500148773, "learning_rate": 0.000198396373172141, "loss": 0.0407, "step": 908 }, { "epoch": 0.00808, "grad_norm": 0.09109000861644745, "learning_rate": 0.00019839459531534738, "loss": 0.0711, "step": 909 }, { "epoch": 0.008088888888888889, "grad_norm": 0.05655822157859802, "learning_rate": 0.0001983928174585537, "loss": 0.0125, "step": 910 }, { "epoch": 0.008097777777777778, "grad_norm": 0.11832305788993835, "learning_rate": 0.0001983910396017601, "loss": 0.0416, "step": 911 }, { "epoch": 0.008106666666666667, "grad_norm": 0.09654732793569565, "learning_rate": 0.00019838926174496645, "loss": 0.076, "step": 912 }, { "epoch": 0.008115555555555556, "grad_norm": 0.14435140788555145, "learning_rate": 0.0001983874838881728, "loss": 0.0875, "step": 913 }, { "epoch": 0.008124444444444445, "grad_norm": 0.08258915692567825, "learning_rate": 0.00019838570603137917, "loss": 0.0646, "step": 914 }, { "epoch": 0.008133333333333333, "grad_norm": 0.08256401866674423, "learning_rate": 0.00019838392817458556, "loss": 0.0497, "step": 915 }, { "epoch": 0.008142222222222223, "grad_norm": 0.04170874506235123, "learning_rate": 0.0001983821503177919, "loss": 0.019, "step": 916 }, { "epoch": 0.00815111111111111, "grad_norm": 0.17283377051353455, "learning_rate": 0.00019838037246099828, "loss": 0.1084, "step": 917 }, { "epoch": 0.00816, "grad_norm": 0.1172376275062561, "learning_rate": 0.00019837859460420464, "loss": 0.0896, "step": 918 }, { "epoch": 0.008168888888888889, "grad_norm": 0.15727683901786804, "learning_rate": 0.000198376816747411, "loss": 0.1488, "step": 919 }, { "epoch": 0.008177777777777779, "grad_norm": 0.0735187977552414, "learning_rate": 0.00019837503889061738, "loss": 0.0376, "step": 920 }, { "epoch": 0.008186666666666667, "grad_norm": 0.09129771590232849, "learning_rate": 0.00019837326103382374, "loss": 0.0688, "step": 921 }, { "epoch": 0.008195555555555555, "grad_norm": 0.04355602711439133, "learning_rate": 0.0001983714831770301, "loss": 0.0189, "step": 922 }, { "epoch": 0.008204444444444445, "grad_norm": 0.06200481951236725, "learning_rate": 0.00019836970532023646, "loss": 0.0321, "step": 923 }, { "epoch": 0.008213333333333333, "grad_norm": 0.04384525865316391, "learning_rate": 0.00019836792746344284, "loss": 0.0173, "step": 924 }, { "epoch": 0.008222222222222223, "grad_norm": 0.06178779527544975, "learning_rate": 0.00019836614960664918, "loss": 0.0205, "step": 925 }, { "epoch": 0.008231111111111111, "grad_norm": 0.0967206358909607, "learning_rate": 0.00019836437174985556, "loss": 0.055, "step": 926 }, { "epoch": 0.00824, "grad_norm": 0.065971739590168, "learning_rate": 0.00019836259389306192, "loss": 0.0323, "step": 927 }, { "epoch": 0.008248888888888889, "grad_norm": 0.07339569181203842, "learning_rate": 0.00019836081603626828, "loss": 0.0316, "step": 928 }, { "epoch": 0.008257777777777777, "grad_norm": 0.07669107615947723, "learning_rate": 0.00019835903817947467, "loss": 0.0376, "step": 929 }, { "epoch": 0.008266666666666667, "grad_norm": 0.1102442592382431, "learning_rate": 0.00019835726032268103, "loss": 0.0607, "step": 930 }, { "epoch": 0.008275555555555555, "grad_norm": 0.07224104553461075, "learning_rate": 0.00019835548246588739, "loss": 0.0319, "step": 931 }, { "epoch": 0.008284444444444445, "grad_norm": 0.11473600566387177, "learning_rate": 0.00019835370460909374, "loss": 0.057, "step": 932 }, { "epoch": 0.008293333333333333, "grad_norm": 0.08788643777370453, "learning_rate": 0.00019835192675230013, "loss": 0.0703, "step": 933 }, { "epoch": 0.008302222222222223, "grad_norm": 0.07424437254667282, "learning_rate": 0.00019835014889550646, "loss": 0.0381, "step": 934 }, { "epoch": 0.008311111111111111, "grad_norm": 0.061766304075717926, "learning_rate": 0.00019834837103871285, "loss": 0.0359, "step": 935 }, { "epoch": 0.00832, "grad_norm": 0.10606873780488968, "learning_rate": 0.0001983465931819192, "loss": 0.0665, "step": 936 }, { "epoch": 0.00832888888888889, "grad_norm": 0.07705768197774887, "learning_rate": 0.00019834481532512557, "loss": 0.0379, "step": 937 }, { "epoch": 0.008337777777777777, "grad_norm": 0.05071070417761803, "learning_rate": 0.00019834303746833193, "loss": 0.0167, "step": 938 }, { "epoch": 0.008346666666666667, "grad_norm": 0.04239941015839577, "learning_rate": 0.0001983412596115383, "loss": 0.0172, "step": 939 }, { "epoch": 0.008355555555555555, "grad_norm": 0.07556600868701935, "learning_rate": 0.00019833948175474467, "loss": 0.0544, "step": 940 }, { "epoch": 0.008364444444444445, "grad_norm": 0.09824314713478088, "learning_rate": 0.00019833770389795103, "loss": 0.0593, "step": 941 }, { "epoch": 0.008373333333333333, "grad_norm": 0.08844350278377533, "learning_rate": 0.00019833592604115742, "loss": 0.0393, "step": 942 }, { "epoch": 0.008382222222222221, "grad_norm": 0.0408162996172905, "learning_rate": 0.00019833414818436375, "loss": 0.0142, "step": 943 }, { "epoch": 0.008391111111111111, "grad_norm": 0.047434061765670776, "learning_rate": 0.00019833237032757013, "loss": 0.0137, "step": 944 }, { "epoch": 0.0084, "grad_norm": 0.09997274726629257, "learning_rate": 0.0001983305924707765, "loss": 0.0508, "step": 945 }, { "epoch": 0.00840888888888889, "grad_norm": 0.044649332761764526, "learning_rate": 0.00019832881461398285, "loss": 0.0136, "step": 946 }, { "epoch": 0.008417777777777777, "grad_norm": 0.1276770681142807, "learning_rate": 0.0001983270367571892, "loss": 0.1038, "step": 947 }, { "epoch": 0.008426666666666667, "grad_norm": 0.11442451179027557, "learning_rate": 0.00019832525890039557, "loss": 0.0771, "step": 948 }, { "epoch": 0.008435555555555556, "grad_norm": 0.05970484018325806, "learning_rate": 0.00019832348104360196, "loss": 0.0273, "step": 949 }, { "epoch": 0.008444444444444444, "grad_norm": 0.04752824828028679, "learning_rate": 0.00019832170318680832, "loss": 0.0153, "step": 950 }, { "epoch": 0.008453333333333334, "grad_norm": 0.15656007826328278, "learning_rate": 0.00019831992533001468, "loss": 0.1059, "step": 951 }, { "epoch": 0.008462222222222222, "grad_norm": 0.15488013625144958, "learning_rate": 0.00019831814747322103, "loss": 0.0798, "step": 952 }, { "epoch": 0.008471111111111112, "grad_norm": 0.13147073984146118, "learning_rate": 0.00019831636961642742, "loss": 0.0791, "step": 953 }, { "epoch": 0.00848, "grad_norm": 0.0007855595322325826, "learning_rate": 0.00019831459175963375, "loss": 0.0001, "step": 954 }, { "epoch": 0.00848888888888889, "grad_norm": 0.0994872972369194, "learning_rate": 0.00019831281390284014, "loss": 0.0494, "step": 955 }, { "epoch": 0.008497777777777778, "grad_norm": 0.0522037036716938, "learning_rate": 0.0001983110360460465, "loss": 0.0143, "step": 956 }, { "epoch": 0.008506666666666666, "grad_norm": 0.06139123812317848, "learning_rate": 0.00019830925818925286, "loss": 0.0227, "step": 957 }, { "epoch": 0.008515555555555556, "grad_norm": 0.10305090993642807, "learning_rate": 0.00019830748033245922, "loss": 0.0456, "step": 958 }, { "epoch": 0.008524444444444444, "grad_norm": 0.16680462658405304, "learning_rate": 0.0001983057024756656, "loss": 0.1184, "step": 959 }, { "epoch": 0.008533333333333334, "grad_norm": 0.00041805399814620614, "learning_rate": 0.00019830392461887196, "loss": 0.0001, "step": 960 }, { "epoch": 0.008542222222222222, "grad_norm": 0.10780221968889236, "learning_rate": 0.00019830214676207832, "loss": 0.079, "step": 961 }, { "epoch": 0.008551111111111112, "grad_norm": 0.051612067967653275, "learning_rate": 0.0001983003689052847, "loss": 0.0161, "step": 962 }, { "epoch": 0.00856, "grad_norm": 0.1027769222855568, "learning_rate": 0.00019829859104849104, "loss": 0.0713, "step": 963 }, { "epoch": 0.008568888888888888, "grad_norm": 0.039018526673316956, "learning_rate": 0.00019829681319169742, "loss": 0.0166, "step": 964 }, { "epoch": 0.008577777777777778, "grad_norm": 0.05345560982823372, "learning_rate": 0.00019829503533490378, "loss": 0.0302, "step": 965 }, { "epoch": 0.008586666666666666, "grad_norm": 0.057688407599925995, "learning_rate": 0.00019829325747811014, "loss": 0.0306, "step": 966 }, { "epoch": 0.008595555555555556, "grad_norm": 0.08661018311977386, "learning_rate": 0.0001982914796213165, "loss": 0.0581, "step": 967 }, { "epoch": 0.008604444444444444, "grad_norm": 0.05932362750172615, "learning_rate": 0.0001982897017645229, "loss": 0.0362, "step": 968 }, { "epoch": 0.008613333333333334, "grad_norm": 0.05578447878360748, "learning_rate": 0.00019828792390772925, "loss": 0.0422, "step": 969 }, { "epoch": 0.008622222222222222, "grad_norm": 0.06688617169857025, "learning_rate": 0.0001982861460509356, "loss": 0.0343, "step": 970 }, { "epoch": 0.008631111111111112, "grad_norm": 0.0981186032295227, "learning_rate": 0.00019828436819414196, "loss": 0.0795, "step": 971 }, { "epoch": 0.00864, "grad_norm": 0.05302273854613304, "learning_rate": 0.00019828259033734832, "loss": 0.0191, "step": 972 }, { "epoch": 0.008648888888888888, "grad_norm": 0.18494756519794464, "learning_rate": 0.0001982808124805547, "loss": 0.101, "step": 973 }, { "epoch": 0.008657777777777778, "grad_norm": 0.1198844164609909, "learning_rate": 0.00019827903462376107, "loss": 0.0711, "step": 974 }, { "epoch": 0.008666666666666666, "grad_norm": 0.0709238275885582, "learning_rate": 0.00019827725676696743, "loss": 0.0368, "step": 975 }, { "epoch": 0.008675555555555556, "grad_norm": 0.0789879783987999, "learning_rate": 0.0001982754789101738, "loss": 0.0706, "step": 976 }, { "epoch": 0.008684444444444444, "grad_norm": 0.11748440563678741, "learning_rate": 0.00019827370105338017, "loss": 0.1119, "step": 977 }, { "epoch": 0.008693333333333334, "grad_norm": 0.10046829283237457, "learning_rate": 0.0001982719231965865, "loss": 0.0568, "step": 978 }, { "epoch": 0.008702222222222222, "grad_norm": 0.050801098346710205, "learning_rate": 0.0001982701453397929, "loss": 0.03, "step": 979 }, { "epoch": 0.00871111111111111, "grad_norm": 0.06468652933835983, "learning_rate": 0.00019826836748299925, "loss": 0.0309, "step": 980 }, { "epoch": 0.00872, "grad_norm": 0.07682636380195618, "learning_rate": 0.0001982665896262056, "loss": 0.0518, "step": 981 }, { "epoch": 0.008728888888888888, "grad_norm": 0.09426581114530563, "learning_rate": 0.000198264811769412, "loss": 0.0363, "step": 982 }, { "epoch": 0.008737777777777778, "grad_norm": 0.07121411710977554, "learning_rate": 0.00019826303391261836, "loss": 0.0369, "step": 983 }, { "epoch": 0.008746666666666666, "grad_norm": 0.10303757339715958, "learning_rate": 0.00019826125605582471, "loss": 0.0745, "step": 984 }, { "epoch": 0.008755555555555556, "grad_norm": 0.1193467378616333, "learning_rate": 0.00019825947819903107, "loss": 0.0468, "step": 985 }, { "epoch": 0.008764444444444444, "grad_norm": 0.14371584355831146, "learning_rate": 0.00019825770034223746, "loss": 0.1325, "step": 986 }, { "epoch": 0.008773333333333333, "grad_norm": 0.03805044665932655, "learning_rate": 0.0001982559224854438, "loss": 0.0182, "step": 987 }, { "epoch": 0.008782222222222223, "grad_norm": 0.053666118532419205, "learning_rate": 0.00019825414462865018, "loss": 0.0368, "step": 988 }, { "epoch": 0.00879111111111111, "grad_norm": 0.09954437613487244, "learning_rate": 0.00019825236677185654, "loss": 0.0369, "step": 989 }, { "epoch": 0.0088, "grad_norm": 0.09255199134349823, "learning_rate": 0.0001982505889150629, "loss": 0.0716, "step": 990 }, { "epoch": 0.008808888888888889, "grad_norm": 0.07357914745807648, "learning_rate": 0.00019824881105826925, "loss": 0.0412, "step": 991 }, { "epoch": 0.008817777777777779, "grad_norm": 0.08828029036521912, "learning_rate": 0.00019824703320147564, "loss": 0.0567, "step": 992 }, { "epoch": 0.008826666666666667, "grad_norm": 0.06943129003047943, "learning_rate": 0.000198245255344682, "loss": 0.0294, "step": 993 }, { "epoch": 0.008835555555555555, "grad_norm": 0.11954277008771896, "learning_rate": 0.00019824347748788836, "loss": 0.0777, "step": 994 }, { "epoch": 0.008844444444444445, "grad_norm": 0.06442563235759735, "learning_rate": 0.00019824169963109475, "loss": 0.0507, "step": 995 }, { "epoch": 0.008853333333333333, "grad_norm": 0.07292091846466064, "learning_rate": 0.00019823992177430108, "loss": 0.0404, "step": 996 }, { "epoch": 0.008862222222222223, "grad_norm": 0.09990858286619186, "learning_rate": 0.00019823814391750746, "loss": 0.059, "step": 997 }, { "epoch": 0.00887111111111111, "grad_norm": 0.05477653816342354, "learning_rate": 0.00019823636606071382, "loss": 0.0345, "step": 998 }, { "epoch": 0.00888, "grad_norm": 0.08258385211229324, "learning_rate": 0.00019823458820392018, "loss": 0.0702, "step": 999 }, { "epoch": 0.008888888888888889, "grad_norm": 0.09286041557788849, "learning_rate": 0.00019823281034712654, "loss": 0.0517, "step": 1000 } ], "logging_steps": 1, "max_steps": 112500, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.24636962051072e+16, "train_batch_size": 2, "trial_name": null, "trial_params": null }