Qwen2.5-VL-3B-Instruct-origin-mix50k / trainer_state.json

Upload folder using huggingface_hub

c085812 verified 9 days ago

109 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 3120,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0016025641025641025,
	"grad_norm": 5.729795932769775,
	"learning_rate": 4.25531914893617e-08,
	"loss": 1.033,
	"step": 5
	},
	{
	"epoch": 0.003205128205128205,
	"grad_norm": 9.286614418029785,
	"learning_rate": 9.574468085106382e-08,
	"loss": 1.0218,
	"step": 10
	},
	{
	"epoch": 0.004807692307692308,
	"grad_norm": 13.221362113952637,
	"learning_rate": 1.4893617021276595e-07,
	"loss": 1.065,
	"step": 15
	},
	{
	"epoch": 0.00641025641025641,
	"grad_norm": 11.769225120544434,
	"learning_rate": 2.0212765957446807e-07,
	"loss": 1.0354,
	"step": 20
	},
	{
	"epoch": 0.008012820512820512,
	"grad_norm": 14.483790397644043,
	"learning_rate": 2.5531914893617016e-07,
	"loss": 1.0337,
	"step": 25
	},
	{
	"epoch": 0.009615384615384616,
	"grad_norm": 7.531055450439453,
	"learning_rate": 3.085106382978723e-07,
	"loss": 1.0472,
	"step": 30
	},
	{
	"epoch": 0.011217948717948718,
	"grad_norm": 6.638299942016602,
	"learning_rate": 3.617021276595745e-07,
	"loss": 0.9963,
	"step": 35
	},
	{
	"epoch": 0.01282051282051282,
	"grad_norm": 16.26578140258789,
	"learning_rate": 4.148936170212766e-07,
	"loss": 1.0217,
	"step": 40
	},
	{
	"epoch": 0.014423076923076924,
	"grad_norm": 17.74137306213379,
	"learning_rate": 4.6808510638297873e-07,
	"loss": 1.0535,
	"step": 45
	},
	{
	"epoch": 0.016025641025641024,
	"grad_norm": 12.711201667785645,
	"learning_rate": 5.212765957446809e-07,
	"loss": 0.8812,
	"step": 50
	},
	{
	"epoch": 0.017628205128205128,
	"grad_norm": 16.832317352294922,
	"learning_rate": 5.74468085106383e-07,
	"loss": 1.0726,
	"step": 55
	},
	{
	"epoch": 0.019230769230769232,
	"grad_norm": 9.954739570617676,
	"learning_rate": 6.276595744680851e-07,
	"loss": 1.0394,
	"step": 60
	},
	{
	"epoch": 0.020833333333333332,
	"grad_norm": 15.11540699005127,
	"learning_rate": 6.808510638297872e-07,
	"loss": 0.928,
	"step": 65
	},
	{
	"epoch": 0.022435897435897436,
	"grad_norm": 12.173163414001465,
	"learning_rate": 7.340425531914893e-07,
	"loss": 1.1422,
	"step": 70
	},
	{
	"epoch": 0.02403846153846154,
	"grad_norm": 4.052046775817871,
	"learning_rate": 7.872340425531915e-07,
	"loss": 1.0003,
	"step": 75
	},
	{
	"epoch": 0.02564102564102564,
	"grad_norm": 8.027369499206543,
	"learning_rate": 8.404255319148936e-07,
	"loss": 0.8759,
	"step": 80
	},
	{
	"epoch": 0.027243589743589744,
	"grad_norm": 12.160286903381348,
	"learning_rate": 8.936170212765957e-07,
	"loss": 1.1069,
	"step": 85
	},
	{
	"epoch": 0.028846153846153848,
	"grad_norm": 10.5565185546875,
	"learning_rate": 9.468085106382978e-07,
	"loss": 1.0333,
	"step": 90
	},
	{
	"epoch": 0.030448717948717948,
	"grad_norm": 7.140777111053467,
	"learning_rate": 1e-06,
	"loss": 0.9822,
	"step": 95
	},
	{
	"epoch": 0.03205128205128205,
	"grad_norm": 10.643312454223633,
	"learning_rate": 9.983476536682088e-07,
	"loss": 0.9494,
	"step": 100
	},
	{
	"epoch": 0.03365384615384615,
	"grad_norm": 8.473272323608398,
	"learning_rate": 9.966953073364177e-07,
	"loss": 0.945,
	"step": 105
	},
	{
	"epoch": 0.035256410256410256,
	"grad_norm": 4.137317180633545,
	"learning_rate": 9.950429610046264e-07,
	"loss": 1.0005,
	"step": 110
	},
	{
	"epoch": 0.03685897435897436,
	"grad_norm": 7.508554458618164,
	"learning_rate": 9.933906146728353e-07,
	"loss": 0.8444,
	"step": 115
	},
	{
	"epoch": 0.038461538461538464,
	"grad_norm": 6.77846097946167,
	"learning_rate": 9.917382683410441e-07,
	"loss": 0.9563,
	"step": 120
	},
	{
	"epoch": 0.04006410256410257,
	"grad_norm": 9.547110557556152,
	"learning_rate": 9.90085922009253e-07,
	"loss": 0.9827,
	"step": 125
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 13.068811416625977,
	"learning_rate": 9.884335756774619e-07,
	"loss": 0.8061,
	"step": 130
	},
	{
	"epoch": 0.04326923076923077,
	"grad_norm": 8.728320121765137,
	"learning_rate": 9.867812293456708e-07,
	"loss": 0.888,
	"step": 135
	},
	{
	"epoch": 0.04487179487179487,
	"grad_norm": 3.790550470352173,
	"learning_rate": 9.851288830138796e-07,
	"loss": 0.8734,
	"step": 140
	},
	{
	"epoch": 0.046474358974358976,
	"grad_norm": 14.830401420593262,
	"learning_rate": 9.834765366820885e-07,
	"loss": 0.9757,
	"step": 145
	},
	{
	"epoch": 0.04807692307692308,
	"grad_norm": 7.318249702453613,
	"learning_rate": 9.818241903502974e-07,
	"loss": 0.9218,
	"step": 150
	},
	{
	"epoch": 0.049679487179487176,
	"grad_norm": 3.7414937019348145,
	"learning_rate": 9.801718440185063e-07,
	"loss": 0.9611,
	"step": 155
	},
	{
	"epoch": 0.05128205128205128,
	"grad_norm": 6.792606353759766,
	"learning_rate": 9.78519497686715e-07,
	"loss": 0.9476,
	"step": 160
	},
	{
	"epoch": 0.052884615384615384,
	"grad_norm": 4.267696380615234,
	"learning_rate": 9.768671513549238e-07,
	"loss": 0.8234,
	"step": 165
	},
	{
	"epoch": 0.05448717948717949,
	"grad_norm": 5.2466959953308105,
	"learning_rate": 9.752148050231327e-07,
	"loss": 0.8669,
	"step": 170
	},
	{
	"epoch": 0.05608974358974359,
	"grad_norm": 11.836358070373535,
	"learning_rate": 9.735624586913416e-07,
	"loss": 0.7708,
	"step": 175
	},
	{
	"epoch": 0.057692307692307696,
	"grad_norm": 5.974247932434082,
	"learning_rate": 9.719101123595505e-07,
	"loss": 0.8937,
	"step": 180
	},
	{
	"epoch": 0.05929487179487179,
	"grad_norm": 3.665184497833252,
	"learning_rate": 9.702577660277593e-07,
	"loss": 0.875,
	"step": 185
	},
	{
	"epoch": 0.060897435897435896,
	"grad_norm": 4.605494022369385,
	"learning_rate": 9.686054196959682e-07,
	"loss": 0.7801,
	"step": 190
	},
	{
	"epoch": 0.0625,
	"grad_norm": 6.7438836097717285,
	"learning_rate": 9.66953073364177e-07,
	"loss": 0.8834,
	"step": 195
	},
	{
	"epoch": 0.0641025641025641,
	"grad_norm": 10.840106010437012,
	"learning_rate": 9.65300727032386e-07,
	"loss": 0.9003,
	"step": 200
	},
	{
	"epoch": 0.06570512820512821,
	"grad_norm": 5.037222385406494,
	"learning_rate": 9.636483807005949e-07,
	"loss": 0.7513,
	"step": 205
	},
	{
	"epoch": 0.0673076923076923,
	"grad_norm": 3.903541326522827,
	"learning_rate": 9.619960343688035e-07,
	"loss": 0.8828,
	"step": 210
	},
	{
	"epoch": 0.06891025641025642,
	"grad_norm": 6.461961269378662,
	"learning_rate": 9.603436880370124e-07,
	"loss": 0.7606,
	"step": 215
	},
	{
	"epoch": 0.07051282051282051,
	"grad_norm": 6.433114528656006,
	"learning_rate": 9.586913417052213e-07,
	"loss": 0.8829,
	"step": 220
	},
	{
	"epoch": 0.07211538461538461,
	"grad_norm": 6.478908538818359,
	"learning_rate": 9.570389953734302e-07,
	"loss": 0.86,
	"step": 225
	},
	{
	"epoch": 0.07371794871794872,
	"grad_norm": 5.247589588165283,
	"learning_rate": 9.55386649041639e-07,
	"loss": 0.8562,
	"step": 230
	},
	{
	"epoch": 0.07532051282051282,
	"grad_norm": 8.098102569580078,
	"learning_rate": 9.53734302709848e-07,
	"loss": 0.974,
	"step": 235
	},
	{
	"epoch": 0.07692307692307693,
	"grad_norm": 10.06252670288086,
	"learning_rate": 9.520819563780568e-07,
	"loss": 0.9281,
	"step": 240
	},
	{
	"epoch": 0.07852564102564102,
	"grad_norm": 3.637204885482788,
	"learning_rate": 9.504296100462657e-07,
	"loss": 0.8829,
	"step": 245
	},
	{
	"epoch": 0.08012820512820513,
	"grad_norm": 4.503812313079834,
	"learning_rate": 9.487772637144745e-07,
	"loss": 0.7286,
	"step": 250
	},
	{
	"epoch": 0.08173076923076923,
	"grad_norm": 8.717390060424805,
	"learning_rate": 9.471249173826834e-07,
	"loss": 0.6812,
	"step": 255
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 6.7273640632629395,
	"learning_rate": 9.454725710508922e-07,
	"loss": 0.808,
	"step": 260
	},
	{
	"epoch": 0.08493589743589744,
	"grad_norm": 4.702677249908447,
	"learning_rate": 9.438202247191011e-07,
	"loss": 0.9192,
	"step": 265
	},
	{
	"epoch": 0.08653846153846154,
	"grad_norm": 4.1625285148620605,
	"learning_rate": 9.4216787838731e-07,
	"loss": 0.7835,
	"step": 270
	},
	{
	"epoch": 0.08814102564102565,
	"grad_norm": 5.688870906829834,
	"learning_rate": 9.405155320555188e-07,
	"loss": 0.8823,
	"step": 275
	},
	{
	"epoch": 0.08974358974358974,
	"grad_norm": 9.040973663330078,
	"learning_rate": 9.388631857237277e-07,
	"loss": 0.9733,
	"step": 280
	},
	{
	"epoch": 0.09134615384615384,
	"grad_norm": 4.173698902130127,
	"learning_rate": 9.372108393919365e-07,
	"loss": 0.7514,
	"step": 285
	},
	{
	"epoch": 0.09294871794871795,
	"grad_norm": 7.822443962097168,
	"learning_rate": 9.355584930601454e-07,
	"loss": 0.8867,
	"step": 290
	},
	{
	"epoch": 0.09455128205128205,
	"grad_norm": 8.641590118408203,
	"learning_rate": 9.339061467283542e-07,
	"loss": 0.833,
	"step": 295
	},
	{
	"epoch": 0.09615384615384616,
	"grad_norm": 4.389246463775635,
	"learning_rate": 9.322538003965631e-07,
	"loss": 0.892,
	"step": 300
	},
	{
	"epoch": 0.09775641025641026,
	"grad_norm": 4.615504741668701,
	"learning_rate": 9.30601454064772e-07,
	"loss": 0.8854,
	"step": 305
	},
	{
	"epoch": 0.09935897435897435,
	"grad_norm": 7.86992073059082,
	"learning_rate": 9.289491077329808e-07,
	"loss": 0.8405,
	"step": 310
	},
	{
	"epoch": 0.10096153846153846,
	"grad_norm": 7.31835412979126,
	"learning_rate": 9.272967614011896e-07,
	"loss": 0.8817,
	"step": 315
	},
	{
	"epoch": 0.10256410256410256,
	"grad_norm": 3.403594970703125,
	"learning_rate": 9.256444150693985e-07,
	"loss": 0.8149,
	"step": 320
	},
	{
	"epoch": 0.10416666666666667,
	"grad_norm": 7.1932806968688965,
	"learning_rate": 9.239920687376074e-07,
	"loss": 0.9139,
	"step": 325
	},
	{
	"epoch": 0.10576923076923077,
	"grad_norm": 5.652829170227051,
	"learning_rate": 9.223397224058163e-07,
	"loss": 0.8335,
	"step": 330
	},
	{
	"epoch": 0.10737179487179487,
	"grad_norm": 4.582092761993408,
	"learning_rate": 9.20687376074025e-07,
	"loss": 0.8175,
	"step": 335
	},
	{
	"epoch": 0.10897435897435898,
	"grad_norm": 6.207703113555908,
	"learning_rate": 9.190350297422339e-07,
	"loss": 0.8367,
	"step": 340
	},
	{
	"epoch": 0.11057692307692307,
	"grad_norm": 7.341710567474365,
	"learning_rate": 9.173826834104428e-07,
	"loss": 0.838,
	"step": 345
	},
	{
	"epoch": 0.11217948717948718,
	"grad_norm": 4.263551712036133,
	"learning_rate": 9.157303370786517e-07,
	"loss": 0.8722,
	"step": 350
	},
	{
	"epoch": 0.11378205128205128,
	"grad_norm": 5.9049601554870605,
	"learning_rate": 9.140779907468606e-07,
	"loss": 0.8158,
	"step": 355
	},
	{
	"epoch": 0.11538461538461539,
	"grad_norm": 6.010617256164551,
	"learning_rate": 9.124256444150693e-07,
	"loss": 0.7757,
	"step": 360
	},
	{
	"epoch": 0.11698717948717949,
	"grad_norm": 5.599278450012207,
	"learning_rate": 9.107732980832782e-07,
	"loss": 0.8487,
	"step": 365
	},
	{
	"epoch": 0.11858974358974358,
	"grad_norm": 6.303196907043457,
	"learning_rate": 9.091209517514871e-07,
	"loss": 0.8727,
	"step": 370
	},
	{
	"epoch": 0.1201923076923077,
	"grad_norm": 5.943972110748291,
	"learning_rate": 9.07468605419696e-07,
	"loss": 0.7266,
	"step": 375
	},
	{
	"epoch": 0.12179487179487179,
	"grad_norm": 10.433466911315918,
	"learning_rate": 9.058162590879048e-07,
	"loss": 0.8264,
	"step": 380
	},
	{
	"epoch": 0.1233974358974359,
	"grad_norm": 6.700842380523682,
	"learning_rate": 9.041639127561136e-07,
	"loss": 0.9768,
	"step": 385
	},
	{
	"epoch": 0.125,
	"grad_norm": 10.210798263549805,
	"learning_rate": 9.025115664243225e-07,
	"loss": 0.8168,
	"step": 390
	},
	{
	"epoch": 0.1266025641025641,
	"grad_norm": 4.839009761810303,
	"learning_rate": 9.008592200925314e-07,
	"loss": 0.8856,
	"step": 395
	},
	{
	"epoch": 0.1282051282051282,
	"grad_norm": 8.077885627746582,
	"learning_rate": 8.992068737607403e-07,
	"loss": 0.9729,
	"step": 400
	},
	{
	"epoch": 0.12980769230769232,
	"grad_norm": 8.734336853027344,
	"learning_rate": 8.975545274289491e-07,
	"loss": 0.9824,
	"step": 405
	},
	{
	"epoch": 0.13141025641025642,
	"grad_norm": 5.260401725769043,
	"learning_rate": 8.959021810971579e-07,
	"loss": 0.8476,
	"step": 410
	},
	{
	"epoch": 0.1330128205128205,
	"grad_norm": 5.269688129425049,
	"learning_rate": 8.942498347653668e-07,
	"loss": 0.8591,
	"step": 415
	},
	{
	"epoch": 0.1346153846153846,
	"grad_norm": 4.150247097015381,
	"learning_rate": 8.925974884335757e-07,
	"loss": 0.8461,
	"step": 420
	},
	{
	"epoch": 0.1362179487179487,
	"grad_norm": 4.139176845550537,
	"learning_rate": 8.909451421017845e-07,
	"loss": 0.9335,
	"step": 425
	},
	{
	"epoch": 0.13782051282051283,
	"grad_norm": 7.5222554206848145,
	"learning_rate": 8.892927957699934e-07,
	"loss": 0.7143,
	"step": 430
	},
	{
	"epoch": 0.13942307692307693,
	"grad_norm": 12.695758819580078,
	"learning_rate": 8.876404494382022e-07,
	"loss": 0.8184,
	"step": 435
	},
	{
	"epoch": 0.14102564102564102,
	"grad_norm": 8.057138442993164,
	"learning_rate": 8.859881031064111e-07,
	"loss": 0.9017,
	"step": 440
	},
	{
	"epoch": 0.14262820512820512,
	"grad_norm": 8.482138633728027,
	"learning_rate": 8.843357567746199e-07,
	"loss": 0.9694,
	"step": 445
	},
	{
	"epoch": 0.14423076923076922,
	"grad_norm": 12.769122123718262,
	"learning_rate": 8.826834104428288e-07,
	"loss": 0.8384,
	"step": 450
	},
	{
	"epoch": 0.14583333333333334,
	"grad_norm": 5.045727252960205,
	"learning_rate": 8.810310641110377e-07,
	"loss": 0.8156,
	"step": 455
	},
	{
	"epoch": 0.14743589743589744,
	"grad_norm": 9.09874153137207,
	"learning_rate": 8.793787177792465e-07,
	"loss": 0.8116,
	"step": 460
	},
	{
	"epoch": 0.14903846153846154,
	"grad_norm": 6.691732883453369,
	"learning_rate": 8.777263714474553e-07,
	"loss": 0.8814,
	"step": 465
	},
	{
	"epoch": 0.15064102564102563,
	"grad_norm": 5.676293849945068,
	"learning_rate": 8.760740251156642e-07,
	"loss": 0.8186,
	"step": 470
	},
	{
	"epoch": 0.15224358974358973,
	"grad_norm": 8.919610977172852,
	"learning_rate": 8.744216787838731e-07,
	"loss": 0.7442,
	"step": 475
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 4.288793087005615,
	"learning_rate": 8.72769332452082e-07,
	"loss": 0.8538,
	"step": 480
	},
	{
	"epoch": 0.15544871794871795,
	"grad_norm": 8.457489013671875,
	"learning_rate": 8.711169861202908e-07,
	"loss": 0.8284,
	"step": 485
	},
	{
	"epoch": 0.15705128205128205,
	"grad_norm": 8.613219261169434,
	"learning_rate": 8.694646397884996e-07,
	"loss": 0.8465,
	"step": 490
	},
	{
	"epoch": 0.15865384615384615,
	"grad_norm": 5.168330192565918,
	"learning_rate": 8.678122934567085e-07,
	"loss": 0.854,
	"step": 495
	},
	{
	"epoch": 0.16025641025641027,
	"grad_norm": 6.283329010009766,
	"learning_rate": 8.661599471249174e-07,
	"loss": 0.9902,
	"step": 500
	},
	{
	"epoch": 0.16185897435897437,
	"grad_norm": 8.224679946899414,
	"learning_rate": 8.645076007931263e-07,
	"loss": 0.9261,
	"step": 505
	},
	{
	"epoch": 0.16346153846153846,
	"grad_norm": 3.9687061309814453,
	"learning_rate": 8.62855254461335e-07,
	"loss": 0.8671,
	"step": 510
	},
	{
	"epoch": 0.16506410256410256,
	"grad_norm": 3.925053358078003,
	"learning_rate": 8.612029081295439e-07,
	"loss": 0.6827,
	"step": 515
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 4.103531837463379,
	"learning_rate": 8.595505617977528e-07,
	"loss": 0.9075,
	"step": 520
	},
	{
	"epoch": 0.16826923076923078,
	"grad_norm": 4.411681175231934,
	"learning_rate": 8.578982154659617e-07,
	"loss": 0.7698,
	"step": 525
	},
	{
	"epoch": 0.16987179487179488,
	"grad_norm": 8.91723346710205,
	"learning_rate": 8.562458691341706e-07,
	"loss": 0.9759,
	"step": 530
	},
	{
	"epoch": 0.17147435897435898,
	"grad_norm": 3.293285846710205,
	"learning_rate": 8.545935228023793e-07,
	"loss": 0.7131,
	"step": 535
	},
	{
	"epoch": 0.17307692307692307,
	"grad_norm": 4.500021934509277,
	"learning_rate": 8.529411764705882e-07,
	"loss": 0.6866,
	"step": 540
	},
	{
	"epoch": 0.17467948717948717,
	"grad_norm": 3.7127466201782227,
	"learning_rate": 8.512888301387971e-07,
	"loss": 0.7112,
	"step": 545
	},
	{
	"epoch": 0.1762820512820513,
	"grad_norm": 5.5667877197265625,
	"learning_rate": 8.49636483807006e-07,
	"loss": 0.7516,
	"step": 550
	},
	{
	"epoch": 0.1778846153846154,
	"grad_norm": 4.206048965454102,
	"learning_rate": 8.479841374752148e-07,
	"loss": 0.8639,
	"step": 555
	},
	{
	"epoch": 0.1794871794871795,
	"grad_norm": 3.593855857849121,
	"learning_rate": 8.463317911434236e-07,
	"loss": 0.7413,
	"step": 560
	},
	{
	"epoch": 0.18108974358974358,
	"grad_norm": 9.683537483215332,
	"learning_rate": 8.446794448116325e-07,
	"loss": 0.9477,
	"step": 565
	},
	{
	"epoch": 0.18269230769230768,
	"grad_norm": 5.113137245178223,
	"learning_rate": 8.430270984798414e-07,
	"loss": 0.8425,
	"step": 570
	},
	{
	"epoch": 0.1842948717948718,
	"grad_norm": 10.013446807861328,
	"learning_rate": 8.413747521480502e-07,
	"loss": 0.9511,
	"step": 575
	},
	{
	"epoch": 0.1858974358974359,
	"grad_norm": 7.936026573181152,
	"learning_rate": 8.397224058162591e-07,
	"loss": 0.8367,
	"step": 580
	},
	{
	"epoch": 0.1875,
	"grad_norm": 4.949577331542969,
	"learning_rate": 8.38070059484468e-07,
	"loss": 0.7833,
	"step": 585
	},
	{
	"epoch": 0.1891025641025641,
	"grad_norm": 5.491623878479004,
	"learning_rate": 8.364177131526768e-07,
	"loss": 0.7967,
	"step": 590
	},
	{
	"epoch": 0.1907051282051282,
	"grad_norm": 9.594220161437988,
	"learning_rate": 8.347653668208857e-07,
	"loss": 0.8505,
	"step": 595
	},
	{
	"epoch": 0.19230769230769232,
	"grad_norm": 6.291924476623535,
	"learning_rate": 8.331130204890945e-07,
	"loss": 0.7231,
	"step": 600
	},
	{
	"epoch": 0.19391025641025642,
	"grad_norm": 5.185746192932129,
	"learning_rate": 8.314606741573034e-07,
	"loss": 0.8033,
	"step": 605
	},
	{
	"epoch": 0.1955128205128205,
	"grad_norm": 9.937252044677734,
	"learning_rate": 8.298083278255123e-07,
	"loss": 0.8159,
	"step": 610
	},
	{
	"epoch": 0.1971153846153846,
	"grad_norm": 3.5764591693878174,
	"learning_rate": 8.281559814937211e-07,
	"loss": 0.9405,
	"step": 615
	},
	{
	"epoch": 0.1987179487179487,
	"grad_norm": 4.1528496742248535,
	"learning_rate": 8.265036351619299e-07,
	"loss": 0.7852,
	"step": 620
	},
	{
	"epoch": 0.20032051282051283,
	"grad_norm": 4.072427272796631,
	"learning_rate": 8.248512888301388e-07,
	"loss": 0.7844,
	"step": 625
	},
	{
	"epoch": 0.20192307692307693,
	"grad_norm": 8.563277244567871,
	"learning_rate": 8.231989424983477e-07,
	"loss": 0.8309,
	"step": 630
	},
	{
	"epoch": 0.20352564102564102,
	"grad_norm": 6.037329196929932,
	"learning_rate": 8.215465961665566e-07,
	"loss": 0.782,
	"step": 635
	},
	{
	"epoch": 0.20512820512820512,
	"grad_norm": 5.000993728637695,
	"learning_rate": 8.198942498347653e-07,
	"loss": 0.9419,
	"step": 640
	},
	{
	"epoch": 0.20673076923076922,
	"grad_norm": 4.175522327423096,
	"learning_rate": 8.182419035029742e-07,
	"loss": 0.8316,
	"step": 645
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 5.075506210327148,
	"learning_rate": 8.165895571711831e-07,
	"loss": 0.8471,
	"step": 650
	},
	{
	"epoch": 0.20993589743589744,
	"grad_norm": 5.188806533813477,
	"learning_rate": 8.14937210839392e-07,
	"loss": 0.8379,
	"step": 655
	},
	{
	"epoch": 0.21153846153846154,
	"grad_norm": 6.2080078125,
	"learning_rate": 8.132848645076009e-07,
	"loss": 0.9081,
	"step": 660
	},
	{
	"epoch": 0.21314102564102563,
	"grad_norm": 4.525467395782471,
	"learning_rate": 8.116325181758096e-07,
	"loss": 0.8066,
	"step": 665
	},
	{
	"epoch": 0.21474358974358973,
	"grad_norm": 5.5678582191467285,
	"learning_rate": 8.099801718440185e-07,
	"loss": 0.7192,
	"step": 670
	},
	{
	"epoch": 0.21634615384615385,
	"grad_norm": 6.47728157043457,
	"learning_rate": 8.083278255122274e-07,
	"loss": 0.7436,
	"step": 675
	},
	{
	"epoch": 0.21794871794871795,
	"grad_norm": 4.739030838012695,
	"learning_rate": 8.066754791804363e-07,
	"loss": 0.8783,
	"step": 680
	},
	{
	"epoch": 0.21955128205128205,
	"grad_norm": 6.747486591339111,
	"learning_rate": 8.050231328486451e-07,
	"loss": 0.8484,
	"step": 685
	},
	{
	"epoch": 0.22115384615384615,
	"grad_norm": 6.090416431427002,
	"learning_rate": 8.033707865168539e-07,
	"loss": 0.8766,
	"step": 690
	},
	{
	"epoch": 0.22275641025641027,
	"grad_norm": 5.005781650543213,
	"learning_rate": 8.017184401850628e-07,
	"loss": 0.8299,
	"step": 695
	},
	{
	"epoch": 0.22435897435897437,
	"grad_norm": 5.198122024536133,
	"learning_rate": 8.000660938532717e-07,
	"loss": 0.8107,
	"step": 700
	},
	{
	"epoch": 0.22596153846153846,
	"grad_norm": 5.170607089996338,
	"learning_rate": 7.984137475214805e-07,
	"loss": 0.8751,
	"step": 705
	},
	{
	"epoch": 0.22756410256410256,
	"grad_norm": 4.371824741363525,
	"learning_rate": 7.967614011896894e-07,
	"loss": 0.8545,
	"step": 710
	},
	{
	"epoch": 0.22916666666666666,
	"grad_norm": 7.1865363121032715,
	"learning_rate": 7.951090548578981e-07,
	"loss": 0.8519,
	"step": 715
	},
	{
	"epoch": 0.23076923076923078,
	"grad_norm": 11.179749488830566,
	"learning_rate": 7.93456708526107e-07,
	"loss": 0.7942,
	"step": 720
	},
	{
	"epoch": 0.23237179487179488,
	"grad_norm": 8.086874008178711,
	"learning_rate": 7.91804362194316e-07,
	"loss": 0.8385,
	"step": 725
	},
	{
	"epoch": 0.23397435897435898,
	"grad_norm": 5.28953218460083,
	"learning_rate": 7.901520158625248e-07,
	"loss": 0.9464,
	"step": 730
	},
	{
	"epoch": 0.23557692307692307,
	"grad_norm": 5.9961018562316895,
	"learning_rate": 7.884996695307337e-07,
	"loss": 0.917,
	"step": 735
	},
	{
	"epoch": 0.23717948717948717,
	"grad_norm": 6.03367805480957,
	"learning_rate": 7.868473231989424e-07,
	"loss": 0.7771,
	"step": 740
	},
	{
	"epoch": 0.2387820512820513,
	"grad_norm": 4.500458717346191,
	"learning_rate": 7.851949768671513e-07,
	"loss": 0.7903,
	"step": 745
	},
	{
	"epoch": 0.2403846153846154,
	"grad_norm": 3.947294235229492,
	"learning_rate": 7.835426305353601e-07,
	"loss": 0.795,
	"step": 750
	},
	{
	"epoch": 0.2419871794871795,
	"grad_norm": 7.3017683029174805,
	"learning_rate": 7.81890284203569e-07,
	"loss": 0.8138,
	"step": 755
	},
	{
	"epoch": 0.24358974358974358,
	"grad_norm": 3.787949562072754,
	"learning_rate": 7.802379378717779e-07,
	"loss": 0.6665,
	"step": 760
	},
	{
	"epoch": 0.24519230769230768,
	"grad_norm": 5.326612949371338,
	"learning_rate": 7.785855915399867e-07,
	"loss": 0.9742,
	"step": 765
	},
	{
	"epoch": 0.2467948717948718,
	"grad_norm": 6.92157506942749,
	"learning_rate": 7.769332452081955e-07,
	"loss": 0.841,
	"step": 770
	},
	{
	"epoch": 0.2483974358974359,
	"grad_norm": 4.417288780212402,
	"learning_rate": 7.752808988764044e-07,
	"loss": 0.9047,
	"step": 775
	},
	{
	"epoch": 0.25,
	"grad_norm": 3.6038155555725098,
	"learning_rate": 7.736285525446133e-07,
	"loss": 0.7922,
	"step": 780
	},
	{
	"epoch": 0.2516025641025641,
	"grad_norm": 4.835304260253906,
	"learning_rate": 7.719762062128222e-07,
	"loss": 0.8349,
	"step": 785
	},
	{
	"epoch": 0.2532051282051282,
	"grad_norm": 3.1939454078674316,
	"learning_rate": 7.703238598810309e-07,
	"loss": 0.7257,
	"step": 790
	},
	{
	"epoch": 0.2548076923076923,
	"grad_norm": 8.088797569274902,
	"learning_rate": 7.686715135492398e-07,
	"loss": 0.8311,
	"step": 795
	},
	{
	"epoch": 0.2564102564102564,
	"grad_norm": 7.198094367980957,
	"learning_rate": 7.670191672174487e-07,
	"loss": 0.8427,
	"step": 800
	},
	{
	"epoch": 0.25801282051282054,
	"grad_norm": 5.080805778503418,
	"learning_rate": 7.653668208856576e-07,
	"loss": 0.7725,
	"step": 805
	},
	{
	"epoch": 0.25961538461538464,
	"grad_norm": 3.3601558208465576,
	"learning_rate": 7.637144745538665e-07,
	"loss": 0.859,
	"step": 810
	},
	{
	"epoch": 0.26121794871794873,
	"grad_norm": 6.839197158813477,
	"learning_rate": 7.620621282220752e-07,
	"loss": 0.8956,
	"step": 815
	},
	{
	"epoch": 0.26282051282051283,
	"grad_norm": 4.368642807006836,
	"learning_rate": 7.604097818902841e-07,
	"loss": 0.9344,
	"step": 820
	},
	{
	"epoch": 0.2644230769230769,
	"grad_norm": 4.079487323760986,
	"learning_rate": 7.58757435558493e-07,
	"loss": 0.7743,
	"step": 825
	},
	{
	"epoch": 0.266025641025641,
	"grad_norm": 7.400752544403076,
	"learning_rate": 7.571050892267019e-07,
	"loss": 0.8653,
	"step": 830
	},
	{
	"epoch": 0.2676282051282051,
	"grad_norm": 6.021170616149902,
	"learning_rate": 7.554527428949107e-07,
	"loss": 0.929,
	"step": 835
	},
	{
	"epoch": 0.2692307692307692,
	"grad_norm": 7.803846836090088,
	"learning_rate": 7.538003965631195e-07,
	"loss": 0.7471,
	"step": 840
	},
	{
	"epoch": 0.2708333333333333,
	"grad_norm": 11.89211654663086,
	"learning_rate": 7.521480502313284e-07,
	"loss": 0.7173,
	"step": 845
	},
	{
	"epoch": 0.2724358974358974,
	"grad_norm": 9.066969871520996,
	"learning_rate": 7.504957038995373e-07,
	"loss": 0.9117,
	"step": 850
	},
	{
	"epoch": 0.27403846153846156,
	"grad_norm": 5.939947128295898,
	"learning_rate": 7.488433575677461e-07,
	"loss": 0.7001,
	"step": 855
	},
	{
	"epoch": 0.27564102564102566,
	"grad_norm": 4.300017356872559,
	"learning_rate": 7.47191011235955e-07,
	"loss": 0.9133,
	"step": 860
	},
	{
	"epoch": 0.27724358974358976,
	"grad_norm": 3.9818003177642822,
	"learning_rate": 7.455386649041638e-07,
	"loss": 0.8436,
	"step": 865
	},
	{
	"epoch": 0.27884615384615385,
	"grad_norm": 6.319674968719482,
	"learning_rate": 7.438863185723727e-07,
	"loss": 0.8385,
	"step": 870
	},
	{
	"epoch": 0.28044871794871795,
	"grad_norm": 7.230429172515869,
	"learning_rate": 7.422339722405816e-07,
	"loss": 0.8215,
	"step": 875
	},
	{
	"epoch": 0.28205128205128205,
	"grad_norm": 3.5045459270477295,
	"learning_rate": 7.405816259087904e-07,
	"loss": 0.7351,
	"step": 880
	},
	{
	"epoch": 0.28365384615384615,
	"grad_norm": 5.423972129821777,
	"learning_rate": 7.389292795769993e-07,
	"loss": 0.7768,
	"step": 885
	},
	{
	"epoch": 0.28525641025641024,
	"grad_norm": 9.424778938293457,
	"learning_rate": 7.372769332452081e-07,
	"loss": 0.903,
	"step": 890
	},
	{
	"epoch": 0.28685897435897434,
	"grad_norm": 4.601898670196533,
	"learning_rate": 7.35624586913417e-07,
	"loss": 0.8104,
	"step": 895
	},
	{
	"epoch": 0.28846153846153844,
	"grad_norm": 5.262858867645264,
	"learning_rate": 7.339722405816258e-07,
	"loss": 0.8147,
	"step": 900
	},
	{
	"epoch": 0.2900641025641026,
	"grad_norm": 4.327410697937012,
	"learning_rate": 7.323198942498347e-07,
	"loss": 0.7795,
	"step": 905
	},
	{
	"epoch": 0.2916666666666667,
	"grad_norm": 5.896692752838135,
	"learning_rate": 7.306675479180436e-07,
	"loss": 0.7502,
	"step": 910
	},
	{
	"epoch": 0.2932692307692308,
	"grad_norm": 4.993595600128174,
	"learning_rate": 7.290152015862524e-07,
	"loss": 0.9855,
	"step": 915
	},
	{
	"epoch": 0.2948717948717949,
	"grad_norm": 7.250411510467529,
	"learning_rate": 7.273628552544612e-07,
	"loss": 0.6526,
	"step": 920
	},
	{
	"epoch": 0.296474358974359,
	"grad_norm": 5.891010761260986,
	"learning_rate": 7.257105089226701e-07,
	"loss": 0.8565,
	"step": 925
	},
	{
	"epoch": 0.2980769230769231,
	"grad_norm": 3.8717401027679443,
	"learning_rate": 7.24058162590879e-07,
	"loss": 0.9124,
	"step": 930
	},
	{
	"epoch": 0.29967948717948717,
	"grad_norm": 5.1769537925720215,
	"learning_rate": 7.224058162590879e-07,
	"loss": 0.6785,
	"step": 935
	},
	{
	"epoch": 0.30128205128205127,
	"grad_norm": 4.895565986633301,
	"learning_rate": 7.207534699272967e-07,
	"loss": 0.763,
	"step": 940
	},
	{
	"epoch": 0.30288461538461536,
	"grad_norm": 7.584598541259766,
	"learning_rate": 7.191011235955055e-07,
	"loss": 0.8159,
	"step": 945
	},
	{
	"epoch": 0.30448717948717946,
	"grad_norm": 2.980520009994507,
	"learning_rate": 7.174487772637144e-07,
	"loss": 0.8258,
	"step": 950
	},
	{
	"epoch": 0.3060897435897436,
	"grad_norm": 5.3033528327941895,
	"learning_rate": 7.157964309319233e-07,
	"loss": 0.9091,
	"step": 955
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 5.652465343475342,
	"learning_rate": 7.141440846001322e-07,
	"loss": 0.7601,
	"step": 960
	},
	{
	"epoch": 0.3092948717948718,
	"grad_norm": 2.7802562713623047,
	"learning_rate": 7.124917382683409e-07,
	"loss": 0.6819,
	"step": 965
	},
	{
	"epoch": 0.3108974358974359,
	"grad_norm": 10.060710906982422,
	"learning_rate": 7.108393919365498e-07,
	"loss": 0.9308,
	"step": 970
	},
	{
	"epoch": 0.3125,
	"grad_norm": 8.689105033874512,
	"learning_rate": 7.091870456047587e-07,
	"loss": 0.7976,
	"step": 975
	},
	{
	"epoch": 0.3141025641025641,
	"grad_norm": 7.55824613571167,
	"learning_rate": 7.075346992729676e-07,
	"loss": 0.7857,
	"step": 980
	},
	{
	"epoch": 0.3157051282051282,
	"grad_norm": 4.5640034675598145,
	"learning_rate": 7.058823529411765e-07,
	"loss": 0.8621,
	"step": 985
	},
	{
	"epoch": 0.3173076923076923,
	"grad_norm": 7.791897773742676,
	"learning_rate": 7.042300066093852e-07,
	"loss": 0.8943,
	"step": 990
	},
	{
	"epoch": 0.3189102564102564,
	"grad_norm": 4.598413944244385,
	"learning_rate": 7.025776602775941e-07,
	"loss": 0.8254,
	"step": 995
	},
	{
	"epoch": 0.32051282051282054,
	"grad_norm": 6.27009391784668,
	"learning_rate": 7.00925313945803e-07,
	"loss": 0.8624,
	"step": 1000
	},
	{
	"epoch": 0.32211538461538464,
	"grad_norm": 13.144405364990234,
	"learning_rate": 6.992729676140119e-07,
	"loss": 0.9121,
	"step": 1005
	},
	{
	"epoch": 0.32371794871794873,
	"grad_norm": 3.142514944076538,
	"learning_rate": 6.976206212822207e-07,
	"loss": 0.8858,
	"step": 1010
	},
	{
	"epoch": 0.32532051282051283,
	"grad_norm": 3.696758270263672,
	"learning_rate": 6.959682749504295e-07,
	"loss": 0.86,
	"step": 1015
	},
	{
	"epoch": 0.3269230769230769,
	"grad_norm": 11.541287422180176,
	"learning_rate": 6.943159286186384e-07,
	"loss": 0.6851,
	"step": 1020
	},
	{
	"epoch": 0.328525641025641,
	"grad_norm": 8.48985481262207,
	"learning_rate": 6.926635822868473e-07,
	"loss": 0.793,
	"step": 1025
	},
	{
	"epoch": 0.3301282051282051,
	"grad_norm": 3.3774638175964355,
	"learning_rate": 6.910112359550561e-07,
	"loss": 0.8819,
	"step": 1030
	},
	{
	"epoch": 0.3317307692307692,
	"grad_norm": 5.883586406707764,
	"learning_rate": 6.89358889623265e-07,
	"loss": 0.7703,
	"step": 1035
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 4.836696624755859,
	"learning_rate": 6.877065432914738e-07,
	"loss": 0.7873,
	"step": 1040
	},
	{
	"epoch": 0.3349358974358974,
	"grad_norm": 4.359090805053711,
	"learning_rate": 6.860541969596827e-07,
	"loss": 0.7078,
	"step": 1045
	},
	{
	"epoch": 0.33653846153846156,
	"grad_norm": 4.49058723449707,
	"learning_rate": 6.844018506278915e-07,
	"loss": 0.8212,
	"step": 1050
	},
	{
	"epoch": 0.33814102564102566,
	"grad_norm": 4.579678535461426,
	"learning_rate": 6.827495042961004e-07,
	"loss": 0.7983,
	"step": 1055
	},
	{
	"epoch": 0.33974358974358976,
	"grad_norm": 9.115843772888184,
	"learning_rate": 6.810971579643093e-07,
	"loss": 0.6587,
	"step": 1060
	},
	{
	"epoch": 0.34134615384615385,
	"grad_norm": 5.484290599822998,
	"learning_rate": 6.794448116325181e-07,
	"loss": 0.7931,
	"step": 1065
	},
	{
	"epoch": 0.34294871794871795,
	"grad_norm": 8.550032615661621,
	"learning_rate": 6.77792465300727e-07,
	"loss": 0.7788,
	"step": 1070
	},
	{
	"epoch": 0.34455128205128205,
	"grad_norm": 3.559866428375244,
	"learning_rate": 6.761401189689358e-07,
	"loss": 0.8319,
	"step": 1075
	},
	{
	"epoch": 0.34615384615384615,
	"grad_norm": 4.798201560974121,
	"learning_rate": 6.744877726371447e-07,
	"loss": 0.8986,
	"step": 1080
	},
	{
	"epoch": 0.34775641025641024,
	"grad_norm": 5.144353866577148,
	"learning_rate": 6.728354263053536e-07,
	"loss": 0.6799,
	"step": 1085
	},
	{
	"epoch": 0.34935897435897434,
	"grad_norm": 8.058225631713867,
	"learning_rate": 6.711830799735624e-07,
	"loss": 0.8101,
	"step": 1090
	},
	{
	"epoch": 0.35096153846153844,
	"grad_norm": 5.630926132202148,
	"learning_rate": 6.695307336417712e-07,
	"loss": 0.8777,
	"step": 1095
	},
	{
	"epoch": 0.3525641025641026,
	"grad_norm": 6.345671653747559,
	"learning_rate": 6.678783873099801e-07,
	"loss": 0.6524,
	"step": 1100
	},
	{
	"epoch": 0.3541666666666667,
	"grad_norm": 11.713841438293457,
	"learning_rate": 6.66226040978189e-07,
	"loss": 0.8206,
	"step": 1105
	},
	{
	"epoch": 0.3557692307692308,
	"grad_norm": 4.345118999481201,
	"learning_rate": 6.645736946463979e-07,
	"loss": 0.8694,
	"step": 1110
	},
	{
	"epoch": 0.3573717948717949,
	"grad_norm": 6.495255947113037,
	"learning_rate": 6.629213483146066e-07,
	"loss": 0.8721,
	"step": 1115
	},
	{
	"epoch": 0.358974358974359,
	"grad_norm": 4.048442840576172,
	"learning_rate": 6.612690019828155e-07,
	"loss": 0.8307,
	"step": 1120
	},
	{
	"epoch": 0.3605769230769231,
	"grad_norm": 5.020994186401367,
	"learning_rate": 6.596166556510244e-07,
	"loss": 0.7022,
	"step": 1125
	},
	{
	"epoch": 0.36217948717948717,
	"grad_norm": 4.994934558868408,
	"learning_rate": 6.579643093192333e-07,
	"loss": 0.8302,
	"step": 1130
	},
	{
	"epoch": 0.36378205128205127,
	"grad_norm": 3.8185691833496094,
	"learning_rate": 6.563119629874422e-07,
	"loss": 0.702,
	"step": 1135
	},
	{
	"epoch": 0.36538461538461536,
	"grad_norm": 5.440126895904541,
	"learning_rate": 6.546596166556509e-07,
	"loss": 0.8589,
	"step": 1140
	},
	{
	"epoch": 0.36698717948717946,
	"grad_norm": 4.935449600219727,
	"learning_rate": 6.530072703238598e-07,
	"loss": 0.6958,
	"step": 1145
	},
	{
	"epoch": 0.3685897435897436,
	"grad_norm": 3.0225484371185303,
	"learning_rate": 6.513549239920687e-07,
	"loss": 0.7535,
	"step": 1150
	},
	{
	"epoch": 0.3701923076923077,
	"grad_norm": 4.705560684204102,
	"learning_rate": 6.497025776602776e-07,
	"loss": 0.8748,
	"step": 1155
	},
	{
	"epoch": 0.3717948717948718,
	"grad_norm": 7.766085147857666,
	"learning_rate": 6.480502313284864e-07,
	"loss": 0.7895,
	"step": 1160
	},
	{
	"epoch": 0.3733974358974359,
	"grad_norm": 7.818696975708008,
	"learning_rate": 6.463978849966952e-07,
	"loss": 0.8482,
	"step": 1165
	},
	{
	"epoch": 0.375,
	"grad_norm": 4.289005279541016,
	"learning_rate": 6.447455386649041e-07,
	"loss": 0.8875,
	"step": 1170
	},
	{
	"epoch": 0.3766025641025641,
	"grad_norm": 4.8739752769470215,
	"learning_rate": 6.43093192333113e-07,
	"loss": 0.8013,
	"step": 1175
	},
	{
	"epoch": 0.3782051282051282,
	"grad_norm": 3.6027133464813232,
	"learning_rate": 6.414408460013219e-07,
	"loss": 0.892,
	"step": 1180
	},
	{
	"epoch": 0.3798076923076923,
	"grad_norm": 4.740626335144043,
	"learning_rate": 6.397884996695307e-07,
	"loss": 0.7148,
	"step": 1185
	},
	{
	"epoch": 0.3814102564102564,
	"grad_norm": 3.2007155418395996,
	"learning_rate": 6.381361533377395e-07,
	"loss": 0.7979,
	"step": 1190
	},
	{
	"epoch": 0.38301282051282054,
	"grad_norm": 4.596534729003906,
	"learning_rate": 6.364838070059484e-07,
	"loss": 0.8757,
	"step": 1195
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 4.348639488220215,
	"learning_rate": 6.348314606741573e-07,
	"loss": 0.7475,
	"step": 1200
	},
	{
	"epoch": 0.38621794871794873,
	"grad_norm": 4.388121128082275,
	"learning_rate": 6.331791143423661e-07,
	"loss": 0.7703,
	"step": 1205
	},
	{
	"epoch": 0.38782051282051283,
	"grad_norm": 3.776677370071411,
	"learning_rate": 6.31526768010575e-07,
	"loss": 0.7684,
	"step": 1210
	},
	{
	"epoch": 0.3894230769230769,
	"grad_norm": 4.856482028961182,
	"learning_rate": 6.298744216787838e-07,
	"loss": 0.8132,
	"step": 1215
	},
	{
	"epoch": 0.391025641025641,
	"grad_norm": 8.453356742858887,
	"learning_rate": 6.282220753469927e-07,
	"loss": 0.8172,
	"step": 1220
	},
	{
	"epoch": 0.3926282051282051,
	"grad_norm": 9.322402954101562,
	"learning_rate": 6.265697290152015e-07,
	"loss": 0.7704,
	"step": 1225
	},
	{
	"epoch": 0.3942307692307692,
	"grad_norm": 4.034356594085693,
	"learning_rate": 6.249173826834104e-07,
	"loss": 0.8072,
	"step": 1230
	},
	{
	"epoch": 0.3958333333333333,
	"grad_norm": 6.027692794799805,
	"learning_rate": 6.232650363516193e-07,
	"loss": 0.6584,
	"step": 1235
	},
	{
	"epoch": 0.3974358974358974,
	"grad_norm": 3.487473487854004,
	"learning_rate": 6.216126900198281e-07,
	"loss": 0.8855,
	"step": 1240
	},
	{
	"epoch": 0.39903846153846156,
	"grad_norm": 3.8283722400665283,
	"learning_rate": 6.19960343688037e-07,
	"loss": 0.8043,
	"step": 1245
	},
	{
	"epoch": 0.40064102564102566,
	"grad_norm": 4.080909252166748,
	"learning_rate": 6.183079973562458e-07,
	"loss": 0.7189,
	"step": 1250
	},
	{
	"epoch": 0.40224358974358976,
	"grad_norm": 10.283230781555176,
	"learning_rate": 6.166556510244547e-07,
	"loss": 0.6539,
	"step": 1255
	},
	{
	"epoch": 0.40384615384615385,
	"grad_norm": 3.7215747833251953,
	"learning_rate": 6.150033046926636e-07,
	"loss": 0.8382,
	"step": 1260
	},
	{
	"epoch": 0.40544871794871795,
	"grad_norm": 6.174632549285889,
	"learning_rate": 6.133509583608724e-07,
	"loss": 0.6854,
	"step": 1265
	},
	{
	"epoch": 0.40705128205128205,
	"grad_norm": 5.546038627624512,
	"learning_rate": 6.116986120290812e-07,
	"loss": 0.633,
	"step": 1270
	},
	{
	"epoch": 0.40865384615384615,
	"grad_norm": 4.6828813552856445,
	"learning_rate": 6.100462656972901e-07,
	"loss": 0.864,
	"step": 1275
	},
	{
	"epoch": 0.41025641025641024,
	"grad_norm": 5.444061279296875,
	"learning_rate": 6.08393919365499e-07,
	"loss": 0.8923,
	"step": 1280
	},
	{
	"epoch": 0.41185897435897434,
	"grad_norm": 9.895957946777344,
	"learning_rate": 6.067415730337079e-07,
	"loss": 0.91,
	"step": 1285
	},
	{
	"epoch": 0.41346153846153844,
	"grad_norm": 3.8047962188720703,
	"learning_rate": 6.050892267019166e-07,
	"loss": 0.82,
	"step": 1290
	},
	{
	"epoch": 0.4150641025641026,
	"grad_norm": 5.19016695022583,
	"learning_rate": 6.034368803701255e-07,
	"loss": 0.8092,
	"step": 1295
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 3.637864112854004,
	"learning_rate": 6.017845340383344e-07,
	"loss": 0.8826,
	"step": 1300
	},
	{
	"epoch": 0.4182692307692308,
	"grad_norm": 2.6663596630096436,
	"learning_rate": 6.001321877065433e-07,
	"loss": 0.6852,
	"step": 1305
	},
	{
	"epoch": 0.4198717948717949,
	"grad_norm": 3.58880615234375,
	"learning_rate": 5.984798413747522e-07,
	"loss": 0.8336,
	"step": 1310
	},
	{
	"epoch": 0.421474358974359,
	"grad_norm": 2.4447970390319824,
	"learning_rate": 5.968274950429609e-07,
	"loss": 0.7603,
	"step": 1315
	},
	{
	"epoch": 0.4230769230769231,
	"grad_norm": 4.405289649963379,
	"learning_rate": 5.951751487111698e-07,
	"loss": 0.7799,
	"step": 1320
	},
	{
	"epoch": 0.42467948717948717,
	"grad_norm": 4.415432929992676,
	"learning_rate": 5.935228023793787e-07,
	"loss": 0.7517,
	"step": 1325
	},
	{
	"epoch": 0.42628205128205127,
	"grad_norm": 2.538200616836548,
	"learning_rate": 5.918704560475876e-07,
	"loss": 0.8617,
	"step": 1330
	},
	{
	"epoch": 0.42788461538461536,
	"grad_norm": 5.295281887054443,
	"learning_rate": 5.902181097157964e-07,
	"loss": 0.8335,
	"step": 1335
	},
	{
	"epoch": 0.42948717948717946,
	"grad_norm": 10.389196395874023,
	"learning_rate": 5.885657633840052e-07,
	"loss": 0.8529,
	"step": 1340
	},
	{
	"epoch": 0.4310897435897436,
	"grad_norm": 4.9335713386535645,
	"learning_rate": 5.869134170522141e-07,
	"loss": 0.8276,
	"step": 1345
	},
	{
	"epoch": 0.4326923076923077,
	"grad_norm": 3.577237367630005,
	"learning_rate": 5.85261070720423e-07,
	"loss": 0.7883,
	"step": 1350
	},
	{
	"epoch": 0.4342948717948718,
	"grad_norm": 3.355888605117798,
	"learning_rate": 5.836087243886318e-07,
	"loss": 0.7451,
	"step": 1355
	},
	{
	"epoch": 0.4358974358974359,
	"grad_norm": 4.57732629776001,
	"learning_rate": 5.819563780568407e-07,
	"loss": 0.8938,
	"step": 1360
	},
	{
	"epoch": 0.4375,
	"grad_norm": 5.530088901519775,
	"learning_rate": 5.803040317250495e-07,
	"loss": 0.7397,
	"step": 1365
	},
	{
	"epoch": 0.4391025641025641,
	"grad_norm": 3.3376779556274414,
	"learning_rate": 5.786516853932584e-07,
	"loss": 0.7578,
	"step": 1370
	},
	{
	"epoch": 0.4407051282051282,
	"grad_norm": 3.726835012435913,
	"learning_rate": 5.769993390614673e-07,
	"loss": 0.787,
	"step": 1375
	},
	{
	"epoch": 0.4423076923076923,
	"grad_norm": 4.771599769592285,
	"learning_rate": 5.753469927296761e-07,
	"loss": 0.7629,
	"step": 1380
	},
	{
	"epoch": 0.4439102564102564,
	"grad_norm": 4.213784217834473,
	"learning_rate": 5.73694646397885e-07,
	"loss": 0.7171,
	"step": 1385
	},
	{
	"epoch": 0.44551282051282054,
	"grad_norm": 5.608395576477051,
	"learning_rate": 5.720423000660938e-07,
	"loss": 0.6273,
	"step": 1390
	},
	{
	"epoch": 0.44711538461538464,
	"grad_norm": 5.424095153808594,
	"learning_rate": 5.703899537343027e-07,
	"loss": 0.8648,
	"step": 1395
	},
	{
	"epoch": 0.44871794871794873,
	"grad_norm": 4.200117111206055,
	"learning_rate": 5.687376074025115e-07,
	"loss": 0.7668,
	"step": 1400
	},
	{
	"epoch": 0.45032051282051283,
	"grad_norm": 4.810688495635986,
	"learning_rate": 5.670852610707204e-07,
	"loss": 0.8691,
	"step": 1405
	},
	{
	"epoch": 0.4519230769230769,
	"grad_norm": 5.285038948059082,
	"learning_rate": 5.654329147389293e-07,
	"loss": 0.8094,
	"step": 1410
	},
	{
	"epoch": 0.453525641025641,
	"grad_norm": 2.9930169582366943,
	"learning_rate": 5.637805684071381e-07,
	"loss": 0.7669,
	"step": 1415
	},
	{
	"epoch": 0.4551282051282051,
	"grad_norm": 3.244771718978882,
	"learning_rate": 5.621282220753469e-07,
	"loss": 0.7827,
	"step": 1420
	},
	{
	"epoch": 0.4567307692307692,
	"grad_norm": 3.3853907585144043,
	"learning_rate": 5.604758757435558e-07,
	"loss": 0.7306,
	"step": 1425
	},
	{
	"epoch": 0.4583333333333333,
	"grad_norm": 3.7965517044067383,
	"learning_rate": 5.588235294117647e-07,
	"loss": 0.6429,
	"step": 1430
	},
	{
	"epoch": 0.4599358974358974,
	"grad_norm": 4.235316753387451,
	"learning_rate": 5.571711830799736e-07,
	"loss": 0.8967,
	"step": 1435
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 6.711025238037109,
	"learning_rate": 5.555188367481823e-07,
	"loss": 0.8444,
	"step": 1440
	},
	{
	"epoch": 0.46314102564102566,
	"grad_norm": 4.23643684387207,
	"learning_rate": 5.538664904163912e-07,
	"loss": 0.7664,
	"step": 1445
	},
	{
	"epoch": 0.46474358974358976,
	"grad_norm": 4.946862697601318,
	"learning_rate": 5.522141440846001e-07,
	"loss": 0.7987,
	"step": 1450
	},
	{
	"epoch": 0.46634615384615385,
	"grad_norm": 5.770292282104492,
	"learning_rate": 5.50561797752809e-07,
	"loss": 0.7844,
	"step": 1455
	},
	{
	"epoch": 0.46794871794871795,
	"grad_norm": 11.45702838897705,
	"learning_rate": 5.489094514210179e-07,
	"loss": 0.8573,
	"step": 1460
	},
	{
	"epoch": 0.46955128205128205,
	"grad_norm": 4.409577369689941,
	"learning_rate": 5.472571050892266e-07,
	"loss": 0.8122,
	"step": 1465
	},
	{
	"epoch": 0.47115384615384615,
	"grad_norm": 8.126829147338867,
	"learning_rate": 5.456047587574355e-07,
	"loss": 0.7616,
	"step": 1470
	},
	{
	"epoch": 0.47275641025641024,
	"grad_norm": 10.366379737854004,
	"learning_rate": 5.439524124256444e-07,
	"loss": 0.6492,
	"step": 1475
	},
	{
	"epoch": 0.47435897435897434,
	"grad_norm": 5.814599514007568,
	"learning_rate": 5.423000660938533e-07,
	"loss": 0.8335,
	"step": 1480
	},
	{
	"epoch": 0.47596153846153844,
	"grad_norm": 3.6713919639587402,
	"learning_rate": 5.406477197620621e-07,
	"loss": 0.7175,
	"step": 1485
	},
	{
	"epoch": 0.4775641025641026,
	"grad_norm": 4.473592758178711,
	"learning_rate": 5.389953734302709e-07,
	"loss": 0.7772,
	"step": 1490
	},
	{
	"epoch": 0.4791666666666667,
	"grad_norm": 5.191585540771484,
	"learning_rate": 5.373430270984798e-07,
	"loss": 0.8085,
	"step": 1495
	},
	{
	"epoch": 0.4807692307692308,
	"grad_norm": 4.686864376068115,
	"learning_rate": 5.356906807666887e-07,
	"loss": 0.7285,
	"step": 1500
	},
	{
	"epoch": 0.4823717948717949,
	"grad_norm": 6.236685276031494,
	"learning_rate": 5.340383344348976e-07,
	"loss": 0.8491,
	"step": 1505
	},
	{
	"epoch": 0.483974358974359,
	"grad_norm": 5.375248908996582,
	"learning_rate": 5.323859881031064e-07,
	"loss": 0.8212,
	"step": 1510
	},
	{
	"epoch": 0.4855769230769231,
	"grad_norm": 3.439789295196533,
	"learning_rate": 5.307336417713153e-07,
	"loss": 0.7619,
	"step": 1515
	},
	{
	"epoch": 0.48717948717948717,
	"grad_norm": 4.730751991271973,
	"learning_rate": 5.290812954395241e-07,
	"loss": 0.8577,
	"step": 1520
	},
	{
	"epoch": 0.48878205128205127,
	"grad_norm": 3.463454484939575,
	"learning_rate": 5.27428949107733e-07,
	"loss": 0.8779,
	"step": 1525
	},
	{
	"epoch": 0.49038461538461536,
	"grad_norm": 3.2680091857910156,
	"learning_rate": 5.257766027759418e-07,
	"loss": 0.7626,
	"step": 1530
	},
	{
	"epoch": 0.49198717948717946,
	"grad_norm": 4.192795753479004,
	"learning_rate": 5.241242564441507e-07,
	"loss": 0.9215,
	"step": 1535
	},
	{
	"epoch": 0.4935897435897436,
	"grad_norm": 8.984251976013184,
	"learning_rate": 5.224719101123596e-07,
	"loss": 0.7347,
	"step": 1540
	},
	{
	"epoch": 0.4951923076923077,
	"grad_norm": 5.889853477478027,
	"learning_rate": 5.208195637805684e-07,
	"loss": 0.8716,
	"step": 1545
	},
	{
	"epoch": 0.4967948717948718,
	"grad_norm": 6.937811851501465,
	"learning_rate": 5.191672174487772e-07,
	"loss": 0.778,
	"step": 1550
	},
	{
	"epoch": 0.4983974358974359,
	"grad_norm": 5.315396308898926,
	"learning_rate": 5.175148711169861e-07,
	"loss": 0.8273,
	"step": 1555
	},
	{
	"epoch": 0.5,
	"grad_norm": 4.183327674865723,
	"learning_rate": 5.15862524785195e-07,
	"loss": 0.8231,
	"step": 1560
	},
	{
	"epoch": 0.5016025641025641,
	"grad_norm": 4.254622459411621,
	"learning_rate": 5.142101784534039e-07,
	"loss": 0.6407,
	"step": 1565
	},
	{
	"epoch": 0.5032051282051282,
	"grad_norm": 4.547656059265137,
	"learning_rate": 5.125578321216127e-07,
	"loss": 0.7148,
	"step": 1570
	},
	{
	"epoch": 0.5048076923076923,
	"grad_norm": 5.993008613586426,
	"learning_rate": 5.109054857898215e-07,
	"loss": 0.7727,
	"step": 1575
	},
	{
	"epoch": 0.5064102564102564,
	"grad_norm": 3.685878276824951,
	"learning_rate": 5.092531394580304e-07,
	"loss": 0.8638,
	"step": 1580
	},
	{
	"epoch": 0.5080128205128205,
	"grad_norm": 4.194368839263916,
	"learning_rate": 5.076007931262393e-07,
	"loss": 0.819,
	"step": 1585
	},
	{
	"epoch": 0.5096153846153846,
	"grad_norm": 3.141991376876831,
	"learning_rate": 5.059484467944482e-07,
	"loss": 0.7831,
	"step": 1590
	},
	{
	"epoch": 0.5112179487179487,
	"grad_norm": 5.693704605102539,
	"learning_rate": 5.042961004626569e-07,
	"loss": 0.761,
	"step": 1595
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 2.8469674587249756,
	"learning_rate": 5.026437541308658e-07,
	"loss": 0.7729,
	"step": 1600
	},
	{
	"epoch": 0.5144230769230769,
	"grad_norm": 7.078847885131836,
	"learning_rate": 5.009914077990747e-07,
	"loss": 0.7102,
	"step": 1605
	},
	{
	"epoch": 0.5160256410256411,
	"grad_norm": 4.168100357055664,
	"learning_rate": 4.993390614672835e-07,
	"loss": 0.6727,
	"step": 1610
	},
	{
	"epoch": 0.5176282051282052,
	"grad_norm": 3.5356192588806152,
	"learning_rate": 4.976867151354923e-07,
	"loss": 0.8312,
	"step": 1615
	},
	{
	"epoch": 0.5192307692307693,
	"grad_norm": 3.7321722507476807,
	"learning_rate": 4.960343688037012e-07,
	"loss": 0.8265,
	"step": 1620
	},
	{
	"epoch": 0.5208333333333334,
	"grad_norm": 4.614173889160156,
	"learning_rate": 4.943820224719101e-07,
	"loss": 0.7464,
	"step": 1625
	},
	{
	"epoch": 0.5224358974358975,
	"grad_norm": 4.419942378997803,
	"learning_rate": 4.92729676140119e-07,
	"loss": 0.7683,
	"step": 1630
	},
	{
	"epoch": 0.5240384615384616,
	"grad_norm": 3.572216510772705,
	"learning_rate": 4.910773298083277e-07,
	"loss": 0.8283,
	"step": 1635
	},
	{
	"epoch": 0.5256410256410257,
	"grad_norm": 3.31060528755188,
	"learning_rate": 4.894249834765366e-07,
	"loss": 0.8539,
	"step": 1640
	},
	{
	"epoch": 0.5272435897435898,
	"grad_norm": 6.509139060974121,
	"learning_rate": 4.877726371447455e-07,
	"loss": 0.6647,
	"step": 1645
	},
	{
	"epoch": 0.5288461538461539,
	"grad_norm": 4.024603843688965,
	"learning_rate": 4.861202908129544e-07,
	"loss": 0.8066,
	"step": 1650
	},
	{
	"epoch": 0.530448717948718,
	"grad_norm": 3.655712604522705,
	"learning_rate": 4.844679444811633e-07,
	"loss": 0.7693,
	"step": 1655
	},
	{
	"epoch": 0.532051282051282,
	"grad_norm": 3.420959949493408,
	"learning_rate": 4.82815598149372e-07,
	"loss": 0.7867,
	"step": 1660
	},
	{
	"epoch": 0.5336538461538461,
	"grad_norm": 4.068134307861328,
	"learning_rate": 4.811632518175809e-07,
	"loss": 0.8251,
	"step": 1665
	},
	{
	"epoch": 0.5352564102564102,
	"grad_norm": 4.351796627044678,
	"learning_rate": 4.795109054857898e-07,
	"loss": 0.7103,
	"step": 1670
	},
	{
	"epoch": 0.5368589743589743,
	"grad_norm": 5.838902950286865,
	"learning_rate": 4.778585591539987e-07,
	"loss": 0.835,
	"step": 1675
	},
	{
	"epoch": 0.5384615384615384,
	"grad_norm": 4.233332633972168,
	"learning_rate": 4.762062128222075e-07,
	"loss": 0.8817,
	"step": 1680
	},
	{
	"epoch": 0.5400641025641025,
	"grad_norm": 4.291604042053223,
	"learning_rate": 4.745538664904163e-07,
	"loss": 0.6882,
	"step": 1685
	},
	{
	"epoch": 0.5416666666666666,
	"grad_norm": 3.780442714691162,
	"learning_rate": 4.729015201586252e-07,
	"loss": 0.6711,
	"step": 1690
	},
	{
	"epoch": 0.5432692307692307,
	"grad_norm": 3.0913641452789307,
	"learning_rate": 4.712491738268341e-07,
	"loss": 0.8828,
	"step": 1695
	},
	{
	"epoch": 0.5448717948717948,
	"grad_norm": 2.7122883796691895,
	"learning_rate": 4.695968274950429e-07,
	"loss": 0.6597,
	"step": 1700
	},
	{
	"epoch": 0.5464743589743589,
	"grad_norm": 3.7509615421295166,
	"learning_rate": 4.679444811632518e-07,
	"loss": 0.8139,
	"step": 1705
	},
	{
	"epoch": 0.5480769230769231,
	"grad_norm": 4.429205417633057,
	"learning_rate": 4.662921348314606e-07,
	"loss": 0.8188,
	"step": 1710
	},
	{
	"epoch": 0.5496794871794872,
	"grad_norm": 6.677905559539795,
	"learning_rate": 4.646397884996695e-07,
	"loss": 0.689,
	"step": 1715
	},
	{
	"epoch": 0.5512820512820513,
	"grad_norm": 10.779183387756348,
	"learning_rate": 4.6298744216787836e-07,
	"loss": 0.7602,
	"step": 1720
	},
	{
	"epoch": 0.5528846153846154,
	"grad_norm": 5.142210006713867,
	"learning_rate": 4.613350958360872e-07,
	"loss": 0.809,
	"step": 1725
	},
	{
	"epoch": 0.5544871794871795,
	"grad_norm": 4.238507270812988,
	"learning_rate": 4.5968274950429606e-07,
	"loss": 0.7306,
	"step": 1730
	},
	{
	"epoch": 0.5560897435897436,
	"grad_norm": 4.379620552062988,
	"learning_rate": 4.580304031725049e-07,
	"loss": 0.8622,
	"step": 1735
	},
	{
	"epoch": 0.5576923076923077,
	"grad_norm": 5.106377124786377,
	"learning_rate": 4.5637805684071377e-07,
	"loss": 0.8234,
	"step": 1740
	},
	{
	"epoch": 0.5592948717948718,
	"grad_norm": 4.431070327758789,
	"learning_rate": 4.5472571050892265e-07,
	"loss": 0.9141,
	"step": 1745
	},
	{
	"epoch": 0.5608974358974359,
	"grad_norm": 3.911802053451538,
	"learning_rate": 4.5307336417713147e-07,
	"loss": 0.783,
	"step": 1750
	},
	{
	"epoch": 0.5625,
	"grad_norm": 5.008035182952881,
	"learning_rate": 4.5142101784534035e-07,
	"loss": 0.8401,
	"step": 1755
	},
	{
	"epoch": 0.5641025641025641,
	"grad_norm": 8.659884452819824,
	"learning_rate": 4.4976867151354923e-07,
	"loss": 0.6399,
	"step": 1760
	},
	{
	"epoch": 0.5657051282051282,
	"grad_norm": 3.6218109130859375,
	"learning_rate": 4.4811632518175805e-07,
	"loss": 0.8017,
	"step": 1765
	},
	{
	"epoch": 0.5673076923076923,
	"grad_norm": 8.017809867858887,
	"learning_rate": 4.4646397884996693e-07,
	"loss": 0.9154,
	"step": 1770
	},
	{
	"epoch": 0.5689102564102564,
	"grad_norm": 4.872199535369873,
	"learning_rate": 4.4481163251817576e-07,
	"loss": 0.8139,
	"step": 1775
	},
	{
	"epoch": 0.5705128205128205,
	"grad_norm": 3.4777655601501465,
	"learning_rate": 4.4315928618638463e-07,
	"loss": 0.7942,
	"step": 1780
	},
	{
	"epoch": 0.5721153846153846,
	"grad_norm": 4.423591613769531,
	"learning_rate": 4.415069398545935e-07,
	"loss": 0.6299,
	"step": 1785
	},
	{
	"epoch": 0.5737179487179487,
	"grad_norm": 10.330599784851074,
	"learning_rate": 4.3985459352280234e-07,
	"loss": 0.849,
	"step": 1790
	},
	{
	"epoch": 0.5753205128205128,
	"grad_norm": 3.7085251808166504,
	"learning_rate": 4.382022471910112e-07,
	"loss": 0.7756,
	"step": 1795
	},
	{
	"epoch": 0.5769230769230769,
	"grad_norm": 4.038546562194824,
	"learning_rate": 4.3654990085922004e-07,
	"loss": 0.9406,
	"step": 1800
	},
	{
	"epoch": 0.5785256410256411,
	"grad_norm": 5.6599440574646,
	"learning_rate": 4.348975545274289e-07,
	"loss": 0.6654,
	"step": 1805
	},
	{
	"epoch": 0.5801282051282052,
	"grad_norm": 5.489417552947998,
	"learning_rate": 4.332452081956378e-07,
	"loss": 0.8556,
	"step": 1810
	},
	{
	"epoch": 0.5817307692307693,
	"grad_norm": 7.606975078582764,
	"learning_rate": 4.315928618638466e-07,
	"loss": 0.8567,
	"step": 1815
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 6.262397766113281,
	"learning_rate": 4.299405155320555e-07,
	"loss": 0.8868,
	"step": 1820
	},
	{
	"epoch": 0.5849358974358975,
	"grad_norm": 8.082782745361328,
	"learning_rate": 4.282881692002643e-07,
	"loss": 0.7651,
	"step": 1825
	},
	{
	"epoch": 0.5865384615384616,
	"grad_norm": 7.61177921295166,
	"learning_rate": 4.266358228684732e-07,
	"loss": 0.8139,
	"step": 1830
	},
	{
	"epoch": 0.5881410256410257,
	"grad_norm": 3.503220796585083,
	"learning_rate": 4.249834765366821e-07,
	"loss": 0.6752,
	"step": 1835
	},
	{
	"epoch": 0.5897435897435898,
	"grad_norm": 6.636229038238525,
	"learning_rate": 4.233311302048909e-07,
	"loss": 0.8225,
	"step": 1840
	},
	{
	"epoch": 0.5913461538461539,
	"grad_norm": 45.19087219238281,
	"learning_rate": 4.216787838730998e-07,
	"loss": 0.8639,
	"step": 1845
	},
	{
	"epoch": 0.592948717948718,
	"grad_norm": 12.816862106323242,
	"learning_rate": 4.200264375413086e-07,
	"loss": 0.9769,
	"step": 1850
	},
	{
	"epoch": 0.594551282051282,
	"grad_norm": 5.171041011810303,
	"learning_rate": 4.183740912095175e-07,
	"loss": 0.6907,
	"step": 1855
	},
	{
	"epoch": 0.5961538461538461,
	"grad_norm": 3.1392245292663574,
	"learning_rate": 4.1672174487772637e-07,
	"loss": 0.7235,
	"step": 1860
	},
	{
	"epoch": 0.5977564102564102,
	"grad_norm": 3.557652473449707,
	"learning_rate": 4.150693985459352e-07,
	"loss": 0.7241,
	"step": 1865
	},
	{
	"epoch": 0.5993589743589743,
	"grad_norm": 3.4919662475585938,
	"learning_rate": 4.1341705221414407e-07,
	"loss": 0.7947,
	"step": 1870
	},
	{
	"epoch": 0.6009615384615384,
	"grad_norm": 7.577988624572754,
	"learning_rate": 4.117647058823529e-07,
	"loss": 0.7991,
	"step": 1875
	},
	{
	"epoch": 0.6025641025641025,
	"grad_norm": 6.581418514251709,
	"learning_rate": 4.1011235955056177e-07,
	"loss": 0.7415,
	"step": 1880
	},
	{
	"epoch": 0.6041666666666666,
	"grad_norm": 5.872368335723877,
	"learning_rate": 4.0846001321877065e-07,
	"loss": 0.8145,
	"step": 1885
	},
	{
	"epoch": 0.6057692307692307,
	"grad_norm": 5.491688251495361,
	"learning_rate": 4.068076668869795e-07,
	"loss": 0.888,
	"step": 1890
	},
	{
	"epoch": 0.6073717948717948,
	"grad_norm": 6.849071025848389,
	"learning_rate": 4.0515532055518835e-07,
	"loss": 0.6781,
	"step": 1895
	},
	{
	"epoch": 0.6089743589743589,
	"grad_norm": 3.5489501953125,
	"learning_rate": 4.035029742233972e-07,
	"loss": 0.7944,
	"step": 1900
	},
	{
	"epoch": 0.6105769230769231,
	"grad_norm": 9.167459487915039,
	"learning_rate": 4.0185062789160606e-07,
	"loss": 0.7331,
	"step": 1905
	},
	{
	"epoch": 0.6121794871794872,
	"grad_norm": 2.9380276203155518,
	"learning_rate": 4.0019828155981494e-07,
	"loss": 0.7066,
	"step": 1910
	},
	{
	"epoch": 0.6137820512820513,
	"grad_norm": 3.069446325302124,
	"learning_rate": 3.9854593522802376e-07,
	"loss": 0.8597,
	"step": 1915
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 4.881730079650879,
	"learning_rate": 3.9689358889623264e-07,
	"loss": 0.8679,
	"step": 1920
	},
	{
	"epoch": 0.6169871794871795,
	"grad_norm": 7.921117305755615,
	"learning_rate": 3.9524124256444146e-07,
	"loss": 0.8195,
	"step": 1925
	},
	{
	"epoch": 0.6185897435897436,
	"grad_norm": 7.495361328125,
	"learning_rate": 3.9358889623265034e-07,
	"loss": 0.7521,
	"step": 1930
	},
	{
	"epoch": 0.6201923076923077,
	"grad_norm": 3.289283037185669,
	"learning_rate": 3.919365499008592e-07,
	"loss": 0.779,
	"step": 1935
	},
	{
	"epoch": 0.6217948717948718,
	"grad_norm": 4.523643970489502,
	"learning_rate": 3.9028420356906805e-07,
	"loss": 0.722,
	"step": 1940
	},
	{
	"epoch": 0.6233974358974359,
	"grad_norm": 4.16140079498291,
	"learning_rate": 3.886318572372769e-07,
	"loss": 0.7385,
	"step": 1945
	},
	{
	"epoch": 0.625,
	"grad_norm": 2.602611541748047,
	"learning_rate": 3.8697951090548575e-07,
	"loss": 0.7818,
	"step": 1950
	},
	{
	"epoch": 0.6266025641025641,
	"grad_norm": 5.022205352783203,
	"learning_rate": 3.8532716457369463e-07,
	"loss": 0.7388,
	"step": 1955
	},
	{
	"epoch": 0.6282051282051282,
	"grad_norm": 4.107226371765137,
	"learning_rate": 3.836748182419035e-07,
	"loss": 0.8531,
	"step": 1960
	},
	{
	"epoch": 0.6298076923076923,
	"grad_norm": 3.9306111335754395,
	"learning_rate": 3.8202247191011233e-07,
	"loss": 0.8112,
	"step": 1965
	},
	{
	"epoch": 0.6314102564102564,
	"grad_norm": 3.1901676654815674,
	"learning_rate": 3.803701255783212e-07,
	"loss": 0.7661,
	"step": 1970
	},
	{
	"epoch": 0.6330128205128205,
	"grad_norm": 5.7795820236206055,
	"learning_rate": 3.7871777924653003e-07,
	"loss": 0.7822,
	"step": 1975
	},
	{
	"epoch": 0.6346153846153846,
	"grad_norm": 4.990657806396484,
	"learning_rate": 3.770654329147389e-07,
	"loss": 0.6767,
	"step": 1980
	},
	{
	"epoch": 0.6362179487179487,
	"grad_norm": 3.1682956218719482,
	"learning_rate": 3.754130865829478e-07,
	"loss": 0.7403,
	"step": 1985
	},
	{
	"epoch": 0.6378205128205128,
	"grad_norm": 8.12835693359375,
	"learning_rate": 3.737607402511566e-07,
	"loss": 0.8295,
	"step": 1990
	},
	{
	"epoch": 0.6394230769230769,
	"grad_norm": 6.958061218261719,
	"learning_rate": 3.721083939193655e-07,
	"loss": 0.7853,
	"step": 1995
	},
	{
	"epoch": 0.6410256410256411,
	"grad_norm": 9.980351448059082,
	"learning_rate": 3.704560475875743e-07,
	"loss": 0.8413,
	"step": 2000
	},
	{
	"epoch": 0.6426282051282052,
	"grad_norm": 5.591805934906006,
	"learning_rate": 3.688037012557832e-07,
	"loss": 0.8321,
	"step": 2005
	},
	{
	"epoch": 0.6442307692307693,
	"grad_norm": 4.056339263916016,
	"learning_rate": 3.671513549239921e-07,
	"loss": 0.7223,
	"step": 2010
	},
	{
	"epoch": 0.6458333333333334,
	"grad_norm": 4.585841655731201,
	"learning_rate": 3.654990085922009e-07,
	"loss": 0.8602,
	"step": 2015
	},
	{
	"epoch": 0.6474358974358975,
	"grad_norm": 14.423575401306152,
	"learning_rate": 3.638466622604098e-07,
	"loss": 0.8337,
	"step": 2020
	},
	{
	"epoch": 0.6490384615384616,
	"grad_norm": 17.55698013305664,
	"learning_rate": 3.621943159286186e-07,
	"loss": 0.8524,
	"step": 2025
	},
	{
	"epoch": 0.6506410256410257,
	"grad_norm": 8.060038566589355,
	"learning_rate": 3.605419695968275e-07,
	"loss": 0.7047,
	"step": 2030
	},
	{
	"epoch": 0.6522435897435898,
	"grad_norm": 3.0732924938201904,
	"learning_rate": 3.5888962326503636e-07,
	"loss": 0.8203,
	"step": 2035
	},
	{
	"epoch": 0.6538461538461539,
	"grad_norm": 6.2294020652771,
	"learning_rate": 3.572372769332452e-07,
	"loss": 0.8524,
	"step": 2040
	},
	{
	"epoch": 0.655448717948718,
	"grad_norm": 5.603904724121094,
	"learning_rate": 3.5558493060145406e-07,
	"loss": 0.6366,
	"step": 2045
	},
	{
	"epoch": 0.657051282051282,
	"grad_norm": 3.684701442718506,
	"learning_rate": 3.539325842696629e-07,
	"loss": 0.7765,
	"step": 2050
	},
	{
	"epoch": 0.6586538461538461,
	"grad_norm": 6.113523483276367,
	"learning_rate": 3.5228023793787177e-07,
	"loss": 0.6858,
	"step": 2055
	},
	{
	"epoch": 0.6602564102564102,
	"grad_norm": 5.9543280601501465,
	"learning_rate": 3.5062789160608064e-07,
	"loss": 0.8639,
	"step": 2060
	},
	{
	"epoch": 0.6618589743589743,
	"grad_norm": 2.5266408920288086,
	"learning_rate": 3.4897554527428947e-07,
	"loss": 0.9136,
	"step": 2065
	},
	{
	"epoch": 0.6634615384615384,
	"grad_norm": 4.412357807159424,
	"learning_rate": 3.4732319894249835e-07,
	"loss": 0.8078,
	"step": 2070
	},
	{
	"epoch": 0.6650641025641025,
	"grad_norm": 3.709512948989868,
	"learning_rate": 3.4567085261070717e-07,
	"loss": 0.8443,
	"step": 2075
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 3.4022634029388428,
	"learning_rate": 3.4401850627891605e-07,
	"loss": 0.7546,
	"step": 2080
	},
	{
	"epoch": 0.6682692307692307,
	"grad_norm": 5.27069091796875,
	"learning_rate": 3.4236615994712493e-07,
	"loss": 0.8228,
	"step": 2085
	},
	{
	"epoch": 0.6698717948717948,
	"grad_norm": 3.136031150817871,
	"learning_rate": 3.4071381361533375e-07,
	"loss": 0.9051,
	"step": 2090
	},
	{
	"epoch": 0.6714743589743589,
	"grad_norm": 4.431833744049072,
	"learning_rate": 3.3906146728354263e-07,
	"loss": 0.8802,
	"step": 2095
	},
	{
	"epoch": 0.6730769230769231,
	"grad_norm": 4.416879653930664,
	"learning_rate": 3.3740912095175146e-07,
	"loss": 0.7876,
	"step": 2100
	},
	{
	"epoch": 0.6746794871794872,
	"grad_norm": 3.685245990753174,
	"learning_rate": 3.3575677461996034e-07,
	"loss": 0.744,
	"step": 2105
	},
	{
	"epoch": 0.6762820512820513,
	"grad_norm": 4.721916198730469,
	"learning_rate": 3.341044282881692e-07,
	"loss": 0.7867,
	"step": 2110
	},
	{
	"epoch": 0.6778846153846154,
	"grad_norm": 5.276561260223389,
	"learning_rate": 3.3245208195637804e-07,
	"loss": 0.8425,
	"step": 2115
	},
	{
	"epoch": 0.6794871794871795,
	"grad_norm": 6.171300888061523,
	"learning_rate": 3.307997356245869e-07,
	"loss": 0.742,
	"step": 2120
	},
	{
	"epoch": 0.6810897435897436,
	"grad_norm": 6.1108198165893555,
	"learning_rate": 3.2914738929279574e-07,
	"loss": 0.7814,
	"step": 2125
	},
	{
	"epoch": 0.6826923076923077,
	"grad_norm": 5.54103946685791,
	"learning_rate": 3.274950429610046e-07,
	"loss": 0.8899,
	"step": 2130
	},
	{
	"epoch": 0.6842948717948718,
	"grad_norm": 5.242672443389893,
	"learning_rate": 3.258426966292135e-07,
	"loss": 0.8232,
	"step": 2135
	},
	{
	"epoch": 0.6858974358974359,
	"grad_norm": 11.092650413513184,
	"learning_rate": 3.241903502974223e-07,
	"loss": 0.7744,
	"step": 2140
	},
	{
	"epoch": 0.6875,
	"grad_norm": 3.056320905685425,
	"learning_rate": 3.225380039656312e-07,
	"loss": 0.6096,
	"step": 2145
	},
	{
	"epoch": 0.6891025641025641,
	"grad_norm": 4.238087177276611,
	"learning_rate": 3.2088565763384003e-07,
	"loss": 0.7236,
	"step": 2150
	},
	{
	"epoch": 0.6907051282051282,
	"grad_norm": 3.4259557723999023,
	"learning_rate": 3.192333113020489e-07,
	"loss": 0.8002,
	"step": 2155
	},
	{
	"epoch": 0.6923076923076923,
	"grad_norm": 3.611785411834717,
	"learning_rate": 3.175809649702578e-07,
	"loss": 0.7647,
	"step": 2160
	},
	{
	"epoch": 0.6939102564102564,
	"grad_norm": 8.97962760925293,
	"learning_rate": 3.159286186384666e-07,
	"loss": 0.9061,
	"step": 2165
	},
	{
	"epoch": 0.6955128205128205,
	"grad_norm": 15.352239608764648,
	"learning_rate": 3.142762723066755e-07,
	"loss": 0.7211,
	"step": 2170
	},
	{
	"epoch": 0.6971153846153846,
	"grad_norm": 7.31290340423584,
	"learning_rate": 3.126239259748843e-07,
	"loss": 0.618,
	"step": 2175
	},
	{
	"epoch": 0.6987179487179487,
	"grad_norm": 4.665528297424316,
	"learning_rate": 3.109715796430932e-07,
	"loss": 0.8203,
	"step": 2180
	},
	{
	"epoch": 0.7003205128205128,
	"grad_norm": 17.2761287689209,
	"learning_rate": 3.0931923331130207e-07,
	"loss": 0.7578,
	"step": 2185
	},
	{
	"epoch": 0.7019230769230769,
	"grad_norm": 9.712289810180664,
	"learning_rate": 3.076668869795109e-07,
	"loss": 0.7531,
	"step": 2190
	},
	{
	"epoch": 0.7035256410256411,
	"grad_norm": 4.434769630432129,
	"learning_rate": 3.0601454064771977e-07,
	"loss": 0.7863,
	"step": 2195
	},
	{
	"epoch": 0.7051282051282052,
	"grad_norm": 3.8715121746063232,
	"learning_rate": 3.043621943159286e-07,
	"loss": 0.7247,
	"step": 2200
	},
	{
	"epoch": 0.7067307692307693,
	"grad_norm": 3.459235906600952,
	"learning_rate": 3.027098479841375e-07,
	"loss": 0.7149,
	"step": 2205
	},
	{
	"epoch": 0.7083333333333334,
	"grad_norm": 5.98268461227417,
	"learning_rate": 3.0105750165234635e-07,
	"loss": 0.8021,
	"step": 2210
	},
	{
	"epoch": 0.7099358974358975,
	"grad_norm": 6.481480121612549,
	"learning_rate": 2.994051553205552e-07,
	"loss": 0.8124,
	"step": 2215
	},
	{
	"epoch": 0.7115384615384616,
	"grad_norm": 5.063220500946045,
	"learning_rate": 2.9775280898876406e-07,
	"loss": 0.6746,
	"step": 2220
	},
	{
	"epoch": 0.7131410256410257,
	"grad_norm": 5.813882827758789,
	"learning_rate": 2.9610046265697293e-07,
	"loss": 0.8872,
	"step": 2225
	},
	{
	"epoch": 0.7147435897435898,
	"grad_norm": 7.330856800079346,
	"learning_rate": 2.9444811632518176e-07,
	"loss": 0.8496,
	"step": 2230
	},
	{
	"epoch": 0.7163461538461539,
	"grad_norm": 4.500095367431641,
	"learning_rate": 2.9279576999339064e-07,
	"loss": 0.8594,
	"step": 2235
	},
	{
	"epoch": 0.717948717948718,
	"grad_norm": 7.6699137687683105,
	"learning_rate": 2.9114342366159946e-07,
	"loss": 0.7005,
	"step": 2240
	},
	{
	"epoch": 0.719551282051282,
	"grad_norm": 3.332604169845581,
	"learning_rate": 2.8949107732980834e-07,
	"loss": 0.8011,
	"step": 2245
	},
	{
	"epoch": 0.7211538461538461,
	"grad_norm": 7.084466457366943,
	"learning_rate": 2.878387309980172e-07,
	"loss": 0.7555,
	"step": 2250
	},
	{
	"epoch": 0.7227564102564102,
	"grad_norm": 2.606405258178711,
	"learning_rate": 2.8618638466622604e-07,
	"loss": 0.8418,
	"step": 2255
	},
	{
	"epoch": 0.7243589743589743,
	"grad_norm": 5.162625312805176,
	"learning_rate": 2.845340383344349e-07,
	"loss": 0.7081,
	"step": 2260
	},
	{
	"epoch": 0.7259615384615384,
	"grad_norm": 6.1882758140563965,
	"learning_rate": 2.8288169200264375e-07,
	"loss": 0.7999,
	"step": 2265
	},
	{
	"epoch": 0.7275641025641025,
	"grad_norm": 3.4105043411254883,
	"learning_rate": 2.812293456708526e-07,
	"loss": 0.7354,
	"step": 2270
	},
	{
	"epoch": 0.7291666666666666,
	"grad_norm": 5.230040073394775,
	"learning_rate": 2.795769993390615e-07,
	"loss": 0.7022,
	"step": 2275
	},
	{
	"epoch": 0.7307692307692307,
	"grad_norm": 7.303884506225586,
	"learning_rate": 2.7792465300727033e-07,
	"loss": 0.8529,
	"step": 2280
	},
	{
	"epoch": 0.7323717948717948,
	"grad_norm": 4.611577987670898,
	"learning_rate": 2.762723066754792e-07,
	"loss": 0.8055,
	"step": 2285
	},
	{
	"epoch": 0.7339743589743589,
	"grad_norm": 3.8788657188415527,
	"learning_rate": 2.7461996034368803e-07,
	"loss": 0.7476,
	"step": 2290
	},
	{
	"epoch": 0.7355769230769231,
	"grad_norm": 7.592946529388428,
	"learning_rate": 2.729676140118969e-07,
	"loss": 0.8468,
	"step": 2295
	},
	{
	"epoch": 0.7371794871794872,
	"grad_norm": 12.41851806640625,
	"learning_rate": 2.713152676801058e-07,
	"loss": 0.8057,
	"step": 2300
	},
	{
	"epoch": 0.7387820512820513,
	"grad_norm": 3.9982833862304688,
	"learning_rate": 2.6966292134831456e-07,
	"loss": 0.8323,
	"step": 2305
	},
	{
	"epoch": 0.7403846153846154,
	"grad_norm": 4.3113813400268555,
	"learning_rate": 2.6801057501652344e-07,
	"loss": 0.7667,
	"step": 2310
	},
	{
	"epoch": 0.7419871794871795,
	"grad_norm": 6.139361381530762,
	"learning_rate": 2.6635822868473226e-07,
	"loss": 0.7687,
	"step": 2315
	},
	{
	"epoch": 0.7435897435897436,
	"grad_norm": 13.496137619018555,
	"learning_rate": 2.6470588235294114e-07,
	"loss": 0.7224,
	"step": 2320
	},
	{
	"epoch": 0.7451923076923077,
	"grad_norm": 7.981110095977783,
	"learning_rate": 2.6305353602115e-07,
	"loss": 0.8216,
	"step": 2325
	},
	{
	"epoch": 0.7467948717948718,
	"grad_norm": 6.703426361083984,
	"learning_rate": 2.6140118968935885e-07,
	"loss": 0.8239,
	"step": 2330
	},
	{
	"epoch": 0.7483974358974359,
	"grad_norm": 3.3382091522216797,
	"learning_rate": 2.597488433575677e-07,
	"loss": 0.8151,
	"step": 2335
	},
	{
	"epoch": 0.75,
	"grad_norm": 5.277767181396484,
	"learning_rate": 2.5809649702577655e-07,
	"loss": 0.778,
	"step": 2340
	},
	{
	"epoch": 0.7516025641025641,
	"grad_norm": 3.5990350246429443,
	"learning_rate": 2.5644415069398543e-07,
	"loss": 0.7541,
	"step": 2345
	},
	{
	"epoch": 0.7532051282051282,
	"grad_norm": 4.577154159545898,
	"learning_rate": 2.547918043621943e-07,
	"loss": 0.7555,
	"step": 2350
	},
	{
	"epoch": 0.7548076923076923,
	"grad_norm": 4.374950885772705,
	"learning_rate": 2.5313945803040313e-07,
	"loss": 0.8462,
	"step": 2355
	},
	{
	"epoch": 0.7564102564102564,
	"grad_norm": 8.507906913757324,
	"learning_rate": 2.51487111698612e-07,
	"loss": 0.7591,
	"step": 2360
	},
	{
	"epoch": 0.7580128205128205,
	"grad_norm": 4.493144512176514,
	"learning_rate": 2.498347653668209e-07,
	"loss": 0.7708,
	"step": 2365
	},
	{
	"epoch": 0.7596153846153846,
	"grad_norm": 4.824530124664307,
	"learning_rate": 2.481824190350297e-07,
	"loss": 0.7318,
	"step": 2370
	},
	{
	"epoch": 0.7612179487179487,
	"grad_norm": 4.022371292114258,
	"learning_rate": 2.465300727032386e-07,
	"loss": 0.7551,
	"step": 2375
	},
	{
	"epoch": 0.7628205128205128,
	"grad_norm": 3.5510129928588867,
	"learning_rate": 2.448777263714474e-07,
	"loss": 0.628,
	"step": 2380
	},
	{
	"epoch": 0.7644230769230769,
	"grad_norm": 6.095627307891846,
	"learning_rate": 2.432253800396563e-07,
	"loss": 0.725,
	"step": 2385
	},
	{
	"epoch": 0.7660256410256411,
	"grad_norm": 3.520016670227051,
	"learning_rate": 2.4157303370786517e-07,
	"loss": 0.7484,
	"step": 2390
	},
	{
	"epoch": 0.7676282051282052,
	"grad_norm": 6.656997203826904,
	"learning_rate": 2.39920687376074e-07,
	"loss": 0.7474,
	"step": 2395
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 4.5073370933532715,
	"learning_rate": 2.3826834104428288e-07,
	"loss": 0.6534,
	"step": 2400
	},
	{
	"epoch": 0.7708333333333334,
	"grad_norm": 5.180692195892334,
	"learning_rate": 2.3661599471249173e-07,
	"loss": 0.7398,
	"step": 2405
	},
	{
	"epoch": 0.7724358974358975,
	"grad_norm": 4.856165885925293,
	"learning_rate": 2.349636483807006e-07,
	"loss": 0.8658,
	"step": 2410
	},
	{
	"epoch": 0.7740384615384616,
	"grad_norm": 4.942265510559082,
	"learning_rate": 2.3331130204890946e-07,
	"loss": 0.8106,
	"step": 2415
	},
	{
	"epoch": 0.7756410256410257,
	"grad_norm": 4.896393775939941,
	"learning_rate": 2.316589557171183e-07,
	"loss": 0.7782,
	"step": 2420
	},
	{
	"epoch": 0.7772435897435898,
	"grad_norm": 4.911433696746826,
	"learning_rate": 2.3000660938532716e-07,
	"loss": 0.7034,
	"step": 2425
	},
	{
	"epoch": 0.7788461538461539,
	"grad_norm": 5.983463287353516,
	"learning_rate": 2.28354263053536e-07,
	"loss": 0.7062,
	"step": 2430
	},
	{
	"epoch": 0.780448717948718,
	"grad_norm": 5.0456414222717285,
	"learning_rate": 2.267019167217449e-07,
	"loss": 0.7615,
	"step": 2435
	},
	{
	"epoch": 0.782051282051282,
	"grad_norm": 4.779991149902344,
	"learning_rate": 2.2504957038995374e-07,
	"loss": 0.6795,
	"step": 2440
	},
	{
	"epoch": 0.7836538461538461,
	"grad_norm": 5.053199768066406,
	"learning_rate": 2.233972240581626e-07,
	"loss": 0.8048,
	"step": 2445
	},
	{
	"epoch": 0.7852564102564102,
	"grad_norm": 7.191258907318115,
	"learning_rate": 2.2174487772637144e-07,
	"loss": 0.8043,
	"step": 2450
	},
	{
	"epoch": 0.7868589743589743,
	"grad_norm": 3.500450611114502,
	"learning_rate": 2.2009253139458027e-07,
	"loss": 0.7147,
	"step": 2455
	},
	{
	"epoch": 0.7884615384615384,
	"grad_norm": 4.963442325592041,
	"learning_rate": 2.1844018506278917e-07,
	"loss": 0.7803,
	"step": 2460
	},
	{
	"epoch": 0.7900641025641025,
	"grad_norm": 4.3301777839660645,
	"learning_rate": 2.16787838730998e-07,
	"loss": 0.7901,
	"step": 2465
	},
	{
	"epoch": 0.7916666666666666,
	"grad_norm": 4.038059711456299,
	"learning_rate": 2.1513549239920685e-07,
	"loss": 0.6812,
	"step": 2470
	},
	{
	"epoch": 0.7932692307692307,
	"grad_norm": 5.824253559112549,
	"learning_rate": 2.134831460674157e-07,
	"loss": 0.7618,
	"step": 2475
	},
	{
	"epoch": 0.7948717948717948,
	"grad_norm": 5.034027099609375,
	"learning_rate": 2.1183079973562455e-07,
	"loss": 0.6987,
	"step": 2480
	},
	{
	"epoch": 0.7964743589743589,
	"grad_norm": 4.224520206451416,
	"learning_rate": 2.1017845340383343e-07,
	"loss": 0.8233,
	"step": 2485
	},
	{
	"epoch": 0.7980769230769231,
	"grad_norm": 4.304800033569336,
	"learning_rate": 2.0852610707204228e-07,
	"loss": 0.683,
	"step": 2490
	},
	{
	"epoch": 0.7996794871794872,
	"grad_norm": 6.027079105377197,
	"learning_rate": 2.0687376074025114e-07,
	"loss": 0.7514,
	"step": 2495
	},
	{
	"epoch": 0.8012820512820513,
	"grad_norm": 7.2774882316589355,
	"learning_rate": 2.0522141440846e-07,
	"loss": 0.8308,
	"step": 2500
	},
	{
	"epoch": 0.8028846153846154,
	"grad_norm": 7.033870220184326,
	"learning_rate": 2.0356906807666884e-07,
	"loss": 0.7758,
	"step": 2505
	},
	{
	"epoch": 0.8044871794871795,
	"grad_norm": 3.2256860733032227,
	"learning_rate": 2.0191672174487772e-07,
	"loss": 0.759,
	"step": 2510
	},
	{
	"epoch": 0.8060897435897436,
	"grad_norm": 7.072434425354004,
	"learning_rate": 2.0026437541308657e-07,
	"loss": 0.7686,
	"step": 2515
	},
	{
	"epoch": 0.8076923076923077,
	"grad_norm": 3.3247132301330566,
	"learning_rate": 1.9861202908129542e-07,
	"loss": 0.7644,
	"step": 2520
	},
	{
	"epoch": 0.8092948717948718,
	"grad_norm": 3.6884591579437256,
	"learning_rate": 1.9695968274950427e-07,
	"loss": 0.7558,
	"step": 2525
	},
	{
	"epoch": 0.8108974358974359,
	"grad_norm": 5.145435333251953,
	"learning_rate": 1.9530733641771312e-07,
	"loss": 0.7459,
	"step": 2530
	},
	{
	"epoch": 0.8125,
	"grad_norm": 4.134402751922607,
	"learning_rate": 1.93654990085922e-07,
	"loss": 0.8534,
	"step": 2535
	},
	{
	"epoch": 0.8141025641025641,
	"grad_norm": 3.347599744796753,
	"learning_rate": 1.9200264375413085e-07,
	"loss": 0.8417,
	"step": 2540
	},
	{
	"epoch": 0.8157051282051282,
	"grad_norm": 3.6410083770751953,
	"learning_rate": 1.903502974223397e-07,
	"loss": 0.8405,
	"step": 2545
	},
	{
	"epoch": 0.8173076923076923,
	"grad_norm": 3.344439744949341,
	"learning_rate": 1.8869795109054856e-07,
	"loss": 0.7426,
	"step": 2550
	},
	{
	"epoch": 0.8189102564102564,
	"grad_norm": 4.314718723297119,
	"learning_rate": 1.870456047587574e-07,
	"loss": 0.7995,
	"step": 2555
	},
	{
	"epoch": 0.8205128205128205,
	"grad_norm": 6.937241077423096,
	"learning_rate": 1.853932584269663e-07,
	"loss": 0.8192,
	"step": 2560
	},
	{
	"epoch": 0.8221153846153846,
	"grad_norm": 3.7095561027526855,
	"learning_rate": 1.8374091209517514e-07,
	"loss": 0.7015,
	"step": 2565
	},
	{
	"epoch": 0.8237179487179487,
	"grad_norm": 4.655959606170654,
	"learning_rate": 1.82088565763384e-07,
	"loss": 0.7462,
	"step": 2570
	},
	{
	"epoch": 0.8253205128205128,
	"grad_norm": 5.088621616363525,
	"learning_rate": 1.8043621943159284e-07,
	"loss": 0.7669,
	"step": 2575
	},
	{
	"epoch": 0.8269230769230769,
	"grad_norm": 5.979193210601807,
	"learning_rate": 1.7878387309980172e-07,
	"loss": 0.9233,
	"step": 2580
	},
	{
	"epoch": 0.8285256410256411,
	"grad_norm": 4.107568740844727,
	"learning_rate": 1.7713152676801057e-07,
	"loss": 0.868,
	"step": 2585
	},
	{
	"epoch": 0.8301282051282052,
	"grad_norm": 3.6633615493774414,
	"learning_rate": 1.7547918043621942e-07,
	"loss": 0.7795,
	"step": 2590
	},
	{
	"epoch": 0.8317307692307693,
	"grad_norm": 6.704728126525879,
	"learning_rate": 1.7382683410442828e-07,
	"loss": 0.714,
	"step": 2595
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 6.485088348388672,
	"learning_rate": 1.7217448777263713e-07,
	"loss": 0.6941,
	"step": 2600
	},
	{
	"epoch": 0.8349358974358975,
	"grad_norm": 5.1513566970825195,
	"learning_rate": 1.70522141440846e-07,
	"loss": 0.7235,
	"step": 2605
	},
	{
	"epoch": 0.8365384615384616,
	"grad_norm": 6.590970039367676,
	"learning_rate": 1.6886979510905486e-07,
	"loss": 0.7834,
	"step": 2610
	},
	{
	"epoch": 0.8381410256410257,
	"grad_norm": 3.539618730545044,
	"learning_rate": 1.672174487772637e-07,
	"loss": 0.7529,
	"step": 2615
	},
	{
	"epoch": 0.8397435897435898,
	"grad_norm": 5.671098709106445,
	"learning_rate": 1.6556510244547256e-07,
	"loss": 0.8103,
	"step": 2620
	},
	{
	"epoch": 0.8413461538461539,
	"grad_norm": 4.69738245010376,
	"learning_rate": 1.639127561136814e-07,
	"loss": 0.8686,
	"step": 2625
	},
	{
	"epoch": 0.842948717948718,
	"grad_norm": 4.465817451477051,
	"learning_rate": 1.622604097818903e-07,
	"loss": 0.7111,
	"step": 2630
	},
	{
	"epoch": 0.844551282051282,
	"grad_norm": 3.2771265506744385,
	"learning_rate": 1.6060806345009914e-07,
	"loss": 0.7292,
	"step": 2635
	},
	{
	"epoch": 0.8461538461538461,
	"grad_norm": 7.632739067077637,
	"learning_rate": 1.58955717118308e-07,
	"loss": 0.786,
	"step": 2640
	},
	{
	"epoch": 0.8477564102564102,
	"grad_norm": 4.397324085235596,
	"learning_rate": 1.5730337078651685e-07,
	"loss": 0.8378,
	"step": 2645
	},
	{
	"epoch": 0.8493589743589743,
	"grad_norm": 3.7814230918884277,
	"learning_rate": 1.556510244547257e-07,
	"loss": 0.7088,
	"step": 2650
	},
	{
	"epoch": 0.8509615384615384,
	"grad_norm": 3.752884864807129,
	"learning_rate": 1.5399867812293457e-07,
	"loss": 0.8107,
	"step": 2655
	},
	{
	"epoch": 0.8525641025641025,
	"grad_norm": 3.5255517959594727,
	"learning_rate": 1.5234633179114343e-07,
	"loss": 0.7736,
	"step": 2660
	},
	{
	"epoch": 0.8541666666666666,
	"grad_norm": 3.8665730953216553,
	"learning_rate": 1.5069398545935228e-07,
	"loss": 0.687,
	"step": 2665
	},
	{
	"epoch": 0.8557692307692307,
	"grad_norm": 4.789595127105713,
	"learning_rate": 1.4904163912756113e-07,
	"loss": 0.718,
	"step": 2670
	},
	{
	"epoch": 0.8573717948717948,
	"grad_norm": 3.834465265274048,
	"learning_rate": 1.4738929279576998e-07,
	"loss": 0.8931,
	"step": 2675
	},
	{
	"epoch": 0.8589743589743589,
	"grad_norm": 7.070734977722168,
	"learning_rate": 1.4573694646397886e-07,
	"loss": 0.7071,
	"step": 2680
	},
	{
	"epoch": 0.8605769230769231,
	"grad_norm": 2.9893038272857666,
	"learning_rate": 1.440846001321877e-07,
	"loss": 0.6394,
	"step": 2685
	},
	{
	"epoch": 0.8621794871794872,
	"grad_norm": 5.302039623260498,
	"learning_rate": 1.4243225380039656e-07,
	"loss": 0.7887,
	"step": 2690
	},
	{
	"epoch": 0.8637820512820513,
	"grad_norm": 2.9799692630767822,
	"learning_rate": 1.4077990746860541e-07,
	"loss": 0.851,
	"step": 2695
	},
	{
	"epoch": 0.8653846153846154,
	"grad_norm": 4.219221115112305,
	"learning_rate": 1.3912756113681427e-07,
	"loss": 0.7475,
	"step": 2700
	},
	{
	"epoch": 0.8669871794871795,
	"grad_norm": 3.4256138801574707,
	"learning_rate": 1.3747521480502314e-07,
	"loss": 0.806,
	"step": 2705
	},
	{
	"epoch": 0.8685897435897436,
	"grad_norm": 5.021873474121094,
	"learning_rate": 1.35822868473232e-07,
	"loss": 0.7701,
	"step": 2710
	},
	{
	"epoch": 0.8701923076923077,
	"grad_norm": 4.23788595199585,
	"learning_rate": 1.3417052214144085e-07,
	"loss": 0.7122,
	"step": 2715
	},
	{
	"epoch": 0.8717948717948718,
	"grad_norm": 4.850051403045654,
	"learning_rate": 1.325181758096497e-07,
	"loss": 0.6861,
	"step": 2720
	},
	{
	"epoch": 0.8733974358974359,
	"grad_norm": 5.633250713348389,
	"learning_rate": 1.3086582947785855e-07,
	"loss": 0.7611,
	"step": 2725
	},
	{
	"epoch": 0.875,
	"grad_norm": 7.429291248321533,
	"learning_rate": 1.2921348314606743e-07,
	"loss": 0.6987,
	"step": 2730
	},
	{
	"epoch": 0.8766025641025641,
	"grad_norm": 6.112792491912842,
	"learning_rate": 1.2756113681427628e-07,
	"loss": 0.7675,
	"step": 2735
	},
	{
	"epoch": 0.8782051282051282,
	"grad_norm": 9.730607986450195,
	"learning_rate": 1.2590879048248513e-07,
	"loss": 0.7429,
	"step": 2740
	},
	{
	"epoch": 0.8798076923076923,
	"grad_norm": 3.8280539512634277,
	"learning_rate": 1.2425644415069398e-07,
	"loss": 0.7058,
	"step": 2745
	},
	{
	"epoch": 0.8814102564102564,
	"grad_norm": 5.016750812530518,
	"learning_rate": 1.2260409781890284e-07,
	"loss": 0.6931,
	"step": 2750
	},
	{
	"epoch": 0.8830128205128205,
	"grad_norm": 3.027902603149414,
	"learning_rate": 1.209517514871117e-07,
	"loss": 0.744,
	"step": 2755
	},
	{
	"epoch": 0.8846153846153846,
	"grad_norm": 5.9112629890441895,
	"learning_rate": 1.1929940515532057e-07,
	"loss": 0.7883,
	"step": 2760
	},
	{
	"epoch": 0.8862179487179487,
	"grad_norm": 3.9589760303497314,
	"learning_rate": 1.176470588235294e-07,
	"loss": 0.6751,
	"step": 2765
	},
	{
	"epoch": 0.8878205128205128,
	"grad_norm": 12.412994384765625,
	"learning_rate": 1.1599471249173827e-07,
	"loss": 0.741,
	"step": 2770
	},
	{
	"epoch": 0.8894230769230769,
	"grad_norm": 6.313468933105469,
	"learning_rate": 1.1434236615994712e-07,
	"loss": 0.7083,
	"step": 2775
	},
	{
	"epoch": 0.8910256410256411,
	"grad_norm": 3.4576292037963867,
	"learning_rate": 1.1269001982815597e-07,
	"loss": 0.6078,
	"step": 2780
	},
	{
	"epoch": 0.8926282051282052,
	"grad_norm": 3.770681142807007,
	"learning_rate": 1.1103767349636484e-07,
	"loss": 0.7976,
	"step": 2785
	},
	{
	"epoch": 0.8942307692307693,
	"grad_norm": 4.323639392852783,
	"learning_rate": 1.0938532716457369e-07,
	"loss": 0.726,
	"step": 2790
	},
	{
	"epoch": 0.8958333333333334,
	"grad_norm": 6.223001480102539,
	"learning_rate": 1.0773298083278255e-07,
	"loss": 0.7428,
	"step": 2795
	},
	{
	"epoch": 0.8974358974358975,
	"grad_norm": 4.867865085601807,
	"learning_rate": 1.060806345009914e-07,
	"loss": 0.747,
	"step": 2800
	},
	{
	"epoch": 0.8990384615384616,
	"grad_norm": 4.22167444229126,
	"learning_rate": 1.0442828816920026e-07,
	"loss": 0.7824,
	"step": 2805
	},
	{
	"epoch": 0.9006410256410257,
	"grad_norm": 3.4794094562530518,
	"learning_rate": 1.0277594183740912e-07,
	"loss": 0.7904,
	"step": 2810
	},
	{
	"epoch": 0.9022435897435898,
	"grad_norm": 3.968479633331299,
	"learning_rate": 1.0112359550561797e-07,
	"loss": 0.8853,
	"step": 2815
	},
	{
	"epoch": 0.9038461538461539,
	"grad_norm": 3.1891181468963623,
	"learning_rate": 9.947124917382684e-08,
	"loss": 0.7753,
	"step": 2820
	},
	{
	"epoch": 0.905448717948718,
	"grad_norm": 4.9156646728515625,
	"learning_rate": 9.781890284203569e-08,
	"loss": 0.7521,
	"step": 2825
	},
	{
	"epoch": 0.907051282051282,
	"grad_norm": 4.938701152801514,
	"learning_rate": 9.616655651024454e-08,
	"loss": 0.7361,
	"step": 2830
	},
	{
	"epoch": 0.9086538461538461,
	"grad_norm": 4.312582492828369,
	"learning_rate": 9.451421017845341e-08,
	"loss": 0.7044,
	"step": 2835
	},
	{
	"epoch": 0.9102564102564102,
	"grad_norm": 7.3174519538879395,
	"learning_rate": 9.286186384666226e-08,
	"loss": 0.7778,
	"step": 2840
	},
	{
	"epoch": 0.9118589743589743,
	"grad_norm": 8.664481163024902,
	"learning_rate": 9.120951751487112e-08,
	"loss": 0.8317,
	"step": 2845
	},
	{
	"epoch": 0.9134615384615384,
	"grad_norm": 8.050248146057129,
	"learning_rate": 8.955717118307998e-08,
	"loss": 0.7777,
	"step": 2850
	},
	{
	"epoch": 0.9150641025641025,
	"grad_norm": 6.539444446563721,
	"learning_rate": 8.790482485128881e-08,
	"loss": 0.8357,
	"step": 2855
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 6.118063449859619,
	"learning_rate": 8.625247851949768e-08,
	"loss": 0.6746,
	"step": 2860
	},
	{
	"epoch": 0.9182692307692307,
	"grad_norm": 4.888671398162842,
	"learning_rate": 8.460013218770653e-08,
	"loss": 0.7677,
	"step": 2865
	},
	{
	"epoch": 0.9198717948717948,
	"grad_norm": 5.636521816253662,
	"learning_rate": 8.29477858559154e-08,
	"loss": 0.7025,
	"step": 2870
	},
	{
	"epoch": 0.9214743589743589,
	"grad_norm": 3.849520683288574,
	"learning_rate": 8.129543952412425e-08,
	"loss": 0.7187,
	"step": 2875
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 5.312481880187988,
	"learning_rate": 7.964309319233311e-08,
	"loss": 0.669,
	"step": 2880
	},
	{
	"epoch": 0.9246794871794872,
	"grad_norm": 6.7007527351379395,
	"learning_rate": 7.799074686054196e-08,
	"loss": 0.7571,
	"step": 2885
	},
	{
	"epoch": 0.9262820512820513,
	"grad_norm": 5.961256980895996,
	"learning_rate": 7.633840052875081e-08,
	"loss": 0.733,
	"step": 2890
	},
	{
	"epoch": 0.9278846153846154,
	"grad_norm": 8.099090576171875,
	"learning_rate": 7.468605419695968e-08,
	"loss": 0.8415,
	"step": 2895
	},
	{
	"epoch": 0.9294871794871795,
	"grad_norm": 3.7094759941101074,
	"learning_rate": 7.303370786516853e-08,
	"loss": 0.9158,
	"step": 2900
	},
	{
	"epoch": 0.9310897435897436,
	"grad_norm": 7.212512016296387,
	"learning_rate": 7.13813615333774e-08,
	"loss": 0.815,
	"step": 2905
	},
	{
	"epoch": 0.9326923076923077,
	"grad_norm": 5.013028144836426,
	"learning_rate": 6.972901520158625e-08,
	"loss": 0.7161,
	"step": 2910
	},
	{
	"epoch": 0.9342948717948718,
	"grad_norm": 5.3960041999816895,
	"learning_rate": 6.80766688697951e-08,
	"loss": 0.7817,
	"step": 2915
	},
	{
	"epoch": 0.9358974358974359,
	"grad_norm": 3.4956471920013428,
	"learning_rate": 6.642432253800396e-08,
	"loss": 0.8383,
	"step": 2920
	},
	{
	"epoch": 0.9375,
	"grad_norm": 3.654330253601074,
	"learning_rate": 6.477197620621282e-08,
	"loss": 0.8125,
	"step": 2925
	},
	{
	"epoch": 0.9391025641025641,
	"grad_norm": 6.255533695220947,
	"learning_rate": 6.311962987442168e-08,
	"loss": 0.7734,
	"step": 2930
	},
	{
	"epoch": 0.9407051282051282,
	"grad_norm": 4.802107810974121,
	"learning_rate": 6.146728354263053e-08,
	"loss": 0.709,
	"step": 2935
	},
	{
	"epoch": 0.9423076923076923,
	"grad_norm": 6.442443370819092,
	"learning_rate": 5.981493721083938e-08,
	"loss": 0.7668,
	"step": 2940
	},
	{
	"epoch": 0.9439102564102564,
	"grad_norm": 3.025623083114624,
	"learning_rate": 5.816259087904825e-08,
	"loss": 0.7797,
	"step": 2945
	},
	{
	"epoch": 0.9455128205128205,
	"grad_norm": 4.99326753616333,
	"learning_rate": 5.65102445472571e-08,
	"loss": 0.7969,
	"step": 2950
	},
	{
	"epoch": 0.9471153846153846,
	"grad_norm": 8.48199462890625,
	"learning_rate": 5.485789821546596e-08,
	"loss": 0.7861,
	"step": 2955
	},
	{
	"epoch": 0.9487179487179487,
	"grad_norm": 4.070643901824951,
	"learning_rate": 5.320555188367482e-08,
	"loss": 0.9045,
	"step": 2960
	},
	{
	"epoch": 0.9503205128205128,
	"grad_norm": 4.508942127227783,
	"learning_rate": 5.1553205551883676e-08,
	"loss": 0.806,
	"step": 2965
	},
	{
	"epoch": 0.9519230769230769,
	"grad_norm": 5.224105358123779,
	"learning_rate": 4.9900859220092534e-08,
	"loss": 0.7537,
	"step": 2970
	},
	{
	"epoch": 0.9535256410256411,
	"grad_norm": 5.267168998718262,
	"learning_rate": 4.8248512888301386e-08,
	"loss": 0.7458,
	"step": 2975
	},
	{
	"epoch": 0.9551282051282052,
	"grad_norm": 14.058978080749512,
	"learning_rate": 4.659616655651024e-08,
	"loss": 0.8491,
	"step": 2980
	},
	{
	"epoch": 0.9567307692307693,
	"grad_norm": 7.71165657043457,
	"learning_rate": 4.4943820224719096e-08,
	"loss": 0.7255,
	"step": 2985
	},
	{
	"epoch": 0.9583333333333334,
	"grad_norm": 3.65620493888855,
	"learning_rate": 4.3291473892927954e-08,
	"loss": 0.7917,
	"step": 2990
	},
	{
	"epoch": 0.9599358974358975,
	"grad_norm": 11.238397598266602,
	"learning_rate": 4.163912756113681e-08,
	"loss": 0.7828,
	"step": 2995
	},
	{
	"epoch": 0.9615384615384616,
	"grad_norm": 6.159839630126953,
	"learning_rate": 3.998678122934567e-08,
	"loss": 0.7724,
	"step": 3000
	},
	{
	"epoch": 0.9631410256410257,
	"grad_norm": 4.247456073760986,
	"learning_rate": 3.833443489755452e-08,
	"loss": 0.7635,
	"step": 3005
	},
	{
	"epoch": 0.9647435897435898,
	"grad_norm": 5.236011505126953,
	"learning_rate": 3.668208856576338e-08,
	"loss": 0.7782,
	"step": 3010
	},
	{
	"epoch": 0.9663461538461539,
	"grad_norm": 4.830688953399658,
	"learning_rate": 3.502974223397224e-08,
	"loss": 0.7962,
	"step": 3015
	},
	{
	"epoch": 0.967948717948718,
	"grad_norm": 6.072144508361816,
	"learning_rate": 3.33773959021811e-08,
	"loss": 0.9383,
	"step": 3020
	},
	{
	"epoch": 0.969551282051282,
	"grad_norm": 3.7657108306884766,
	"learning_rate": 3.1725049570389955e-08,
	"loss": 0.9029,
	"step": 3025
	},
	{
	"epoch": 0.9711538461538461,
	"grad_norm": 5.47902774810791,
	"learning_rate": 3.007270323859881e-08,
	"loss": 0.8262,
	"step": 3030
	},
	{
	"epoch": 0.9727564102564102,
	"grad_norm": 4.847268104553223,
	"learning_rate": 2.8420356906807665e-08,
	"loss": 0.8054,
	"step": 3035
	},
	{
	"epoch": 0.9743589743589743,
	"grad_norm": 6.062643527984619,
	"learning_rate": 2.676801057501652e-08,
	"loss": 0.7808,
	"step": 3040
	},
	{
	"epoch": 0.9759615384615384,
	"grad_norm": 5.440711498260498,
	"learning_rate": 2.511566424322538e-08,
	"loss": 0.8026,
	"step": 3045
	},
	{
	"epoch": 0.9775641025641025,
	"grad_norm": 2.9105708599090576,
	"learning_rate": 2.3463317911434237e-08,
	"loss": 0.67,
	"step": 3050
	},
	{
	"epoch": 0.9791666666666666,
	"grad_norm": 5.284862518310547,
	"learning_rate": 2.1810971579643092e-08,
	"loss": 0.7455,
	"step": 3055
	},
	{
	"epoch": 0.9807692307692307,
	"grad_norm": 3.7022602558135986,
	"learning_rate": 2.015862524785195e-08,
	"loss": 0.7627,
	"step": 3060
	},
	{
	"epoch": 0.9823717948717948,
	"grad_norm": 7.428618907928467,
	"learning_rate": 1.850627891606081e-08,
	"loss": 0.7116,
	"step": 3065
	},
	{
	"epoch": 0.9839743589743589,
	"grad_norm": 6.064960956573486,
	"learning_rate": 1.685393258426966e-08,
	"loss": 0.8331,
	"step": 3070
	},
	{
	"epoch": 0.9855769230769231,
	"grad_norm": 6.40654182434082,
	"learning_rate": 1.520158625247852e-08,
	"loss": 0.7827,
	"step": 3075
	},
	{
	"epoch": 0.9871794871794872,
	"grad_norm": 4.364375114440918,
	"learning_rate": 1.3549239920687375e-08,
	"loss": 0.8266,
	"step": 3080
	},
	{
	"epoch": 0.9887820512820513,
	"grad_norm": 6.127290725708008,
	"learning_rate": 1.1896893588896232e-08,
	"loss": 0.7636,
	"step": 3085
	},
	{
	"epoch": 0.9903846153846154,
	"grad_norm": 2.9324896335601807,
	"learning_rate": 1.0244547257105088e-08,
	"loss": 0.6256,
	"step": 3090
	},
	{
	"epoch": 0.9919871794871795,
	"grad_norm": 3.2810983657836914,
	"learning_rate": 8.592200925313947e-09,
	"loss": 0.7826,
	"step": 3095
	},
	{
	"epoch": 0.9935897435897436,
	"grad_norm": 5.652727127075195,
	"learning_rate": 6.939854593522802e-09,
	"loss": 0.6604,
	"step": 3100
	},
	{
	"epoch": 0.9951923076923077,
	"grad_norm": 3.927150011062622,
	"learning_rate": 5.287508261731658e-09,
	"loss": 0.7523,
	"step": 3105
	},
	{
	"epoch": 0.9967948717948718,
	"grad_norm": 4.154155731201172,
	"learning_rate": 3.6351619299405156e-09,
	"loss": 0.7649,
	"step": 3110
	},
	{
	"epoch": 0.9983974358974359,
	"grad_norm": 6.479323387145996,
	"learning_rate": 1.9828155981493722e-09,
	"loss": 0.731,
	"step": 3115
	},
	{
	"epoch": 1.0,
	"grad_norm": 3.997898817062378,
	"learning_rate": 3.3046926635822863e-10,
	"loss": 0.8839,
	"step": 3120
	},
	{
	"epoch": 1.0,
	"step": 3120,
	"total_flos": 9.05641071889875e+17,
	"train_loss": 0.8058771748573352,
	"train_runtime": 7172.3863,
	"train_samples_per_second": 6.959,
	"train_steps_per_second": 0.435
	}
	],
	"logging_steps": 5,
	"max_steps": 3120,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.05641071889875e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}