Upload folder using huggingface_hub

34fd41f verified 3 months ago

43.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.997968855788761,
	"eval_steps": 50,
	"global_step": 1107,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013540961408259987,
	"grad_norm": 18.463732975176427,
	"learning_rate": 5e-07,
	"loss": 1.749,
	"step": 5
	},
	{
	"epoch": 0.027081922816519974,
	"grad_norm": 12.15126324106773,
	"learning_rate": 1e-06,
	"loss": 1.5921,
	"step": 10
	},
	{
	"epoch": 0.040622884224779957,
	"grad_norm": 7.7718176367972,
	"learning_rate": 9.9994874230328e-07,
	"loss": 1.2948,
	"step": 15
	},
	{
	"epoch": 0.05416384563303995,
	"grad_norm": 4.024003853982352,
	"learning_rate": 9.997949797225268e-07,
	"loss": 1.1393,
	"step": 20
	},
	{
	"epoch": 0.06770480704129993,
	"grad_norm": 3.796718690402949,
	"learning_rate": 9.995387437838025e-07,
	"loss": 1.0604,
	"step": 25
	},
	{
	"epoch": 0.08124576844955991,
	"grad_norm": 3.4511274356883295,
	"learning_rate": 9.991800870233637e-07,
	"loss": 1.0272,
	"step": 30
	},
	{
	"epoch": 0.0947867298578199,
	"grad_norm": 3.6605756447735724,
	"learning_rate": 9.98719082976888e-07,
	"loss": 1.003,
	"step": 35
	},
	{
	"epoch": 0.1083276912660799,
	"grad_norm": 3.5416553128618156,
	"learning_rate": 9.981558261643982e-07,
	"loss": 0.9719,
	"step": 40
	},
	{
	"epoch": 0.12186865267433988,
	"grad_norm": 3.5000585696846245,
	"learning_rate": 9.97490432070881e-07,
	"loss": 0.9584,
	"step": 45
	},
	{
	"epoch": 0.13540961408259986,
	"grad_norm": 3.805541453776684,
	"learning_rate": 9.967230371226118e-07,
	"loss": 0.9444,
	"step": 50
	},
	{
	"epoch": 0.13540961408259986,
	"eval_loss": 0.9377400875091553,
	"eval_runtime": 182.856,
	"eval_samples_per_second": 57.422,
	"eval_steps_per_second": 0.902,
	"step": 50
	},
	{
	"epoch": 0.14895057549085985,
	"grad_norm": 3.6018765357986844,
	"learning_rate": 9.958537986591803e-07,
	"loss": 0.9198,
	"step": 55
	},
	{
	"epoch": 0.16249153689911983,
	"grad_norm": 3.5280703732572545,
	"learning_rate": 9.948828949012327e-07,
	"loss": 0.9181,
	"step": 60
	},
	{
	"epoch": 0.17603249830737983,
	"grad_norm": 3.6595010678642925,
	"learning_rate": 9.938105249139305e-07,
	"loss": 0.9296,
	"step": 65
	},
	{
	"epoch": 0.1895734597156398,
	"grad_norm": 3.323630668058957,
	"learning_rate": 9.92636908566136e-07,
	"loss": 0.9241,
	"step": 70
	},
	{
	"epoch": 0.2031144211238998,
	"grad_norm": 3.425849289666098,
	"learning_rate": 9.913622864853324e-07,
	"loss": 0.8917,
	"step": 75
	},
	{
	"epoch": 0.2166553825321598,
	"grad_norm": 3.9967436509747025,
	"learning_rate": 9.89986920008288e-07,
	"loss": 0.8988,
	"step": 80
	},
	{
	"epoch": 0.23019634394041977,
	"grad_norm": 3.436149937331634,
	"learning_rate": 9.885110911274738e-07,
	"loss": 0.8774,
	"step": 85
	},
	{
	"epoch": 0.24373730534867977,
	"grad_norm": 3.642660003309155,
	"learning_rate": 9.869351024332466e-07,
	"loss": 0.8787,
	"step": 90
	},
	{
	"epoch": 0.25727826675693977,
	"grad_norm": 3.3574313517064978,
	"learning_rate": 9.852592770518082e-07,
	"loss": 0.8897,
	"step": 95
	},
	{
	"epoch": 0.2708192281651997,
	"grad_norm": 3.534867148811258,
	"learning_rate": 9.834839585789557e-07,
	"loss": 0.8668,
	"step": 100
	},
	{
	"epoch": 0.2708192281651997,
	"eval_loss": 0.8815732002258301,
	"eval_runtime": 182.989,
	"eval_samples_per_second": 57.38,
	"eval_steps_per_second": 0.902,
	"step": 100
	},
	{
	"epoch": 0.2843601895734597,
	"grad_norm": 3.476334412992533,
	"learning_rate": 9.816095110096324e-07,
	"loss": 0.8806,
	"step": 105
	},
	{
	"epoch": 0.2979011509817197,
	"grad_norm": 3.5218146742622856,
	"learning_rate": 9.796363186632983e-07,
	"loss": 0.8895,
	"step": 110
	},
	{
	"epoch": 0.3114421123899797,
	"grad_norm": 3.6344919656503545,
	"learning_rate": 9.775647861051328e-07,
	"loss": 0.8675,
	"step": 115
	},
	{
	"epoch": 0.32498307379823965,
	"grad_norm": 3.8058175800193537,
	"learning_rate": 9.753953380630862e-07,
	"loss": 0.8739,
	"step": 120
	},
	{
	"epoch": 0.33852403520649965,
	"grad_norm": 3.5458347600694515,
	"learning_rate": 9.731284193407981e-07,
	"loss": 0.8536,
	"step": 125
	},
	{
	"epoch": 0.35206499661475965,
	"grad_norm": 3.4919069279296138,
	"learning_rate": 9.707644947263975e-07,
	"loss": 0.8598,
	"step": 130
	},
	{
	"epoch": 0.36560595802301965,
	"grad_norm": 3.2003162498092848,
	"learning_rate": 9.683040488972086e-07,
	"loss": 0.8628,
	"step": 135
	},
	{
	"epoch": 0.3791469194312796,
	"grad_norm": 3.337658064243358,
	"learning_rate": 9.657475863203756e-07,
	"loss": 0.8633,
	"step": 140
	},
	{
	"epoch": 0.3926878808395396,
	"grad_norm": 3.4844992093115987,
	"learning_rate": 9.63095631149432e-07,
	"loss": 0.859,
	"step": 145
	},
	{
	"epoch": 0.4062288422477996,
	"grad_norm": 3.5999127416589296,
	"learning_rate": 9.603487271168336e-07,
	"loss": 0.8436,
	"step": 150
	},
	{
	"epoch": 0.4062288422477996,
	"eval_loss": 0.8559273481369019,
	"eval_runtime": 182.9208,
	"eval_samples_per_second": 57.402,
	"eval_steps_per_second": 0.902,
	"step": 150
	},
	{
	"epoch": 0.4197698036560596,
	"grad_norm": 3.4543800855029807,
	"learning_rate": 9.575074374224758e-07,
	"loss": 0.8431,
	"step": 155
	},
	{
	"epoch": 0.4333107650643196,
	"grad_norm": 3.574884162982998,
	"learning_rate": 9.545723446182201e-07,
	"loss": 0.8466,
	"step": 160
	},
	{
	"epoch": 0.44685172647257954,
	"grad_norm": 3.230714522717894,
	"learning_rate": 9.515440504884539e-07,
	"loss": 0.829,
	"step": 165
	},
	{
	"epoch": 0.46039268788083954,
	"grad_norm": 3.38192753716993,
	"learning_rate": 9.484231759267054e-07,
	"loss": 0.8462,
	"step": 170
	},
	{
	"epoch": 0.47393364928909953,
	"grad_norm": 3.562118447176729,
	"learning_rate": 9.452103608083417e-07,
	"loss": 0.8602,
	"step": 175
	},
	{
	"epoch": 0.48747461069735953,
	"grad_norm": 3.2476691940428353,
	"learning_rate": 9.419062638593748e-07,
	"loss": 0.8266,
	"step": 180
	},
	{
	"epoch": 0.5010155721056195,
	"grad_norm": 3.494748883924626,
	"learning_rate": 9.385115625214021e-07,
	"loss": 0.8219,
	"step": 185
	},
	{
	"epoch": 0.5145565335138795,
	"grad_norm": 3.4365818103766452,
	"learning_rate": 9.350269528127101e-07,
	"loss": 0.8438,
	"step": 190
	},
	{
	"epoch": 0.5280974949221394,
	"grad_norm": 3.245299565361765,
	"learning_rate": 9.31453149185569e-07,
	"loss": 0.8337,
	"step": 195
	},
	{
	"epoch": 0.5416384563303994,
	"grad_norm": 3.603292666759954,
	"learning_rate": 9.277908843797492e-07,
	"loss": 0.8192,
	"step": 200
	},
	{
	"epoch": 0.5416384563303994,
	"eval_loss": 0.8383815884590149,
	"eval_runtime": 183.0029,
	"eval_samples_per_second": 57.376,
	"eval_steps_per_second": 0.902,
	"step": 200
	},
	{
	"epoch": 0.5551794177386594,
	"grad_norm": 3.3561089172228797,
	"learning_rate": 9.240409092722852e-07,
	"loss": 0.8483,
	"step": 205
	},
	{
	"epoch": 0.5687203791469194,
	"grad_norm": 3.351512113878825,
	"learning_rate": 9.20203992723524e-07,
	"loss": 0.8109,
	"step": 210
	},
	{
	"epoch": 0.5822613405551794,
	"grad_norm": 3.4763361691712293,
	"learning_rate": 9.162809214194851e-07,
	"loss": 0.8335,
	"step": 215
	},
	{
	"epoch": 0.5958023019634394,
	"grad_norm": 3.292224110319897,
	"learning_rate": 9.122724997105646e-07,
	"loss": 0.8465,
	"step": 220
	},
	{
	"epoch": 0.6093432633716994,
	"grad_norm": 3.566456464228769,
	"learning_rate": 9.0817954944662e-07,
	"loss": 0.8257,
	"step": 225
	},
	{
	"epoch": 0.6228842247799594,
	"grad_norm": 3.6677580289310088,
	"learning_rate": 9.040029098084643e-07,
	"loss": 0.8479,
	"step": 230
	},
	{
	"epoch": 0.6364251861882194,
	"grad_norm": 3.4606320291357546,
	"learning_rate": 8.997434371358092e-07,
	"loss": 0.8412,
	"step": 235
	},
	{
	"epoch": 0.6499661475964793,
	"grad_norm": 3.2432058195015467,
	"learning_rate": 8.954020047516884e-07,
	"loss": 0.7984,
	"step": 240
	},
	{
	"epoch": 0.6635071090047393,
	"grad_norm": 3.24817794736711,
	"learning_rate": 8.909795027833996e-07,
	"loss": 0.834,
	"step": 245
	},
	{
	"epoch": 0.6770480704129993,
	"grad_norm": 3.653634156312455,
	"learning_rate": 8.864768379800016e-07,
	"loss": 0.8285,
	"step": 250
	},
	{
	"epoch": 0.6770480704129993,
	"eval_loss": 0.8261091709136963,
	"eval_runtime": 182.9038,
	"eval_samples_per_second": 57.407,
	"eval_steps_per_second": 0.902,
	"step": 250
	},
	{
	"epoch": 0.6905890318212593,
	"grad_norm": 3.5255613554356384,
	"learning_rate": 8.81894933526402e-07,
	"loss": 0.8322,
	"step": 255
	},
	{
	"epoch": 0.7041299932295193,
	"grad_norm": 3.727303124024427,
	"learning_rate": 8.772347288540763e-07,
	"loss": 0.8384,
	"step": 260
	},
	{
	"epoch": 0.7176709546377793,
	"grad_norm": 3.731075409838065,
	"learning_rate": 8.724971794484555e-07,
	"loss": 0.8263,
	"step": 265
	},
	{
	"epoch": 0.7312119160460393,
	"grad_norm": 3.6981830618689484,
	"learning_rate": 8.676832566530221e-07,
	"loss": 0.8165,
	"step": 270
	},
	{
	"epoch": 0.7447528774542993,
	"grad_norm": 3.498794505216147,
	"learning_rate": 8.62793947470155e-07,
	"loss": 0.8037,
	"step": 275
	},
	{
	"epoch": 0.7582938388625592,
	"grad_norm": 3.5635605377852024,
	"learning_rate": 8.578302543587629e-07,
	"loss": 0.7896,
	"step": 280
	},
	{
	"epoch": 0.7718348002708192,
	"grad_norm": 3.63798214652303,
	"learning_rate": 8.527931950287506e-07,
	"loss": 0.8129,
	"step": 285
	},
	{
	"epoch": 0.7853757616790792,
	"grad_norm": 3.518857236471562,
	"learning_rate": 8.47683802232356e-07,
	"loss": 0.8182,
	"step": 290
	},
	{
	"epoch": 0.7989167230873392,
	"grad_norm": 3.5608373625732694,
	"learning_rate": 8.425031235524045e-07,
	"loss": 0.8256,
	"step": 295
	},
	{
	"epoch": 0.8124576844955992,
	"grad_norm": 3.6755850332375286,
	"learning_rate": 8.372522211875224e-07,
	"loss": 0.8132,
	"step": 300
	},
	{
	"epoch": 0.8124576844955992,
	"eval_loss": 0.8165345191955566,
	"eval_runtime": 182.8879,
	"eval_samples_per_second": 57.412,
	"eval_steps_per_second": 0.902,
	"step": 300
	},
	{
	"epoch": 0.8259986459038592,
	"grad_norm": 3.596321476724727,
	"learning_rate": 8.319321717343535e-07,
	"loss": 0.8149,
	"step": 305
	},
	{
	"epoch": 0.8395396073121192,
	"grad_norm": 3.7225323914645747,
	"learning_rate": 8.265440659668234e-07,
	"loss": 0.8124,
	"step": 310
	},
	{
	"epoch": 0.8530805687203792,
	"grad_norm": 3.5663300158516016,
	"learning_rate": 8.210890086124977e-07,
	"loss": 0.7906,
	"step": 315
	},
	{
	"epoch": 0.8666215301286392,
	"grad_norm": 3.4256587260000604,
	"learning_rate": 8.155681181260776e-07,
	"loss": 0.81,
	"step": 320
	},
	{
	"epoch": 0.8801624915368991,
	"grad_norm": 3.4929314527584077,
	"learning_rate": 8.099825264600842e-07,
	"loss": 0.818,
	"step": 325
	},
	{
	"epoch": 0.8937034529451591,
	"grad_norm": 3.5559616159997742,
	"learning_rate": 8.04333378832772e-07,
	"loss": 0.8067,
	"step": 330
	},
	{
	"epoch": 0.9072444143534191,
	"grad_norm": 3.3786924383796544,
	"learning_rate": 7.98621833493324e-07,
	"loss": 0.802,
	"step": 335
	},
	{
	"epoch": 0.9207853757616791,
	"grad_norm": 3.6281675631205377,
	"learning_rate": 7.928490614843757e-07,
	"loss": 0.7991,
	"step": 340
	},
	{
	"epoch": 0.9343263371699391,
	"grad_norm": 3.5783671775239068,
	"learning_rate": 7.870162464019143e-07,
	"loss": 0.7961,
	"step": 345
	},
	{
	"epoch": 0.9478672985781991,
	"grad_norm": 3.523112182862875,
	"learning_rate": 7.811245841526062e-07,
	"loss": 0.7997,
	"step": 350
	},
	{
	"epoch": 0.9478672985781991,
	"eval_loss": 0.8075853586196899,
	"eval_runtime": 182.8371,
	"eval_samples_per_second": 57.428,
	"eval_steps_per_second": 0.902,
	"step": 350
	},
	{
	"epoch": 0.9614082599864591,
	"grad_norm": 3.327823061584991,
	"learning_rate": 7.75175282708598e-07,
	"loss": 0.7955,
	"step": 355
	},
	{
	"epoch": 0.9749492213947191,
	"grad_norm": 3.353254883691996,
	"learning_rate": 7.691695618598466e-07,
	"loss": 0.7945,
	"step": 360
	},
	{
	"epoch": 0.988490182802979,
	"grad_norm": 3.4573365027199547,
	"learning_rate": 7.631086529640229e-07,
	"loss": 0.8037,
	"step": 365
	},
	{
	"epoch": 1.002031144211239,
	"grad_norm": 3.704603819142361,
	"learning_rate": 7.569937986940475e-07,
	"loss": 0.7833,
	"step": 370
	},
	{
	"epoch": 1.015572105619499,
	"grad_norm": 3.338765249405955,
	"learning_rate": 7.508262527833028e-07,
	"loss": 0.736,
	"step": 375
	},
	{
	"epoch": 1.029113067027759,
	"grad_norm": 3.5005014577141154,
	"learning_rate": 7.446072797685799e-07,
	"loss": 0.7393,
	"step": 380
	},
	{
	"epoch": 1.042654028436019,
	"grad_norm": 3.5415652623772753,
	"learning_rate": 7.383381547308099e-07,
	"loss": 0.7461,
	"step": 385
	},
	{
	"epoch": 1.0561949898442788,
	"grad_norm": 3.430934641227424,
	"learning_rate": 7.320201630336318e-07,
	"loss": 0.7359,
	"step": 390
	},
	{
	"epoch": 1.0697359512525388,
	"grad_norm": 3.6468766296195896,
	"learning_rate": 7.256546000598551e-07,
	"loss": 0.7306,
	"step": 395
	},
	{
	"epoch": 1.0832769126607988,
	"grad_norm": 4.055674159253643,
	"learning_rate": 7.192427709458655e-07,
	"loss": 0.7335,
	"step": 400
	},
	{
	"epoch": 1.0832769126607988,
	"eval_loss": 0.804972231388092,
	"eval_runtime": 182.8412,
	"eval_samples_per_second": 57.427,
	"eval_steps_per_second": 0.902,
	"step": 400
	},
	{
	"epoch": 1.0968178740690588,
	"grad_norm": 3.7131013971600244,
	"learning_rate": 7.127859903140311e-07,
	"loss": 0.7346,
	"step": 405
	},
	{
	"epoch": 1.1103588354773188,
	"grad_norm": 3.496845579088122,
	"learning_rate": 7.062855820031659e-07,
	"loss": 0.7409,
	"step": 410
	},
	{
	"epoch": 1.1238997968855788,
	"grad_norm": 3.652963743841258,
	"learning_rate": 6.997428787971005e-07,
	"loss": 0.7236,
	"step": 415
	},
	{
	"epoch": 1.1374407582938388,
	"grad_norm": 3.6316016258989916,
	"learning_rate": 6.93159222151422e-07,
	"loss": 0.734,
	"step": 420
	},
	{
	"epoch": 1.1509817197020988,
	"grad_norm": 4.106556416672479,
	"learning_rate": 6.86535961918433e-07,
	"loss": 0.7425,
	"step": 425
	},
	{
	"epoch": 1.1645226811103588,
	"grad_norm": 3.4406596945092764,
	"learning_rate": 6.798744560703904e-07,
	"loss": 0.7271,
	"step": 430
	},
	{
	"epoch": 1.1780636425186188,
	"grad_norm": 3.5644142212223886,
	"learning_rate": 6.731760704210802e-07,
	"loss": 0.729,
	"step": 435
	},
	{
	"epoch": 1.1916046039268788,
	"grad_norm": 3.5207779341108316,
	"learning_rate": 6.66442178345783e-07,
	"loss": 0.7295,
	"step": 440
	},
	{
	"epoch": 1.2051455653351388,
	"grad_norm": 3.8426763234364643,
	"learning_rate": 6.596741604996897e-07,
	"loss": 0.7285,
	"step": 445
	},
	{
	"epoch": 1.2186865267433988,
	"grad_norm": 3.537416567969802,
	"learning_rate": 6.528734045348248e-07,
	"loss": 0.7466,
	"step": 450
	},
	{
	"epoch": 1.2186865267433988,
	"eval_loss": 0.7996942400932312,
	"eval_runtime": 182.8629,
	"eval_samples_per_second": 57.42,
	"eval_steps_per_second": 0.902,
	"step": 450
	},
	{
	"epoch": 1.2322274881516588,
	"grad_norm": 3.5566566741869603,
	"learning_rate": 6.460413048155354e-07,
	"loss": 0.7291,
	"step": 455
	},
	{
	"epoch": 1.2457684495599188,
	"grad_norm": 3.6983928953608323,
	"learning_rate": 6.391792621326027e-07,
	"loss": 0.7502,
	"step": 460
	},
	{
	"epoch": 1.2593094109681786,
	"grad_norm": 3.679881191981186,
	"learning_rate": 6.322886834160377e-07,
	"loss": 0.7375,
	"step": 465
	},
	{
	"epoch": 1.2728503723764386,
	"grad_norm": 3.635647992456833,
	"learning_rate": 6.253709814466167e-07,
	"loss": 0.7446,
	"step": 470
	},
	{
	"epoch": 1.2863913337846986,
	"grad_norm": 3.7784368285832675,
	"learning_rate": 6.184275745662179e-07,
	"loss": 0.7307,
	"step": 475
	},
	{
	"epoch": 1.2999322951929586,
	"grad_norm": 3.975716487359526,
	"learning_rate": 6.114598863870178e-07,
	"loss": 0.727,
	"step": 480
	},
	{
	"epoch": 1.3134732566012186,
	"grad_norm": 3.8898112879763818,
	"learning_rate": 6.044693454996059e-07,
	"loss": 0.7351,
	"step": 485
	},
	{
	"epoch": 1.3270142180094786,
	"grad_norm": 3.883701681898452,
	"learning_rate": 5.974573851800817e-07,
	"loss": 0.7376,
	"step": 490
	},
	{
	"epoch": 1.3405551794177386,
	"grad_norm": 3.5463439014644695,
	"learning_rate": 5.904254430961869e-07,
	"loss": 0.7413,
	"step": 495
	},
	{
	"epoch": 1.3540961408259986,
	"grad_norm": 3.5029550543033374,
	"learning_rate": 5.833749610125401e-07,
	"loss": 0.7264,
	"step": 500
	},
	{
	"epoch": 1.3540961408259986,
	"eval_loss": 0.7957150340080261,
	"eval_runtime": 182.9392,
	"eval_samples_per_second": 57.396,
	"eval_steps_per_second": 0.902,
	"step": 500
	},
	{
	"epoch": 1.3676371022342586,
	"grad_norm": 3.9766897722099124,
	"learning_rate": 5.763073844950309e-07,
	"loss": 0.7327,
	"step": 505
	},
	{
	"epoch": 1.3811780636425186,
	"grad_norm": 3.80954804006231,
	"learning_rate": 5.69224162614434e-07,
	"loss": 0.7443,
	"step": 510
	},
	{
	"epoch": 1.3947190250507786,
	"grad_norm": 3.524183540063996,
	"learning_rate": 5.621267476493052e-07,
	"loss": 0.7345,
	"step": 515
	},
	{
	"epoch": 1.4082599864590386,
	"grad_norm": 3.620522282934874,
	"learning_rate": 5.550165947882196e-07,
	"loss": 0.7236,
	"step": 520
	},
	{
	"epoch": 1.4218009478672986,
	"grad_norm": 3.768208934721801,
	"learning_rate": 5.478951618314132e-07,
	"loss": 0.7165,
	"step": 525
	},
	{
	"epoch": 1.4353419092755586,
	"grad_norm": 3.5182066154018345,
	"learning_rate": 5.407639088918888e-07,
	"loss": 0.7297,
	"step": 530
	},
	{
	"epoch": 1.4488828706838186,
	"grad_norm": 3.824867160497226,
	"learning_rate": 5.33624298096048e-07,
	"loss": 0.7307,
	"step": 535
	},
	{
	"epoch": 1.4624238320920786,
	"grad_norm": 3.488297423659722,
	"learning_rate": 5.264777932839104e-07,
	"loss": 0.7487,
	"step": 540
	},
	{
	"epoch": 1.4759647935003386,
	"grad_norm": 3.493644177453455,
	"learning_rate": 5.193258597089809e-07,
	"loss": 0.7291,
	"step": 545
	},
	{
	"epoch": 1.4895057549085986,
	"grad_norm": 3.6179715470055824,
	"learning_rate": 5.121699637378282e-07,
	"loss": 0.7286,
	"step": 550
	},
	{
	"epoch": 1.4895057549085986,
	"eval_loss": 0.7910673022270203,
	"eval_runtime": 182.8784,
	"eval_samples_per_second": 57.415,
	"eval_steps_per_second": 0.902,
	"step": 550
	},
	{
	"epoch": 1.5030467163168586,
	"grad_norm": 3.5922430809215777,
	"learning_rate": 5.050115725494339e-07,
	"loss": 0.7179,
	"step": 555
	},
	{
	"epoch": 1.5165876777251186,
	"grad_norm": 3.4032672519789786,
	"learning_rate": 4.978521538343764e-07,
	"loss": 0.7366,
	"step": 560
	},
	{
	"epoch": 1.5301286391333786,
	"grad_norm": 3.6567954327498327,
	"learning_rate": 4.906931754939083e-07,
	"loss": 0.7391,
	"step": 565
	},
	{
	"epoch": 1.5436696005416386,
	"grad_norm": 3.5644839916468243,
	"learning_rate": 4.835361053389921e-07,
	"loss": 0.7288,
	"step": 570
	},
	{
	"epoch": 1.5572105619498986,
	"grad_norm": 3.650299513434273,
	"learning_rate": 4.763824107893532e-07,
	"loss": 0.729,
	"step": 575
	},
	{
	"epoch": 1.5707515233581584,
	"grad_norm": 3.8055072261605116,
	"learning_rate": 4.692335585726145e-07,
	"loss": 0.7177,
	"step": 580
	},
	{
	"epoch": 1.5842924847664184,
	"grad_norm": 3.5985047420048697,
	"learning_rate": 4.6209101442357116e-07,
	"loss": 0.7224,
	"step": 585
	},
	{
	"epoch": 1.5978334461746784,
	"grad_norm": 3.547274876419971,
	"learning_rate": 4.549562427836701e-07,
	"loss": 0.7327,
	"step": 590
	},
	{
	"epoch": 1.6113744075829384,
	"grad_norm": 3.511159114275773,
	"learning_rate": 4.4783070650075537e-07,
	"loss": 0.7406,
	"step": 595
	},
	{
	"epoch": 1.6249153689911984,
	"grad_norm": 3.46127753253687,
	"learning_rate": 4.407158665291376e-07,
	"loss": 0.7251,
	"step": 600
	},
	{
	"epoch": 1.6249153689911984,
	"eval_loss": 0.7875649333000183,
	"eval_runtime": 182.8944,
	"eval_samples_per_second": 57.41,
	"eval_steps_per_second": 0.902,
	"step": 600
	},
	{
	"epoch": 1.6384563303994584,
	"grad_norm": 3.409510769647259,
	"learning_rate": 4.336131816300548e-07,
	"loss": 0.719,
	"step": 605
	},
	{
	"epoch": 1.6519972918077184,
	"grad_norm": 3.5447361212717925,
	"learning_rate": 4.265241080725808e-07,
	"loss": 0.7287,
	"step": 610
	},
	{
	"epoch": 1.6655382532159784,
	"grad_norm": 4.059666587103208,
	"learning_rate": 4.194500993350453e-07,
	"loss": 0.7399,
	"step": 615
	},
	{
	"epoch": 1.6790792146242384,
	"grad_norm": 3.774832103683009,
	"learning_rate": 4.1239260580702634e-07,
	"loss": 0.7386,
	"step": 620
	},
	{
	"epoch": 1.6926201760324981,
	"grad_norm": 3.5490582421055885,
	"learning_rate": 4.053530744919749e-07,
	"loss": 0.7246,
	"step": 625
	},
	{
	"epoch": 1.7061611374407581,
	"grad_norm": 3.747116763144729,
	"learning_rate": 3.983329487105363e-07,
	"loss": 0.7372,
	"step": 630
	},
	{
	"epoch": 1.7197020988490181,
	"grad_norm": 3.4822384940575795,
	"learning_rate": 3.913336678046232e-07,
	"loss": 0.7323,
	"step": 635
	},
	{
	"epoch": 1.7332430602572781,
	"grad_norm": 3.825022969793332,
	"learning_rate": 3.8435666684230726e-07,
	"loss": 0.7097,
	"step": 640
	},
	{
	"epoch": 1.7467840216655381,
	"grad_norm": 3.696972226883697,
	"learning_rate": 3.774033763235861e-07,
	"loss": 0.7304,
	"step": 645
	},
	{
	"epoch": 1.7603249830737981,
	"grad_norm": 3.821368374115622,
	"learning_rate": 3.7047522188708606e-07,
	"loss": 0.727,
	"step": 650
	},
	{
	"epoch": 1.7603249830737981,
	"eval_loss": 0.7839689254760742,
	"eval_runtime": 182.875,
	"eval_samples_per_second": 57.416,
	"eval_steps_per_second": 0.902,
	"step": 650
	},
	{
	"epoch": 1.7738659444820581,
	"grad_norm": 3.665010892266409,
	"learning_rate": 3.635736240177627e-07,
	"loss": 0.7223,
	"step": 655
	},
	{
	"epoch": 1.7874069058903181,
	"grad_norm": 3.8705676996293916,
	"learning_rate": 3.5669999775565816e-07,
	"loss": 0.7313,
	"step": 660
	},
	{
	"epoch": 1.8009478672985781,
	"grad_norm": 3.5842111135660057,
	"learning_rate": 3.4985575240577365e-07,
	"loss": 0.7321,
	"step": 665
	},
	{
	"epoch": 1.8144888287068381,
	"grad_norm": 3.4424140077908767,
	"learning_rate": 3.4304229124911856e-07,
	"loss": 0.7316,
	"step": 670
	},
	{
	"epoch": 1.8280297901150981,
	"grad_norm": 3.4068267304866646,
	"learning_rate": 3.362610112549955e-07,
	"loss": 0.704,
	"step": 675
	},
	{
	"epoch": 1.8415707515233581,
	"grad_norm": 3.685081317112416,
	"learning_rate": 3.295133027945778e-07,
	"loss": 0.7167,
	"step": 680
	},
	{
	"epoch": 1.8551117129316181,
	"grad_norm": 3.7176624860947345,
	"learning_rate": 3.228005493558402e-07,
	"loss": 0.7094,
	"step": 685
	},
	{
	"epoch": 1.8686526743398781,
	"grad_norm": 3.718001701556429,
	"learning_rate": 3.1612412725990305e-07,
	"loss": 0.7312,
	"step": 690
	},
	{
	"epoch": 1.8821936357481381,
	"grad_norm": 3.491455379714816,
	"learning_rate": 3.0948540537884185e-07,
	"loss": 0.7264,
	"step": 695
	},
	{
	"epoch": 1.8957345971563981,
	"grad_norm": 3.7382317800607376,
	"learning_rate": 3.0288574485502756e-07,
	"loss": 0.7277,
	"step": 700
	},
	{
	"epoch": 1.8957345971563981,
	"eval_loss": 0.7811039090156555,
	"eval_runtime": 182.9386,
	"eval_samples_per_second": 57.396,
	"eval_steps_per_second": 0.902,
	"step": 700
	},
	{
	"epoch": 1.9092755585646581,
	"grad_norm": 3.4296946924569442,
	"learning_rate": 2.9632649882205083e-07,
	"loss": 0.7287,
	"step": 705
	},
	{
	"epoch": 1.9228165199729181,
	"grad_norm": 3.810691598305239,
	"learning_rate": 2.8980901212728723e-07,
	"loss": 0.7193,
	"step": 710
	},
	{
	"epoch": 1.9363574813811781,
	"grad_norm": 3.3584278752072496,
	"learning_rate": 2.833346210561619e-07,
	"loss": 0.7112,
	"step": 715
	},
	{
	"epoch": 1.9498984427894381,
	"grad_norm": 3.5743899932997185,
	"learning_rate": 2.769046530581708e-07,
	"loss": 0.7235,
	"step": 720
	},
	{
	"epoch": 1.9634394041976981,
	"grad_norm": 3.8331759574897375,
	"learning_rate": 2.705204264747125e-07,
	"loss": 0.724,
	"step": 725
	},
	{
	"epoch": 1.9769803656059581,
	"grad_norm": 3.6084594988279908,
	"learning_rate": 2.6418325026878665e-07,
	"loss": 0.7156,
	"step": 730
	},
	{
	"epoch": 1.9905213270142181,
	"grad_norm": 3.56873955236049,
	"learning_rate": 2.578944237566174e-07,
	"loss": 0.7163,
	"step": 735
	},
	{
	"epoch": 2.004062288422478,
	"grad_norm": 4.103162581101771,
	"learning_rate": 2.5165523634125337e-07,
	"loss": 0.7161,
	"step": 740
	},
	{
	"epoch": 2.017603249830738,
	"grad_norm": 3.7064092978900844,
	"learning_rate": 2.454669672481996e-07,
	"loss": 0.6754,
	"step": 745
	},
	{
	"epoch": 2.031144211238998,
	"grad_norm": 3.6900542156905196,
	"learning_rate": 2.393308852631373e-07,
	"loss": 0.6724,
	"step": 750
	},
	{
	"epoch": 2.031144211238998,
	"eval_loss": 0.7857776880264282,
	"eval_runtime": 183.0378,
	"eval_samples_per_second": 57.365,
	"eval_steps_per_second": 0.901,
	"step": 750
	},
	{
	"epoch": 2.044685172647258,
	"grad_norm": 3.5536516436485255,
	"learning_rate": 2.3324824847178494e-07,
	"loss": 0.6887,
	"step": 755
	},
	{
	"epoch": 2.058226134055518,
	"grad_norm": 3.7965121612299564,
	"learning_rate": 2.2722030400194975e-07,
	"loss": 0.666,
	"step": 760
	},
	{
	"epoch": 2.071767095463778,
	"grad_norm": 3.7936989153822007,
	"learning_rate": 2.2124828776782955e-07,
	"loss": 0.6789,
	"step": 765
	},
	{
	"epoch": 2.085308056872038,
	"grad_norm": 3.5401816973807043,
	"learning_rate": 2.1533342421661228e-07,
	"loss": 0.6665,
	"step": 770
	},
	{
	"epoch": 2.0988490182802977,
	"grad_norm": 3.7787164350636555,
	"learning_rate": 2.0947692607742618e-07,
	"loss": 0.6755,
	"step": 775
	},
	{
	"epoch": 2.1123899796885577,
	"grad_norm": 3.9382718196335267,
	"learning_rate": 2.0367999411269282e-07,
	"loss": 0.6821,
	"step": 780
	},
	{
	"epoch": 2.1259309410968177,
	"grad_norm": 3.8112238429444782,
	"learning_rate": 1.9794381687193456e-07,
	"loss": 0.6805,
	"step": 785
	},
	{
	"epoch": 2.1394719025050777,
	"grad_norm": 3.8744335724512204,
	"learning_rate": 1.9226957044808494e-07,
	"loss": 0.6657,
	"step": 790
	},
	{
	"epoch": 2.1530128639133377,
	"grad_norm": 3.7804638456283346,
	"learning_rate": 1.866584182363528e-07,
	"loss": 0.6789,
	"step": 795
	},
	{
	"epoch": 2.1665538253215977,
	"grad_norm": 3.8021451485147963,
	"learning_rate": 1.811115106956918e-07,
	"loss": 0.6883,
	"step": 800
	},
	{
	"epoch": 2.1665538253215977,
	"eval_loss": 0.7850033044815063,
	"eval_runtime": 182.9949,
	"eval_samples_per_second": 57.379,
	"eval_steps_per_second": 0.902,
	"step": 800
	},
	{
	"epoch": 2.1800947867298577,
	"grad_norm": 3.864215108703362,
	"learning_rate": 1.7562998511291943e-07,
	"loss": 0.6811,
	"step": 805
	},
	{
	"epoch": 2.1936357481381177,
	"grad_norm": 3.8300913859664667,
	"learning_rate": 1.702149653695395e-07,
	"loss": 0.6766,
	"step": 810
	},
	{
	"epoch": 2.2071767095463777,
	"grad_norm": 3.8635188226813666,
	"learning_rate": 1.6486756171131062e-07,
	"loss": 0.675,
	"step": 815
	},
	{
	"epoch": 2.2207176709546377,
	"grad_norm": 3.9283113465457355,
	"learning_rate": 1.595888705206128e-07,
	"loss": 0.6678,
	"step": 820
	},
	{
	"epoch": 2.2342586323628977,
	"grad_norm": 3.726732058605602,
	"learning_rate": 1.5437997409165476e-07,
	"loss": 0.6733,
	"step": 825
	},
	{
	"epoch": 2.2477995937711577,
	"grad_norm": 3.6073721199402318,
	"learning_rate": 1.4924194040856973e-07,
	"loss": 0.6794,
	"step": 830
	},
	{
	"epoch": 2.2613405551794177,
	"grad_norm": 3.920320006141431,
	"learning_rate": 1.4417582292644691e-07,
	"loss": 0.6871,
	"step": 835
	},
	{
	"epoch": 2.2748815165876777,
	"grad_norm": 3.781911882917061,
	"learning_rate": 1.3918266035534027e-07,
	"loss": 0.6774,
	"step": 840
	},
	{
	"epoch": 2.2884224779959377,
	"grad_norm": 4.013058729107201,
	"learning_rate": 1.3426347644730047e-07,
	"loss": 0.6816,
	"step": 845
	},
	{
	"epoch": 2.3019634394041977,
	"grad_norm": 3.776810144116961,
	"learning_rate": 1.2941927978647526e-07,
	"loss": 0.6709,
	"step": 850
	},
	{
	"epoch": 2.3019634394041977,
	"eval_loss": 0.7840232253074646,
	"eval_runtime": 182.9773,
	"eval_samples_per_second": 57.384,
	"eval_steps_per_second": 0.902,
	"step": 850
	},
	{
	"epoch": 2.3155044008124577,
	"grad_norm": 4.0267886200903344,
	"learning_rate": 1.2465106358231753e-07,
	"loss": 0.6765,
	"step": 855
	},
	{
	"epoch": 2.3290453622207177,
	"grad_norm": 3.79514301881657,
	"learning_rate": 1.1995980546594775e-07,
	"loss": 0.6633,
	"step": 860
	},
	{
	"epoch": 2.3425863236289777,
	"grad_norm": 3.7026026349952086,
	"learning_rate": 1.153464672897091e-07,
	"loss": 0.678,
	"step": 865
	},
	{
	"epoch": 2.3561272850372377,
	"grad_norm": 3.977299316585606,
	"learning_rate": 1.108119949299578e-07,
	"loss": 0.6875,
	"step": 870
	},
	{
	"epoch": 2.3696682464454977,
	"grad_norm": 3.9505974017459544,
	"learning_rate": 1.0635731809312992e-07,
	"loss": 0.6955,
	"step": 875
	},
	{
	"epoch": 2.3832092078537577,
	"grad_norm": 3.9944161998447116,
	"learning_rate": 1.0198335012512271e-07,
	"loss": 0.6843,
	"step": 880
	},
	{
	"epoch": 2.3967501692620177,
	"grad_norm": 4.08644897660094,
	"learning_rate": 9.769098782403041e-08,
	"loss": 0.7081,
	"step": 885
	},
	{
	"epoch": 2.4102911306702777,
	"grad_norm": 4.033807984306314,
	"learning_rate": 9.348111125627278e-08,
	"loss": 0.6758,
	"step": 890
	},
	{
	"epoch": 2.4238320920785377,
	"grad_norm": 3.615156557294799,
	"learning_rate": 8.935458357615583e-08,
	"loss": 0.6718,
	"step": 895
	},
	{
	"epoch": 2.4373730534867977,
	"grad_norm": 3.876477554855966,
	"learning_rate": 8.531225084889654e-08,
	"loss": 0.6598,
	"step": 900
	},
	{
	"epoch": 2.4373730534867977,
	"eval_loss": 0.7834283113479614,
	"eval_runtime": 183.0709,
	"eval_samples_per_second": 57.355,
	"eval_steps_per_second": 0.901,
	"step": 900
	},
	{
	"epoch": 2.4509140148950577,
	"grad_norm": 3.6988949380997336,
	"learning_rate": 8.135494187715475e-08,
	"loss": 0.6603,
	"step": 905
	},
	{
	"epoch": 2.4644549763033177,
	"grad_norm": 3.931452073089016,
	"learning_rate": 7.748346803110295e-08,
	"loss": 0.6832,
	"step": 910
	},
	{
	"epoch": 2.4779959377115777,
	"grad_norm": 3.8160191178139047,
	"learning_rate": 7.369862308207025e-08,
	"loss": 0.6583,
	"step": 915
	},
	{
	"epoch": 2.4915368991198377,
	"grad_norm": 3.8469114382677874,
	"learning_rate": 7.000118303979463e-08,
	"loss": 0.6808,
	"step": 920
	},
	{
	"epoch": 2.5050778605280977,
	"grad_norm": 3.7497256852290115,
	"learning_rate": 6.639190599331746e-08,
	"loss": 0.6762,
	"step": 925
	},
	{
	"epoch": 2.518618821936357,
	"grad_norm": 3.663314489242292,
	"learning_rate": 6.287153195555173e-08,
	"loss": 0.6663,
	"step": 930
	},
	{
	"epoch": 2.5321597833446177,
	"grad_norm": 3.8930436232018333,
	"learning_rate": 5.944078271155639e-08,
	"loss": 0.6648,
	"step": 935
	},
	{
	"epoch": 2.545700744752877,
	"grad_norm": 3.6616608952378904,
	"learning_rate": 5.610036167054838e-08,
	"loss": 0.6596,
	"step": 940
	},
	{
	"epoch": 2.5592417061611377,
	"grad_norm": 3.986331709466641,
	"learning_rate": 5.2850953721682635e-08,
	"loss": 0.669,
	"step": 945
	},
	{
	"epoch": 2.572782667569397,
	"grad_norm": 3.960581833122488,
	"learning_rate": 4.969322509362761e-08,
	"loss": 0.674,
	"step": 950
	},
	{
	"epoch": 2.572782667569397,
	"eval_loss": 0.7830283641815186,
	"eval_runtime": 182.8342,
	"eval_samples_per_second": 57.429,
	"eval_steps_per_second": 0.902,
	"step": 950
	},
	{
	"epoch": 2.5863236289776577,
	"grad_norm": 3.8618441431288217,
	"learning_rate": 4.662782321796849e-08,
	"loss": 0.6713,
	"step": 955
	},
	{
	"epoch": 2.599864590385917,
	"grad_norm": 3.5409233232724335,
	"learning_rate": 4.365537659646418e-08,
	"loss": 0.6747,
	"step": 960
	},
	{
	"epoch": 2.6134055517941777,
	"grad_norm": 3.744738202206873,
	"learning_rate": 4.0776494672184356e-08,
	"loss": 0.6846,
	"step": 965
	},
	{
	"epoch": 2.626946513202437,
	"grad_norm": 3.727245201869487,
	"learning_rate": 3.799176770455526e-08,
	"loss": 0.6616,
	"step": 970
	},
	{
	"epoch": 2.640487474610697,
	"grad_norm": 3.7258573002382147,
	"learning_rate": 3.530176664833834e-08,
	"loss": 0.675,
	"step": 975
	},
	{
	"epoch": 2.654028436018957,
	"grad_norm": 3.869690791825916,
	"learning_rate": 3.270704303656696e-08,
	"loss": 0.6875,
	"step": 980
	},
	{
	"epoch": 2.667569397427217,
	"grad_norm": 4.064616477774205,
	"learning_rate": 3.020812886746477e-08,
	"loss": 0.6808,
	"step": 985
	},
	{
	"epoch": 2.681110358835477,
	"grad_norm": 3.704371552936023,
	"learning_rate": 2.7805536495370373e-08,
	"loss": 0.6687,
	"step": 990
	},
	{
	"epoch": 2.694651320243737,
	"grad_norm": 4.055603563401218,
	"learning_rate": 2.5499758525688197e-08,
	"loss": 0.6584,
	"step": 995
	},
	{
	"epoch": 2.708192281651997,
	"grad_norm": 3.749384489878185,
	"learning_rate": 2.329126771388995e-08,
	"loss": 0.656,
	"step": 1000
	},
	{
	"epoch": 2.708192281651997,
	"eval_loss": 0.7828182578086853,
	"eval_runtime": 182.6838,
	"eval_samples_per_second": 57.476,
	"eval_steps_per_second": 0.903,
	"step": 1000
	},
	{
	"epoch": 2.721733243060257,
	"grad_norm": 3.869599930871293,
	"learning_rate": 2.1180516868584464e-08,
	"loss": 0.6716,
	"step": 1005
	},
	{
	"epoch": 2.735274204468517,
	"grad_norm": 3.930506514677681,
	"learning_rate": 1.916793875867839e-08,
	"loss": 0.6822,
	"step": 1010
	},
	{
	"epoch": 2.748815165876777,
	"grad_norm": 3.8320813018837616,
	"learning_rate": 1.7253946024645472e-08,
	"loss": 0.6627,
	"step": 1015
	},
	{
	"epoch": 2.762356127285037,
	"grad_norm": 3.986150848206186,
	"learning_rate": 1.5438931093921804e-08,
	"loss": 0.6727,
	"step": 1020
	},
	{
	"epoch": 2.775897088693297,
	"grad_norm": 3.764718626888124,
	"learning_rate": 1.372326610044705e-08,
	"loss": 0.6618,
	"step": 1025
	},
	{
	"epoch": 2.789438050101557,
	"grad_norm": 3.7384921853849393,
	"learning_rate": 1.2107302808364638e-08,
	"loss": 0.6614,
	"step": 1030
	},
	{
	"epoch": 2.802979011509817,
	"grad_norm": 3.8134941063063867,
	"learning_rate": 1.0591372539900056e-08,
	"loss": 0.6665,
	"step": 1035
	},
	{
	"epoch": 2.816519972918077,
	"grad_norm": 3.7735093872780197,
	"learning_rate": 9.175786107429085e-09,
	"loss": 0.6643,
	"step": 1040
	},
	{
	"epoch": 2.830060934326337,
	"grad_norm": 3.987550484105897,
	"learning_rate": 7.860833749751772e-09,
	"loss": 0.6739,
	"step": 1045
	},
	{
	"epoch": 2.843601895734597,
	"grad_norm": 3.9380769036431893,
	"learning_rate": 6.6467850725848705e-09,
	"loss": 0.6741,
	"step": 1050
	},
	{
	"epoch": 2.843601895734597,
	"eval_loss": 0.7824584245681763,
	"eval_runtime": 183.0944,
	"eval_samples_per_second": 57.347,
	"eval_steps_per_second": 0.901,
	"step": 1050
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 4.011659897593238,
	"learning_rate": 5.5338889932838306e-09,
	"loss": 0.6842,
	"step": 1055
	},
	{
	"epoch": 2.870683818551117,
	"grad_norm": 3.808051194891409,
	"learning_rate": 4.5223736898076235e-09,
	"loss": 0.6806,
	"step": 1060
	},
	{
	"epoch": 2.884224779959377,
	"grad_norm": 3.8839001927108856,
	"learning_rate": 3.612446553934723e-09,
	"loss": 0.6679,
	"step": 1065
	},
	{
	"epoch": 2.897765741367637,
	"grad_norm": 3.9713825006231054,
	"learning_rate": 2.804294148741948e-09,
	"loss": 0.6733,
	"step": 1070
	},
	{
	"epoch": 2.911306702775897,
	"grad_norm": 3.783696934827739,
	"learning_rate": 2.0980821703527886e-09,
	"loss": 0.6736,
	"step": 1075
	},
	{
	"epoch": 2.924847664184157,
	"grad_norm": 3.770344601359413,
	"learning_rate": 1.4939554139648536e-09,
	"loss": 0.6649,
	"step": 1080
	},
	{
	"epoch": 2.938388625592417,
	"grad_norm": 3.8357523688679565,
	"learning_rate": 9.920377441623994e-10,
	"loss": 0.6718,
	"step": 1085
	},
	{
	"epoch": 2.951929587000677,
	"grad_norm": 4.03615476407359,
	"learning_rate": 5.92432069520199e-10,
	"loss": 0.6805,
	"step": 1090
	},
	{
	"epoch": 2.9654705484089368,
	"grad_norm": 3.8321791456875283,
	"learning_rate": 2.9522032150419705e-10,
	"loss": 0.6629,
	"step": 1095
	},
	{
	"epoch": 2.979011509817197,
	"grad_norm": 3.9373632743696056,
	"learning_rate": 1.0046343767294852e-10,
	"loss": 0.6592,
	"step": 1100
	},
	{
	"epoch": 2.979011509817197,
	"eval_loss": 0.7824262976646423,
	"eval_runtime": 182.8708,
	"eval_samples_per_second": 57.418,
	"eval_steps_per_second": 0.902,
	"step": 1100
	},
	{
	"epoch": 2.9925524712254568,
	"grad_norm": 3.6875439191522075,
	"learning_rate": 8.201349183611927e-12,
	"loss": 0.6534,
	"step": 1105
	},
	{
	"epoch": 2.997968855788761,
	"step": 1107,
	"total_flos": 6527139780231168.0,
	"train_loss": 0.7629147509572306,
	"train_runtime": 18558.2767,
	"train_samples_per_second": 15.276,
	"train_steps_per_second": 0.06
	}
	],
	"logging_steps": 5,
	"max_steps": 1107,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 10000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6527139780231168.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}