Upload folder using huggingface_hub

a2b7e3a verified 3 months ago

22.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9878213802435725,
	"eval_steps": 50,
	"global_step": 552,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02706359945872801,
	"grad_norm": 18.82761565702094,
	"learning_rate": 5e-07,
	"loss": 1.734,
	"step": 5
	},
	{
	"epoch": 0.05412719891745602,
	"grad_norm": 12.867825529466979,
	"learning_rate": 1e-06,
	"loss": 1.6027,
	"step": 10
	},
	{
	"epoch": 0.08119079837618404,
	"grad_norm": 7.146838469131762,
	"learning_rate": 9.997900331216397e-07,
	"loss": 1.2943,
	"step": 15
	},
	{
	"epoch": 0.10825439783491204,
	"grad_norm": 4.096985428996853,
	"learning_rate": 9.991603088309193e-07,
	"loss": 1.1214,
	"step": 20
	},
	{
	"epoch": 0.13531799729364005,
	"grad_norm": 4.030931956641265,
	"learning_rate": 9.981113560128126e-07,
	"loss": 1.0701,
	"step": 25
	},
	{
	"epoch": 0.16238159675236807,
	"grad_norm": 3.9631259966731793,
	"learning_rate": 9.966440556487147e-07,
	"loss": 1.0514,
	"step": 30
	},
	{
	"epoch": 0.18944519621109607,
	"grad_norm": 3.7182444654950806,
	"learning_rate": 9.947596400765342e-07,
	"loss": 0.9816,
	"step": 35
	},
	{
	"epoch": 0.2165087956698241,
	"grad_norm": 3.8553362221283574,
	"learning_rate": 9.924596919556916e-07,
	"loss": 0.9671,
	"step": 40
	},
	{
	"epoch": 0.2435723951285521,
	"grad_norm": 3.48008462855318,
	"learning_rate": 9.897461429378964e-07,
	"loss": 0.9488,
	"step": 45
	},
	{
	"epoch": 0.2706359945872801,
	"grad_norm": 3.5713771414265274,
	"learning_rate": 9.866212720448147e-07,
	"loss": 0.9428,
	"step": 50
	},
	{
	"epoch": 0.2706359945872801,
	"eval_loss": 0.9270144701004028,
	"eval_runtime": 93.2201,
	"eval_samples_per_second": 56.318,
	"eval_steps_per_second": 0.89,
	"step": 50
	},
	{
	"epoch": 0.2976995940460081,
	"grad_norm": 3.5829158119832303,
	"learning_rate": 9.830877037539935e-07,
	"loss": 0.9318,
	"step": 55
	},
	{
	"epoch": 0.32476319350473615,
	"grad_norm": 3.4021832899344626,
	"learning_rate": 9.791484057946465e-07,
	"loss": 0.9079,
	"step": 60
	},
	{
	"epoch": 0.35182679296346414,
	"grad_norm": 3.391325595052156,
	"learning_rate": 9.748066866551555e-07,
	"loss": 0.8999,
	"step": 65
	},
	{
	"epoch": 0.37889039242219213,
	"grad_norm": 3.515379759871202,
	"learning_rate": 9.700661928043785e-07,
	"loss": 0.9047,
	"step": 70
	},
	{
	"epoch": 0.4059539918809202,
	"grad_norm": 3.44913794411675,
	"learning_rate": 9.649309056290984e-07,
	"loss": 0.8954,
	"step": 75
	},
	{
	"epoch": 0.4330175913396482,
	"grad_norm": 3.5207352414980435,
	"learning_rate": 9.594051380901858e-07,
	"loss": 0.8984,
	"step": 80
	},
	{
	"epoch": 0.46008119079837617,
	"grad_norm": 3.7404288010932287,
	"learning_rate": 9.534935311002834e-07,
	"loss": 0.9018,
	"step": 85
	},
	{
	"epoch": 0.4871447902571042,
	"grad_norm": 3.435250970708313,
	"learning_rate": 9.472010496260544e-07,
	"loss": 0.888,
	"step": 90
	},
	{
	"epoch": 0.5142083897158322,
	"grad_norm": 3.5926141044891455,
	"learning_rate": 9.405329785182678e-07,
	"loss": 0.8828,
	"step": 95
	},
	{
	"epoch": 0.5412719891745602,
	"grad_norm": 3.8742294578209013,
	"learning_rate": 9.334949180732244e-07,
	"loss": 0.8747,
	"step": 100
	},
	{
	"epoch": 0.5412719891745602,
	"eval_loss": 0.8708707690238953,
	"eval_runtime": 92.2649,
	"eval_samples_per_second": 56.901,
	"eval_steps_per_second": 0.9,
	"step": 100
	},
	{
	"epoch": 0.5683355886332883,
	"grad_norm": 3.592933241886934,
	"learning_rate": 9.260927793292497e-07,
	"loss": 0.8665,
	"step": 105
	},
	{
	"epoch": 0.5953991880920162,
	"grad_norm": 3.5073835258263855,
	"learning_rate": 9.183327791022047e-07,
	"loss": 0.8528,
	"step": 110
	},
	{
	"epoch": 0.6224627875507442,
	"grad_norm": 3.460111360598304,
	"learning_rate": 9.102214347641843e-07,
	"loss": 0.8865,
	"step": 115
	},
	{
	"epoch": 0.6495263870094723,
	"grad_norm": 3.3741983776754854,
	"learning_rate": 9.017655587697883e-07,
	"loss": 0.8648,
	"step": 120
	},
	{
	"epoch": 0.6765899864682002,
	"grad_norm": 3.5787989483258675,
	"learning_rate": 8.929722529345623e-07,
	"loss": 0.8484,
	"step": 125
	},
	{
	"epoch": 0.7036535859269283,
	"grad_norm": 3.532632305089824,
	"learning_rate": 8.83848902470413e-07,
	"loss": 0.8496,
	"step": 130
	},
	{
	"epoch": 0.7307171853856563,
	"grad_norm": 3.800249509395461,
	"learning_rate": 8.744031697830088e-07,
	"loss": 0.8592,
	"step": 135
	},
	{
	"epoch": 0.7577807848443843,
	"grad_norm": 3.471168235847642,
	"learning_rate": 8.646429880363746e-07,
	"loss": 0.8624,
	"step": 140
	},
	{
	"epoch": 0.7848443843031123,
	"grad_norm": 3.220664028161556,
	"learning_rate": 8.545765544900846e-07,
	"loss": 0.8516,
	"step": 145
	},
	{
	"epoch": 0.8119079837618404,
	"grad_norm": 3.5792636736018637,
	"learning_rate": 8.442123236146508e-07,
	"loss": 0.8698,
	"step": 150
	},
	{
	"epoch": 0.8119079837618404,
	"eval_loss": 0.8459715247154236,
	"eval_runtime": 92.3333,
	"eval_samples_per_second": 56.859,
	"eval_steps_per_second": 0.899,
	"step": 150
	},
	{
	"epoch": 0.8389715832205683,
	"grad_norm": 3.6444829594963184,
	"learning_rate": 8.33558999990887e-07,
	"loss": 0.844,
	"step": 155
	},
	{
	"epoch": 0.8660351826792964,
	"grad_norm": 3.619543017726238,
	"learning_rate": 8.22625530999215e-07,
	"loss": 0.829,
	"step": 160
	},
	{
	"epoch": 0.8930987821380244,
	"grad_norm": 3.4305250980444866,
	"learning_rate": 8.114210993050502e-07,
	"loss": 0.859,
	"step": 165
	},
	{
	"epoch": 0.9201623815967523,
	"grad_norm": 3.4515883823343816,
	"learning_rate": 7.999551151465791e-07,
	"loss": 0.8373,
	"step": 170
	},
	{
	"epoch": 0.9472259810554804,
	"grad_norm": 3.4061397273113494,
	"learning_rate": 7.88237208431406e-07,
	"loss": 0.8301,
	"step": 175
	},
	{
	"epoch": 0.9742895805142084,
	"grad_norm": 3.450097547042426,
	"learning_rate": 7.762772206487065e-07,
	"loss": 0.824,
	"step": 180
	},
	{
	"epoch": 1.0013531799729365,
	"grad_norm": 3.7734602033825495,
	"learning_rate": 7.640851966036805e-07,
	"loss": 0.8525,
	"step": 185
	},
	{
	"epoch": 1.0284167794316643,
	"grad_norm": 3.540725853109944,
	"learning_rate": 7.516713759812464e-07,
	"loss": 0.778,
	"step": 190
	},
	{
	"epoch": 1.0554803788903924,
	"grad_norm": 3.5399554970338456,
	"learning_rate": 7.390461847460628e-07,
	"loss": 0.7658,
	"step": 195
	},
	{
	"epoch": 1.0825439783491204,
	"grad_norm": 3.6301828104234843,
	"learning_rate": 7.262202263860988e-07,
	"loss": 0.7652,
	"step": 200
	},
	{
	"epoch": 1.0825439783491204,
	"eval_loss": 0.833743155002594,
	"eval_runtime": 92.2579,
	"eval_samples_per_second": 56.906,
	"eval_steps_per_second": 0.9,
	"step": 200
	},
	{
	"epoch": 1.1096075778078485,
	"grad_norm": 3.458697572657953,
	"learning_rate": 7.1320427300711e-07,
	"loss": 0.7688,
	"step": 205
	},
	{
	"epoch": 1.1366711772665765,
	"grad_norm": 3.48579357869599,
	"learning_rate": 7.000092562854959e-07,
	"loss": 0.762,
	"step": 210
	},
	{
	"epoch": 1.1637347767253043,
	"grad_norm": 3.364903450939617,
	"learning_rate": 6.866462582871401e-07,
	"loss": 0.7764,
	"step": 215
	},
	{
	"epoch": 1.1907983761840324,
	"grad_norm": 3.6608165573448352,
	"learning_rate": 6.731265021599436e-07,
	"loss": 0.772,
	"step": 220
	},
	{
	"epoch": 1.2178619756427604,
	"grad_norm": 3.3685745523262587,
	"learning_rate": 6.594613427078674e-07,
	"loss": 0.7738,
	"step": 225
	},
	{
	"epoch": 1.2449255751014885,
	"grad_norm": 3.8004909414967263,
	"learning_rate": 6.456622568544011e-07,
	"loss": 0.78,
	"step": 230
	},
	{
	"epoch": 1.2719891745602165,
	"grad_norm": 3.507999447214229,
	"learning_rate": 6.317408340034684e-07,
	"loss": 0.7832,
	"step": 235
	},
	{
	"epoch": 1.2990527740189446,
	"grad_norm": 3.622195105708189,
	"learning_rate": 6.177087663058625e-07,
	"loss": 0.776,
	"step": 240
	},
	{
	"epoch": 1.3261163734776726,
	"grad_norm": 3.5978192394759616,
	"learning_rate": 6.035778388393893e-07,
	"loss": 0.7556,
	"step": 245
	},
	{
	"epoch": 1.3531799729364005,
	"grad_norm": 3.3885549115018554,
	"learning_rate": 5.893599197109624e-07,
	"loss": 0.7822,
	"step": 250
	},
	{
	"epoch": 1.3531799729364005,
	"eval_loss": 0.8234151005744934,
	"eval_runtime": 92.2768,
	"eval_samples_per_second": 56.894,
	"eval_steps_per_second": 0.899,
	"step": 250
	},
	{
	"epoch": 1.3802435723951285,
	"grad_norm": 3.6453760206706898,
	"learning_rate": 5.750669500889666e-07,
	"loss": 0.7841,
	"step": 255
	},
	{
	"epoch": 1.4073071718538566,
	"grad_norm": 3.6248461961460254,
	"learning_rate": 5.607109341742578e-07,
	"loss": 0.7684,
	"step": 260
	},
	{
	"epoch": 1.4343707713125846,
	"grad_norm": 3.482156523315791,
	"learning_rate": 5.463039291182256e-07,
	"loss": 0.7704,
	"step": 265
	},
	{
	"epoch": 1.4614343707713127,
	"grad_norm": 3.402395974373717,
	"learning_rate": 5.318580348963825e-07,
	"loss": 0.749,
	"step": 270
	},
	{
	"epoch": 1.4884979702300405,
	"grad_norm": 3.6300127193307237,
	"learning_rate": 5.173853841459877e-07,
	"loss": 0.7643,
	"step": 275
	},
	{
	"epoch": 1.5155615696887685,
	"grad_norm": 3.699178765966641,
	"learning_rate": 5.028981319762399e-07,
	"loss": 0.7564,
	"step": 280
	},
	{
	"epoch": 1.5426251691474966,
	"grad_norm": 3.7257683305221967,
	"learning_rate": 4.884084457595956e-07,
	"loss": 0.7512,
	"step": 285
	},
	{
	"epoch": 1.5696887686062246,
	"grad_norm": 3.443950941720584,
	"learning_rate": 4.7392849491278817e-07,
	"loss": 0.7729,
	"step": 290
	},
	{
	"epoch": 1.5967523680649527,
	"grad_norm": 3.485674476973515,
	"learning_rate": 4.5947044067613e-07,
	"loss": 0.7479,
	"step": 295
	},
	{
	"epoch": 1.6238159675236807,
	"grad_norm": 3.6693587030820574,
	"learning_rate": 4.4504642589968217e-07,
	"loss": 0.7628,
	"step": 300
	},
	{
	"epoch": 1.6238159675236807,
	"eval_loss": 0.816413402557373,
	"eval_runtime": 92.3489,
	"eval_samples_per_second": 56.85,
	"eval_steps_per_second": 0.899,
	"step": 300
	},
	{
	"epoch": 1.6508795669824088,
	"grad_norm": 3.6447287635482084,
	"learning_rate": 4.3066856484486847e-07,
	"loss": 0.7534,
	"step": 305
	},
	{
	"epoch": 1.6779431664411368,
	"grad_norm": 3.643734092885536,
	"learning_rate": 4.1634893301010165e-07,
	"loss": 0.7607,
	"step": 310
	},
	{
	"epoch": 1.7050067658998647,
	"grad_norm": 3.6916619314799797,
	"learning_rate": 4.0209955698896445e-07,
	"loss": 0.7514,
	"step": 315
	},
	{
	"epoch": 1.7320703653585927,
	"grad_norm": 3.6681332975803977,
	"learning_rate": 3.8793240436946385e-07,
	"loss": 0.7597,
	"step": 320
	},
	{
	"epoch": 1.7591339648173205,
	"grad_norm": 3.6184885278786663,
	"learning_rate": 3.738593736828426e-07,
	"loss": 0.7649,
	"step": 325
	},
	{
	"epoch": 1.7861975642760486,
	"grad_norm": 3.737975444433867,
	"learning_rate": 3.598922844103902e-07,
	"loss": 0.7599,
	"step": 330
	},
	{
	"epoch": 1.8132611637347766,
	"grad_norm": 3.456980655495973,
	"learning_rate": 3.4604286705664397e-07,
	"loss": 0.7498,
	"step": 335
	},
	{
	"epoch": 1.8403247631935047,
	"grad_norm": 3.479321682385595,
	"learning_rate": 3.323227532973193e-07,
	"loss": 0.7689,
	"step": 340
	},
	{
	"epoch": 1.8673883626522327,
	"grad_norm": 3.670587230199258,
	"learning_rate": 3.187434662102434e-07,
	"loss": 0.7727,
	"step": 345
	},
	{
	"epoch": 1.8944519621109608,
	"grad_norm": 3.659280365639458,
	"learning_rate": 3.0531641059749634e-07,
	"loss": 0.768,
	"step": 350
	},
	{
	"epoch": 1.8944519621109608,
	"eval_loss": 0.810582160949707,
	"eval_runtime": 92.3521,
	"eval_samples_per_second": 56.848,
	"eval_steps_per_second": 0.899,
	"step": 350
	},
	{
	"epoch": 1.9215155615696888,
	"grad_norm": 3.515883526758233,
	"learning_rate": 2.920528634068885e-07,
	"loss": 0.7411,
	"step": 355
	},
	{
	"epoch": 1.9485791610284169,
	"grad_norm": 3.5334817509226593,
	"learning_rate": 2.789639642608184e-07,
	"loss": 0.7385,
	"step": 360
	},
	{
	"epoch": 1.975642760487145,
	"grad_norm": 3.698753767478549,
	"learning_rate": 2.6606070610046526e-07,
	"loss": 0.7573,
	"step": 365
	},
	{
	"epoch": 2.002706359945873,
	"grad_norm": 3.3551617194703063,
	"learning_rate": 2.533539259531757e-07,
	"loss": 0.7353,
	"step": 370
	},
	{
	"epoch": 2.029769959404601,
	"grad_norm": 3.6997168009784684,
	"learning_rate": 2.408542958307957e-07,
	"loss": 0.7006,
	"step": 375
	},
	{
	"epoch": 2.0568335588633286,
	"grad_norm": 3.636840131305413,
	"learning_rate": 2.2857231376659514e-07,
	"loss": 0.7166,
	"step": 380
	},
	{
	"epoch": 2.0838971583220567,
	"grad_norm": 3.972386455839474,
	"learning_rate": 2.1651829499831043e-07,
	"loss": 0.7113,
	"step": 385
	},
	{
	"epoch": 2.1109607577807847,
	"grad_norm": 3.696729837743398,
	"learning_rate": 2.0470236330471126e-07,
	"loss": 0.709,
	"step": 390
	},
	{
	"epoch": 2.138024357239513,
	"grad_norm": 3.7691871086231017,
	"learning_rate": 1.9313444250296846e-07,
	"loss": 0.7132,
	"step": 395
	},
	{
	"epoch": 2.165087956698241,
	"grad_norm": 3.6764401143556014,
	"learning_rate": 1.818242481139613e-07,
	"loss": 0.7075,
	"step": 400
	},
	{
	"epoch": 2.165087956698241,
	"eval_loss": 0.8137385249137878,
	"eval_runtime": 92.2291,
	"eval_samples_per_second": 56.923,
	"eval_steps_per_second": 0.9,
	"step": 400
	},
	{
	"epoch": 2.192151556156969,
	"grad_norm": 3.722594968646584,
	"learning_rate": 1.7078127920252783e-07,
	"loss": 0.7064,
	"step": 405
	},
	{
	"epoch": 2.219215155615697,
	"grad_norm": 3.9827901528666434,
	"learning_rate": 1.600148103995087e-07,
	"loss": 0.7055,
	"step": 410
	},
	{
	"epoch": 2.246278755074425,
	"grad_norm": 3.848365017568979,
	"learning_rate": 1.4953388411228602e-07,
	"loss": 0.7147,
	"step": 415
	},
	{
	"epoch": 2.273342354533153,
	"grad_norm": 3.813956302279095,
	"learning_rate": 1.3934730293035936e-07,
	"loss": 0.6951,
	"step": 420
	},
	{
	"epoch": 2.300405953991881,
	"grad_norm": 3.816112318327775,
	"learning_rate": 1.2946362223233614e-07,
	"loss": 0.709,
	"step": 425
	},
	{
	"epoch": 2.3274695534506087,
	"grad_norm": 3.9531391193741667,
	"learning_rate": 1.198911430005478e-07,
	"loss": 0.7197,
	"step": 430
	},
	{
	"epoch": 2.3545331529093367,
	"grad_norm": 3.9313649848564913,
	"learning_rate": 1.1063790484932462e-07,
	"loss": 0.7163,
	"step": 435
	},
	{
	"epoch": 2.381596752368065,
	"grad_norm": 3.7946532677122455,
	"learning_rate": 1.0171167927278368e-07,
	"loss": 0.6888,
	"step": 440
	},
	{
	"epoch": 2.408660351826793,
	"grad_norm": 3.6866229175987737,
	"learning_rate": 9.311996311780446e-08,
	"loss": 0.7105,
	"step": 445
	},
	{
	"epoch": 2.435723951285521,
	"grad_norm": 3.6331365766503136,
	"learning_rate": 8.486997228767012e-08,
	"loss": 0.71,
	"step": 450
	},
	{
	"epoch": 2.435723951285521,
	"eval_loss": 0.8126546144485474,
	"eval_runtime": 92.1857,
	"eval_samples_per_second": 56.95,
	"eval_steps_per_second": 0.9,
	"step": 450
	},
	{
	"epoch": 2.462787550744249,
	"grad_norm": 3.81903858751765,
	"learning_rate": 7.696863568166518e-08,
	"loss": 0.6992,
	"step": 455
	},
	{
	"epoch": 2.489851150202977,
	"grad_norm": 3.8485837389475273,
	"learning_rate": 6.942258937571771e-08,
	"loss": 0.6948,
	"step": 460
	},
	{
	"epoch": 2.516914749661705,
	"grad_norm": 3.7712141765804583,
	"learning_rate": 6.2238171048975e-08,
	"loss": 0.6949,
	"step": 465
	},
	{
	"epoch": 2.543978349120433,
	"grad_norm": 3.584093640205327,
	"learning_rate": 5.5421414660992705e-08,
	"loss": 0.733,
	"step": 470
	},
	{
	"epoch": 2.571041948579161,
	"grad_norm": 3.864716126183329,
	"learning_rate": 4.8978045384008125e-08,
	"loss": 0.7058,
	"step": 475
	},
	{
	"epoch": 2.598105548037889,
	"grad_norm": 4.221053360392504,
	"learning_rate": 4.2913474794554036e-08,
	"loss": 0.7229,
	"step": 480
	},
	{
	"epoch": 2.6251691474966172,
	"grad_norm": 3.7216448526253267,
	"learning_rate": 3.723279632845155e-08,
	"loss": 0.6851,
	"step": 485
	},
	{
	"epoch": 2.6522327469553453,
	"grad_norm": 3.714335585514238,
	"learning_rate": 3.194078100299863e-08,
	"loss": 0.7011,
	"step": 490
	},
	{
	"epoch": 2.6792963464140733,
	"grad_norm": 3.822561595275015,
	"learning_rate": 2.7041873409947734e-08,
	"loss": 0.6853,
	"step": 495
	},
	{
	"epoch": 2.706359945872801,
	"grad_norm": 3.626297678435798,
	"learning_rate": 2.2540187982637627e-08,
	"loss": 0.7069,
	"step": 500
	},
	{
	"epoch": 2.706359945872801,
	"eval_loss": 0.8118973970413208,
	"eval_runtime": 92.3179,
	"eval_samples_per_second": 56.869,
	"eval_steps_per_second": 0.899,
	"step": 500
	},
	{
	"epoch": 2.733423545331529,
	"grad_norm": 3.6886544451935412,
	"learning_rate": 1.8439505540414458e-08,
	"loss": 0.7075,
	"step": 505
	},
	{
	"epoch": 2.760487144790257,
	"grad_norm": 3.9389896132103237,
	"learning_rate": 1.4743270113244277e-08,
	"loss": 0.7051,
	"step": 510
	},
	{
	"epoch": 2.787550744248985,
	"grad_norm": 3.803689145741291,
	"learning_rate": 1.1454586049184589e-08,
	"loss": 0.6957,
	"step": 515
	},
	{
	"epoch": 2.814614343707713,
	"grad_norm": 3.7647580840059702,
	"learning_rate": 8.576215407142651e-09,
	"loss": 0.7189,
	"step": 520
	},
	{
	"epoch": 2.841677943166441,
	"grad_norm": 3.731265168222702,
	"learning_rate": 6.110575637112425e-09,
	"loss": 0.7245,
	"step": 525
	},
	{
	"epoch": 2.8687415426251692,
	"grad_norm": 3.6148858260407883,
	"learning_rate": 4.059737549836517e-09,
	"loss": 0.7008,
	"step": 530
	},
	{
	"epoch": 2.8958051420838973,
	"grad_norm": 4.036765550791644,
	"learning_rate": 2.425423577599783e-09,
	"loss": 0.7199,
	"step": 535
	},
	{
	"epoch": 2.9228687415426253,
	"grad_norm": 3.8323701179806386,
	"learning_rate": 1.209006327614226e-09,
	"loss": 0.6992,
	"step": 540
	},
	{
	"epoch": 2.949932341001353,
	"grad_norm": 3.7653155106882643,
	"learning_rate": 4.115074292109777e-10,
	"loss": 0.7005,
	"step": 545
	},
	{
	"epoch": 2.976995940460081,
	"grad_norm": 3.9157330059593396,
	"learning_rate": 3.3596675806824013e-11,
	"loss": 0.7088,
	"step": 550
	},
	{
	"epoch": 2.976995940460081,
	"eval_loss": 0.8117214441299438,
	"eval_runtime": 92.3355,
	"eval_samples_per_second": 56.858,
	"eval_steps_per_second": 0.899,
	"step": 550
	},
	{
	"epoch": 2.9878213802435725,
	"step": 552,
	"total_flos": 3254608239525888.0,
	"train_loss": 0.8072819815597673,
	"train_runtime": 8267.6947,
	"train_samples_per_second": 17.145,
	"train_steps_per_second": 0.067
	}
	],
	"logging_steps": 5,
	"max_steps": 552,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 10000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3254608239525888.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}