dbischof_premise_aea / checkpoint-500 /trainer_state.json

Upload folder using huggingface_hub

57c55f8 verified 5 months ago

109 kB

	{
	"best_metric": 0.014392802491784096,
	"best_model_checkpoint": "/home/paperspace/Data/models/dbischof_premise_aea/llm3br256/checkpoint-500",
	"epoch": 3.872216844143272,
	"eval_steps": 5,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.007744433688286544,
	"grad_norm": 0.28707125782966614,
	"learning_rate": 1.5384615384615387e-06,
	"loss": 0.0847,
	"step": 1
	},
	{
	"epoch": 0.015488867376573089,
	"grad_norm": 0.34009915590286255,
	"learning_rate": 3.0769230769230774e-06,
	"loss": 0.0928,
	"step": 2
	},
	{
	"epoch": 0.023233301064859633,
	"grad_norm": 0.29313409328460693,
	"learning_rate": 4.615384615384616e-06,
	"loss": 0.0934,
	"step": 3
	},
	{
	"epoch": 0.030977734753146177,
	"grad_norm": 0.2913404107093811,
	"learning_rate": 6.153846153846155e-06,
	"loss": 0.0913,
	"step": 4
	},
	{
	"epoch": 0.03872216844143272,
	"grad_norm": 0.29106780886650085,
	"learning_rate": 7.692307692307694e-06,
	"loss": 0.095,
	"step": 5
	},
	{
	"epoch": 0.03872216844143272,
	"eval_loss": 0.07727333903312683,
	"eval_runtime": 5.9343,
	"eval_samples_per_second": 8.426,
	"eval_steps_per_second": 2.191,
	"step": 5
	},
	{
	"epoch": 0.046466602129719266,
	"grad_norm": 0.23025450110435486,
	"learning_rate": 9.230769230769232e-06,
	"loss": 0.0948,
	"step": 6
	},
	{
	"epoch": 0.05421103581800581,
	"grad_norm": 0.21704453229904175,
	"learning_rate": 1.0769230769230771e-05,
	"loss": 0.0727,
	"step": 7
	},
	{
	"epoch": 0.061955469506292354,
	"grad_norm": 0.17385561764240265,
	"learning_rate": 1.230769230769231e-05,
	"loss": 0.0689,
	"step": 8
	},
	{
	"epoch": 0.0696999031945789,
	"grad_norm": 0.15649482607841492,
	"learning_rate": 1.3846153846153847e-05,
	"loss": 0.0604,
	"step": 9
	},
	{
	"epoch": 0.07744433688286544,
	"grad_norm": 0.11710207164287567,
	"learning_rate": 1.5384615384615387e-05,
	"loss": 0.0562,
	"step": 10
	},
	{
	"epoch": 0.07744433688286544,
	"eval_loss": 0.04053657874464989,
	"eval_runtime": 4.8954,
	"eval_samples_per_second": 10.214,
	"eval_steps_per_second": 2.656,
	"step": 10
	},
	{
	"epoch": 0.08518877057115198,
	"grad_norm": 0.09721983969211578,
	"learning_rate": 1.6923076923076924e-05,
	"loss": 0.0393,
	"step": 11
	},
	{
	"epoch": 0.09293320425943853,
	"grad_norm": 0.09856045991182327,
	"learning_rate": 1.8461538461538465e-05,
	"loss": 0.0404,
	"step": 12
	},
	{
	"epoch": 0.10067763794772508,
	"grad_norm": 0.11793606728315353,
	"learning_rate": 2e-05,
	"loss": 0.0455,
	"step": 13
	},
	{
	"epoch": 0.10842207163601161,
	"grad_norm": 0.11285863816738129,
	"learning_rate": 2.1538461538461542e-05,
	"loss": 0.059,
	"step": 14
	},
	{
	"epoch": 0.11616650532429816,
	"grad_norm": 0.08813278377056122,
	"learning_rate": 2.307692307692308e-05,
	"loss": 0.032,
	"step": 15
	},
	{
	"epoch": 0.11616650532429816,
	"eval_loss": 0.03360835462808609,
	"eval_runtime": 4.8812,
	"eval_samples_per_second": 10.243,
	"eval_steps_per_second": 2.663,
	"step": 15
	},
	{
	"epoch": 0.12391093901258471,
	"grad_norm": 0.06082022562623024,
	"learning_rate": 2.461538461538462e-05,
	"loss": 0.0419,
	"step": 16
	},
	{
	"epoch": 0.13165537270087124,
	"grad_norm": 0.055546533316373825,
	"learning_rate": 2.6153846153846157e-05,
	"loss": 0.0452,
	"step": 17
	},
	{
	"epoch": 0.1393998063891578,
	"grad_norm": 0.0525379441678524,
	"learning_rate": 2.7692307692307694e-05,
	"loss": 0.0329,
	"step": 18
	},
	{
	"epoch": 0.14714424007744434,
	"grad_norm": 0.058248624205589294,
	"learning_rate": 2.9230769230769234e-05,
	"loss": 0.0338,
	"step": 19
	},
	{
	"epoch": 0.15488867376573087,
	"grad_norm": 0.057563405483961105,
	"learning_rate": 3.0769230769230774e-05,
	"loss": 0.0488,
	"step": 20
	},
	{
	"epoch": 0.15488867376573087,
	"eval_loss": 0.031162459403276443,
	"eval_runtime": 4.9017,
	"eval_samples_per_second": 10.201,
	"eval_steps_per_second": 2.652,
	"step": 20
	},
	{
	"epoch": 0.16263310745401743,
	"grad_norm": 0.04852646589279175,
	"learning_rate": 3.230769230769231e-05,
	"loss": 0.0364,
	"step": 21
	},
	{
	"epoch": 0.17037754114230397,
	"grad_norm": 0.05401140823960304,
	"learning_rate": 3.384615384615385e-05,
	"loss": 0.0446,
	"step": 22
	},
	{
	"epoch": 0.1781219748305905,
	"grad_norm": 0.0492316372692585,
	"learning_rate": 3.538461538461539e-05,
	"loss": 0.0407,
	"step": 23
	},
	{
	"epoch": 0.18586640851887706,
	"grad_norm": 0.037774790078401566,
	"learning_rate": 3.692307692307693e-05,
	"loss": 0.0315,
	"step": 24
	},
	{
	"epoch": 0.1936108422071636,
	"grad_norm": 0.04360613971948624,
	"learning_rate": 3.846153846153846e-05,
	"loss": 0.0331,
	"step": 25
	},
	{
	"epoch": 0.1936108422071636,
	"eval_loss": 0.02766346000134945,
	"eval_runtime": 4.8772,
	"eval_samples_per_second": 10.252,
	"eval_steps_per_second": 2.665,
	"step": 25
	},
	{
	"epoch": 0.20135527589545016,
	"grad_norm": 0.037237901240587234,
	"learning_rate": 4e-05,
	"loss": 0.0259,
	"step": 26
	},
	{
	"epoch": 0.2090997095837367,
	"grad_norm": 0.03505983576178551,
	"learning_rate": 4.1538461538461544e-05,
	"loss": 0.0303,
	"step": 27
	},
	{
	"epoch": 0.21684414327202323,
	"grad_norm": 0.041253913193941116,
	"learning_rate": 4.3076923076923084e-05,
	"loss": 0.0453,
	"step": 28
	},
	{
	"epoch": 0.2245885769603098,
	"grad_norm": 0.04072079062461853,
	"learning_rate": 4.461538461538462e-05,
	"loss": 0.0316,
	"step": 29
	},
	{
	"epoch": 0.23233301064859632,
	"grad_norm": 0.03738202154636383,
	"learning_rate": 4.615384615384616e-05,
	"loss": 0.0377,
	"step": 30
	},
	{
	"epoch": 0.23233301064859632,
	"eval_loss": 0.025424109771847725,
	"eval_runtime": 4.8765,
	"eval_samples_per_second": 10.253,
	"eval_steps_per_second": 2.666,
	"step": 30
	},
	{
	"epoch": 0.24007744433688286,
	"grad_norm": 0.03633822873234749,
	"learning_rate": 4.76923076923077e-05,
	"loss": 0.0369,
	"step": 31
	},
	{
	"epoch": 0.24782187802516942,
	"grad_norm": 0.03256253898143768,
	"learning_rate": 4.923076923076924e-05,
	"loss": 0.0349,
	"step": 32
	},
	{
	"epoch": 0.25556631171345595,
	"grad_norm": 0.031838804483413696,
	"learning_rate": 5.0769230769230766e-05,
	"loss": 0.0283,
	"step": 33
	},
	{
	"epoch": 0.2633107454017425,
	"grad_norm": 0.026707077398896217,
	"learning_rate": 5.230769230769231e-05,
	"loss": 0.0283,
	"step": 34
	},
	{
	"epoch": 0.271055179090029,
	"grad_norm": 0.03254338726401329,
	"learning_rate": 5.384615384615385e-05,
	"loss": 0.0316,
	"step": 35
	},
	{
	"epoch": 0.271055179090029,
	"eval_loss": 0.024270590394735336,
	"eval_runtime": 4.8832,
	"eval_samples_per_second": 10.239,
	"eval_steps_per_second": 2.662,
	"step": 35
	},
	{
	"epoch": 0.2787996127783156,
	"grad_norm": 0.030620776116847992,
	"learning_rate": 5.538461538461539e-05,
	"loss": 0.0306,
	"step": 36
	},
	{
	"epoch": 0.28654404646660214,
	"grad_norm": 0.03317311033606529,
	"learning_rate": 5.692307692307692e-05,
	"loss": 0.0293,
	"step": 37
	},
	{
	"epoch": 0.2942884801548887,
	"grad_norm": 0.026506489142775536,
	"learning_rate": 5.846153846153847e-05,
	"loss": 0.0293,
	"step": 38
	},
	{
	"epoch": 0.3020329138431752,
	"grad_norm": 0.023665621876716614,
	"learning_rate": 6e-05,
	"loss": 0.0166,
	"step": 39
	},
	{
	"epoch": 0.30977734753146174,
	"grad_norm": 0.03278828039765358,
	"learning_rate": 6.153846153846155e-05,
	"loss": 0.0374,
	"step": 40
	},
	{
	"epoch": 0.30977734753146174,
	"eval_loss": 0.023048410192131996,
	"eval_runtime": 4.885,
	"eval_samples_per_second": 10.235,
	"eval_steps_per_second": 2.661,
	"step": 40
	},
	{
	"epoch": 0.31752178121974833,
	"grad_norm": 0.03030160255730152,
	"learning_rate": 6.307692307692308e-05,
	"loss": 0.0334,
	"step": 41
	},
	{
	"epoch": 0.32526621490803487,
	"grad_norm": 0.03384114429354668,
	"learning_rate": 6.461538461538462e-05,
	"loss": 0.0212,
	"step": 42
	},
	{
	"epoch": 0.3330106485963214,
	"grad_norm": 0.02560395933687687,
	"learning_rate": 6.615384615384616e-05,
	"loss": 0.0363,
	"step": 43
	},
	{
	"epoch": 0.34075508228460794,
	"grad_norm": 0.026470044627785683,
	"learning_rate": 6.76923076923077e-05,
	"loss": 0.024,
	"step": 44
	},
	{
	"epoch": 0.34849951597289447,
	"grad_norm": 0.023488877341151237,
	"learning_rate": 6.923076923076924e-05,
	"loss": 0.0208,
	"step": 45
	},
	{
	"epoch": 0.34849951597289447,
	"eval_loss": 0.022530335932970047,
	"eval_runtime": 4.8759,
	"eval_samples_per_second": 10.255,
	"eval_steps_per_second": 2.666,
	"step": 45
	},
	{
	"epoch": 0.356243949661181,
	"grad_norm": 0.029532263055443764,
	"learning_rate": 7.076923076923078e-05,
	"loss": 0.0399,
	"step": 46
	},
	{
	"epoch": 0.3639883833494676,
	"grad_norm": 0.025283565744757652,
	"learning_rate": 7.23076923076923e-05,
	"loss": 0.033,
	"step": 47
	},
	{
	"epoch": 0.3717328170377541,
	"grad_norm": 0.024645334109663963,
	"learning_rate": 7.384615384615386e-05,
	"loss": 0.0431,
	"step": 48
	},
	{
	"epoch": 0.37947725072604066,
	"grad_norm": 0.025530191138386726,
	"learning_rate": 7.538461538461539e-05,
	"loss": 0.0321,
	"step": 49
	},
	{
	"epoch": 0.3872216844143272,
	"grad_norm": 0.02383197844028473,
	"learning_rate": 7.692307692307693e-05,
	"loss": 0.0305,
	"step": 50
	},
	{
	"epoch": 0.3872216844143272,
	"eval_loss": 0.021847765892744064,
	"eval_runtime": 4.8901,
	"eval_samples_per_second": 10.225,
	"eval_steps_per_second": 2.658,
	"step": 50
	},
	{
	"epoch": 0.39496611810261373,
	"grad_norm": 0.02661319635808468,
	"learning_rate": 7.846153846153847e-05,
	"loss": 0.0312,
	"step": 51
	},
	{
	"epoch": 0.4027105517909003,
	"grad_norm": 0.029026813805103302,
	"learning_rate": 8e-05,
	"loss": 0.0202,
	"step": 52
	},
	{
	"epoch": 0.41045498547918685,
	"grad_norm": 0.03153839334845543,
	"learning_rate": 8.153846153846155e-05,
	"loss": 0.0322,
	"step": 53
	},
	{
	"epoch": 0.4181994191674734,
	"grad_norm": 0.027100125327706337,
	"learning_rate": 8.307692307692309e-05,
	"loss": 0.0217,
	"step": 54
	},
	{
	"epoch": 0.4259438528557599,
	"grad_norm": 0.034204043447971344,
	"learning_rate": 8.461538461538461e-05,
	"loss": 0.0238,
	"step": 55
	},
	{
	"epoch": 0.4259438528557599,
	"eval_loss": 0.021218011155724525,
	"eval_runtime": 4.895,
	"eval_samples_per_second": 10.215,
	"eval_steps_per_second": 2.656,
	"step": 55
	},
	{
	"epoch": 0.43368828654404645,
	"grad_norm": 0.026411807164549828,
	"learning_rate": 8.615384615384617e-05,
	"loss": 0.0264,
	"step": 56
	},
	{
	"epoch": 0.441432720232333,
	"grad_norm": 0.025747094303369522,
	"learning_rate": 8.76923076923077e-05,
	"loss": 0.0231,
	"step": 57
	},
	{
	"epoch": 0.4491771539206196,
	"grad_norm": 0.028047436848282814,
	"learning_rate": 8.923076923076924e-05,
	"loss": 0.0269,
	"step": 58
	},
	{
	"epoch": 0.4569215876089061,
	"grad_norm": 0.03033887967467308,
	"learning_rate": 9.076923076923078e-05,
	"loss": 0.0286,
	"step": 59
	},
	{
	"epoch": 0.46466602129719264,
	"grad_norm": 0.024372393265366554,
	"learning_rate": 9.230769230769232e-05,
	"loss": 0.0278,
	"step": 60
	},
	{
	"epoch": 0.46466602129719264,
	"eval_loss": 0.020728331059217453,
	"eval_runtime": 4.8702,
	"eval_samples_per_second": 10.266,
	"eval_steps_per_second": 2.669,
	"step": 60
	},
	{
	"epoch": 0.4724104549854792,
	"grad_norm": 0.028278978541493416,
	"learning_rate": 9.384615384615386e-05,
	"loss": 0.0247,
	"step": 61
	},
	{
	"epoch": 0.4801548886737657,
	"grad_norm": 0.03280925378203392,
	"learning_rate": 9.53846153846154e-05,
	"loss": 0.026,
	"step": 62
	},
	{
	"epoch": 0.4878993223620523,
	"grad_norm": 0.023919392377138138,
	"learning_rate": 9.692307692307692e-05,
	"loss": 0.0312,
	"step": 63
	},
	{
	"epoch": 0.49564375605033884,
	"grad_norm": 0.0364394448697567,
	"learning_rate": 9.846153846153848e-05,
	"loss": 0.0219,
	"step": 64
	},
	{
	"epoch": 0.5033881897386253,
	"grad_norm": 0.02771547995507717,
	"learning_rate": 0.0001,
	"loss": 0.0199,
	"step": 65
	},
	{
	"epoch": 0.5033881897386253,
	"eval_loss": 0.02000207081437111,
	"eval_runtime": 4.8908,
	"eval_samples_per_second": 10.223,
	"eval_steps_per_second": 2.658,
	"step": 65
	},
	{
	"epoch": 0.5111326234269119,
	"grad_norm": 0.02505766600370407,
	"learning_rate": 9.999926652940913e-05,
	"loss": 0.0206,
	"step": 66
	},
	{
	"epoch": 0.5188770571151985,
	"grad_norm": 0.037389349192380905,
	"learning_rate": 9.999706613915566e-05,
	"loss": 0.0265,
	"step": 67
	},
	{
	"epoch": 0.526621490803485,
	"grad_norm": 0.03750506415963173,
	"learning_rate": 9.999339889379647e-05,
	"loss": 0.0236,
	"step": 68
	},
	{
	"epoch": 0.5343659244917716,
	"grad_norm": 0.028572333976626396,
	"learning_rate": 9.998826490092421e-05,
	"loss": 0.0236,
	"step": 69
	},
	{
	"epoch": 0.542110358180058,
	"grad_norm": 0.024309856817126274,
	"learning_rate": 9.99816643111642e-05,
	"loss": 0.0235,
	"step": 70
	},
	{
	"epoch": 0.542110358180058,
	"eval_loss": 0.02025166153907776,
	"eval_runtime": 4.8811,
	"eval_samples_per_second": 10.244,
	"eval_steps_per_second": 2.663,
	"step": 70
	},
	{
	"epoch": 0.5498547918683446,
	"grad_norm": 0.035883497446775436,
	"learning_rate": 9.997359731816998e-05,
	"loss": 0.0289,
	"step": 71
	},
	{
	"epoch": 0.5575992255566312,
	"grad_norm": 0.034139424562454224,
	"learning_rate": 9.996406415861763e-05,
	"loss": 0.0366,
	"step": 72
	},
	{
	"epoch": 0.5653436592449177,
	"grad_norm": 0.02562110312283039,
	"learning_rate": 9.995306511219885e-05,
	"loss": 0.0336,
	"step": 73
	},
	{
	"epoch": 0.5730880929332043,
	"grad_norm": 0.026915963739156723,
	"learning_rate": 9.994060050161269e-05,
	"loss": 0.0193,
	"step": 74
	},
	{
	"epoch": 0.5808325266214908,
	"grad_norm": 0.02748969756066799,
	"learning_rate": 9.992667069255619e-05,
	"loss": 0.0213,
	"step": 75
	},
	{
	"epoch": 0.5808325266214908,
	"eval_loss": 0.019886016845703125,
	"eval_runtime": 4.8762,
	"eval_samples_per_second": 10.254,
	"eval_steps_per_second": 2.666,
	"step": 75
	},
	{
	"epoch": 0.5885769603097774,
	"grad_norm": 0.0281902477145195,
	"learning_rate": 9.991127609371356e-05,
	"loss": 0.0333,
	"step": 76
	},
	{
	"epoch": 0.5963213939980639,
	"grad_norm": 0.032518427819013596,
	"learning_rate": 9.989441715674422e-05,
	"loss": 0.0296,
	"step": 77
	},
	{
	"epoch": 0.6040658276863504,
	"grad_norm": 0.0259566493332386,
	"learning_rate": 9.987609437626955e-05,
	"loss": 0.0282,
	"step": 78
	},
	{
	"epoch": 0.611810261374637,
	"grad_norm": 0.029854053631424904,
	"learning_rate": 9.985630828985835e-05,
	"loss": 0.0205,
	"step": 79
	},
	{
	"epoch": 0.6195546950629235,
	"grad_norm": 0.03595299273729324,
	"learning_rate": 9.983505947801115e-05,
	"loss": 0.044,
	"step": 80
	},
	{
	"epoch": 0.6195546950629235,
	"eval_loss": 0.01953260228037834,
	"eval_runtime": 4.8809,
	"eval_samples_per_second": 10.244,
	"eval_steps_per_second": 2.663,
	"step": 80
	},
	{
	"epoch": 0.6272991287512101,
	"grad_norm": 0.02581968903541565,
	"learning_rate": 9.981234856414307e-05,
	"loss": 0.0265,
	"step": 81
	},
	{
	"epoch": 0.6350435624394967,
	"grad_norm": 0.02523561753332615,
	"learning_rate": 9.978817621456562e-05,
	"loss": 0.0232,
	"step": 82
	},
	{
	"epoch": 0.6427879961277831,
	"grad_norm": 0.022955749183893204,
	"learning_rate": 9.97625431384671e-05,
	"loss": 0.0267,
	"step": 83
	},
	{
	"epoch": 0.6505324298160697,
	"grad_norm": 0.0209239199757576,
	"learning_rate": 9.973545008789181e-05,
	"loss": 0.0303,
	"step": 84
	},
	{
	"epoch": 0.6582768635043562,
	"grad_norm": 0.028582807630300522,
	"learning_rate": 9.970689785771798e-05,
	"loss": 0.021,
	"step": 85
	},
	{
	"epoch": 0.6582768635043562,
	"eval_loss": 0.019236262887716293,
	"eval_runtime": 4.874,
	"eval_samples_per_second": 10.258,
	"eval_steps_per_second": 2.667,
	"step": 85
	},
	{
	"epoch": 0.6660212971926428,
	"grad_norm": 0.02616284228861332,
	"learning_rate": 9.967688728563446e-05,
	"loss": 0.0176,
	"step": 86
	},
	{
	"epoch": 0.6737657308809293,
	"grad_norm": 0.029908856377005577,
	"learning_rate": 9.964541925211612e-05,
	"loss": 0.0206,
	"step": 87
	},
	{
	"epoch": 0.6815101645692159,
	"grad_norm": 0.03139350563287735,
	"learning_rate": 9.961249468039807e-05,
	"loss": 0.0301,
	"step": 88
	},
	{
	"epoch": 0.6892545982575025,
	"grad_norm": 0.025906842201948166,
	"learning_rate": 9.957811453644847e-05,
	"loss": 0.0192,
	"step": 89
	},
	{
	"epoch": 0.6969990319457889,
	"grad_norm": 0.0281496811658144,
	"learning_rate": 9.954227982894034e-05,
	"loss": 0.0296,
	"step": 90
	},
	{
	"epoch": 0.6969990319457889,
	"eval_loss": 0.019074302166700363,
	"eval_runtime": 4.8832,
	"eval_samples_per_second": 10.239,
	"eval_steps_per_second": 2.662,
	"step": 90
	},
	{
	"epoch": 0.7047434656340755,
	"grad_norm": 0.027965204790234566,
	"learning_rate": 9.950499160922183e-05,
	"loss": 0.0213,
	"step": 91
	},
	{
	"epoch": 0.712487899322362,
	"grad_norm": 0.02602163329720497,
	"learning_rate": 9.946625097128543e-05,
	"loss": 0.0269,
	"step": 92
	},
	{
	"epoch": 0.7202323330106486,
	"grad_norm": 0.028190776705741882,
	"learning_rate": 9.942605905173592e-05,
	"loss": 0.0207,
	"step": 93
	},
	{
	"epoch": 0.7279767666989352,
	"grad_norm": 0.025893300771713257,
	"learning_rate": 9.938441702975689e-05,
	"loss": 0.0265,
	"step": 94
	},
	{
	"epoch": 0.7357212003872217,
	"grad_norm": 0.0202568881213665,
	"learning_rate": 9.934132612707632e-05,
	"loss": 0.0141,
	"step": 95
	},
	{
	"epoch": 0.7357212003872217,
	"eval_loss": 0.018998095765709877,
	"eval_runtime": 4.8865,
	"eval_samples_per_second": 10.232,
	"eval_steps_per_second": 2.66,
	"step": 95
	},
	{
	"epoch": 0.7434656340755083,
	"grad_norm": 0.03151071444153786,
	"learning_rate": 9.929678760793057e-05,
	"loss": 0.028,
	"step": 96
	},
	{
	"epoch": 0.7512100677637947,
	"grad_norm": 0.037441398948431015,
	"learning_rate": 9.925080277902743e-05,
	"loss": 0.0275,
	"step": 97
	},
	{
	"epoch": 0.7589545014520813,
	"grad_norm": 0.022733572870492935,
	"learning_rate": 9.920337298950765e-05,
	"loss": 0.0227,
	"step": 98
	},
	{
	"epoch": 0.7666989351403679,
	"grad_norm": 0.021637218073010445,
	"learning_rate": 9.91544996309055e-05,
	"loss": 0.0179,
	"step": 99
	},
	{
	"epoch": 0.7744433688286544,
	"grad_norm": 0.023374751210212708,
	"learning_rate": 9.91041841371078e-05,
	"loss": 0.0289,
	"step": 100
	},
	{
	"epoch": 0.7744433688286544,
	"eval_loss": 0.01871725358068943,
	"eval_runtime": 4.9046,
	"eval_samples_per_second": 10.195,
	"eval_steps_per_second": 2.651,
	"step": 100
	},
	{
	"epoch": 0.782187802516941,
	"grad_norm": 0.021633530035614967,
	"learning_rate": 9.905242798431196e-05,
	"loss": 0.0267,
	"step": 101
	},
	{
	"epoch": 0.7899322362052275,
	"grad_norm": 0.024837492033839226,
	"learning_rate": 9.899923269098262e-05,
	"loss": 0.0341,
	"step": 102
	},
	{
	"epoch": 0.797676669893514,
	"grad_norm": 0.023348737508058548,
	"learning_rate": 9.894459981780711e-05,
	"loss": 0.0263,
	"step": 103
	},
	{
	"epoch": 0.8054211035818006,
	"grad_norm": 0.02404264733195305,
	"learning_rate": 9.888853096764964e-05,
	"loss": 0.0214,
	"step": 104
	},
	{
	"epoch": 0.8131655372700871,
	"grad_norm": 0.02434077486395836,
	"learning_rate": 9.883102778550434e-05,
	"loss": 0.0159,
	"step": 105
	},
	{
	"epoch": 0.8131655372700871,
	"eval_loss": 0.01875956915318966,
	"eval_runtime": 4.887,
	"eval_samples_per_second": 10.231,
	"eval_steps_per_second": 2.66,
	"step": 105
	},
	{
	"epoch": 0.8209099709583737,
	"grad_norm": 0.023013584315776825,
	"learning_rate": 9.877209195844692e-05,
	"loss": 0.0266,
	"step": 106
	},
	{
	"epoch": 0.8286544046466602,
	"grad_norm": 0.03137190267443657,
	"learning_rate": 9.871172521558523e-05,
	"loss": 0.0242,
	"step": 107
	},
	{
	"epoch": 0.8363988383349468,
	"grad_norm": 0.023217204958200455,
	"learning_rate": 9.864992932800845e-05,
	"loss": 0.0254,
	"step": 108
	},
	{
	"epoch": 0.8441432720232332,
	"grad_norm": 0.027811044827103615,
	"learning_rate": 9.858670610873528e-05,
	"loss": 0.0173,
	"step": 109
	},
	{
	"epoch": 0.8518877057115198,
	"grad_norm": 0.027365995571017265,
	"learning_rate": 9.852205741266058e-05,
	"loss": 0.0275,
	"step": 110
	},
	{
	"epoch": 0.8518877057115198,
	"eval_loss": 0.01876773312687874,
	"eval_runtime": 4.8844,
	"eval_samples_per_second": 10.237,
	"eval_steps_per_second": 2.662,
	"step": 110
	},
	{
	"epoch": 0.8596321393998064,
	"grad_norm": 0.022870220243930817,
	"learning_rate": 9.845598513650103e-05,
	"loss": 0.0175,
	"step": 111
	},
	{
	"epoch": 0.8673765730880929,
	"grad_norm": 0.021480288356542587,
	"learning_rate": 9.838849121873949e-05,
	"loss": 0.0179,
	"step": 112
	},
	{
	"epoch": 0.8751210067763795,
	"grad_norm": 0.025231841951608658,
	"learning_rate": 9.831957763956813e-05,
	"loss": 0.0182,
	"step": 113
	},
	{
	"epoch": 0.882865440464666,
	"grad_norm": 0.023175878450274467,
	"learning_rate": 9.824924642083026e-05,
	"loss": 0.0167,
	"step": 114
	},
	{
	"epoch": 0.8906098741529526,
	"grad_norm": 0.02536984719336033,
	"learning_rate": 9.817749962596115e-05,
	"loss": 0.0271,
	"step": 115
	},
	{
	"epoch": 0.8906098741529526,
	"eval_loss": 0.018538037315011024,
	"eval_runtime": 4.8812,
	"eval_samples_per_second": 10.243,
	"eval_steps_per_second": 2.663,
	"step": 115
	},
	{
	"epoch": 0.8983543078412392,
	"grad_norm": 0.02080857753753662,
	"learning_rate": 9.810433935992733e-05,
	"loss": 0.0254,
	"step": 116
	},
	{
	"epoch": 0.9060987415295256,
	"grad_norm": 0.026430707424879074,
	"learning_rate": 9.802976776916494e-05,
	"loss": 0.0185,
	"step": 117
	},
	{
	"epoch": 0.9138431752178122,
	"grad_norm": 0.02291349321603775,
	"learning_rate": 9.795378704151675e-05,
	"loss": 0.0164,
	"step": 118
	},
	{
	"epoch": 0.9215876089060987,
	"grad_norm": 0.02319083735346794,
	"learning_rate": 9.787639940616788e-05,
	"loss": 0.0237,
	"step": 119
	},
	{
	"epoch": 0.9293320425943853,
	"grad_norm": 0.027965422719717026,
	"learning_rate": 9.779760713358059e-05,
	"loss": 0.0262,
	"step": 120
	},
	{
	"epoch": 0.9293320425943853,
	"eval_loss": 0.018477478995919228,
	"eval_runtime": 4.8802,
	"eval_samples_per_second": 10.246,
	"eval_steps_per_second": 2.664,
	"step": 120
	},
	{
	"epoch": 0.9370764762826719,
	"grad_norm": 0.023768456652760506,
	"learning_rate": 9.771741253542741e-05,
	"loss": 0.0186,
	"step": 121
	},
	{
	"epoch": 0.9448209099709584,
	"grad_norm": 0.01906961388885975,
	"learning_rate": 9.763581796452353e-05,
	"loss": 0.0163,
	"step": 122
	},
	{
	"epoch": 0.952565343659245,
	"grad_norm": 0.022706998512148857,
	"learning_rate": 9.755282581475769e-05,
	"loss": 0.0253,
	"step": 123
	},
	{
	"epoch": 0.9603097773475314,
	"grad_norm": 0.02551465854048729,
	"learning_rate": 9.74684385210219e-05,
	"loss": 0.0163,
	"step": 124
	},
	{
	"epoch": 0.968054211035818,
	"grad_norm": 0.02145274542272091,
	"learning_rate": 9.738265855914013e-05,
	"loss": 0.0299,
	"step": 125
	},
	{
	"epoch": 0.968054211035818,
	"eval_loss": 0.01828974299132824,
	"eval_runtime": 4.8759,
	"eval_samples_per_second": 10.254,
	"eval_steps_per_second": 2.666,
	"step": 125
	},
	{
	"epoch": 0.9757986447241046,
	"grad_norm": 0.023152988404035568,
	"learning_rate": 9.729548844579552e-05,
	"loss": 0.0178,
	"step": 126
	},
	{
	"epoch": 0.9835430784123911,
	"grad_norm": 0.026649784296751022,
	"learning_rate": 9.720693073845667e-05,
	"loss": 0.024,
	"step": 127
	},
	{
	"epoch": 0.9912875121006777,
	"grad_norm": 0.020236071199178696,
	"learning_rate": 9.711698803530254e-05,
	"loss": 0.0301,
	"step": 128
	},
	{
	"epoch": 0.9990319457889641,
	"grad_norm": 0.027533914893865585,
	"learning_rate": 9.70256629751462e-05,
	"loss": 0.0195,
	"step": 129
	},
	{
	"epoch": 1.0067763794772506,
	"grad_norm": 0.053280122578144073,
	"learning_rate": 9.693295823735753e-05,
	"loss": 0.0315,
	"step": 130
	},
	{
	"epoch": 1.0067763794772506,
	"eval_loss": 0.018024258315563202,
	"eval_runtime": 4.8931,
	"eval_samples_per_second": 10.219,
	"eval_steps_per_second": 2.657,
	"step": 130
	},
	{
	"epoch": 1.0145208131655372,
	"grad_norm": 0.01893387921154499,
	"learning_rate": 9.683887654178445e-05,
	"loss": 0.0226,
	"step": 131
	},
	{
	"epoch": 1.0222652468538238,
	"grad_norm": 0.029532097280025482,
	"learning_rate": 9.674342064867326e-05,
	"loss": 0.0145,
	"step": 132
	},
	{
	"epoch": 1.0300096805421104,
	"grad_norm": 0.028108367696404457,
	"learning_rate": 9.664659335858755e-05,
	"loss": 0.0148,
	"step": 133
	},
	{
	"epoch": 1.037754114230397,
	"grad_norm": 0.025696909055113792,
	"learning_rate": 9.654839751232611e-05,
	"loss": 0.0198,
	"step": 134
	},
	{
	"epoch": 1.0454985479186834,
	"grad_norm": 0.02809828147292137,
	"learning_rate": 9.644883599083958e-05,
	"loss": 0.0212,
	"step": 135
	},
	{
	"epoch": 1.0454985479186834,
	"eval_loss": 0.017997030168771744,
	"eval_runtime": 4.8817,
	"eval_samples_per_second": 10.242,
	"eval_steps_per_second": 2.663,
	"step": 135
	},
	{
	"epoch": 1.05324298160697,
	"grad_norm": 0.023596247658133507,
	"learning_rate": 9.634791171514585e-05,
	"loss": 0.027,
	"step": 136
	},
	{
	"epoch": 1.0609874152952565,
	"grad_norm": 0.032478995621204376,
	"learning_rate": 9.624562764624445e-05,
	"loss": 0.0231,
	"step": 137
	},
	{
	"epoch": 1.0687318489835431,
	"grad_norm": 0.029977047815918922,
	"learning_rate": 9.614198678502965e-05,
	"loss": 0.0139,
	"step": 138
	},
	{
	"epoch": 1.0764762826718297,
	"grad_norm": 0.03173111006617546,
	"learning_rate": 9.603699217220239e-05,
	"loss": 0.0188,
	"step": 139
	},
	{
	"epoch": 1.084220716360116,
	"grad_norm": 0.02266346476972103,
	"learning_rate": 9.59306468881811e-05,
	"loss": 0.0172,
	"step": 140
	},
	{
	"epoch": 1.084220716360116,
	"eval_loss": 0.018361272290349007,
	"eval_runtime": 4.8948,
	"eval_samples_per_second": 10.215,
	"eval_steps_per_second": 2.656,
	"step": 140
	},
	{
	"epoch": 1.0919651500484027,
	"grad_norm": 0.03363156318664551,
	"learning_rate": 9.582295405301131e-05,
	"loss": 0.0202,
	"step": 141
	},
	{
	"epoch": 1.0997095837366893,
	"grad_norm": 0.03840557113289833,
	"learning_rate": 9.571391682627412e-05,
	"loss": 0.0222,
	"step": 142
	},
	{
	"epoch": 1.1074540174249758,
	"grad_norm": 0.023486673831939697,
	"learning_rate": 9.56035384069935e-05,
	"loss": 0.0396,
	"step": 143
	},
	{
	"epoch": 1.1151984511132624,
	"grad_norm": 0.030952000990509987,
	"learning_rate": 9.549182203354242e-05,
	"loss": 0.0225,
	"step": 144
	},
	{
	"epoch": 1.1229428848015488,
	"grad_norm": 0.030439218506217003,
	"learning_rate": 9.537877098354786e-05,
	"loss": 0.0277,
	"step": 145
	},
	{
	"epoch": 1.1229428848015488,
	"eval_loss": 0.01816246099770069,
	"eval_runtime": 4.8899,
	"eval_samples_per_second": 10.225,
	"eval_steps_per_second": 2.659,
	"step": 145
	},
	{
	"epoch": 1.1306873184898354,
	"grad_norm": 0.024195371195673943,
	"learning_rate": 9.526438857379463e-05,
	"loss": 0.0116,
	"step": 146
	},
	{
	"epoch": 1.138431752178122,
	"grad_norm": 0.02799941971898079,
	"learning_rate": 9.514867816012809e-05,
	"loss": 0.0195,
	"step": 147
	},
	{
	"epoch": 1.1461761858664086,
	"grad_norm": 0.030233675613999367,
	"learning_rate": 9.503164313735566e-05,
	"loss": 0.0182,
	"step": 148
	},
	{
	"epoch": 1.1539206195546952,
	"grad_norm": 0.024903280660510063,
	"learning_rate": 9.491328693914722e-05,
	"loss": 0.0222,
	"step": 149
	},
	{
	"epoch": 1.1616650532429815,
	"grad_norm": 0.023587804287672043,
	"learning_rate": 9.47936130379344e-05,
	"loss": 0.0166,
	"step": 150
	},
	{
	"epoch": 1.1616650532429815,
	"eval_loss": 0.017931492999196053,
	"eval_runtime": 4.8826,
	"eval_samples_per_second": 10.24,
	"eval_steps_per_second": 2.663,
	"step": 150
	},
	{
	"epoch": 1.1694094869312681,
	"grad_norm": 0.024121137335896492,
	"learning_rate": 9.467262494480869e-05,
	"loss": 0.0216,
	"step": 151
	},
	{
	"epoch": 1.1771539206195547,
	"grad_norm": 0.02379632741212845,
	"learning_rate": 9.45503262094184e-05,
	"loss": 0.023,
	"step": 152
	},
	{
	"epoch": 1.1848983543078413,
	"grad_norm": 0.02161642163991928,
	"learning_rate": 9.442672041986457e-05,
	"loss": 0.0349,
	"step": 153
	},
	{
	"epoch": 1.1926427879961277,
	"grad_norm": 0.019304990768432617,
	"learning_rate": 9.430181120259565e-05,
	"loss": 0.0193,
	"step": 154
	},
	{
	"epoch": 1.2003872216844143,
	"grad_norm": 0.022498024627566338,
	"learning_rate": 9.417560222230115e-05,
	"loss": 0.0272,
	"step": 155
	},
	{
	"epoch": 1.2003872216844143,
	"eval_loss": 0.018144290894269943,
	"eval_runtime": 4.8768,
	"eval_samples_per_second": 10.253,
	"eval_steps_per_second": 2.666,
	"step": 155
	},
	{
	"epoch": 1.2081316553727008,
	"grad_norm": 0.03062877058982849,
	"learning_rate": 9.404809718180407e-05,
	"loss": 0.0215,
	"step": 156
	},
	{
	"epoch": 1.2158760890609874,
	"grad_norm": 0.023427944630384445,
	"learning_rate": 9.391929982195232e-05,
	"loss": 0.0301,
	"step": 157
	},
	{
	"epoch": 1.223620522749274,
	"grad_norm": 0.02246953919529915,
	"learning_rate": 9.378921392150892e-05,
	"loss": 0.0212,
	"step": 158
	},
	{
	"epoch": 1.2313649564375604,
	"grad_norm": 0.02264482155442238,
	"learning_rate": 9.365784329704115e-05,
	"loss": 0.0164,
	"step": 159
	},
	{
	"epoch": 1.239109390125847,
	"grad_norm": 0.025367658585309982,
	"learning_rate": 9.35251918028086e-05,
	"loss": 0.0193,
	"step": 160
	},
	{
	"epoch": 1.239109390125847,
	"eval_loss": 0.017837481573224068,
	"eval_runtime": 4.8761,
	"eval_samples_per_second": 10.254,
	"eval_steps_per_second": 2.666,
	"step": 160
	},
	{
	"epoch": 1.2468538238141336,
	"grad_norm": 0.02131119929254055,
	"learning_rate": 9.339126333065007e-05,
	"loss": 0.0207,
	"step": 161
	},
	{
	"epoch": 1.2545982575024202,
	"grad_norm": 0.019136667251586914,
	"learning_rate": 9.325606180986939e-05,
	"loss": 0.0147,
	"step": 162
	},
	{
	"epoch": 1.2623426911907067,
	"grad_norm": 0.024482635781168938,
	"learning_rate": 9.31195912071201e-05,
	"loss": 0.0299,
	"step": 163
	},
	{
	"epoch": 1.2700871248789931,
	"grad_norm": 0.02487838640809059,
	"learning_rate": 9.298185552628917e-05,
	"loss": 0.0232,
	"step": 164
	},
	{
	"epoch": 1.2778315585672797,
	"grad_norm": 0.025261854752898216,
	"learning_rate": 9.284285880837946e-05,
	"loss": 0.0121,
	"step": 165
	},
	{
	"epoch": 1.2778315585672797,
	"eval_loss": 0.017772378399968147,
	"eval_runtime": 4.8807,
	"eval_samples_per_second": 10.245,
	"eval_steps_per_second": 2.664,
	"step": 165
	},
	{
	"epoch": 1.2855759922555663,
	"grad_norm": 0.02148056961596012,
	"learning_rate": 9.270260513139116e-05,
	"loss": 0.0347,
	"step": 166
	},
	{
	"epoch": 1.2933204259438529,
	"grad_norm": 0.02021237276494503,
	"learning_rate": 9.256109861020213e-05,
	"loss": 0.02,
	"step": 167
	},
	{
	"epoch": 1.3010648596321395,
	"grad_norm": 0.017359554767608643,
	"learning_rate": 9.241834339644726e-05,
	"loss": 0.0168,
	"step": 168
	},
	{
	"epoch": 1.3088092933204258,
	"grad_norm": 0.02310781180858612,
	"learning_rate": 9.22743436783966e-05,
	"loss": 0.0192,
	"step": 169
	},
	{
	"epoch": 1.3165537270087124,
	"grad_norm": 0.020348088815808296,
	"learning_rate": 9.212910368083245e-05,
	"loss": 0.0218,
	"step": 170
	},
	{
	"epoch": 1.3165537270087124,
	"eval_loss": 0.0177312009036541,
	"eval_runtime": 4.8794,
	"eval_samples_per_second": 10.247,
	"eval_steps_per_second": 2.664,
	"step": 170
	},
	{
	"epoch": 1.324298160696999,
	"grad_norm": 0.019140997901558876,
	"learning_rate": 9.198262766492554e-05,
	"loss": 0.0217,
	"step": 171
	},
	{
	"epoch": 1.3320425943852856,
	"grad_norm": 0.023120978847146034,
	"learning_rate": 9.183491992810979e-05,
	"loss": 0.0275,
	"step": 172
	},
	{
	"epoch": 1.3397870280735722,
	"grad_norm": 0.024684559553861618,
	"learning_rate": 9.168598480395651e-05,
	"loss": 0.0201,
	"step": 173
	},
	{
	"epoch": 1.3475314617618586,
	"grad_norm": 0.024830348789691925,
	"learning_rate": 9.153582666204701e-05,
	"loss": 0.0234,
	"step": 174
	},
	{
	"epoch": 1.3552758954501452,
	"grad_norm": 0.023022592067718506,
	"learning_rate": 9.138444990784453e-05,
	"loss": 0.016,
	"step": 175
	},
	{
	"epoch": 1.3552758954501452,
	"eval_loss": 0.017486225813627243,
	"eval_runtime": 4.8842,
	"eval_samples_per_second": 10.237,
	"eval_steps_per_second": 2.662,
	"step": 175
	},
	{
	"epoch": 1.3630203291384317,
	"grad_norm": 0.02616291493177414,
	"learning_rate": 9.123185898256496e-05,
	"loss": 0.0261,
	"step": 176
	},
	{
	"epoch": 1.3707647628267183,
	"grad_norm": 0.02299882471561432,
	"learning_rate": 9.107805836304658e-05,
	"loss": 0.0254,
	"step": 177
	},
	{
	"epoch": 1.378509196515005,
	"grad_norm": 0.018913911655545235,
	"learning_rate": 9.092305256161859e-05,
	"loss": 0.0124,
	"step": 178
	},
	{
	"epoch": 1.3862536302032913,
	"grad_norm": 0.02167947217822075,
	"learning_rate": 9.076684612596891e-05,
	"loss": 0.0232,
	"step": 179
	},
	{
	"epoch": 1.3939980638915779,
	"grad_norm": 0.02304757945239544,
	"learning_rate": 9.060944363901056e-05,
	"loss": 0.0268,
	"step": 180
	},
	{
	"epoch": 1.3939980638915779,
	"eval_loss": 0.01751082018017769,
	"eval_runtime": 4.8781,
	"eval_samples_per_second": 10.25,
	"eval_steps_per_second": 2.665,
	"step": 180
	},
	{
	"epoch": 1.4017424975798645,
	"grad_norm": 0.02488349750638008,
	"learning_rate": 9.045084971874738e-05,
	"loss": 0.0128,
	"step": 181
	},
	{
	"epoch": 1.409486931268151,
	"grad_norm": 0.025742027908563614,
	"learning_rate": 9.029106901813839e-05,
	"loss": 0.0243,
	"step": 182
	},
	{
	"epoch": 1.4172313649564376,
	"grad_norm": 0.020051000639796257,
	"learning_rate": 9.013010622496144e-05,
	"loss": 0.0106,
	"step": 183
	},
	{
	"epoch": 1.424975798644724,
	"grad_norm": 0.021976549178361893,
	"learning_rate": 8.996796606167548e-05,
	"loss": 0.0183,
	"step": 184
	},
	{
	"epoch": 1.4327202323330106,
	"grad_norm": 0.0210378710180521,
	"learning_rate": 8.980465328528219e-05,
	"loss": 0.0152,
	"step": 185
	},
	{
	"epoch": 1.4327202323330106,
	"eval_loss": 0.017743976786732674,
	"eval_runtime": 4.8802,
	"eval_samples_per_second": 10.246,
	"eval_steps_per_second": 2.664,
	"step": 185
	},
	{
	"epoch": 1.4404646660212972,
	"grad_norm": 0.02365756221115589,
	"learning_rate": 8.96401726871863e-05,
	"loss": 0.0114,
	"step": 186
	},
	{
	"epoch": 1.4482090997095838,
	"grad_norm": 0.025590112432837486,
	"learning_rate": 8.94745290930551e-05,
	"loss": 0.0189,
	"step": 187
	},
	{
	"epoch": 1.4559535333978704,
	"grad_norm": 0.029832618311047554,
	"learning_rate": 8.930772736267674e-05,
	"loss": 0.0324,
	"step": 188
	},
	{
	"epoch": 1.4636979670861567,
	"grad_norm": 0.025901637971401215,
	"learning_rate": 8.913977238981778e-05,
	"loss": 0.0186,
	"step": 189
	},
	{
	"epoch": 1.4714424007744433,
	"grad_norm": 0.01908070780336857,
	"learning_rate": 8.897066910207958e-05,
	"loss": 0.0279,
	"step": 190
	},
	{
	"epoch": 1.4714424007744433,
	"eval_loss": 0.017557693645358086,
	"eval_runtime": 4.8877,
	"eval_samples_per_second": 10.23,
	"eval_steps_per_second": 2.66,
	"step": 190
	},
	{
	"epoch": 1.47918683446273,
	"grad_norm": 0.025517305359244347,
	"learning_rate": 8.880042246075365e-05,
	"loss": 0.0279,
	"step": 191
	},
	{
	"epoch": 1.4869312681510165,
	"grad_norm": 0.019936546683311462,
	"learning_rate": 8.862903746067618e-05,
	"loss": 0.0172,
	"step": 192
	},
	{
	"epoch": 1.494675701839303,
	"grad_norm": 0.019224194809794426,
	"learning_rate": 8.845651913008145e-05,
	"loss": 0.0138,
	"step": 193
	},
	{
	"epoch": 1.5024201355275895,
	"grad_norm": 0.017969885841012,
	"learning_rate": 8.828287253045435e-05,
	"loss": 0.0151,
	"step": 194
	},
	{
	"epoch": 1.510164569215876,
	"grad_norm": 0.02093169093132019,
	"learning_rate": 8.810810275638183e-05,
	"loss": 0.0206,
	"step": 195
	},
	{
	"epoch": 1.510164569215876,
	"eval_loss": 0.017626546323299408,
	"eval_runtime": 4.9032,
	"eval_samples_per_second": 10.197,
	"eval_steps_per_second": 2.651,
	"step": 195
	},
	{
	"epoch": 1.5179090029041626,
	"grad_norm": 0.027407390996813774,
	"learning_rate": 8.793221493540347e-05,
	"loss": 0.0151,
	"step": 196
	},
	{
	"epoch": 1.5256534365924492,
	"grad_norm": 0.022155404090881348,
	"learning_rate": 8.775521422786104e-05,
	"loss": 0.0187,
	"step": 197
	},
	{
	"epoch": 1.5333978702807358,
	"grad_norm": 0.02126327157020569,
	"learning_rate": 8.757710582674707e-05,
	"loss": 0.0168,
	"step": 198
	},
	{
	"epoch": 1.5411423039690222,
	"grad_norm": 0.02067979797720909,
	"learning_rate": 8.739789495755253e-05,
	"loss": 0.015,
	"step": 199
	},
	{
	"epoch": 1.5488867376573088,
	"grad_norm": 0.023581981658935547,
	"learning_rate": 8.721758687811352e-05,
	"loss": 0.0196,
	"step": 200
	},
	{
	"epoch": 1.5488867376573088,
	"eval_loss": 0.017185786738991737,
	"eval_runtime": 4.8793,
	"eval_samples_per_second": 10.247,
	"eval_steps_per_second": 2.664,
	"step": 200
	},
	{
	"epoch": 1.5566311713455954,
	"grad_norm": 0.0208896417170763,
	"learning_rate": 8.703618687845696e-05,
	"loss": 0.0176,
	"step": 201
	},
	{
	"epoch": 1.5643756050338817,
	"grad_norm": 0.02558140642940998,
	"learning_rate": 8.685370028064546e-05,
	"loss": 0.0224,
	"step": 202
	},
	{
	"epoch": 1.5721200387221685,
	"grad_norm": 0.01860946975648403,
	"learning_rate": 8.667013243862113e-05,
	"loss": 0.0189,
	"step": 203
	},
	{
	"epoch": 1.579864472410455,
	"grad_norm": 0.024494647979736328,
	"learning_rate": 8.64854887380485e-05,
	"loss": 0.0204,
	"step": 204
	},
	{
	"epoch": 1.5876089060987415,
	"grad_norm": 0.028290973976254463,
	"learning_rate": 8.629977459615655e-05,
	"loss": 0.0262,
	"step": 205
	},
	{
	"epoch": 1.5876089060987415,
	"eval_loss": 0.016824763268232346,
	"eval_runtime": 4.88,
	"eval_samples_per_second": 10.246,
	"eval_steps_per_second": 2.664,
	"step": 205
	},
	{
	"epoch": 1.595353339787028,
	"grad_norm": 0.020388493314385414,
	"learning_rate": 8.611299546157974e-05,
	"loss": 0.0287,
	"step": 206
	},
	{
	"epoch": 1.6030977734753145,
	"grad_norm": 0.022215668112039566,
	"learning_rate": 8.592515681419813e-05,
	"loss": 0.0249,
	"step": 207
	},
	{
	"epoch": 1.6108422071636013,
	"grad_norm": 0.028934534639120102,
	"learning_rate": 8.573626416497668e-05,
	"loss": 0.0217,
	"step": 208
	},
	{
	"epoch": 1.6185866408518876,
	"grad_norm": 0.022588912397623062,
	"learning_rate": 8.554632305580354e-05,
	"loss": 0.0207,
	"step": 209
	},
	{
	"epoch": 1.6263310745401742,
	"grad_norm": 0.02324405126273632,
	"learning_rate": 8.535533905932738e-05,
	"loss": 0.0178,
	"step": 210
	},
	{
	"epoch": 1.6263310745401742,
	"eval_loss": 0.016888294368982315,
	"eval_runtime": 4.8771,
	"eval_samples_per_second": 10.252,
	"eval_steps_per_second": 2.665,
	"step": 210
	},
	{
	"epoch": 1.6340755082284608,
	"grad_norm": 0.023379050195217133,
	"learning_rate": 8.5163317778794e-05,
	"loss": 0.0227,
	"step": 211
	},
	{
	"epoch": 1.6418199419167472,
	"grad_norm": 0.024302620440721512,
	"learning_rate": 8.497026484788189e-05,
	"loss": 0.0279,
	"step": 212
	},
	{
	"epoch": 1.649564375605034,
	"grad_norm": 0.02425311878323555,
	"learning_rate": 8.477618593053693e-05,
	"loss": 0.02,
	"step": 213
	},
	{
	"epoch": 1.6573088092933204,
	"grad_norm": 0.0243984404951334,
	"learning_rate": 8.458108672080624e-05,
	"loss": 0.0255,
	"step": 214
	},
	{
	"epoch": 1.665053242981607,
	"grad_norm": 0.018734309822320938,
	"learning_rate": 8.438497294267117e-05,
	"loss": 0.011,
	"step": 215
	},
	{
	"epoch": 1.665053242981607,
	"eval_loss": 0.01664450205862522,
	"eval_runtime": 4.8808,
	"eval_samples_per_second": 10.244,
	"eval_steps_per_second": 2.663,
	"step": 215
	},
	{
	"epoch": 1.6727976766698935,
	"grad_norm": 0.019455671310424805,
	"learning_rate": 8.418785034987921e-05,
	"loss": 0.0175,
	"step": 216
	},
	{
	"epoch": 1.68054211035818,
	"grad_norm": 0.021629663184285164,
	"learning_rate": 8.39897247257754e-05,
	"loss": 0.0156,
	"step": 217
	},
	{
	"epoch": 1.6882865440464667,
	"grad_norm": 0.022207748144865036,
	"learning_rate": 8.379060188313244e-05,
	"loss": 0.0271,
	"step": 218
	},
	{
	"epoch": 1.696030977734753,
	"grad_norm": 0.021333666518330574,
	"learning_rate": 8.359048766398031e-05,
	"loss": 0.0223,
	"step": 219
	},
	{
	"epoch": 1.7037754114230397,
	"grad_norm": 0.021991191431879997,
	"learning_rate": 8.338938793943478e-05,
	"loss": 0.0128,
	"step": 220
	},
	{
	"epoch": 1.7037754114230397,
	"eval_loss": 0.016610655933618546,
	"eval_runtime": 4.8782,
	"eval_samples_per_second": 10.25,
	"eval_steps_per_second": 2.665,
	"step": 220
	},
	{
	"epoch": 1.7115198451113263,
	"grad_norm": 0.01750914379954338,
	"learning_rate": 8.318730860952522e-05,
	"loss": 0.0217,
	"step": 221
	},
	{
	"epoch": 1.7192642787996126,
	"grad_norm": 0.022801555693149567,
	"learning_rate": 8.298425560302146e-05,
	"loss": 0.0229,
	"step": 222
	},
	{
	"epoch": 1.7270087124878994,
	"grad_norm": 0.028667643666267395,
	"learning_rate": 8.278023487725982e-05,
	"loss": 0.0317,
	"step": 223
	},
	{
	"epoch": 1.7347531461761858,
	"grad_norm": 0.0247921384871006,
	"learning_rate": 8.257525241796838e-05,
	"loss": 0.0177,
	"step": 224
	},
	{
	"epoch": 1.7424975798644724,
	"grad_norm": 0.02079445868730545,
	"learning_rate": 8.236931423909138e-05,
	"loss": 0.0223,
	"step": 225
	},
	{
	"epoch": 1.7424975798644724,
	"eval_loss": 0.016715094447135925,
	"eval_runtime": 4.8828,
	"eval_samples_per_second": 10.24,
	"eval_steps_per_second": 2.662,
	"step": 225
	},
	{
	"epoch": 1.750242013552759,
	"grad_norm": 0.023619551211595535,
	"learning_rate": 8.216242638261276e-05,
	"loss": 0.0237,
	"step": 226
	},
	{
	"epoch": 1.7579864472410454,
	"grad_norm": 0.020713407546281815,
	"learning_rate": 8.19545949183788e-05,
	"loss": 0.0167,
	"step": 227
	},
	{
	"epoch": 1.7657308809293322,
	"grad_norm": 0.024574102833867073,
	"learning_rate": 8.17458259439202e-05,
	"loss": 0.0281,
	"step": 228
	},
	{
	"epoch": 1.7734753146176185,
	"grad_norm": 0.01983151212334633,
	"learning_rate": 8.153612558427311e-05,
	"loss": 0.0217,
	"step": 229
	},
	{
	"epoch": 1.7812197483059051,
	"grad_norm": 0.027135249227285385,
	"learning_rate": 8.132549999179933e-05,
	"loss": 0.0201,
	"step": 230
	},
	{
	"epoch": 1.7812197483059051,
	"eval_loss": 0.016661785542964935,
	"eval_runtime": 4.8807,
	"eval_samples_per_second": 10.244,
	"eval_steps_per_second": 2.664,
	"step": 230
	},
	{
	"epoch": 1.7889641819941917,
	"grad_norm": 0.021816475316882133,
	"learning_rate": 8.111395534600603e-05,
	"loss": 0.0166,
	"step": 231
	},
	{
	"epoch": 1.796708615682478,
	"grad_norm": 0.019049836322665215,
	"learning_rate": 8.090149785336425e-05,
	"loss": 0.0125,
	"step": 232
	},
	{
	"epoch": 1.804453049370765,
	"grad_norm": 0.023273281753063202,
	"learning_rate": 8.068813374712688e-05,
	"loss": 0.0295,
	"step": 233
	},
	{
	"epoch": 1.8121974830590513,
	"grad_norm": 0.02431442402303219,
	"learning_rate": 8.047386928714582e-05,
	"loss": 0.0193,
	"step": 234
	},
	{
	"epoch": 1.8199419167473379,
	"grad_norm": 0.02583279088139534,
	"learning_rate": 8.025871075968828e-05,
	"loss": 0.0239,
	"step": 235
	},
	{
	"epoch": 1.8199419167473379,
	"eval_loss": 0.016347970813512802,
	"eval_runtime": 4.883,
	"eval_samples_per_second": 10.24,
	"eval_steps_per_second": 2.662,
	"step": 235
	},
	{
	"epoch": 1.8276863504356244,
	"grad_norm": 0.021466901525855064,
	"learning_rate": 8.00426644772523e-05,
	"loss": 0.0226,
	"step": 236
	},
	{
	"epoch": 1.8354307841239108,
	"grad_norm": 0.02583594247698784,
	"learning_rate": 7.982573677838172e-05,
	"loss": 0.0113,
	"step": 237
	},
	{
	"epoch": 1.8431752178121976,
	"grad_norm": 0.02358117513358593,
	"learning_rate": 7.960793402748002e-05,
	"loss": 0.0292,
	"step": 238
	},
	{
	"epoch": 1.850919651500484,
	"grad_norm": 0.025698702782392502,
	"learning_rate": 7.938926261462366e-05,
	"loss": 0.0269,
	"step": 239
	},
	{
	"epoch": 1.8586640851887706,
	"grad_norm": 0.021297315135598183,
	"learning_rate": 7.916972895537471e-05,
	"loss": 0.0206,
	"step": 240
	},
	{
	"epoch": 1.8586640851887706,
	"eval_loss": 0.016880055889487267,
	"eval_runtime": 4.8849,
	"eval_samples_per_second": 10.236,
	"eval_steps_per_second": 2.661,
	"step": 240
	},
	{
	"epoch": 1.8664085188770572,
	"grad_norm": 0.02742616832256317,
	"learning_rate": 7.894933949059245e-05,
	"loss": 0.0266,
	"step": 241
	},
	{
	"epoch": 1.8741529525653435,
	"grad_norm": 0.029985694214701653,
	"learning_rate": 7.872810068624451e-05,
	"loss": 0.0209,
	"step": 242
	},
	{
	"epoch": 1.8818973862536303,
	"grad_norm": 0.01984225958585739,
	"learning_rate": 7.850601903321716e-05,
	"loss": 0.0112,
	"step": 243
	},
	{
	"epoch": 1.8896418199419167,
	"grad_norm": 0.028832539916038513,
	"learning_rate": 7.828310104712489e-05,
	"loss": 0.0176,
	"step": 244
	},
	{
	"epoch": 1.8973862536302033,
	"grad_norm": 0.025244107469916344,
	"learning_rate": 7.805935326811912e-05,
	"loss": 0.0209,
	"step": 245
	},
	{
	"epoch": 1.8973862536302033,
	"eval_loss": 0.016251368448138237,
	"eval_runtime": 4.8854,
	"eval_samples_per_second": 10.235,
	"eval_steps_per_second": 2.661,
	"step": 245
	},
	{
	"epoch": 1.90513068731849,
	"grad_norm": 0.019776510074734688,
	"learning_rate": 7.783478226069651e-05,
	"loss": 0.0146,
	"step": 246
	},
	{
	"epoch": 1.9128751210067763,
	"grad_norm": 0.030150357633829117,
	"learning_rate": 7.760939461350623e-05,
	"loss": 0.0205,
	"step": 247
	},
	{
	"epoch": 1.920619554695063,
	"grad_norm": 0.02409055270254612,
	"learning_rate": 7.738319693915672e-05,
	"loss": 0.0209,
	"step": 248
	},
	{
	"epoch": 1.9283639883833494,
	"grad_norm": 0.02473391965031624,
	"learning_rate": 7.715619587402164e-05,
	"loss": 0.0169,
	"step": 249
	},
	{
	"epoch": 1.936108422071636,
	"grad_norm": 0.028100404888391495,
	"learning_rate": 7.692839807804521e-05,
	"loss": 0.0171,
	"step": 250
	},
	{
	"epoch": 1.936108422071636,
	"eval_loss": 0.016126085072755814,
	"eval_runtime": 4.8878,
	"eval_samples_per_second": 10.23,
	"eval_steps_per_second": 2.66,
	"step": 250
	},
	{
	"epoch": 1.9438528557599226,
	"grad_norm": 0.031069206073880196,
	"learning_rate": 7.669981023454682e-05,
	"loss": 0.0346,
	"step": 251
	},
	{
	"epoch": 1.951597289448209,
	"grad_norm": 0.020763061940670013,
	"learning_rate": 7.647043905002484e-05,
	"loss": 0.0168,
	"step": 252
	},
	{
	"epoch": 1.9593417231364958,
	"grad_norm": 0.021877290681004524,
	"learning_rate": 7.624029125396004e-05,
	"loss": 0.0276,
	"step": 253
	},
	{
	"epoch": 1.9670861568247822,
	"grad_norm": 0.023641012609004974,
	"learning_rate": 7.6009373598618e-05,
	"loss": 0.0182,
	"step": 254
	},
	{
	"epoch": 1.9748305905130688,
	"grad_norm": 0.025783414021134377,
	"learning_rate": 7.577769285885109e-05,
	"loss": 0.022,
	"step": 255
	},
	{
	"epoch": 1.9748305905130688,
	"eval_loss": 0.015866845846176147,
	"eval_runtime": 4.8957,
	"eval_samples_per_second": 10.213,
	"eval_steps_per_second": 2.655,
	"step": 255
	},
	{
	"epoch": 1.9825750242013553,
	"grad_norm": 0.022825462743639946,
	"learning_rate": 7.554525583189969e-05,
	"loss": 0.0184,
	"step": 256
	},
	{
	"epoch": 1.9903194578896417,
	"grad_norm": 0.024429945275187492,
	"learning_rate": 7.53120693371927e-05,
	"loss": 0.0196,
	"step": 257
	},
	{
	"epoch": 1.9980638915779285,
	"grad_norm": 0.0280454121530056,
	"learning_rate": 7.507814021614761e-05,
	"loss": 0.0297,
	"step": 258
	},
	{
	"epoch": 2.005808325266215,
	"grad_norm": 0.04602880775928497,
	"learning_rate": 7.484347533196961e-05,
	"loss": 0.0211,
	"step": 259
	},
	{
	"epoch": 2.0135527589545013,
	"grad_norm": 0.01826930046081543,
	"learning_rate": 7.460808156945036e-05,
	"loss": 0.0162,
	"step": 260
	},
	{
	"epoch": 2.0135527589545013,
	"eval_loss": 0.015875546261668205,
	"eval_runtime": 4.8819,
	"eval_samples_per_second": 10.242,
	"eval_steps_per_second": 2.663,
	"step": 260
	},
	{
	"epoch": 2.021297192642788,
	"grad_norm": 0.018936650827527046,
	"learning_rate": 7.437196583476596e-05,
	"loss": 0.0169,
	"step": 261
	},
	{
	"epoch": 2.0290416263310744,
	"grad_norm": 0.02147481217980385,
	"learning_rate": 7.413513505527429e-05,
	"loss": 0.0142,
	"step": 262
	},
	{
	"epoch": 2.0367860600193612,
	"grad_norm": 0.020604653283953667,
	"learning_rate": 7.389759617931182e-05,
	"loss": 0.0115,
	"step": 263
	},
	{
	"epoch": 2.0445304937076476,
	"grad_norm": 0.021933911368250847,
	"learning_rate": 7.365935617598975e-05,
	"loss": 0.0134,
	"step": 264
	},
	{
	"epoch": 2.052274927395934,
	"grad_norm": 0.02122250571846962,
	"learning_rate": 7.342042203498951e-05,
	"loss": 0.0185,
	"step": 265
	},
	{
	"epoch": 2.052274927395934,
	"eval_loss": 0.01603526994585991,
	"eval_runtime": 4.9059,
	"eval_samples_per_second": 10.192,
	"eval_steps_per_second": 2.65,
	"step": 265
	},
	{
	"epoch": 2.060019361084221,
	"grad_norm": 0.018767178058624268,
	"learning_rate": 7.318080076635772e-05,
	"loss": 0.0087,
	"step": 266
	},
	{
	"epoch": 2.067763794772507,
	"grad_norm": 0.01828618347644806,
	"learning_rate": 7.294049940030055e-05,
	"loss": 0.0088,
	"step": 267
	},
	{
	"epoch": 2.075508228460794,
	"grad_norm": 0.029488379135727882,
	"learning_rate": 7.269952498697734e-05,
	"loss": 0.0148,
	"step": 268
	},
	{
	"epoch": 2.0832526621490803,
	"grad_norm": 0.028726164251565933,
	"learning_rate": 7.245788459629396e-05,
	"loss": 0.0226,
	"step": 269
	},
	{
	"epoch": 2.0909970958373667,
	"grad_norm": 0.03607122600078583,
	"learning_rate": 7.221558531769519e-05,
	"loss": 0.0185,
	"step": 270
	},
	{
	"epoch": 2.0909970958373667,
	"eval_loss": 0.01613912731409073,
	"eval_runtime": 4.8866,
	"eval_samples_per_second": 10.232,
	"eval_steps_per_second": 2.66,
	"step": 270
	},
	{
	"epoch": 2.0987415295256535,
	"grad_norm": 0.02318711020052433,
	"learning_rate": 7.197263425995682e-05,
	"loss": 0.0187,
	"step": 271
	},
	{
	"epoch": 2.10648596321394,
	"grad_norm": 0.027442490682005882,
	"learning_rate": 7.172903855097711e-05,
	"loss": 0.0185,
	"step": 272
	},
	{
	"epoch": 2.1142303969022267,
	"grad_norm": 0.02113383449614048,
	"learning_rate": 7.14848053375676e-05,
	"loss": 0.0162,
	"step": 273
	},
	{
	"epoch": 2.121974830590513,
	"grad_norm": 0.02109163999557495,
	"learning_rate": 7.123994178524345e-05,
	"loss": 0.0189,
	"step": 274
	},
	{
	"epoch": 2.1297192642787994,
	"grad_norm": 0.018890704959630966,
	"learning_rate": 7.099445507801323e-05,
	"loss": 0.0196,
	"step": 275
	},
	{
	"epoch": 2.1297192642787994,
	"eval_loss": 0.016141431406140327,
	"eval_runtime": 4.8795,
	"eval_samples_per_second": 10.247,
	"eval_steps_per_second": 2.664,
	"step": 275
	},
	{
	"epoch": 2.1374636979670862,
	"grad_norm": 0.026332931593060493,
	"learning_rate": 7.074835241816817e-05,
	"loss": 0.029,
	"step": 276
	},
	{
	"epoch": 2.1452081316553726,
	"grad_norm": 0.02275455929338932,
	"learning_rate": 7.05016410260708e-05,
	"loss": 0.0156,
	"step": 277
	},
	{
	"epoch": 2.1529525653436594,
	"grad_norm": 0.022596005350351334,
	"learning_rate": 7.025432813994315e-05,
	"loss": 0.0184,
	"step": 278
	},
	{
	"epoch": 2.160696999031946,
	"grad_norm": 0.020018640905618668,
	"learning_rate": 7.000642101565434e-05,
	"loss": 0.0107,
	"step": 279
	},
	{
	"epoch": 2.168441432720232,
	"grad_norm": 0.025625359266996384,
	"learning_rate": 6.975792692650777e-05,
	"loss": 0.0146,
	"step": 280
	},
	{
	"epoch": 2.168441432720232,
	"eval_loss": 0.015940353274345398,
	"eval_runtime": 4.9128,
	"eval_samples_per_second": 10.178,
	"eval_steps_per_second": 2.646,
	"step": 280
	},
	{
	"epoch": 2.176185866408519,
	"grad_norm": 0.026554979383945465,
	"learning_rate": 6.950885316302773e-05,
	"loss": 0.0213,
	"step": 281
	},
	{
	"epoch": 2.1839303000968053,
	"grad_norm": 0.023344026878476143,
	"learning_rate": 6.925920703274541e-05,
	"loss": 0.0176,
	"step": 282
	},
	{
	"epoch": 2.191674733785092,
	"grad_norm": 0.03146139904856682,
	"learning_rate": 6.90089958599846e-05,
	"loss": 0.0243,
	"step": 283
	},
	{
	"epoch": 2.1994191674733785,
	"grad_norm": 0.02688729763031006,
	"learning_rate": 6.875822698564679e-05,
	"loss": 0.0235,
	"step": 284
	},
	{
	"epoch": 2.207163601161665,
	"grad_norm": 0.017707915976643562,
	"learning_rate": 6.850690776699573e-05,
	"loss": 0.0091,
	"step": 285
	},
	{
	"epoch": 2.207163601161665,
	"eval_loss": 0.015938647091388702,
	"eval_runtime": 4.8821,
	"eval_samples_per_second": 10.241,
	"eval_steps_per_second": 2.663,
	"step": 285
	},
	{
	"epoch": 2.2149080348499517,
	"grad_norm": 0.02426217496395111,
	"learning_rate": 6.825504557744167e-05,
	"loss": 0.0222,
	"step": 286
	},
	{
	"epoch": 2.222652468538238,
	"grad_norm": 0.017933079972863197,
	"learning_rate": 6.800264780632494e-05,
	"loss": 0.0127,
	"step": 287
	},
	{
	"epoch": 2.230396902226525,
	"grad_norm": 0.02196042612195015,
	"learning_rate": 6.774972185869927e-05,
	"loss": 0.013,
	"step": 288
	},
	{
	"epoch": 2.2381413359148112,
	"grad_norm": 0.02711823582649231,
	"learning_rate": 6.749627515511442e-05,
	"loss": 0.0198,
	"step": 289
	},
	{
	"epoch": 2.2458857696030976,
	"grad_norm": 0.01899660937488079,
	"learning_rate": 6.724231513139852e-05,
	"loss": 0.0106,
	"step": 290
	},
	{
	"epoch": 2.2458857696030976,
	"eval_loss": 0.015821926295757294,
	"eval_runtime": 4.8849,
	"eval_samples_per_second": 10.236,
	"eval_steps_per_second": 2.661,
	"step": 290
	},
	{
	"epoch": 2.2536302032913844,
	"grad_norm": 0.02587137557566166,
	"learning_rate": 6.698784923843992e-05,
	"loss": 0.0204,
	"step": 291
	},
	{
	"epoch": 2.261374636979671,
	"grad_norm": 0.02532321773469448,
	"learning_rate": 6.673288494196858e-05,
	"loss": 0.0191,
	"step": 292
	},
	{
	"epoch": 2.2691190706679576,
	"grad_norm": 0.03079635463654995,
	"learning_rate": 6.647742972233703e-05,
	"loss": 0.0205,
	"step": 293
	},
	{
	"epoch": 2.276863504356244,
	"grad_norm": 0.023865051567554474,
	"learning_rate": 6.622149107430088e-05,
	"loss": 0.0151,
	"step": 294
	},
	{
	"epoch": 2.2846079380445303,
	"grad_norm": 0.02512257918715477,
	"learning_rate": 6.5965076506799e-05,
	"loss": 0.014,
	"step": 295
	},
	{
	"epoch": 2.2846079380445303,
	"eval_loss": 0.015925200656056404,
	"eval_runtime": 4.8773,
	"eval_samples_per_second": 10.251,
	"eval_steps_per_second": 2.665,
	"step": 295
	},
	{
	"epoch": 2.292352371732817,
	"grad_norm": 0.026422763243317604,
	"learning_rate": 6.570819354273317e-05,
	"loss": 0.0173,
	"step": 296
	},
	{
	"epoch": 2.3000968054211035,
	"grad_norm": 0.02848372980952263,
	"learning_rate": 6.545084971874738e-05,
	"loss": 0.0251,
	"step": 297
	},
	{
	"epoch": 2.3078412391093903,
	"grad_norm": 0.02191309630870819,
	"learning_rate": 6.519305258500666e-05,
	"loss": 0.0104,
	"step": 298
	},
	{
	"epoch": 2.3155856727976767,
	"grad_norm": 0.025703053921461105,
	"learning_rate": 6.493480970497569e-05,
	"loss": 0.0311,
	"step": 299
	},
	{
	"epoch": 2.323330106485963,
	"grad_norm": 0.021763848140835762,
	"learning_rate": 6.467612865519674e-05,
	"loss": 0.0168,
	"step": 300
	},
	{
	"epoch": 2.323330106485963,
	"eval_loss": 0.01583768054842949,
	"eval_runtime": 4.8796,
	"eval_samples_per_second": 10.247,
	"eval_steps_per_second": 2.664,
	"step": 300
	},
	{
	"epoch": 2.33107454017425,
	"grad_norm": 0.01981600932776928,
	"learning_rate": 6.441701702506754e-05,
	"loss": 0.0174,
	"step": 301
	},
	{
	"epoch": 2.3388189738625362,
	"grad_norm": 0.021816400811076164,
	"learning_rate": 6.415748241661851e-05,
	"loss": 0.0222,
	"step": 302
	},
	{
	"epoch": 2.346563407550823,
	"grad_norm": 0.028364678844809532,
	"learning_rate": 6.389753244428972e-05,
	"loss": 0.0222,
	"step": 303
	},
	{
	"epoch": 2.3543078412391094,
	"grad_norm": 0.03110797517001629,
	"learning_rate": 6.363717473470759e-05,
	"loss": 0.0194,
	"step": 304
	},
	{
	"epoch": 2.362052274927396,
	"grad_norm": 0.03083011880517006,
	"learning_rate": 6.337641692646106e-05,
	"loss": 0.0217,
	"step": 305
	},
	{
	"epoch": 2.362052274927396,
	"eval_loss": 0.01598162204027176,
	"eval_runtime": 4.8805,
	"eval_samples_per_second": 10.245,
	"eval_steps_per_second": 2.664,
	"step": 305
	},
	{
	"epoch": 2.3697967086156826,
	"grad_norm": 0.027600981295108795,
	"learning_rate": 6.311526666987743e-05,
	"loss": 0.0168,
	"step": 306
	},
	{
	"epoch": 2.377541142303969,
	"grad_norm": 0.050711363554000854,
	"learning_rate": 6.285373162679803e-05,
	"loss": 0.027,
	"step": 307
	},
	{
	"epoch": 2.3852855759922553,
	"grad_norm": 0.0258706696331501,
	"learning_rate": 6.259181947035342e-05,
	"loss": 0.014,
	"step": 308
	},
	{
	"epoch": 2.393030009680542,
	"grad_norm": 0.022878140211105347,
	"learning_rate": 6.232953788473811e-05,
	"loss": 0.0125,
	"step": 309
	},
	{
	"epoch": 2.4007744433688285,
	"grad_norm": 0.02646121010184288,
	"learning_rate": 6.206689456498529e-05,
	"loss": 0.0225,
	"step": 310
	},
	{
	"epoch": 2.4007744433688285,
	"eval_loss": 0.015688462182879448,
	"eval_runtime": 4.8894,
	"eval_samples_per_second": 10.226,
	"eval_steps_per_second": 2.659,
	"step": 310
	},
	{
	"epoch": 2.4085188770571153,
	"grad_norm": 0.01907186210155487,
	"learning_rate": 6.1803897216741e-05,
	"loss": 0.0105,
	"step": 311
	},
	{
	"epoch": 2.4162633107454017,
	"grad_norm": 0.025598157197237015,
	"learning_rate": 6.154055355603807e-05,
	"loss": 0.0195,
	"step": 312
	},
	{
	"epoch": 2.4240077444336885,
	"grad_norm": 0.021488605067133904,
	"learning_rate": 6.127687130906972e-05,
	"loss": 0.0171,
	"step": 313
	},
	{
	"epoch": 2.431752178121975,
	"grad_norm": 0.023560060188174248,
	"learning_rate": 6.101285821196285e-05,
	"loss": 0.0234,
	"step": 314
	},
	{
	"epoch": 2.4394966118102612,
	"grad_norm": 0.020358163863420486,
	"learning_rate": 6.0748522010551215e-05,
	"loss": 0.0158,
	"step": 315
	},
	{
	"epoch": 2.4394966118102612,
	"eval_loss": 0.015287678688764572,
	"eval_runtime": 4.884,
	"eval_samples_per_second": 10.237,
	"eval_steps_per_second": 2.662,
	"step": 315
	},
	{
	"epoch": 2.447241045498548,
	"grad_norm": 0.04023784399032593,
	"learning_rate": 6.048387046014795e-05,
	"loss": 0.0195,
	"step": 316
	},
	{
	"epoch": 2.4549854791868344,
	"grad_norm": 0.018253512680530548,
	"learning_rate": 6.021891132531825e-05,
	"loss": 0.0172,
	"step": 317
	},
	{
	"epoch": 2.4627299128751208,
	"grad_norm": 0.020507492125034332,
	"learning_rate": 5.995365237965144e-05,
	"loss": 0.0234,
	"step": 318
	},
	{
	"epoch": 2.4704743465634076,
	"grad_norm": 0.025176333263516426,
	"learning_rate": 5.9688101405532925e-05,
	"loss": 0.0196,
	"step": 319
	},
	{
	"epoch": 2.478218780251694,
	"grad_norm": 0.022779326885938644,
	"learning_rate": 5.9422266193915924e-05,
	"loss": 0.0122,
	"step": 320
	},
	{
	"epoch": 2.478218780251694,
	"eval_loss": 0.015223703347146511,
	"eval_runtime": 4.8811,
	"eval_samples_per_second": 10.244,
	"eval_steps_per_second": 2.663,
	"step": 320
	},
	{
	"epoch": 2.4859632139399808,
	"grad_norm": 0.019654158502817154,
	"learning_rate": 5.9156154544092815e-05,
	"loss": 0.0191,
	"step": 321
	},
	{
	"epoch": 2.493707647628267,
	"grad_norm": 0.01823735609650612,
	"learning_rate": 5.8889774263466355e-05,
	"loss": 0.0128,
	"step": 322
	},
	{
	"epoch": 2.501452081316554,
	"grad_norm": 0.022733347490429878,
	"learning_rate": 5.862313316732063e-05,
	"loss": 0.0095,
	"step": 323
	},
	{
	"epoch": 2.5091965150048403,
	"grad_norm": 0.019566858187317848,
	"learning_rate": 5.8356239078591724e-05,
	"loss": 0.012,
	"step": 324
	},
	{
	"epoch": 2.5169409486931267,
	"grad_norm": 0.023728664964437485,
	"learning_rate": 5.808909982763825e-05,
	"loss": 0.0152,
	"step": 325
	},
	{
	"epoch": 2.5169409486931267,
	"eval_loss": 0.01537258829921484,
	"eval_runtime": 4.8868,
	"eval_samples_per_second": 10.232,
	"eval_steps_per_second": 2.66,
	"step": 325
	},
	{
	"epoch": 2.5246853823814135,
	"grad_norm": 0.026009773835539818,
	"learning_rate": 5.782172325201155e-05,
	"loss": 0.0158,
	"step": 326
	},
	{
	"epoch": 2.5324298160697,
	"grad_norm": 0.045942921191453934,
	"learning_rate": 5.7554117196225846e-05,
	"loss": 0.0304,
	"step": 327
	},
	{
	"epoch": 2.5401742497579862,
	"grad_norm": 0.017686696723103523,
	"learning_rate": 5.728628951152799e-05,
	"loss": 0.0157,
	"step": 328
	},
	{
	"epoch": 2.547918683446273,
	"grad_norm": 0.020913394168019295,
	"learning_rate": 5.701824805566722e-05,
	"loss": 0.0162,
	"step": 329
	},
	{
	"epoch": 2.5556631171345594,
	"grad_norm": 0.025631655007600784,
	"learning_rate": 5.675000069266451e-05,
	"loss": 0.0268,
	"step": 330
	},
	{
	"epoch": 2.5556631171345594,
	"eval_loss": 0.015396489761769772,
	"eval_runtime": 4.8797,
	"eval_samples_per_second": 10.246,
	"eval_steps_per_second": 2.664,
	"step": 330
	},
	{
	"epoch": 2.563407550822846,
	"grad_norm": 0.021823951974511147,
	"learning_rate": 5.6481555292581946e-05,
	"loss": 0.0116,
	"step": 331
	},
	{
	"epoch": 2.5711519845111326,
	"grad_norm": 0.023217862471938133,
	"learning_rate": 5.621291973129177e-05,
	"loss": 0.0151,
	"step": 332
	},
	{
	"epoch": 2.5788964181994194,
	"grad_norm": 0.03442602604627609,
	"learning_rate": 5.5944101890245324e-05,
	"loss": 0.0202,
	"step": 333
	},
	{
	"epoch": 2.5866408518877058,
	"grad_norm": 0.023536914959549904,
	"learning_rate": 5.5675109656241876e-05,
	"loss": 0.014,
	"step": 334
	},
	{
	"epoch": 2.594385285575992,
	"grad_norm": 0.026387905701994896,
	"learning_rate": 5.540595092119709e-05,
	"loss": 0.0174,
	"step": 335
	},
	{
	"epoch": 2.594385285575992,
	"eval_loss": 0.01569586619734764,
	"eval_runtime": 4.8895,
	"eval_samples_per_second": 10.226,
	"eval_steps_per_second": 2.659,
	"step": 335
	},
	{
	"epoch": 2.602129719264279,
	"grad_norm": 0.02376389689743519,
	"learning_rate": 5.5136633581911655e-05,
	"loss": 0.0232,
	"step": 336
	},
	{
	"epoch": 2.6098741529525653,
	"grad_norm": 0.022475535050034523,
	"learning_rate": 5.486716553983951e-05,
	"loss": 0.0176,
	"step": 337
	},
	{
	"epoch": 2.6176185866408517,
	"grad_norm": 0.026273801922798157,
	"learning_rate": 5.4597554700855946e-05,
	"loss": 0.0099,
	"step": 338
	},
	{
	"epoch": 2.6253630203291385,
	"grad_norm": 0.0252407044172287,
	"learning_rate": 5.432780897502589e-05,
	"loss": 0.0169,
	"step": 339
	},
	{
	"epoch": 2.633107454017425,
	"grad_norm": 0.025699293240904808,
	"learning_rate": 5.4057936276371565e-05,
	"loss": 0.0147,
	"step": 340
	},
	{
	"epoch": 2.633107454017425,
	"eval_loss": 0.015603473410010338,
	"eval_runtime": 4.8875,
	"eval_samples_per_second": 10.23,
	"eval_steps_per_second": 2.66,
	"step": 340
	},
	{
	"epoch": 2.6408518877057117,
	"grad_norm": 0.02292807772755623,
	"learning_rate": 5.378794452264053e-05,
	"loss": 0.0112,
	"step": 341
	},
	{
	"epoch": 2.648596321393998,
	"grad_norm": 0.02671566605567932,
	"learning_rate": 5.351784163507319e-05,
	"loss": 0.0157,
	"step": 342
	},
	{
	"epoch": 2.656340755082285,
	"grad_norm": 0.024869635701179504,
	"learning_rate": 5.324763553817054e-05,
	"loss": 0.0183,
	"step": 343
	},
	{
	"epoch": 2.664085188770571,
	"grad_norm": 0.030287204310297966,
	"learning_rate": 5.2977334159461614e-05,
	"loss": 0.0235,
	"step": 344
	},
	{
	"epoch": 2.6718296224588576,
	"grad_norm": 0.021120263263583183,
	"learning_rate": 5.270694542927088e-05,
	"loss": 0.0191,
	"step": 345
	},
	{
	"epoch": 2.6718296224588576,
	"eval_loss": 0.015455065295100212,
	"eval_runtime": 4.8759,
	"eval_samples_per_second": 10.254,
	"eval_steps_per_second": 2.666,
	"step": 345
	},
	{
	"epoch": 2.6795740561471444,
	"grad_norm": 0.022198256105184555,
	"learning_rate": 5.2436477280485605e-05,
	"loss": 0.017,
	"step": 346
	},
	{
	"epoch": 2.6873184898354308,
	"grad_norm": 0.02474604733288288,
	"learning_rate": 5.216593764832311e-05,
	"loss": 0.0182,
	"step": 347
	},
	{
	"epoch": 2.695062923523717,
	"grad_norm": 0.022626683115959167,
	"learning_rate": 5.189533447009794e-05,
	"loss": 0.0235,
	"step": 348
	},
	{
	"epoch": 2.702807357212004,
	"grad_norm": 0.025306569412350655,
	"learning_rate": 5.162467568498903e-05,
	"loss": 0.0185,
	"step": 349
	},
	{
	"epoch": 2.7105517909002903,
	"grad_norm": 0.01958346739411354,
	"learning_rate": 5.135396923380673e-05,
	"loss": 0.0139,
	"step": 350
	},
	{
	"epoch": 2.7105517909002903,
	"eval_loss": 0.015315129421651363,
	"eval_runtime": 4.8828,
	"eval_samples_per_second": 10.24,
	"eval_steps_per_second": 2.662,
	"step": 350
	},
	{
	"epoch": 2.718296224588577,
	"grad_norm": 0.028099266812205315,
	"learning_rate": 5.108322305875988e-05,
	"loss": 0.0151,
	"step": 351
	},
	{
	"epoch": 2.7260406582768635,
	"grad_norm": 0.026032108813524246,
	"learning_rate": 5.081244510322274e-05,
	"loss": 0.0143,
	"step": 352
	},
	{
	"epoch": 2.7337850919651503,
	"grad_norm": 0.030373040586709976,
	"learning_rate": 5.0541643311502e-05,
	"loss": 0.0177,
	"step": 353
	},
	{
	"epoch": 2.7415295256534367,
	"grad_norm": 0.026800263673067093,
	"learning_rate": 5.027082562860368e-05,
	"loss": 0.0146,
	"step": 354
	},
	{
	"epoch": 2.749273959341723,
	"grad_norm": 0.028782140463590622,
	"learning_rate": 5e-05,
	"loss": 0.026,
	"step": 355
	},
	{
	"epoch": 2.749273959341723,
	"eval_loss": 0.015001767314970493,
	"eval_runtime": 4.8958,
	"eval_samples_per_second": 10.213,
	"eval_steps_per_second": 2.655,
	"step": 355
	},
	{
	"epoch": 2.75701839303001,
	"grad_norm": 0.023763621225953102,
	"learning_rate": 4.9729174371396334e-05,
	"loss": 0.0138,
	"step": 356
	},
	{
	"epoch": 2.764762826718296,
	"grad_norm": 0.02057846635580063,
	"learning_rate": 4.945835668849801e-05,
	"loss": 0.0101,
	"step": 357
	},
	{
	"epoch": 2.7725072604065826,
	"grad_norm": 0.026699546724557877,
	"learning_rate": 4.9187554896777285e-05,
	"loss": 0.0185,
	"step": 358
	},
	{
	"epoch": 2.7802516940948694,
	"grad_norm": 0.025631215423345566,
	"learning_rate": 4.8916776941240135e-05,
	"loss": 0.0177,
	"step": 359
	},
	{
	"epoch": 2.7879961277831558,
	"grad_norm": 0.020701708272099495,
	"learning_rate": 4.8646030766193285e-05,
	"loss": 0.0162,
	"step": 360
	},
	{
	"epoch": 2.7879961277831558,
	"eval_loss": 0.014788495376706123,
	"eval_runtime": 4.885,
	"eval_samples_per_second": 10.235,
	"eval_steps_per_second": 2.661,
	"step": 360
	},
	{
	"epoch": 2.7957405614714426,
	"grad_norm": 0.018802624195814133,
	"learning_rate": 4.837532431501098e-05,
	"loss": 0.0195,
	"step": 361
	},
	{
	"epoch": 2.803484995159729,
	"grad_norm": 0.024294838309288025,
	"learning_rate": 4.8104665529902075e-05,
	"loss": 0.0172,
	"step": 362
	},
	{
	"epoch": 2.8112294288480157,
	"grad_norm": 0.02249518595635891,
	"learning_rate": 4.78340623516769e-05,
	"loss": 0.0157,
	"step": 363
	},
	{
	"epoch": 2.818973862536302,
	"grad_norm": 0.022549943998456,
	"learning_rate": 4.756352271951441e-05,
	"loss": 0.0167,
	"step": 364
	},
	{
	"epoch": 2.8267182962245885,
	"grad_norm": 0.03274448588490486,
	"learning_rate": 4.729305457072913e-05,
	"loss": 0.0258,
	"step": 365
	},
	{
	"epoch": 2.8267182962245885,
	"eval_loss": 0.014879841357469559,
	"eval_runtime": 4.8948,
	"eval_samples_per_second": 10.215,
	"eval_steps_per_second": 2.656,
	"step": 365
	},
	{
	"epoch": 2.8344627299128753,
	"grad_norm": 0.031107768416404724,
	"learning_rate": 4.70226658405384e-05,
	"loss": 0.0167,
	"step": 366
	},
	{
	"epoch": 2.8422071636011617,
	"grad_norm": 0.023017307743430138,
	"learning_rate": 4.675236446182946e-05,
	"loss": 0.0126,
	"step": 367
	},
	{
	"epoch": 2.849951597289448,
	"grad_norm": 0.03121495246887207,
	"learning_rate": 4.648215836492682e-05,
	"loss": 0.0139,
	"step": 368
	},
	{
	"epoch": 2.857696030977735,
	"grad_norm": 0.026987893506884575,
	"learning_rate": 4.6212055477359486e-05,
	"loss": 0.0147,
	"step": 369
	},
	{
	"epoch": 2.865440464666021,
	"grad_norm": 0.024263298138976097,
	"learning_rate": 4.594206372362845e-05,
	"loss": 0.0154,
	"step": 370
	},
	{
	"epoch": 2.865440464666021,
	"eval_loss": 0.014814168214797974,
	"eval_runtime": 4.8923,
	"eval_samples_per_second": 10.22,
	"eval_steps_per_second": 2.657,
	"step": 370
	},
	{
	"epoch": 2.8731848983543076,
	"grad_norm": 0.022974541410803795,
	"learning_rate": 4.567219102497412e-05,
	"loss": 0.0136,
	"step": 371
	},
	{
	"epoch": 2.8809293320425944,
	"grad_norm": 0.025871610268950462,
	"learning_rate": 4.540244529914406e-05,
	"loss": 0.0126,
	"step": 372
	},
	{
	"epoch": 2.888673765730881,
	"grad_norm": 0.026091424748301506,
	"learning_rate": 4.5132834460160524e-05,
	"loss": 0.023,
	"step": 373
	},
	{
	"epoch": 2.8964181994191676,
	"grad_norm": 0.024125855416059494,
	"learning_rate": 4.486336641808835e-05,
	"loss": 0.0129,
	"step": 374
	},
	{
	"epoch": 2.904162633107454,
	"grad_norm": 0.01973029226064682,
	"learning_rate": 4.4594049078802925e-05,
	"loss": 0.0166,
	"step": 375
	},
	{
	"epoch": 2.904162633107454,
	"eval_loss": 0.01432761363685131,
	"eval_runtime": 4.8944,
	"eval_samples_per_second": 10.216,
	"eval_steps_per_second": 2.656,
	"step": 375
	},
	{
	"epoch": 2.9119070667957407,
	"grad_norm": 0.022474128752946854,
	"learning_rate": 4.4324890343758136e-05,
	"loss": 0.0115,
	"step": 376
	},
	{
	"epoch": 2.919651500484027,
	"grad_norm": 0.022197918966412544,
	"learning_rate": 4.405589810975468e-05,
	"loss": 0.0108,
	"step": 377
	},
	{
	"epoch": 2.9273959341723135,
	"grad_norm": 0.023376472294330597,
	"learning_rate": 4.3787080268708244e-05,
	"loss": 0.0105,
	"step": 378
	},
	{
	"epoch": 2.9351403678606003,
	"grad_norm": 0.01602279581129551,
	"learning_rate": 4.351844470741808e-05,
	"loss": 0.0094,
	"step": 379
	},
	{
	"epoch": 2.9428848015488867,
	"grad_norm": 0.02684823051095009,
	"learning_rate": 4.3249999307335495e-05,
	"loss": 0.0189,
	"step": 380
	},
	{
	"epoch": 2.9428848015488867,
	"eval_loss": 0.014240576885640621,
	"eval_runtime": 4.8817,
	"eval_samples_per_second": 10.242,
	"eval_steps_per_second": 2.663,
	"step": 380
	},
	{
	"epoch": 2.950629235237173,
	"grad_norm": 0.0212652999907732,
	"learning_rate": 4.298175194433279e-05,
	"loss": 0.0154,
	"step": 381
	},
	{
	"epoch": 2.95837366892546,
	"grad_norm": 0.019883181899785995,
	"learning_rate": 4.2713710488472006e-05,
	"loss": 0.0087,
	"step": 382
	},
	{
	"epoch": 2.9661181026137466,
	"grad_norm": 0.02650902420282364,
	"learning_rate": 4.244588280377417e-05,
	"loss": 0.0164,
	"step": 383
	},
	{
	"epoch": 2.973862536302033,
	"grad_norm": 0.02401239052414894,
	"learning_rate": 4.2178276747988446e-05,
	"loss": 0.0139,
	"step": 384
	},
	{
	"epoch": 2.9816069699903194,
	"grad_norm": 0.022838260978460312,
	"learning_rate": 4.1910900172361764e-05,
	"loss": 0.0155,
	"step": 385
	},
	{
	"epoch": 2.9816069699903194,
	"eval_loss": 0.0144858593121171,
	"eval_runtime": 4.8906,
	"eval_samples_per_second": 10.224,
	"eval_steps_per_second": 2.658,
	"step": 385
	},
	{
	"epoch": 2.989351403678606,
	"grad_norm": 0.03657938912510872,
	"learning_rate": 4.164376092140828e-05,
	"loss": 0.0286,
	"step": 386
	},
	{
	"epoch": 2.9970958373668926,
	"grad_norm": 0.02792074717581272,
	"learning_rate": 4.1376866832679385e-05,
	"loss": 0.014,
	"step": 387
	},
	{
	"epoch": 3.004840271055179,
	"grad_norm": 0.05196017026901245,
	"learning_rate": 4.1110225736533664e-05,
	"loss": 0.0222,
	"step": 388
	},
	{
	"epoch": 3.0125847047434657,
	"grad_norm": 0.0229202788323164,
	"learning_rate": 4.084384545590719e-05,
	"loss": 0.007,
	"step": 389
	},
	{
	"epoch": 3.020329138431752,
	"grad_norm": 0.021996086463332176,
	"learning_rate": 4.057773380608411e-05,
	"loss": 0.0121,
	"step": 390
	},
	{
	"epoch": 3.020329138431752,
	"eval_loss": 0.014621075242757797,
	"eval_runtime": 4.8766,
	"eval_samples_per_second": 10.253,
	"eval_steps_per_second": 2.666,
	"step": 390
	},
	{
	"epoch": 3.028073572120039,
	"grad_norm": 0.024300433695316315,
	"learning_rate": 4.0311898594467086e-05,
	"loss": 0.0119,
	"step": 391
	},
	{
	"epoch": 3.0358180058083253,
	"grad_norm": 0.023426620289683342,
	"learning_rate": 4.0046347620348586e-05,
	"loss": 0.0123,
	"step": 392
	},
	{
	"epoch": 3.0435624394966116,
	"grad_norm": 0.024129556491971016,
	"learning_rate": 3.9781088674681764e-05,
	"loss": 0.0124,
	"step": 393
	},
	{
	"epoch": 3.0513068731848985,
	"grad_norm": 0.04510955512523651,
	"learning_rate": 3.951612953985207e-05,
	"loss": 0.0174,
	"step": 394
	},
	{
	"epoch": 3.059051306873185,
	"grad_norm": 0.02260909229516983,
	"learning_rate": 3.92514779894488e-05,
	"loss": 0.0122,
	"step": 395
	},
	{
	"epoch": 3.059051306873185,
	"eval_loss": 0.014701277017593384,
	"eval_runtime": 4.8794,
	"eval_samples_per_second": 10.247,
	"eval_steps_per_second": 2.664,
	"step": 395
	},
	{
	"epoch": 3.0667957405614716,
	"grad_norm": 0.020229579880833626,
	"learning_rate": 3.8987141788037154e-05,
	"loss": 0.0063,
	"step": 396
	},
	{
	"epoch": 3.074540174249758,
	"grad_norm": 0.024916259571909904,
	"learning_rate": 3.8723128690930296e-05,
	"loss": 0.0099,
	"step": 397
	},
	{
	"epoch": 3.0822846079380444,
	"grad_norm": 0.017238672822713852,
	"learning_rate": 3.8459446443961944e-05,
	"loss": 0.0071,
	"step": 398
	},
	{
	"epoch": 3.090029041626331,
	"grad_norm": 0.028883591294288635,
	"learning_rate": 3.8196102783258994e-05,
	"loss": 0.0181,
	"step": 399
	},
	{
	"epoch": 3.0977734753146176,
	"grad_norm": 0.025792468339204788,
	"learning_rate": 3.793310543501473e-05,
	"loss": 0.0136,
	"step": 400
	},
	{
	"epoch": 3.0977734753146176,
	"eval_loss": 0.014834250323474407,
	"eval_runtime": 4.8859,
	"eval_samples_per_second": 10.234,
	"eval_steps_per_second": 2.661,
	"step": 400
	},
	{
	"epoch": 3.1055179090029044,
	"grad_norm": 0.03113100863993168,
	"learning_rate": 3.7670462115261906e-05,
	"loss": 0.0193,
	"step": 401
	},
	{
	"epoch": 3.1132623426911907,
	"grad_norm": 0.02263321541249752,
	"learning_rate": 3.7408180529646596e-05,
	"loss": 0.0123,
	"step": 402
	},
	{
	"epoch": 3.121006776379477,
	"grad_norm": 0.023540707305073738,
	"learning_rate": 3.714626837320195e-05,
	"loss": 0.0119,
	"step": 403
	},
	{
	"epoch": 3.128751210067764,
	"grad_norm": 0.031784623861312866,
	"learning_rate": 3.688473333012259e-05,
	"loss": 0.0175,
	"step": 404
	},
	{
	"epoch": 3.1364956437560503,
	"grad_norm": 0.022701062262058258,
	"learning_rate": 3.6623583073538966e-05,
	"loss": 0.0107,
	"step": 405
	},
	{
	"epoch": 3.1364956437560503,
	"eval_loss": 0.01486950647085905,
	"eval_runtime": 4.892,
	"eval_samples_per_second": 10.221,
	"eval_steps_per_second": 2.657,
	"step": 405
	},
	{
	"epoch": 3.144240077444337,
	"grad_norm": 0.026784732937812805,
	"learning_rate": 3.636282526529242e-05,
	"loss": 0.0125,
	"step": 406
	},
	{
	"epoch": 3.1519845111326235,
	"grad_norm": 0.026719210669398308,
	"learning_rate": 3.6102467555710295e-05,
	"loss": 0.0103,
	"step": 407
	},
	{
	"epoch": 3.15972894482091,
	"grad_norm": 0.03489716723561287,
	"learning_rate": 3.584251758338151e-05,
	"loss": 0.0134,
	"step": 408
	},
	{
	"epoch": 3.1674733785091966,
	"grad_norm": 0.02056041732430458,
	"learning_rate": 3.558298297493247e-05,
	"loss": 0.0073,
	"step": 409
	},
	{
	"epoch": 3.175217812197483,
	"grad_norm": 0.030753985047340393,
	"learning_rate": 3.5323871344803263e-05,
	"loss": 0.0164,
	"step": 410
	},
	{
	"epoch": 3.175217812197483,
	"eval_loss": 0.01476968638598919,
	"eval_runtime": 4.8875,
	"eval_samples_per_second": 10.23,
	"eval_steps_per_second": 2.66,
	"step": 410
	},
	{
	"epoch": 3.1829622458857694,
	"grad_norm": 0.025167269632220268,
	"learning_rate": 3.506519029502433e-05,
	"loss": 0.0121,
	"step": 411
	},
	{
	"epoch": 3.190706679574056,
	"grad_norm": 0.03184746950864792,
	"learning_rate": 3.480694741499334e-05,
	"loss": 0.0174,
	"step": 412
	},
	{
	"epoch": 3.1984511132623425,
	"grad_norm": 0.014001097530126572,
	"learning_rate": 3.4549150281252636e-05,
	"loss": 0.0057,
	"step": 413
	},
	{
	"epoch": 3.2061955469506294,
	"grad_norm": 0.027478694915771484,
	"learning_rate": 3.4291806457266826e-05,
	"loss": 0.0138,
	"step": 414
	},
	{
	"epoch": 3.2139399806389157,
	"grad_norm": 0.02516726590692997,
	"learning_rate": 3.403492349320101e-05,
	"loss": 0.0112,
	"step": 415
	},
	{
	"epoch": 3.2139399806389157,
	"eval_loss": 0.014760926365852356,
	"eval_runtime": 4.876,
	"eval_samples_per_second": 10.254,
	"eval_steps_per_second": 2.666,
	"step": 415
	},
	{
	"epoch": 3.2216844143272025,
	"grad_norm": 0.03305725008249283,
	"learning_rate": 3.3778508925699124e-05,
	"loss": 0.0256,
	"step": 416
	},
	{
	"epoch": 3.229428848015489,
	"grad_norm": 0.024431169033050537,
	"learning_rate": 3.3522570277662985e-05,
	"loss": 0.0083,
	"step": 417
	},
	{
	"epoch": 3.2371732817037753,
	"grad_norm": 0.03031334839761257,
	"learning_rate": 3.326711505803142e-05,
	"loss": 0.0107,
	"step": 418
	},
	{
	"epoch": 3.244917715392062,
	"grad_norm": 0.033758629113435745,
	"learning_rate": 3.3012150761560085e-05,
	"loss": 0.0186,
	"step": 419
	},
	{
	"epoch": 3.2526621490803485,
	"grad_norm": 0.02770036645233631,
	"learning_rate": 3.275768486860149e-05,
	"loss": 0.0097,
	"step": 420
	},
	{
	"epoch": 3.2526621490803485,
	"eval_loss": 0.015088791027665138,
	"eval_runtime": 4.8982,
	"eval_samples_per_second": 10.208,
	"eval_steps_per_second": 2.654,
	"step": 420
	},
	{
	"epoch": 3.260406582768635,
	"grad_norm": 0.02369946427643299,
	"learning_rate": 3.250372484488558e-05,
	"loss": 0.0094,
	"step": 421
	},
	{
	"epoch": 3.2681510164569216,
	"grad_norm": 0.03576388210058212,
	"learning_rate": 3.225027814130074e-05,
	"loss": 0.0125,
	"step": 422
	},
	{
	"epoch": 3.275895450145208,
	"grad_norm": 0.025971444323658943,
	"learning_rate": 3.199735219367507e-05,
	"loss": 0.0118,
	"step": 423
	},
	{
	"epoch": 3.283639883833495,
	"grad_norm": 0.028038574382662773,
	"learning_rate": 3.174495442255836e-05,
	"loss": 0.0099,
	"step": 424
	},
	{
	"epoch": 3.291384317521781,
	"grad_norm": 0.027834760025143623,
	"learning_rate": 3.149309223300428e-05,
	"loss": 0.0113,
	"step": 425
	},
	{
	"epoch": 3.291384317521781,
	"eval_loss": 0.014965364709496498,
	"eval_runtime": 4.8786,
	"eval_samples_per_second": 10.249,
	"eval_steps_per_second": 2.665,
	"step": 425
	},
	{
	"epoch": 3.299128751210068,
	"grad_norm": 0.023443985730409622,
	"learning_rate": 3.124177301435324e-05,
	"loss": 0.0132,
	"step": 426
	},
	{
	"epoch": 3.3068731848983544,
	"grad_norm": 0.024410808458924294,
	"learning_rate": 3.09910041400154e-05,
	"loss": 0.0102,
	"step": 427
	},
	{
	"epoch": 3.3146176185866407,
	"grad_norm": 0.032607510685920715,
	"learning_rate": 3.0740792967254604e-05,
	"loss": 0.0168,
	"step": 428
	},
	{
	"epoch": 3.3223620522749275,
	"grad_norm": 0.03291484713554382,
	"learning_rate": 3.0491146836972272e-05,
	"loss": 0.019,
	"step": 429
	},
	{
	"epoch": 3.330106485963214,
	"grad_norm": 0.03559967130422592,
	"learning_rate": 3.024207307349224e-05,
	"loss": 0.0303,
	"step": 430
	},
	{
	"epoch": 3.330106485963214,
	"eval_loss": 0.014858649112284184,
	"eval_runtime": 4.8834,
	"eval_samples_per_second": 10.239,
	"eval_steps_per_second": 2.662,
	"step": 430
	},
	{
	"epoch": 3.3378509196515003,
	"grad_norm": 0.02721838466823101,
	"learning_rate": 2.9993578984345672e-05,
	"loss": 0.0111,
	"step": 431
	},
	{
	"epoch": 3.345595353339787,
	"grad_norm": 0.028012285009026527,
	"learning_rate": 2.9745671860056868e-05,
	"loss": 0.0136,
	"step": 432
	},
	{
	"epoch": 3.3533397870280734,
	"grad_norm": 0.029208144173026085,
	"learning_rate": 2.9498358973929196e-05,
	"loss": 0.013,
	"step": 433
	},
	{
	"epoch": 3.3610842207163603,
	"grad_norm": 0.031169850379228592,
	"learning_rate": 2.9251647581831836e-05,
	"loss": 0.0187,
	"step": 434
	},
	{
	"epoch": 3.3688286544046466,
	"grad_norm": 0.03211589530110359,
	"learning_rate": 2.900554492198677e-05,
	"loss": 0.0161,
	"step": 435
	},
	{
	"epoch": 3.3688286544046466,
	"eval_loss": 0.014618839137256145,
	"eval_runtime": 4.887,
	"eval_samples_per_second": 10.231,
	"eval_steps_per_second": 2.66,
	"step": 435
	},
	{
	"epoch": 3.3765730880929334,
	"grad_norm": 0.0314168706536293,
	"learning_rate": 2.876005821475657e-05,
	"loss": 0.0106,
	"step": 436
	},
	{
	"epoch": 3.38431752178122,
	"grad_norm": 0.03567107021808624,
	"learning_rate": 2.851519466243242e-05,
	"loss": 0.0173,
	"step": 437
	},
	{
	"epoch": 3.392061955469506,
	"grad_norm": 0.031098151579499245,
	"learning_rate": 2.8270961449022893e-05,
	"loss": 0.0185,
	"step": 438
	},
	{
	"epoch": 3.399806389157793,
	"grad_norm": 0.028943657875061035,
	"learning_rate": 2.802736574004319e-05,
	"loss": 0.0159,
	"step": 439
	},
	{
	"epoch": 3.4075508228460794,
	"grad_norm": 0.023004574701189995,
	"learning_rate": 2.7784414682304832e-05,
	"loss": 0.011,
	"step": 440
	},
	{
	"epoch": 3.4075508228460794,
	"eval_loss": 0.014386112801730633,
	"eval_runtime": 4.8818,
	"eval_samples_per_second": 10.242,
	"eval_steps_per_second": 2.663,
	"step": 440
	},
	{
	"epoch": 3.4152952565343657,
	"grad_norm": 0.027619289234280586,
	"learning_rate": 2.7542115403706063e-05,
	"loss": 0.0089,
	"step": 441
	},
	{
	"epoch": 3.4230396902226525,
	"grad_norm": 0.025844210758805275,
	"learning_rate": 2.7300475013022663e-05,
	"loss": 0.0127,
	"step": 442
	},
	{
	"epoch": 3.430784123910939,
	"grad_norm": 0.01797422766685486,
	"learning_rate": 2.7059500599699476e-05,
	"loss": 0.0068,
	"step": 443
	},
	{
	"epoch": 3.4385285575992257,
	"grad_norm": 0.031139735132455826,
	"learning_rate": 2.6819199233642278e-05,
	"loss": 0.0135,
	"step": 444
	},
	{
	"epoch": 3.446272991287512,
	"grad_norm": 0.03126378357410431,
	"learning_rate": 2.65795779650105e-05,
	"loss": 0.0084,
	"step": 445
	},
	{
	"epoch": 3.446272991287512,
	"eval_loss": 0.014389649964869022,
	"eval_runtime": 4.8893,
	"eval_samples_per_second": 10.226,
	"eval_steps_per_second": 2.659,
	"step": 445
	},
	{
	"epoch": 3.454017424975799,
	"grad_norm": 0.019535277038812637,
	"learning_rate": 2.6340643824010247e-05,
	"loss": 0.0099,
	"step": 446
	},
	{
	"epoch": 3.4617618586640853,
	"grad_norm": 0.029923155903816223,
	"learning_rate": 2.6102403820688177e-05,
	"loss": 0.0158,
	"step": 447
	},
	{
	"epoch": 3.4695062923523716,
	"grad_norm": 0.023479627445340157,
	"learning_rate": 2.586486494472572e-05,
	"loss": 0.0066,
	"step": 448
	},
	{
	"epoch": 3.4772507260406584,
	"grad_norm": 0.03173988685011864,
	"learning_rate": 2.562803416523405e-05,
	"loss": 0.01,
	"step": 449
	},
	{
	"epoch": 3.484995159728945,
	"grad_norm": 0.03306049853563309,
	"learning_rate": 2.539191843054963e-05,
	"loss": 0.0127,
	"step": 450
	},
	{
	"epoch": 3.484995159728945,
	"eval_loss": 0.014806166291236877,
	"eval_runtime": 4.9121,
	"eval_samples_per_second": 10.179,
	"eval_steps_per_second": 2.647,
	"step": 450
	},
	{
	"epoch": 3.492739593417231,
	"grad_norm": 0.02089696377515793,
	"learning_rate": 2.51565246680304e-05,
	"loss": 0.0062,
	"step": 451
	},
	{
	"epoch": 3.500484027105518,
	"grad_norm": 0.03812693804502487,
	"learning_rate": 2.4921859783852408e-05,
	"loss": 0.0116,
	"step": 452
	},
	{
	"epoch": 3.5082284607938043,
	"grad_norm": 0.02929401397705078,
	"learning_rate": 2.4687930662807303e-05,
	"loss": 0.0136,
	"step": 453
	},
	{
	"epoch": 3.515972894482091,
	"grad_norm": 0.024923592805862427,
	"learning_rate": 2.445474416810033e-05,
	"loss": 0.0094,
	"step": 454
	},
	{
	"epoch": 3.5237173281703775,
	"grad_norm": 0.02743164636194706,
	"learning_rate": 2.422230714114891e-05,
	"loss": 0.0134,
	"step": 455
	},
	{
	"epoch": 3.5237173281703775,
	"eval_loss": 0.01469426229596138,
	"eval_runtime": 4.8924,
	"eval_samples_per_second": 10.22,
	"eval_steps_per_second": 2.657,
	"step": 455
	},
	{
	"epoch": 3.5314617618586643,
	"grad_norm": 0.04384300857782364,
	"learning_rate": 2.399062640138201e-05,
	"loss": 0.0233,
	"step": 456
	},
	{
	"epoch": 3.5392061955469507,
	"grad_norm": 0.03357204422354698,
	"learning_rate": 2.3759708746039976e-05,
	"loss": 0.0177,
	"step": 457
	},
	{
	"epoch": 3.546950629235237,
	"grad_norm": 0.03177043795585632,
	"learning_rate": 2.3529560949975182e-05,
	"loss": 0.0087,
	"step": 458
	},
	{
	"epoch": 3.554695062923524,
	"grad_norm": 0.02979344129562378,
	"learning_rate": 2.3300189765453196e-05,
	"loss": 0.0082,
	"step": 459
	},
	{
	"epoch": 3.5624394966118103,
	"grad_norm": 0.021871499717235565,
	"learning_rate": 2.3071601921954794e-05,
	"loss": 0.0092,
	"step": 460
	},
	{
	"epoch": 3.5624394966118103,
	"eval_loss": 0.014372522011399269,
	"eval_runtime": 4.8873,
	"eval_samples_per_second": 10.231,
	"eval_steps_per_second": 2.66,
	"step": 460
	},
	{
	"epoch": 3.5701839303000966,
	"grad_norm": 0.027945492416620255,
	"learning_rate": 2.2843804125978357e-05,
	"loss": 0.0164,
	"step": 461
	},
	{
	"epoch": 3.5779283639883834,
	"grad_norm": 0.024697836488485336,
	"learning_rate": 2.2616803060843283e-05,
	"loss": 0.0074,
	"step": 462
	},
	{
	"epoch": 3.58567279767667,
	"grad_norm": 0.024211924523115158,
	"learning_rate": 2.2390605386493757e-05,
	"loss": 0.0087,
	"step": 463
	},
	{
	"epoch": 3.593417231364956,
	"grad_norm": 0.025920916348695755,
	"learning_rate": 2.2165217739303508e-05,
	"loss": 0.0128,
	"step": 464
	},
	{
	"epoch": 3.601161665053243,
	"grad_norm": 0.027798939496278763,
	"learning_rate": 2.194064673188089e-05,
	"loss": 0.0205,
	"step": 465
	},
	{
	"epoch": 3.601161665053243,
	"eval_loss": 0.014178312383592129,
	"eval_runtime": 4.8802,
	"eval_samples_per_second": 10.246,
	"eval_steps_per_second": 2.664,
	"step": 465
	},
	{
	"epoch": 3.60890609874153,
	"grad_norm": 0.0249908696860075,
	"learning_rate": 2.171689895287513e-05,
	"loss": 0.0098,
	"step": 466
	},
	{
	"epoch": 3.616650532429816,
	"grad_norm": 0.023805009201169014,
	"learning_rate": 2.149398096678283e-05,
	"loss": 0.0099,
	"step": 467
	},
	{
	"epoch": 3.6243949661181025,
	"grad_norm": 0.030275024473667145,
	"learning_rate": 2.12718993137555e-05,
	"loss": 0.0201,
	"step": 468
	},
	{
	"epoch": 3.6321393998063893,
	"grad_norm": 0.025657106190919876,
	"learning_rate": 2.105066050940758e-05,
	"loss": 0.0102,
	"step": 469
	},
	{
	"epoch": 3.6398838334946757,
	"grad_norm": 0.02271328866481781,
	"learning_rate": 2.08302710446253e-05,
	"loss": 0.0097,
	"step": 470
	},
	{
	"epoch": 3.6398838334946757,
	"eval_loss": 0.014142417348921299,
	"eval_runtime": 4.8856,
	"eval_samples_per_second": 10.234,
	"eval_steps_per_second": 2.661,
	"step": 470
	},
	{
	"epoch": 3.647628267182962,
	"grad_norm": 0.026042208075523376,
	"learning_rate": 2.061073738537635e-05,
	"loss": 0.0177,
	"step": 471
	},
	{
	"epoch": 3.655372700871249,
	"grad_norm": 0.021258225664496422,
	"learning_rate": 2.039206597252001e-05,
	"loss": 0.0065,
	"step": 472
	},
	{
	"epoch": 3.6631171345595352,
	"grad_norm": 0.027606485411524773,
	"learning_rate": 2.0174263221618307e-05,
	"loss": 0.0127,
	"step": 473
	},
	{
	"epoch": 3.6708615682478216,
	"grad_norm": 0.02728329971432686,
	"learning_rate": 1.9957335522747707e-05,
	"loss": 0.0123,
	"step": 474
	},
	{
	"epoch": 3.6786060019361084,
	"grad_norm": 0.03719132021069527,
	"learning_rate": 1.9741289240311755e-05,
	"loss": 0.0158,
	"step": 475
	},
	{
	"epoch": 3.6786060019361084,
	"eval_loss": 0.014227832667529583,
	"eval_runtime": 4.8832,
	"eval_samples_per_second": 10.239,
	"eval_steps_per_second": 2.662,
	"step": 475
	},
	{
	"epoch": 3.6863504356243952,
	"grad_norm": 0.029825210571289062,
	"learning_rate": 1.9526130712854185e-05,
	"loss": 0.0128,
	"step": 476
	},
	{
	"epoch": 3.6940948693126816,
	"grad_norm": 0.09481414407491684,
	"learning_rate": 1.931186625287313e-05,
	"loss": 0.0202,
	"step": 477
	},
	{
	"epoch": 3.701839303000968,
	"grad_norm": 0.027814751490950584,
	"learning_rate": 1.909850214663575e-05,
	"loss": 0.0121,
	"step": 478
	},
	{
	"epoch": 3.709583736689255,
	"grad_norm": 0.03036467730998993,
	"learning_rate": 1.8886044653993968e-05,
	"loss": 0.0163,
	"step": 479
	},
	{
	"epoch": 3.717328170377541,
	"grad_norm": 0.023233845829963684,
	"learning_rate": 1.8674500008200674e-05,
	"loss": 0.0095,
	"step": 480
	},
	{
	"epoch": 3.717328170377541,
	"eval_loss": 0.014037776738405228,
	"eval_runtime": 4.8827,
	"eval_samples_per_second": 10.24,
	"eval_steps_per_second": 2.662,
	"step": 480
	},
	{
	"epoch": 3.7250726040658275,
	"grad_norm": 0.02636660821735859,
	"learning_rate": 1.8463874415726918e-05,
	"loss": 0.0125,
	"step": 481
	},
	{
	"epoch": 3.7328170377541143,
	"grad_norm": 0.022603245452046394,
	"learning_rate": 1.82541740560798e-05,
	"loss": 0.0072,
	"step": 482
	},
	{
	"epoch": 3.7405614714424007,
	"grad_norm": 0.019264785572886467,
	"learning_rate": 1.8045405081621215e-05,
	"loss": 0.0068,
	"step": 483
	},
	{
	"epoch": 3.748305905130687,
	"grad_norm": 0.02744339220225811,
	"learning_rate": 1.7837573617387265e-05,
	"loss": 0.0139,
	"step": 484
	},
	{
	"epoch": 3.756050338818974,
	"grad_norm": 0.032306037843227386,
	"learning_rate": 1.7630685760908622e-05,
	"loss": 0.0163,
	"step": 485
	},
	{
	"epoch": 3.756050338818974,
	"eval_loss": 0.014070287346839905,
	"eval_runtime": 4.8787,
	"eval_samples_per_second": 10.249,
	"eval_steps_per_second": 2.665,
	"step": 485
	},
	{
	"epoch": 3.7637947725072602,
	"grad_norm": 0.034267835319042206,
	"learning_rate": 1.7424747582031637e-05,
	"loss": 0.0145,
	"step": 486
	},
	{
	"epoch": 3.771539206195547,
	"grad_norm": 0.02139255404472351,
	"learning_rate": 1.72197651227402e-05,
	"loss": 0.0084,
	"step": 487
	},
	{
	"epoch": 3.7792836398838334,
	"grad_norm": 0.020995331928133965,
	"learning_rate": 1.7015744396978556e-05,
	"loss": 0.0065,
	"step": 488
	},
	{
	"epoch": 3.7870280735721202,
	"grad_norm": 0.03288980573415756,
	"learning_rate": 1.6812691390474787e-05,
	"loss": 0.0175,
	"step": 489
	},
	{
	"epoch": 3.7947725072604066,
	"grad_norm": 0.021166102960705757,
	"learning_rate": 1.6610612060565234e-05,
	"loss": 0.007,
	"step": 490
	},
	{
	"epoch": 3.7947725072604066,
	"eval_loss": 0.014264380559325218,
	"eval_runtime": 4.8993,
	"eval_samples_per_second": 10.206,
	"eval_steps_per_second": 2.653,
	"step": 490
	},
	{
	"epoch": 3.802516940948693,
	"grad_norm": 0.02033647708594799,
	"learning_rate": 1.64095123360197e-05,
	"loss": 0.0081,
	"step": 491
	},
	{
	"epoch": 3.81026137463698,
	"grad_norm": 0.01951659470796585,
	"learning_rate": 1.6209398116867574e-05,
	"loss": 0.008,
	"step": 492
	},
	{
	"epoch": 3.818005808325266,
	"grad_norm": 0.028182433918118477,
	"learning_rate": 1.6010275274224606e-05,
	"loss": 0.0143,
	"step": 493
	},
	{
	"epoch": 3.8257502420135525,
	"grad_norm": 0.03811497241258621,
	"learning_rate": 1.5812149650120784e-05,
	"loss": 0.0139,
	"step": 494
	},
	{
	"epoch": 3.8334946757018393,
	"grad_norm": 0.02721046842634678,
	"learning_rate": 1.561502705732883e-05,
	"loss": 0.0069,
	"step": 495
	},
	{
	"epoch": 3.8334946757018393,
	"eval_loss": 0.014395428821444511,
	"eval_runtime": 4.885,
	"eval_samples_per_second": 10.235,
	"eval_steps_per_second": 2.661,
	"step": 495
	},
	{
	"epoch": 3.8412391093901257,
	"grad_norm": 0.03506116569042206,
	"learning_rate": 1.5418913279193746e-05,
	"loss": 0.0154,
	"step": 496
	},
	{
	"epoch": 3.8489835430784125,
	"grad_norm": 0.029712386429309845,
	"learning_rate": 1.5223814069463078e-05,
	"loss": 0.0074,
	"step": 497
	},
	{
	"epoch": 3.856727976766699,
	"grad_norm": 0.021429866552352905,
	"learning_rate": 1.5029735152118124e-05,
	"loss": 0.0067,
	"step": 498
	},
	{
	"epoch": 3.8644724104549857,
	"grad_norm": 0.024990901350975037,
	"learning_rate": 1.4836682221206e-05,
	"loss": 0.0089,
	"step": 499
	},
	{
	"epoch": 3.872216844143272,
	"grad_norm": 0.0315503366291523,
	"learning_rate": 1.4644660940672627e-05,
	"loss": 0.012,
	"step": 500
	},
	{
	"epoch": 3.872216844143272,
	"eval_loss": 0.014392802491784096,
	"eval_runtime": 4.8814,
	"eval_samples_per_second": 10.243,
	"eval_steps_per_second": 2.663,
	"step": 500
	}
	],
	"logging_steps": 1,
	"max_steps": 645,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 6.720511304678769e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}