llama-3-2-3b-math-orca-qlora-10k-ep1 / trainer_state.json

Model save

0aabe5b verified 16 days ago

108 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 677,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0014771048744460858,
	"grad_norm": 2.1287364959716797,
	"learning_rate": 0.0002,
	"loss": 1.4334,
	"step": 1
	},
	{
	"epoch": 0.0029542097488921715,
	"grad_norm": 1.5033221244812012,
	"learning_rate": 0.0002,
	"loss": 1.1642,
	"step": 2
	},
	{
	"epoch": 0.004431314623338257,
	"grad_norm": 1.5286452770233154,
	"learning_rate": 0.0002,
	"loss": 0.9292,
	"step": 3
	},
	{
	"epoch": 0.005908419497784343,
	"grad_norm": 1.2362889051437378,
	"learning_rate": 0.0002,
	"loss": 0.7608,
	"step": 4
	},
	{
	"epoch": 0.007385524372230428,
	"grad_norm": 1.0593241453170776,
	"learning_rate": 0.0002,
	"loss": 0.6653,
	"step": 5
	},
	{
	"epoch": 0.008862629246676515,
	"grad_norm": 1.0034171342849731,
	"learning_rate": 0.0002,
	"loss": 0.5738,
	"step": 6
	},
	{
	"epoch": 0.0103397341211226,
	"grad_norm": 0.723822832107544,
	"learning_rate": 0.0002,
	"loss": 0.5328,
	"step": 7
	},
	{
	"epoch": 0.011816838995568686,
	"grad_norm": 0.7309075593948364,
	"learning_rate": 0.0002,
	"loss": 0.5088,
	"step": 8
	},
	{
	"epoch": 0.013293943870014771,
	"grad_norm": 0.6442256569862366,
	"learning_rate": 0.0002,
	"loss": 0.4999,
	"step": 9
	},
	{
	"epoch": 0.014771048744460856,
	"grad_norm": 0.6145352721214294,
	"learning_rate": 0.0002,
	"loss": 0.5046,
	"step": 10
	},
	{
	"epoch": 0.01624815361890694,
	"grad_norm": 0.5789129734039307,
	"learning_rate": 0.0002,
	"loss": 0.489,
	"step": 11
	},
	{
	"epoch": 0.01772525849335303,
	"grad_norm": 0.5824376940727234,
	"learning_rate": 0.0002,
	"loss": 0.5328,
	"step": 12
	},
	{
	"epoch": 0.019202363367799114,
	"grad_norm": 0.5699394941329956,
	"learning_rate": 0.0002,
	"loss": 0.4755,
	"step": 13
	},
	{
	"epoch": 0.0206794682422452,
	"grad_norm": 0.5292893052101135,
	"learning_rate": 0.0002,
	"loss": 0.4108,
	"step": 14
	},
	{
	"epoch": 0.022156573116691284,
	"grad_norm": 0.5537489056587219,
	"learning_rate": 0.0002,
	"loss": 0.4807,
	"step": 15
	},
	{
	"epoch": 0.023633677991137372,
	"grad_norm": 0.546784520149231,
	"learning_rate": 0.0002,
	"loss": 0.4427,
	"step": 16
	},
	{
	"epoch": 0.025110782865583457,
	"grad_norm": 0.5094020962715149,
	"learning_rate": 0.0002,
	"loss": 0.4617,
	"step": 17
	},
	{
	"epoch": 0.026587887740029542,
	"grad_norm": 0.549403190612793,
	"learning_rate": 0.0002,
	"loss": 0.452,
	"step": 18
	},
	{
	"epoch": 0.028064992614475627,
	"grad_norm": 0.47281214594841003,
	"learning_rate": 0.0002,
	"loss": 0.3916,
	"step": 19
	},
	{
	"epoch": 0.029542097488921712,
	"grad_norm": 0.4933842122554779,
	"learning_rate": 0.0002,
	"loss": 0.4344,
	"step": 20
	},
	{
	"epoch": 0.0310192023633678,
	"grad_norm": 0.5650342106819153,
	"learning_rate": 0.0002,
	"loss": 0.5192,
	"step": 21
	},
	{
	"epoch": 0.03249630723781388,
	"grad_norm": 0.5102580189704895,
	"learning_rate": 0.0002,
	"loss": 0.4521,
	"step": 22
	},
	{
	"epoch": 0.033973412112259974,
	"grad_norm": 0.47124335169792175,
	"learning_rate": 0.0002,
	"loss": 0.3719,
	"step": 23
	},
	{
	"epoch": 0.03545051698670606,
	"grad_norm": 0.4769236445426941,
	"learning_rate": 0.0002,
	"loss": 0.4359,
	"step": 24
	},
	{
	"epoch": 0.03692762186115214,
	"grad_norm": 0.49603205919265747,
	"learning_rate": 0.0002,
	"loss": 0.438,
	"step": 25
	},
	{
	"epoch": 0.03840472673559823,
	"grad_norm": 0.42155203223228455,
	"learning_rate": 0.0002,
	"loss": 0.3311,
	"step": 26
	},
	{
	"epoch": 0.03988183161004431,
	"grad_norm": 0.4394625723361969,
	"learning_rate": 0.0002,
	"loss": 0.4033,
	"step": 27
	},
	{
	"epoch": 0.0413589364844904,
	"grad_norm": 0.4578387141227722,
	"learning_rate": 0.0002,
	"loss": 0.399,
	"step": 28
	},
	{
	"epoch": 0.04283604135893648,
	"grad_norm": 0.4147898256778717,
	"learning_rate": 0.0002,
	"loss": 0.3599,
	"step": 29
	},
	{
	"epoch": 0.04431314623338257,
	"grad_norm": 0.47084635496139526,
	"learning_rate": 0.0002,
	"loss": 0.4668,
	"step": 30
	},
	{
	"epoch": 0.04579025110782865,
	"grad_norm": 0.399994820356369,
	"learning_rate": 0.0002,
	"loss": 0.3108,
	"step": 31
	},
	{
	"epoch": 0.047267355982274745,
	"grad_norm": 0.4256761074066162,
	"learning_rate": 0.0002,
	"loss": 0.3928,
	"step": 32
	},
	{
	"epoch": 0.04874446085672083,
	"grad_norm": 0.4237106442451477,
	"learning_rate": 0.0002,
	"loss": 0.4036,
	"step": 33
	},
	{
	"epoch": 0.050221565731166914,
	"grad_norm": 0.4622955024242401,
	"learning_rate": 0.0002,
	"loss": 0.4394,
	"step": 34
	},
	{
	"epoch": 0.051698670605613,
	"grad_norm": 0.8845525979995728,
	"learning_rate": 0.0002,
	"loss": 0.3714,
	"step": 35
	},
	{
	"epoch": 0.053175775480059084,
	"grad_norm": 0.3846614360809326,
	"learning_rate": 0.0002,
	"loss": 0.3625,
	"step": 36
	},
	{
	"epoch": 0.05465288035450517,
	"grad_norm": 0.41804981231689453,
	"learning_rate": 0.0002,
	"loss": 0.4027,
	"step": 37
	},
	{
	"epoch": 0.056129985228951254,
	"grad_norm": 0.3947773575782776,
	"learning_rate": 0.0002,
	"loss": 0.3523,
	"step": 38
	},
	{
	"epoch": 0.05760709010339734,
	"grad_norm": 0.3716173470020294,
	"learning_rate": 0.0002,
	"loss": 0.3333,
	"step": 39
	},
	{
	"epoch": 0.059084194977843424,
	"grad_norm": 0.4511498808860779,
	"learning_rate": 0.0002,
	"loss": 0.4104,
	"step": 40
	},
	{
	"epoch": 0.060561299852289516,
	"grad_norm": 0.4428117573261261,
	"learning_rate": 0.0002,
	"loss": 0.4217,
	"step": 41
	},
	{
	"epoch": 0.0620384047267356,
	"grad_norm": 0.4312277138233185,
	"learning_rate": 0.0002,
	"loss": 0.4458,
	"step": 42
	},
	{
	"epoch": 0.06351550960118169,
	"grad_norm": 0.4207220673561096,
	"learning_rate": 0.0002,
	"loss": 0.4206,
	"step": 43
	},
	{
	"epoch": 0.06499261447562776,
	"grad_norm": 0.4463505744934082,
	"learning_rate": 0.0002,
	"loss": 0.3911,
	"step": 44
	},
	{
	"epoch": 0.06646971935007386,
	"grad_norm": 0.4605293869972229,
	"learning_rate": 0.0002,
	"loss": 0.4154,
	"step": 45
	},
	{
	"epoch": 0.06794682422451995,
	"grad_norm": 0.380751371383667,
	"learning_rate": 0.0002,
	"loss": 0.3556,
	"step": 46
	},
	{
	"epoch": 0.06942392909896603,
	"grad_norm": 0.3776094615459442,
	"learning_rate": 0.0002,
	"loss": 0.3275,
	"step": 47
	},
	{
	"epoch": 0.07090103397341212,
	"grad_norm": 0.39152535796165466,
	"learning_rate": 0.0002,
	"loss": 0.3749,
	"step": 48
	},
	{
	"epoch": 0.0723781388478582,
	"grad_norm": 0.4888671338558197,
	"learning_rate": 0.0002,
	"loss": 0.4408,
	"step": 49
	},
	{
	"epoch": 0.07385524372230429,
	"grad_norm": 0.38958850502967834,
	"learning_rate": 0.0002,
	"loss": 0.3551,
	"step": 50
	},
	{
	"epoch": 0.07533234859675036,
	"grad_norm": 0.39890560507774353,
	"learning_rate": 0.0002,
	"loss": 0.387,
	"step": 51
	},
	{
	"epoch": 0.07680945347119646,
	"grad_norm": 0.4128841757774353,
	"learning_rate": 0.0002,
	"loss": 0.3945,
	"step": 52
	},
	{
	"epoch": 0.07828655834564253,
	"grad_norm": 0.45516759157180786,
	"learning_rate": 0.0002,
	"loss": 0.4049,
	"step": 53
	},
	{
	"epoch": 0.07976366322008863,
	"grad_norm": 0.4038144648075104,
	"learning_rate": 0.0002,
	"loss": 0.3789,
	"step": 54
	},
	{
	"epoch": 0.08124076809453472,
	"grad_norm": 0.37849175930023193,
	"learning_rate": 0.0002,
	"loss": 0.3955,
	"step": 55
	},
	{
	"epoch": 0.0827178729689808,
	"grad_norm": 0.4295189082622528,
	"learning_rate": 0.0002,
	"loss": 0.4112,
	"step": 56
	},
	{
	"epoch": 0.08419497784342689,
	"grad_norm": 0.4347020387649536,
	"learning_rate": 0.0002,
	"loss": 0.4542,
	"step": 57
	},
	{
	"epoch": 0.08567208271787297,
	"grad_norm": 0.41407692432403564,
	"learning_rate": 0.0002,
	"loss": 0.4035,
	"step": 58
	},
	{
	"epoch": 0.08714918759231906,
	"grad_norm": 0.33283814787864685,
	"learning_rate": 0.0002,
	"loss": 0.2851,
	"step": 59
	},
	{
	"epoch": 0.08862629246676514,
	"grad_norm": 0.39427581429481506,
	"learning_rate": 0.0002,
	"loss": 0.4494,
	"step": 60
	},
	{
	"epoch": 0.09010339734121123,
	"grad_norm": 1.3357727527618408,
	"learning_rate": 0.0002,
	"loss": 0.3335,
	"step": 61
	},
	{
	"epoch": 0.0915805022156573,
	"grad_norm": 0.37050360441207886,
	"learning_rate": 0.0002,
	"loss": 0.3224,
	"step": 62
	},
	{
	"epoch": 0.0930576070901034,
	"grad_norm": 0.36000698804855347,
	"learning_rate": 0.0002,
	"loss": 0.3679,
	"step": 63
	},
	{
	"epoch": 0.09453471196454949,
	"grad_norm": 0.3739371597766876,
	"learning_rate": 0.0002,
	"loss": 0.4041,
	"step": 64
	},
	{
	"epoch": 0.09601181683899557,
	"grad_norm": 0.3365491032600403,
	"learning_rate": 0.0002,
	"loss": 0.3462,
	"step": 65
	},
	{
	"epoch": 0.09748892171344166,
	"grad_norm": 0.3357471823692322,
	"learning_rate": 0.0002,
	"loss": 0.3416,
	"step": 66
	},
	{
	"epoch": 0.09896602658788774,
	"grad_norm": 0.38020288944244385,
	"learning_rate": 0.0002,
	"loss": 0.3521,
	"step": 67
	},
	{
	"epoch": 0.10044313146233383,
	"grad_norm": 0.37143656611442566,
	"learning_rate": 0.0002,
	"loss": 0.3873,
	"step": 68
	},
	{
	"epoch": 0.1019202363367799,
	"grad_norm": 0.3613298535346985,
	"learning_rate": 0.0002,
	"loss": 0.3695,
	"step": 69
	},
	{
	"epoch": 0.103397341211226,
	"grad_norm": 0.3881225287914276,
	"learning_rate": 0.0002,
	"loss": 0.3686,
	"step": 70
	},
	{
	"epoch": 0.10487444608567208,
	"grad_norm": 0.35213181376457214,
	"learning_rate": 0.0002,
	"loss": 0.3276,
	"step": 71
	},
	{
	"epoch": 0.10635155096011817,
	"grad_norm": 0.3477317988872528,
	"learning_rate": 0.0002,
	"loss": 0.3261,
	"step": 72
	},
	{
	"epoch": 0.10782865583456426,
	"grad_norm": 0.326730340719223,
	"learning_rate": 0.0002,
	"loss": 0.2784,
	"step": 73
	},
	{
	"epoch": 0.10930576070901034,
	"grad_norm": 0.3316071629524231,
	"learning_rate": 0.0002,
	"loss": 0.3317,
	"step": 74
	},
	{
	"epoch": 0.11078286558345643,
	"grad_norm": 0.37388283014297485,
	"learning_rate": 0.0002,
	"loss": 0.3845,
	"step": 75
	},
	{
	"epoch": 0.11225997045790251,
	"grad_norm": 0.39761313796043396,
	"learning_rate": 0.0002,
	"loss": 0.4043,
	"step": 76
	},
	{
	"epoch": 0.1137370753323486,
	"grad_norm": 0.35033172369003296,
	"learning_rate": 0.0002,
	"loss": 0.3212,
	"step": 77
	},
	{
	"epoch": 0.11521418020679468,
	"grad_norm": 0.7551948428153992,
	"learning_rate": 0.0002,
	"loss": 0.3387,
	"step": 78
	},
	{
	"epoch": 0.11669128508124077,
	"grad_norm": 0.2940291166305542,
	"learning_rate": 0.0002,
	"loss": 0.2742,
	"step": 79
	},
	{
	"epoch": 0.11816838995568685,
	"grad_norm": 0.4048764407634735,
	"learning_rate": 0.0002,
	"loss": 0.4176,
	"step": 80
	},
	{
	"epoch": 0.11964549483013294,
	"grad_norm": 0.36520177125930786,
	"learning_rate": 0.0002,
	"loss": 0.317,
	"step": 81
	},
	{
	"epoch": 0.12112259970457903,
	"grad_norm": 0.3602144718170166,
	"learning_rate": 0.0002,
	"loss": 0.3648,
	"step": 82
	},
	{
	"epoch": 0.12259970457902511,
	"grad_norm": 0.34669214487075806,
	"learning_rate": 0.0002,
	"loss": 0.3389,
	"step": 83
	},
	{
	"epoch": 0.1240768094534712,
	"grad_norm": 0.34198257327079773,
	"learning_rate": 0.0002,
	"loss": 0.3174,
	"step": 84
	},
	{
	"epoch": 0.1255539143279173,
	"grad_norm": 0.3409755825996399,
	"learning_rate": 0.0002,
	"loss": 0.3376,
	"step": 85
	},
	{
	"epoch": 0.12703101920236337,
	"grad_norm": 0.38363194465637207,
	"learning_rate": 0.0002,
	"loss": 0.4002,
	"step": 86
	},
	{
	"epoch": 0.12850812407680945,
	"grad_norm": 0.35614731907844543,
	"learning_rate": 0.0002,
	"loss": 0.3581,
	"step": 87
	},
	{
	"epoch": 0.12998522895125553,
	"grad_norm": 0.3808327615261078,
	"learning_rate": 0.0002,
	"loss": 0.3966,
	"step": 88
	},
	{
	"epoch": 0.13146233382570163,
	"grad_norm": 0.3924517035484314,
	"learning_rate": 0.0002,
	"loss": 0.4161,
	"step": 89
	},
	{
	"epoch": 0.1329394387001477,
	"grad_norm": 0.3589531183242798,
	"learning_rate": 0.0002,
	"loss": 0.3233,
	"step": 90
	},
	{
	"epoch": 0.1344165435745938,
	"grad_norm": 0.37429341673851013,
	"learning_rate": 0.0002,
	"loss": 0.3778,
	"step": 91
	},
	{
	"epoch": 0.1358936484490399,
	"grad_norm": 0.3594294488430023,
	"learning_rate": 0.0002,
	"loss": 0.3472,
	"step": 92
	},
	{
	"epoch": 0.13737075332348597,
	"grad_norm": 0.3481505215167999,
	"learning_rate": 0.0002,
	"loss": 0.2961,
	"step": 93
	},
	{
	"epoch": 0.13884785819793205,
	"grad_norm": 0.3697575330734253,
	"learning_rate": 0.0002,
	"loss": 0.3954,
	"step": 94
	},
	{
	"epoch": 0.14032496307237813,
	"grad_norm": 0.3154103457927704,
	"learning_rate": 0.0002,
	"loss": 0.3148,
	"step": 95
	},
	{
	"epoch": 0.14180206794682423,
	"grad_norm": 0.32966312766075134,
	"learning_rate": 0.0002,
	"loss": 0.3211,
	"step": 96
	},
	{
	"epoch": 0.1432791728212703,
	"grad_norm": 0.3409123718738556,
	"learning_rate": 0.0002,
	"loss": 0.3318,
	"step": 97
	},
	{
	"epoch": 0.1447562776957164,
	"grad_norm": 0.346122682094574,
	"learning_rate": 0.0002,
	"loss": 0.3296,
	"step": 98
	},
	{
	"epoch": 0.14623338257016247,
	"grad_norm": 0.35875195264816284,
	"learning_rate": 0.0002,
	"loss": 0.3884,
	"step": 99
	},
	{
	"epoch": 0.14771048744460857,
	"grad_norm": 0.3223486542701721,
	"learning_rate": 0.0002,
	"loss": 0.3282,
	"step": 100
	},
	{
	"epoch": 0.14918759231905465,
	"grad_norm": 0.34657180309295654,
	"learning_rate": 0.0002,
	"loss": 0.364,
	"step": 101
	},
	{
	"epoch": 0.15066469719350073,
	"grad_norm": 0.34456005692481995,
	"learning_rate": 0.0002,
	"loss": 0.3541,
	"step": 102
	},
	{
	"epoch": 0.15214180206794684,
	"grad_norm": 0.3482792377471924,
	"learning_rate": 0.0002,
	"loss": 0.3435,
	"step": 103
	},
	{
	"epoch": 0.1536189069423929,
	"grad_norm": 0.37781214714050293,
	"learning_rate": 0.0002,
	"loss": 0.3716,
	"step": 104
	},
	{
	"epoch": 0.155096011816839,
	"grad_norm": 0.46567779779434204,
	"learning_rate": 0.0002,
	"loss": 0.3143,
	"step": 105
	},
	{
	"epoch": 0.15657311669128507,
	"grad_norm": 0.32534581422805786,
	"learning_rate": 0.0002,
	"loss": 0.3561,
	"step": 106
	},
	{
	"epoch": 0.15805022156573117,
	"grad_norm": 0.3262612521648407,
	"learning_rate": 0.0002,
	"loss": 0.3396,
	"step": 107
	},
	{
	"epoch": 0.15952732644017725,
	"grad_norm": 0.3691346049308777,
	"learning_rate": 0.0002,
	"loss": 0.4014,
	"step": 108
	},
	{
	"epoch": 0.16100443131462333,
	"grad_norm": 0.36267197132110596,
	"learning_rate": 0.0002,
	"loss": 0.3768,
	"step": 109
	},
	{
	"epoch": 0.16248153618906944,
	"grad_norm": 0.3206377923488617,
	"learning_rate": 0.0002,
	"loss": 0.326,
	"step": 110
	},
	{
	"epoch": 0.16395864106351551,
	"grad_norm": 0.32631710171699524,
	"learning_rate": 0.0002,
	"loss": 0.3438,
	"step": 111
	},
	{
	"epoch": 0.1654357459379616,
	"grad_norm": 0.33969393372535706,
	"learning_rate": 0.0002,
	"loss": 0.3602,
	"step": 112
	},
	{
	"epoch": 0.16691285081240767,
	"grad_norm": 0.361987829208374,
	"learning_rate": 0.0002,
	"loss": 0.3378,
	"step": 113
	},
	{
	"epoch": 0.16838995568685378,
	"grad_norm": 0.33116045594215393,
	"learning_rate": 0.0002,
	"loss": 0.3444,
	"step": 114
	},
	{
	"epoch": 0.16986706056129985,
	"grad_norm": 0.3474065363407135,
	"learning_rate": 0.0002,
	"loss": 0.3717,
	"step": 115
	},
	{
	"epoch": 0.17134416543574593,
	"grad_norm": 0.3335750699043274,
	"learning_rate": 0.0002,
	"loss": 0.351,
	"step": 116
	},
	{
	"epoch": 0.172821270310192,
	"grad_norm": 0.34676527976989746,
	"learning_rate": 0.0002,
	"loss": 0.3536,
	"step": 117
	},
	{
	"epoch": 0.17429837518463812,
	"grad_norm": 0.36145490407943726,
	"learning_rate": 0.0002,
	"loss": 0.407,
	"step": 118
	},
	{
	"epoch": 0.1757754800590842,
	"grad_norm": 0.3694964647293091,
	"learning_rate": 0.0002,
	"loss": 0.4143,
	"step": 119
	},
	{
	"epoch": 0.17725258493353027,
	"grad_norm": 0.31005293130874634,
	"learning_rate": 0.0002,
	"loss": 0.3306,
	"step": 120
	},
	{
	"epoch": 0.17872968980797638,
	"grad_norm": 0.32366085052490234,
	"learning_rate": 0.0002,
	"loss": 0.3342,
	"step": 121
	},
	{
	"epoch": 0.18020679468242246,
	"grad_norm": 0.3252504765987396,
	"learning_rate": 0.0002,
	"loss": 0.3503,
	"step": 122
	},
	{
	"epoch": 0.18168389955686853,
	"grad_norm": 0.32292550802230835,
	"learning_rate": 0.0002,
	"loss": 0.3694,
	"step": 123
	},
	{
	"epoch": 0.1831610044313146,
	"grad_norm": 0.32740291953086853,
	"learning_rate": 0.0002,
	"loss": 0.3296,
	"step": 124
	},
	{
	"epoch": 0.18463810930576072,
	"grad_norm": 0.3438139855861664,
	"learning_rate": 0.0002,
	"loss": 0.3107,
	"step": 125
	},
	{
	"epoch": 0.1861152141802068,
	"grad_norm": 0.33904099464416504,
	"learning_rate": 0.0002,
	"loss": 0.39,
	"step": 126
	},
	{
	"epoch": 0.18759231905465287,
	"grad_norm": 0.3464205265045166,
	"learning_rate": 0.0002,
	"loss": 0.3679,
	"step": 127
	},
	{
	"epoch": 0.18906942392909898,
	"grad_norm": 0.3387203514575958,
	"learning_rate": 0.0002,
	"loss": 0.3375,
	"step": 128
	},
	{
	"epoch": 0.19054652880354506,
	"grad_norm": 0.40050801634788513,
	"learning_rate": 0.0002,
	"loss": 0.3965,
	"step": 129
	},
	{
	"epoch": 0.19202363367799113,
	"grad_norm": 0.31067872047424316,
	"learning_rate": 0.0002,
	"loss": 0.3108,
	"step": 130
	},
	{
	"epoch": 0.1935007385524372,
	"grad_norm": 0.35977062582969666,
	"learning_rate": 0.0002,
	"loss": 0.4023,
	"step": 131
	},
	{
	"epoch": 0.19497784342688332,
	"grad_norm": 0.3153740167617798,
	"learning_rate": 0.0002,
	"loss": 0.3317,
	"step": 132
	},
	{
	"epoch": 0.1964549483013294,
	"grad_norm": 0.3306857645511627,
	"learning_rate": 0.0002,
	"loss": 0.3408,
	"step": 133
	},
	{
	"epoch": 0.19793205317577547,
	"grad_norm": 0.32012930512428284,
	"learning_rate": 0.0002,
	"loss": 0.3218,
	"step": 134
	},
	{
	"epoch": 0.19940915805022155,
	"grad_norm": 0.3159703314304352,
	"learning_rate": 0.0002,
	"loss": 0.3481,
	"step": 135
	},
	{
	"epoch": 0.20088626292466766,
	"grad_norm": 0.3230080306529999,
	"learning_rate": 0.0002,
	"loss": 0.3779,
	"step": 136
	},
	{
	"epoch": 0.20236336779911374,
	"grad_norm": 0.34753701090812683,
	"learning_rate": 0.0002,
	"loss": 0.3775,
	"step": 137
	},
	{
	"epoch": 0.2038404726735598,
	"grad_norm": 0.3315640687942505,
	"learning_rate": 0.0002,
	"loss": 0.339,
	"step": 138
	},
	{
	"epoch": 0.20531757754800592,
	"grad_norm": 0.33685439825057983,
	"learning_rate": 0.0002,
	"loss": 0.3575,
	"step": 139
	},
	{
	"epoch": 0.206794682422452,
	"grad_norm": 0.3179871439933777,
	"learning_rate": 0.0002,
	"loss": 0.3338,
	"step": 140
	},
	{
	"epoch": 0.20827178729689808,
	"grad_norm": 0.32391220331192017,
	"learning_rate": 0.0002,
	"loss": 0.3665,
	"step": 141
	},
	{
	"epoch": 0.20974889217134415,
	"grad_norm": 0.3102681338787079,
	"learning_rate": 0.0002,
	"loss": 0.2948,
	"step": 142
	},
	{
	"epoch": 0.21122599704579026,
	"grad_norm": 0.33224979043006897,
	"learning_rate": 0.0002,
	"loss": 0.392,
	"step": 143
	},
	{
	"epoch": 0.21270310192023634,
	"grad_norm": 0.30173906683921814,
	"learning_rate": 0.0002,
	"loss": 0.2775,
	"step": 144
	},
	{
	"epoch": 0.21418020679468242,
	"grad_norm": 0.3212149739265442,
	"learning_rate": 0.0002,
	"loss": 0.3408,
	"step": 145
	},
	{
	"epoch": 0.21565731166912852,
	"grad_norm": 0.3113839328289032,
	"learning_rate": 0.0002,
	"loss": 0.314,
	"step": 146
	},
	{
	"epoch": 0.2171344165435746,
	"grad_norm": 0.3435472548007965,
	"learning_rate": 0.0002,
	"loss": 0.3617,
	"step": 147
	},
	{
	"epoch": 0.21861152141802068,
	"grad_norm": 0.3423033058643341,
	"learning_rate": 0.0002,
	"loss": 0.3523,
	"step": 148
	},
	{
	"epoch": 0.22008862629246675,
	"grad_norm": 0.3202575445175171,
	"learning_rate": 0.0002,
	"loss": 0.349,
	"step": 149
	},
	{
	"epoch": 0.22156573116691286,
	"grad_norm": 0.2999582886695862,
	"learning_rate": 0.0002,
	"loss": 0.2906,
	"step": 150
	},
	{
	"epoch": 0.22304283604135894,
	"grad_norm": 0.33576205372810364,
	"learning_rate": 0.0002,
	"loss": 0.329,
	"step": 151
	},
	{
	"epoch": 0.22451994091580502,
	"grad_norm": 0.31811273097991943,
	"learning_rate": 0.0002,
	"loss": 0.3151,
	"step": 152
	},
	{
	"epoch": 0.2259970457902511,
	"grad_norm": 0.34126049280166626,
	"learning_rate": 0.0002,
	"loss": 0.335,
	"step": 153
	},
	{
	"epoch": 0.2274741506646972,
	"grad_norm": 0.29068347811698914,
	"learning_rate": 0.0002,
	"loss": 0.2996,
	"step": 154
	},
	{
	"epoch": 0.22895125553914328,
	"grad_norm": 0.3677709698677063,
	"learning_rate": 0.0002,
	"loss": 0.357,
	"step": 155
	},
	{
	"epoch": 0.23042836041358936,
	"grad_norm": 0.319380521774292,
	"learning_rate": 0.0002,
	"loss": 0.3283,
	"step": 156
	},
	{
	"epoch": 0.23190546528803546,
	"grad_norm": 0.2935948669910431,
	"learning_rate": 0.0002,
	"loss": 0.2755,
	"step": 157
	},
	{
	"epoch": 0.23338257016248154,
	"grad_norm": 0.30784815549850464,
	"learning_rate": 0.0002,
	"loss": 0.3171,
	"step": 158
	},
	{
	"epoch": 0.23485967503692762,
	"grad_norm": 0.3345930874347687,
	"learning_rate": 0.0002,
	"loss": 0.3526,
	"step": 159
	},
	{
	"epoch": 0.2363367799113737,
	"grad_norm": 0.3269497752189636,
	"learning_rate": 0.0002,
	"loss": 0.3492,
	"step": 160
	},
	{
	"epoch": 0.2378138847858198,
	"grad_norm": 0.32217973470687866,
	"learning_rate": 0.0002,
	"loss": 0.36,
	"step": 161
	},
	{
	"epoch": 0.23929098966026588,
	"grad_norm": 0.3381323516368866,
	"learning_rate": 0.0002,
	"loss": 0.3534,
	"step": 162
	},
	{
	"epoch": 0.24076809453471196,
	"grad_norm": 0.3131888210773468,
	"learning_rate": 0.0002,
	"loss": 0.3224,
	"step": 163
	},
	{
	"epoch": 0.24224519940915806,
	"grad_norm": 0.30917319655418396,
	"learning_rate": 0.0002,
	"loss": 0.3132,
	"step": 164
	},
	{
	"epoch": 0.24372230428360414,
	"grad_norm": 0.31469786167144775,
	"learning_rate": 0.0002,
	"loss": 0.3218,
	"step": 165
	},
	{
	"epoch": 0.24519940915805022,
	"grad_norm": 0.31420794129371643,
	"learning_rate": 0.0002,
	"loss": 0.3471,
	"step": 166
	},
	{
	"epoch": 0.2466765140324963,
	"grad_norm": 0.31471043825149536,
	"learning_rate": 0.0002,
	"loss": 0.3056,
	"step": 167
	},
	{
	"epoch": 0.2481536189069424,
	"grad_norm": 0.30315864086151123,
	"learning_rate": 0.0002,
	"loss": 0.3355,
	"step": 168
	},
	{
	"epoch": 0.24963072378138848,
	"grad_norm": 0.29710718989372253,
	"learning_rate": 0.0002,
	"loss": 0.3077,
	"step": 169
	},
	{
	"epoch": 0.2511078286558346,
	"grad_norm": 0.30408531427383423,
	"learning_rate": 0.0002,
	"loss": 0.3087,
	"step": 170
	},
	{
	"epoch": 0.25258493353028066,
	"grad_norm": 0.29702916741371155,
	"learning_rate": 0.0002,
	"loss": 0.2993,
	"step": 171
	},
	{
	"epoch": 0.25406203840472674,
	"grad_norm": 0.2939663827419281,
	"learning_rate": 0.0002,
	"loss": 0.2996,
	"step": 172
	},
	{
	"epoch": 0.2555391432791728,
	"grad_norm": 0.36591342091560364,
	"learning_rate": 0.0002,
	"loss": 0.356,
	"step": 173
	},
	{
	"epoch": 0.2570162481536189,
	"grad_norm": 0.30867043137550354,
	"learning_rate": 0.0002,
	"loss": 0.2961,
	"step": 174
	},
	{
	"epoch": 0.258493353028065,
	"grad_norm": 0.34252026677131653,
	"learning_rate": 0.0002,
	"loss": 0.3849,
	"step": 175
	},
	{
	"epoch": 0.25997045790251105,
	"grad_norm": 0.34753838181495667,
	"learning_rate": 0.0002,
	"loss": 0.3838,
	"step": 176
	},
	{
	"epoch": 0.2614475627769572,
	"grad_norm": 0.31399980187416077,
	"learning_rate": 0.0002,
	"loss": 0.33,
	"step": 177
	},
	{
	"epoch": 0.26292466765140327,
	"grad_norm": 0.32648637890815735,
	"learning_rate": 0.0002,
	"loss": 0.3678,
	"step": 178
	},
	{
	"epoch": 0.26440177252584934,
	"grad_norm": 0.2866675853729248,
	"learning_rate": 0.0002,
	"loss": 0.295,
	"step": 179
	},
	{
	"epoch": 0.2658788774002954,
	"grad_norm": 0.32054954767227173,
	"learning_rate": 0.0002,
	"loss": 0.3342,
	"step": 180
	},
	{
	"epoch": 0.2673559822747415,
	"grad_norm": 0.30476486682891846,
	"learning_rate": 0.0002,
	"loss": 0.3381,
	"step": 181
	},
	{
	"epoch": 0.2688330871491876,
	"grad_norm": 0.2891450524330139,
	"learning_rate": 0.0002,
	"loss": 0.2984,
	"step": 182
	},
	{
	"epoch": 0.27031019202363366,
	"grad_norm": 0.3023356795310974,
	"learning_rate": 0.0002,
	"loss": 0.2991,
	"step": 183
	},
	{
	"epoch": 0.2717872968980798,
	"grad_norm": 0.31025779247283936,
	"learning_rate": 0.0002,
	"loss": 0.3198,
	"step": 184
	},
	{
	"epoch": 0.27326440177252587,
	"grad_norm": 0.27903226017951965,
	"learning_rate": 0.0002,
	"loss": 0.274,
	"step": 185
	},
	{
	"epoch": 0.27474150664697194,
	"grad_norm": 0.2925949692726135,
	"learning_rate": 0.0002,
	"loss": 0.3051,
	"step": 186
	},
	{
	"epoch": 0.276218611521418,
	"grad_norm": 0.3387667238712311,
	"learning_rate": 0.0002,
	"loss": 0.3677,
	"step": 187
	},
	{
	"epoch": 0.2776957163958641,
	"grad_norm": 0.316540390253067,
	"learning_rate": 0.0002,
	"loss": 0.3196,
	"step": 188
	},
	{
	"epoch": 0.2791728212703102,
	"grad_norm": 0.3089348375797272,
	"learning_rate": 0.0002,
	"loss": 0.3338,
	"step": 189
	},
	{
	"epoch": 0.28064992614475626,
	"grad_norm": 0.313431054353714,
	"learning_rate": 0.0002,
	"loss": 0.3178,
	"step": 190
	},
	{
	"epoch": 0.2821270310192024,
	"grad_norm": 0.30025985836982727,
	"learning_rate": 0.0002,
	"loss": 0.3086,
	"step": 191
	},
	{
	"epoch": 0.28360413589364847,
	"grad_norm": 0.3058534860610962,
	"learning_rate": 0.0002,
	"loss": 0.3128,
	"step": 192
	},
	{
	"epoch": 0.28508124076809455,
	"grad_norm": 0.334710031747818,
	"learning_rate": 0.0002,
	"loss": 0.3418,
	"step": 193
	},
	{
	"epoch": 0.2865583456425406,
	"grad_norm": 0.3021548092365265,
	"learning_rate": 0.0002,
	"loss": 0.2995,
	"step": 194
	},
	{
	"epoch": 0.2880354505169867,
	"grad_norm": 0.27398747205734253,
	"learning_rate": 0.0002,
	"loss": 0.2743,
	"step": 195
	},
	{
	"epoch": 0.2895125553914328,
	"grad_norm": 0.33194372057914734,
	"learning_rate": 0.0002,
	"loss": 0.2824,
	"step": 196
	},
	{
	"epoch": 0.29098966026587886,
	"grad_norm": 0.3193664848804474,
	"learning_rate": 0.0002,
	"loss": 0.3361,
	"step": 197
	},
	{
	"epoch": 0.29246676514032494,
	"grad_norm": 0.3320102393627167,
	"learning_rate": 0.0002,
	"loss": 0.3154,
	"step": 198
	},
	{
	"epoch": 0.29394387001477107,
	"grad_norm": 0.2951314449310303,
	"learning_rate": 0.0002,
	"loss": 0.2699,
	"step": 199
	},
	{
	"epoch": 0.29542097488921715,
	"grad_norm": 0.3117165267467499,
	"learning_rate": 0.0002,
	"loss": 0.3359,
	"step": 200
	},
	{
	"epoch": 0.2968980797636632,
	"grad_norm": 0.30885782837867737,
	"learning_rate": 0.0002,
	"loss": 0.3181,
	"step": 201
	},
	{
	"epoch": 0.2983751846381093,
	"grad_norm": 0.3114778399467468,
	"learning_rate": 0.0002,
	"loss": 0.3409,
	"step": 202
	},
	{
	"epoch": 0.2998522895125554,
	"grad_norm": 0.32142388820648193,
	"learning_rate": 0.0002,
	"loss": 0.3491,
	"step": 203
	},
	{
	"epoch": 0.30132939438700146,
	"grad_norm": 0.3159630000591278,
	"learning_rate": 0.0002,
	"loss": 0.3176,
	"step": 204
	},
	{
	"epoch": 0.30280649926144754,
	"grad_norm": 0.2813749313354492,
	"learning_rate": 0.0002,
	"loss": 0.2745,
	"step": 205
	},
	{
	"epoch": 0.30428360413589367,
	"grad_norm": 0.3174036145210266,
	"learning_rate": 0.0002,
	"loss": 0.3527,
	"step": 206
	},
	{
	"epoch": 0.30576070901033975,
	"grad_norm": 0.311678409576416,
	"learning_rate": 0.0002,
	"loss": 0.3075,
	"step": 207
	},
	{
	"epoch": 0.3072378138847858,
	"grad_norm": 0.2867993712425232,
	"learning_rate": 0.0002,
	"loss": 0.32,
	"step": 208
	},
	{
	"epoch": 0.3087149187592319,
	"grad_norm": 0.29298824071884155,
	"learning_rate": 0.0002,
	"loss": 0.3226,
	"step": 209
	},
	{
	"epoch": 0.310192023633678,
	"grad_norm": 0.3173938989639282,
	"learning_rate": 0.0002,
	"loss": 0.32,
	"step": 210
	},
	{
	"epoch": 0.31166912850812406,
	"grad_norm": 0.27944210171699524,
	"learning_rate": 0.0002,
	"loss": 0.2825,
	"step": 211
	},
	{
	"epoch": 0.31314623338257014,
	"grad_norm": 0.3196215331554413,
	"learning_rate": 0.0002,
	"loss": 0.3321,
	"step": 212
	},
	{
	"epoch": 0.31462333825701627,
	"grad_norm": 0.3193184733390808,
	"learning_rate": 0.0002,
	"loss": 0.3394,
	"step": 213
	},
	{
	"epoch": 0.31610044313146235,
	"grad_norm": 0.2783777713775635,
	"learning_rate": 0.0002,
	"loss": 0.3134,
	"step": 214
	},
	{
	"epoch": 0.3175775480059084,
	"grad_norm": 0.35627251863479614,
	"learning_rate": 0.0002,
	"loss": 0.3973,
	"step": 215
	},
	{
	"epoch": 0.3190546528803545,
	"grad_norm": 0.32312896847724915,
	"learning_rate": 0.0002,
	"loss": 0.3388,
	"step": 216
	},
	{
	"epoch": 0.3205317577548006,
	"grad_norm": 0.2931472659111023,
	"learning_rate": 0.0002,
	"loss": 0.3134,
	"step": 217
	},
	{
	"epoch": 0.32200886262924666,
	"grad_norm": 0.3059196174144745,
	"learning_rate": 0.0002,
	"loss": 0.3249,
	"step": 218
	},
	{
	"epoch": 0.32348596750369274,
	"grad_norm": 0.3171478807926178,
	"learning_rate": 0.0002,
	"loss": 0.3459,
	"step": 219
	},
	{
	"epoch": 0.3249630723781389,
	"grad_norm": 0.31810346245765686,
	"learning_rate": 0.0002,
	"loss": 0.3455,
	"step": 220
	},
	{
	"epoch": 0.32644017725258495,
	"grad_norm": 0.30696892738342285,
	"learning_rate": 0.0002,
	"loss": 0.3037,
	"step": 221
	},
	{
	"epoch": 0.32791728212703103,
	"grad_norm": 0.3519222140312195,
	"learning_rate": 0.0002,
	"loss": 0.3585,
	"step": 222
	},
	{
	"epoch": 0.3293943870014771,
	"grad_norm": 0.2762470245361328,
	"learning_rate": 0.0002,
	"loss": 0.2615,
	"step": 223
	},
	{
	"epoch": 0.3308714918759232,
	"grad_norm": 0.2909640967845917,
	"learning_rate": 0.0002,
	"loss": 0.2994,
	"step": 224
	},
	{
	"epoch": 0.33234859675036926,
	"grad_norm": 0.3310638964176178,
	"learning_rate": 0.0002,
	"loss": 0.368,
	"step": 225
	},
	{
	"epoch": 0.33382570162481534,
	"grad_norm": 0.337228387594223,
	"learning_rate": 0.0002,
	"loss": 0.358,
	"step": 226
	},
	{
	"epoch": 0.3353028064992615,
	"grad_norm": 0.3182266652584076,
	"learning_rate": 0.0002,
	"loss": 0.3425,
	"step": 227
	},
	{
	"epoch": 0.33677991137370755,
	"grad_norm": 0.32053616642951965,
	"learning_rate": 0.0002,
	"loss": 0.3604,
	"step": 228
	},
	{
	"epoch": 0.33825701624815363,
	"grad_norm": 0.3377324342727661,
	"learning_rate": 0.0002,
	"loss": 0.3783,
	"step": 229
	},
	{
	"epoch": 0.3397341211225997,
	"grad_norm": 0.28743067383766174,
	"learning_rate": 0.0002,
	"loss": 0.304,
	"step": 230
	},
	{
	"epoch": 0.3412112259970458,
	"grad_norm": 0.30108213424682617,
	"learning_rate": 0.0002,
	"loss": 0.3129,
	"step": 231
	},
	{
	"epoch": 0.34268833087149186,
	"grad_norm": 0.3191213607788086,
	"learning_rate": 0.0002,
	"loss": 0.3331,
	"step": 232
	},
	{
	"epoch": 0.34416543574593794,
	"grad_norm": 0.2999110519886017,
	"learning_rate": 0.0002,
	"loss": 0.3074,
	"step": 233
	},
	{
	"epoch": 0.345642540620384,
	"grad_norm": 0.2682500183582306,
	"learning_rate": 0.0002,
	"loss": 0.2635,
	"step": 234
	},
	{
	"epoch": 0.34711964549483015,
	"grad_norm": 0.2817941904067993,
	"learning_rate": 0.0002,
	"loss": 0.3048,
	"step": 235
	},
	{
	"epoch": 0.34859675036927623,
	"grad_norm": 0.3110464811325073,
	"learning_rate": 0.0002,
	"loss": 0.3228,
	"step": 236
	},
	{
	"epoch": 0.3500738552437223,
	"grad_norm": 0.3088606297969818,
	"learning_rate": 0.0002,
	"loss": 0.3161,
	"step": 237
	},
	{
	"epoch": 0.3515509601181684,
	"grad_norm": 0.2990322411060333,
	"learning_rate": 0.0002,
	"loss": 0.3085,
	"step": 238
	},
	{
	"epoch": 0.35302806499261447,
	"grad_norm": 0.33097386360168457,
	"learning_rate": 0.0002,
	"loss": 0.3615,
	"step": 239
	},
	{
	"epoch": 0.35450516986706054,
	"grad_norm": 0.3397606313228607,
	"learning_rate": 0.0002,
	"loss": 0.3957,
	"step": 240
	},
	{
	"epoch": 0.3559822747415066,
	"grad_norm": 0.2756197452545166,
	"learning_rate": 0.0002,
	"loss": 0.2731,
	"step": 241
	},
	{
	"epoch": 0.35745937961595275,
	"grad_norm": 0.3435852825641632,
	"learning_rate": 0.0002,
	"loss": 0.3855,
	"step": 242
	},
	{
	"epoch": 0.35893648449039883,
	"grad_norm": 0.33727383613586426,
	"learning_rate": 0.0002,
	"loss": 0.3101,
	"step": 243
	},
	{
	"epoch": 0.3604135893648449,
	"grad_norm": 0.3684369921684265,
	"learning_rate": 0.0002,
	"loss": 0.3378,
	"step": 244
	},
	{
	"epoch": 0.361890694239291,
	"grad_norm": 0.3006575107574463,
	"learning_rate": 0.0002,
	"loss": 0.3295,
	"step": 245
	},
	{
	"epoch": 0.36336779911373707,
	"grad_norm": 0.31223273277282715,
	"learning_rate": 0.0002,
	"loss": 0.2977,
	"step": 246
	},
	{
	"epoch": 0.36484490398818314,
	"grad_norm": 0.3001905381679535,
	"learning_rate": 0.0002,
	"loss": 0.294,
	"step": 247
	},
	{
	"epoch": 0.3663220088626292,
	"grad_norm": 0.2907404899597168,
	"learning_rate": 0.0002,
	"loss": 0.2839,
	"step": 248
	},
	{
	"epoch": 0.36779911373707536,
	"grad_norm": 0.31060346961021423,
	"learning_rate": 0.0002,
	"loss": 0.3333,
	"step": 249
	},
	{
	"epoch": 0.36927621861152143,
	"grad_norm": 0.3394862413406372,
	"learning_rate": 0.0002,
	"loss": 0.3217,
	"step": 250
	},
	{
	"epoch": 0.3707533234859675,
	"grad_norm": 0.2912856340408325,
	"learning_rate": 0.0002,
	"loss": 0.3072,
	"step": 251
	},
	{
	"epoch": 0.3722304283604136,
	"grad_norm": 0.2991478741168976,
	"learning_rate": 0.0002,
	"loss": 0.3349,
	"step": 252
	},
	{
	"epoch": 0.37370753323485967,
	"grad_norm": 0.304868221282959,
	"learning_rate": 0.0002,
	"loss": 0.3142,
	"step": 253
	},
	{
	"epoch": 0.37518463810930575,
	"grad_norm": 0.3008173704147339,
	"learning_rate": 0.0002,
	"loss": 0.3166,
	"step": 254
	},
	{
	"epoch": 0.3766617429837518,
	"grad_norm": 0.290526807308197,
	"learning_rate": 0.0002,
	"loss": 0.3228,
	"step": 255
	},
	{
	"epoch": 0.37813884785819796,
	"grad_norm": 0.2846904695034027,
	"learning_rate": 0.0002,
	"loss": 0.31,
	"step": 256
	},
	{
	"epoch": 0.37961595273264404,
	"grad_norm": 0.306904137134552,
	"learning_rate": 0.0002,
	"loss": 0.3238,
	"step": 257
	},
	{
	"epoch": 0.3810930576070901,
	"grad_norm": 0.30683666467666626,
	"learning_rate": 0.0002,
	"loss": 0.3327,
	"step": 258
	},
	{
	"epoch": 0.3825701624815362,
	"grad_norm": 0.2824447751045227,
	"learning_rate": 0.0002,
	"loss": 0.2962,
	"step": 259
	},
	{
	"epoch": 0.38404726735598227,
	"grad_norm": 0.29804757237434387,
	"learning_rate": 0.0002,
	"loss": 0.3025,
	"step": 260
	},
	{
	"epoch": 0.38552437223042835,
	"grad_norm": 0.3133246600627899,
	"learning_rate": 0.0002,
	"loss": 0.3095,
	"step": 261
	},
	{
	"epoch": 0.3870014771048744,
	"grad_norm": 0.3098774254322052,
	"learning_rate": 0.0002,
	"loss": 0.3031,
	"step": 262
	},
	{
	"epoch": 0.38847858197932056,
	"grad_norm": 0.3248344361782074,
	"learning_rate": 0.0002,
	"loss": 0.3402,
	"step": 263
	},
	{
	"epoch": 0.38995568685376664,
	"grad_norm": 0.30645236372947693,
	"learning_rate": 0.0002,
	"loss": 0.3277,
	"step": 264
	},
	{
	"epoch": 0.3914327917282127,
	"grad_norm": 0.29753726720809937,
	"learning_rate": 0.0002,
	"loss": 0.3322,
	"step": 265
	},
	{
	"epoch": 0.3929098966026588,
	"grad_norm": 0.33593639731407166,
	"learning_rate": 0.0002,
	"loss": 0.337,
	"step": 266
	},
	{
	"epoch": 0.39438700147710487,
	"grad_norm": 0.3059685528278351,
	"learning_rate": 0.0002,
	"loss": 0.2896,
	"step": 267
	},
	{
	"epoch": 0.39586410635155095,
	"grad_norm": 0.30055829882621765,
	"learning_rate": 0.0002,
	"loss": 0.3385,
	"step": 268
	},
	{
	"epoch": 0.397341211225997,
	"grad_norm": 0.27567949891090393,
	"learning_rate": 0.0002,
	"loss": 0.2799,
	"step": 269
	},
	{
	"epoch": 0.3988183161004431,
	"grad_norm": 0.33319681882858276,
	"learning_rate": 0.0002,
	"loss": 0.3735,
	"step": 270
	},
	{
	"epoch": 0.40029542097488924,
	"grad_norm": 0.28851690888404846,
	"learning_rate": 0.0002,
	"loss": 0.2934,
	"step": 271
	},
	{
	"epoch": 0.4017725258493353,
	"grad_norm": 0.3188093900680542,
	"learning_rate": 0.0002,
	"loss": 0.3276,
	"step": 272
	},
	{
	"epoch": 0.4032496307237814,
	"grad_norm": 0.29944342374801636,
	"learning_rate": 0.0002,
	"loss": 0.3351,
	"step": 273
	},
	{
	"epoch": 0.40472673559822747,
	"grad_norm": 0.31611138582229614,
	"learning_rate": 0.0002,
	"loss": 0.3616,
	"step": 274
	},
	{
	"epoch": 0.40620384047267355,
	"grad_norm": 0.3243541419506073,
	"learning_rate": 0.0002,
	"loss": 0.3394,
	"step": 275
	},
	{
	"epoch": 0.4076809453471196,
	"grad_norm": 0.31130653619766235,
	"learning_rate": 0.0002,
	"loss": 0.3182,
	"step": 276
	},
	{
	"epoch": 0.4091580502215657,
	"grad_norm": 0.2761830687522888,
	"learning_rate": 0.0002,
	"loss": 0.23,
	"step": 277
	},
	{
	"epoch": 0.41063515509601184,
	"grad_norm": 0.3256094455718994,
	"learning_rate": 0.0002,
	"loss": 0.3921,
	"step": 278
	},
	{
	"epoch": 0.4121122599704579,
	"grad_norm": 0.30812302231788635,
	"learning_rate": 0.0002,
	"loss": 0.3559,
	"step": 279
	},
	{
	"epoch": 0.413589364844904,
	"grad_norm": 0.28198400139808655,
	"learning_rate": 0.0002,
	"loss": 0.285,
	"step": 280
	},
	{
	"epoch": 0.4150664697193501,
	"grad_norm": 0.2873023450374603,
	"learning_rate": 0.0002,
	"loss": 0.2963,
	"step": 281
	},
	{
	"epoch": 0.41654357459379615,
	"grad_norm": 0.29413530230522156,
	"learning_rate": 0.0002,
	"loss": 0.2885,
	"step": 282
	},
	{
	"epoch": 0.41802067946824223,
	"grad_norm": 0.2963588237762451,
	"learning_rate": 0.0002,
	"loss": 0.2996,
	"step": 283
	},
	{
	"epoch": 0.4194977843426883,
	"grad_norm": 0.2581465542316437,
	"learning_rate": 0.0002,
	"loss": 0.255,
	"step": 284
	},
	{
	"epoch": 0.42097488921713444,
	"grad_norm": 0.3365771472454071,
	"learning_rate": 0.0002,
	"loss": 0.3473,
	"step": 285
	},
	{
	"epoch": 0.4224519940915805,
	"grad_norm": 0.3092253804206848,
	"learning_rate": 0.0002,
	"loss": 0.29,
	"step": 286
	},
	{
	"epoch": 0.4239290989660266,
	"grad_norm": 0.300626277923584,
	"learning_rate": 0.0002,
	"loss": 0.3183,
	"step": 287
	},
	{
	"epoch": 0.4254062038404727,
	"grad_norm": 0.3320425748825073,
	"learning_rate": 0.0002,
	"loss": 0.3322,
	"step": 288
	},
	{
	"epoch": 0.42688330871491875,
	"grad_norm": 0.2749597728252411,
	"learning_rate": 0.0002,
	"loss": 0.2995,
	"step": 289
	},
	{
	"epoch": 0.42836041358936483,
	"grad_norm": 0.280134916305542,
	"learning_rate": 0.0002,
	"loss": 0.2729,
	"step": 290
	},
	{
	"epoch": 0.4298375184638109,
	"grad_norm": 0.27060407400131226,
	"learning_rate": 0.0002,
	"loss": 0.2694,
	"step": 291
	},
	{
	"epoch": 0.43131462333825704,
	"grad_norm": 0.28500011563301086,
	"learning_rate": 0.0002,
	"loss": 0.2852,
	"step": 292
	},
	{
	"epoch": 0.4327917282127031,
	"grad_norm": 0.2733040452003479,
	"learning_rate": 0.0002,
	"loss": 0.276,
	"step": 293
	},
	{
	"epoch": 0.4342688330871492,
	"grad_norm": 0.30365538597106934,
	"learning_rate": 0.0002,
	"loss": 0.2806,
	"step": 294
	},
	{
	"epoch": 0.4357459379615953,
	"grad_norm": 0.3079434335231781,
	"learning_rate": 0.0002,
	"loss": 0.3014,
	"step": 295
	},
	{
	"epoch": 0.43722304283604135,
	"grad_norm": 0.2746562659740448,
	"learning_rate": 0.0002,
	"loss": 0.2601,
	"step": 296
	},
	{
	"epoch": 0.43870014771048743,
	"grad_norm": 0.3027852475643158,
	"learning_rate": 0.0002,
	"loss": 0.2978,
	"step": 297
	},
	{
	"epoch": 0.4401772525849335,
	"grad_norm": 0.2862493395805359,
	"learning_rate": 0.0002,
	"loss": 0.2712,
	"step": 298
	},
	{
	"epoch": 0.44165435745937964,
	"grad_norm": 0.30820953845977783,
	"learning_rate": 0.0002,
	"loss": 0.3198,
	"step": 299
	},
	{
	"epoch": 0.4431314623338257,
	"grad_norm": 0.2891389727592468,
	"learning_rate": 0.0002,
	"loss": 0.2914,
	"step": 300
	},
	{
	"epoch": 0.4446085672082718,
	"grad_norm": 0.29976293444633484,
	"learning_rate": 0.0002,
	"loss": 0.3155,
	"step": 301
	},
	{
	"epoch": 0.4460856720827179,
	"grad_norm": 0.26029616594314575,
	"learning_rate": 0.0002,
	"loss": 0.2585,
	"step": 302
	},
	{
	"epoch": 0.44756277695716395,
	"grad_norm": 0.2925141751766205,
	"learning_rate": 0.0002,
	"loss": 0.2799,
	"step": 303
	},
	{
	"epoch": 0.44903988183161003,
	"grad_norm": 0.3378995358943939,
	"learning_rate": 0.0002,
	"loss": 0.3397,
	"step": 304
	},
	{
	"epoch": 0.4505169867060561,
	"grad_norm": 0.3140377104282379,
	"learning_rate": 0.0002,
	"loss": 0.3065,
	"step": 305
	},
	{
	"epoch": 0.4519940915805022,
	"grad_norm": 0.30882659554481506,
	"learning_rate": 0.0002,
	"loss": 0.2976,
	"step": 306
	},
	{
	"epoch": 0.4534711964549483,
	"grad_norm": 0.2986995577812195,
	"learning_rate": 0.0002,
	"loss": 0.3086,
	"step": 307
	},
	{
	"epoch": 0.4549483013293944,
	"grad_norm": 0.37128734588623047,
	"learning_rate": 0.0002,
	"loss": 0.3018,
	"step": 308
	},
	{
	"epoch": 0.4564254062038405,
	"grad_norm": 0.2967352271080017,
	"learning_rate": 0.0002,
	"loss": 0.2855,
	"step": 309
	},
	{
	"epoch": 0.45790251107828656,
	"grad_norm": 0.3116573691368103,
	"learning_rate": 0.0002,
	"loss": 0.3248,
	"step": 310
	},
	{
	"epoch": 0.45937961595273263,
	"grad_norm": 0.27394649386405945,
	"learning_rate": 0.0002,
	"loss": 0.2894,
	"step": 311
	},
	{
	"epoch": 0.4608567208271787,
	"grad_norm": 0.31190183758735657,
	"learning_rate": 0.0002,
	"loss": 0.3311,
	"step": 312
	},
	{
	"epoch": 0.4623338257016248,
	"grad_norm": 0.28978461027145386,
	"learning_rate": 0.0002,
	"loss": 0.2896,
	"step": 313
	},
	{
	"epoch": 0.4638109305760709,
	"grad_norm": 0.29586443305015564,
	"learning_rate": 0.0002,
	"loss": 0.3062,
	"step": 314
	},
	{
	"epoch": 0.465288035450517,
	"grad_norm": 0.3034004271030426,
	"learning_rate": 0.0002,
	"loss": 0.2797,
	"step": 315
	},
	{
	"epoch": 0.4667651403249631,
	"grad_norm": 0.3083277940750122,
	"learning_rate": 0.0002,
	"loss": 0.2912,
	"step": 316
	},
	{
	"epoch": 0.46824224519940916,
	"grad_norm": 0.31153154373168945,
	"learning_rate": 0.0002,
	"loss": 0.3403,
	"step": 317
	},
	{
	"epoch": 0.46971935007385524,
	"grad_norm": 0.26065292954444885,
	"learning_rate": 0.0002,
	"loss": 0.2289,
	"step": 318
	},
	{
	"epoch": 0.4711964549483013,
	"grad_norm": 0.29736757278442383,
	"learning_rate": 0.0002,
	"loss": 0.3202,
	"step": 319
	},
	{
	"epoch": 0.4726735598227474,
	"grad_norm": 0.362541526556015,
	"learning_rate": 0.0002,
	"loss": 0.393,
	"step": 320
	},
	{
	"epoch": 0.4741506646971935,
	"grad_norm": 0.3045463263988495,
	"learning_rate": 0.0002,
	"loss": 0.2843,
	"step": 321
	},
	{
	"epoch": 0.4756277695716396,
	"grad_norm": 0.33905521035194397,
	"learning_rate": 0.0002,
	"loss": 0.368,
	"step": 322
	},
	{
	"epoch": 0.4771048744460857,
	"grad_norm": 0.3574953079223633,
	"learning_rate": 0.0002,
	"loss": 0.2273,
	"step": 323
	},
	{
	"epoch": 0.47858197932053176,
	"grad_norm": 0.3134016990661621,
	"learning_rate": 0.0002,
	"loss": 0.3134,
	"step": 324
	},
	{
	"epoch": 0.48005908419497784,
	"grad_norm": 0.32262158393859863,
	"learning_rate": 0.0002,
	"loss": 0.3028,
	"step": 325
	},
	{
	"epoch": 0.4815361890694239,
	"grad_norm": 0.26441511511802673,
	"learning_rate": 0.0002,
	"loss": 0.2447,
	"step": 326
	},
	{
	"epoch": 0.48301329394387,
	"grad_norm": 0.3419596552848816,
	"learning_rate": 0.0002,
	"loss": 0.3258,
	"step": 327
	},
	{
	"epoch": 0.4844903988183161,
	"grad_norm": 0.3031555116176605,
	"learning_rate": 0.0002,
	"loss": 0.322,
	"step": 328
	},
	{
	"epoch": 0.4859675036927622,
	"grad_norm": 0.29226183891296387,
	"learning_rate": 0.0002,
	"loss": 0.2803,
	"step": 329
	},
	{
	"epoch": 0.4874446085672083,
	"grad_norm": 0.2874895930290222,
	"learning_rate": 0.0002,
	"loss": 0.2824,
	"step": 330
	},
	{
	"epoch": 0.48892171344165436,
	"grad_norm": 0.31009188294410706,
	"learning_rate": 0.0002,
	"loss": 0.3218,
	"step": 331
	},
	{
	"epoch": 0.49039881831610044,
	"grad_norm": 0.31250134110450745,
	"learning_rate": 0.0002,
	"loss": 0.2972,
	"step": 332
	},
	{
	"epoch": 0.4918759231905465,
	"grad_norm": 0.30231741070747375,
	"learning_rate": 0.0002,
	"loss": 0.3255,
	"step": 333
	},
	{
	"epoch": 0.4933530280649926,
	"grad_norm": 0.32139065861701965,
	"learning_rate": 0.0002,
	"loss": 0.3712,
	"step": 334
	},
	{
	"epoch": 0.4948301329394387,
	"grad_norm": 0.2788805365562439,
	"learning_rate": 0.0002,
	"loss": 0.3069,
	"step": 335
	},
	{
	"epoch": 0.4963072378138848,
	"grad_norm": 0.3206048011779785,
	"learning_rate": 0.0002,
	"loss": 0.3519,
	"step": 336
	},
	{
	"epoch": 0.4977843426883309,
	"grad_norm": 0.316514253616333,
	"learning_rate": 0.0002,
	"loss": 0.3554,
	"step": 337
	},
	{
	"epoch": 0.49926144756277696,
	"grad_norm": 0.3080296516418457,
	"learning_rate": 0.0002,
	"loss": 0.3366,
	"step": 338
	},
	{
	"epoch": 0.5007385524372231,
	"grad_norm": 0.3183678090572357,
	"learning_rate": 0.0002,
	"loss": 0.2967,
	"step": 339
	},
	{
	"epoch": 0.5022156573116692,
	"grad_norm": 0.31313014030456543,
	"learning_rate": 0.0002,
	"loss": 0.3188,
	"step": 340
	},
	{
	"epoch": 0.5036927621861153,
	"grad_norm": 0.2989446520805359,
	"learning_rate": 0.0002,
	"loss": 0.3235,
	"step": 341
	},
	{
	"epoch": 0.5051698670605613,
	"grad_norm": 0.2817307412624359,
	"learning_rate": 0.0002,
	"loss": 0.2959,
	"step": 342
	},
	{
	"epoch": 0.5066469719350074,
	"grad_norm": 0.487758606672287,
	"learning_rate": 0.0002,
	"loss": 0.3308,
	"step": 343
	},
	{
	"epoch": 0.5081240768094535,
	"grad_norm": 0.26448920369148254,
	"learning_rate": 0.0002,
	"loss": 0.2942,
	"step": 344
	},
	{
	"epoch": 0.5096011816838996,
	"grad_norm": 0.3182467818260193,
	"learning_rate": 0.0002,
	"loss": 0.291,
	"step": 345
	},
	{
	"epoch": 0.5110782865583456,
	"grad_norm": 0.2950560450553894,
	"learning_rate": 0.0002,
	"loss": 0.3014,
	"step": 346
	},
	{
	"epoch": 0.5125553914327917,
	"grad_norm": 0.3176344633102417,
	"learning_rate": 0.0002,
	"loss": 0.3425,
	"step": 347
	},
	{
	"epoch": 0.5140324963072378,
	"grad_norm": 0.30496424436569214,
	"learning_rate": 0.0002,
	"loss": 0.3447,
	"step": 348
	},
	{
	"epoch": 0.5155096011816839,
	"grad_norm": 0.28272292017936707,
	"learning_rate": 0.0002,
	"loss": 0.2645,
	"step": 349
	},
	{
	"epoch": 0.51698670605613,
	"grad_norm": 0.2600267231464386,
	"learning_rate": 0.0002,
	"loss": 0.2525,
	"step": 350
	},
	{
	"epoch": 0.518463810930576,
	"grad_norm": 0.2765870988368988,
	"learning_rate": 0.0002,
	"loss": 0.2907,
	"step": 351
	},
	{
	"epoch": 0.5199409158050221,
	"grad_norm": 0.30320316553115845,
	"learning_rate": 0.0002,
	"loss": 0.3404,
	"step": 352
	},
	{
	"epoch": 0.5214180206794683,
	"grad_norm": 0.33050844073295593,
	"learning_rate": 0.0002,
	"loss": 0.3436,
	"step": 353
	},
	{
	"epoch": 0.5228951255539144,
	"grad_norm": 0.2716812193393707,
	"learning_rate": 0.0002,
	"loss": 0.2912,
	"step": 354
	},
	{
	"epoch": 0.5243722304283605,
	"grad_norm": 0.2944520115852356,
	"learning_rate": 0.0002,
	"loss": 0.3212,
	"step": 355
	},
	{
	"epoch": 0.5258493353028065,
	"grad_norm": 0.334228515625,
	"learning_rate": 0.0002,
	"loss": 0.3675,
	"step": 356
	},
	{
	"epoch": 0.5273264401772526,
	"grad_norm": 0.27948203682899475,
	"learning_rate": 0.0002,
	"loss": 0.2648,
	"step": 357
	},
	{
	"epoch": 0.5288035450516987,
	"grad_norm": 0.32159537076950073,
	"learning_rate": 0.0002,
	"loss": 0.3659,
	"step": 358
	},
	{
	"epoch": 0.5302806499261448,
	"grad_norm": 0.29499179124832153,
	"learning_rate": 0.0002,
	"loss": 0.2718,
	"step": 359
	},
	{
	"epoch": 0.5317577548005908,
	"grad_norm": 0.3503305912017822,
	"learning_rate": 0.0002,
	"loss": 0.2972,
	"step": 360
	},
	{
	"epoch": 0.5332348596750369,
	"grad_norm": 0.29388928413391113,
	"learning_rate": 0.0002,
	"loss": 0.3063,
	"step": 361
	},
	{
	"epoch": 0.534711964549483,
	"grad_norm": 0.2753749191761017,
	"learning_rate": 0.0002,
	"loss": 0.2706,
	"step": 362
	},
	{
	"epoch": 0.5361890694239291,
	"grad_norm": 0.2902815341949463,
	"learning_rate": 0.0002,
	"loss": 0.2918,
	"step": 363
	},
	{
	"epoch": 0.5376661742983752,
	"grad_norm": 0.2991829216480255,
	"learning_rate": 0.0002,
	"loss": 0.3148,
	"step": 364
	},
	{
	"epoch": 0.5391432791728212,
	"grad_norm": 0.3151837885379791,
	"learning_rate": 0.0002,
	"loss": 0.3187,
	"step": 365
	},
	{
	"epoch": 0.5406203840472673,
	"grad_norm": 0.2935662865638733,
	"learning_rate": 0.0002,
	"loss": 0.3065,
	"step": 366
	},
	{
	"epoch": 0.5420974889217134,
	"grad_norm": 0.2787752151489258,
	"learning_rate": 0.0002,
	"loss": 0.2677,
	"step": 367
	},
	{
	"epoch": 0.5435745937961596,
	"grad_norm": 0.2826704680919647,
	"learning_rate": 0.0002,
	"loss": 0.2673,
	"step": 368
	},
	{
	"epoch": 0.5450516986706057,
	"grad_norm": 0.3015994429588318,
	"learning_rate": 0.0002,
	"loss": 0.3377,
	"step": 369
	},
	{
	"epoch": 0.5465288035450517,
	"grad_norm": 0.27995777130126953,
	"learning_rate": 0.0002,
	"loss": 0.2672,
	"step": 370
	},
	{
	"epoch": 0.5480059084194978,
	"grad_norm": 0.2902574837207794,
	"learning_rate": 0.0002,
	"loss": 0.2684,
	"step": 371
	},
	{
	"epoch": 0.5494830132939439,
	"grad_norm": 0.2957216501235962,
	"learning_rate": 0.0002,
	"loss": 0.3061,
	"step": 372
	},
	{
	"epoch": 0.55096011816839,
	"grad_norm": 0.2945306599140167,
	"learning_rate": 0.0002,
	"loss": 0.3248,
	"step": 373
	},
	{
	"epoch": 0.552437223042836,
	"grad_norm": 0.2922048568725586,
	"learning_rate": 0.0002,
	"loss": 0.2987,
	"step": 374
	},
	{
	"epoch": 0.5539143279172821,
	"grad_norm": 0.30333656072616577,
	"learning_rate": 0.0002,
	"loss": 0.3072,
	"step": 375
	},
	{
	"epoch": 0.5553914327917282,
	"grad_norm": 0.2855093479156494,
	"learning_rate": 0.0002,
	"loss": 0.2758,
	"step": 376
	},
	{
	"epoch": 0.5568685376661743,
	"grad_norm": 0.2911272943019867,
	"learning_rate": 0.0002,
	"loss": 0.2722,
	"step": 377
	},
	{
	"epoch": 0.5583456425406204,
	"grad_norm": 0.289193332195282,
	"learning_rate": 0.0002,
	"loss": 0.3035,
	"step": 378
	},
	{
	"epoch": 0.5598227474150664,
	"grad_norm": 0.2716032564640045,
	"learning_rate": 0.0002,
	"loss": 0.2692,
	"step": 379
	},
	{
	"epoch": 0.5612998522895125,
	"grad_norm": 0.33022886514663696,
	"learning_rate": 0.0002,
	"loss": 0.3139,
	"step": 380
	},
	{
	"epoch": 0.5627769571639586,
	"grad_norm": 0.27433738112449646,
	"learning_rate": 0.0002,
	"loss": 0.262,
	"step": 381
	},
	{
	"epoch": 0.5642540620384048,
	"grad_norm": 0.27598345279693604,
	"learning_rate": 0.0002,
	"loss": 0.2657,
	"step": 382
	},
	{
	"epoch": 0.5657311669128509,
	"grad_norm": 0.28790509700775146,
	"learning_rate": 0.0002,
	"loss": 0.3024,
	"step": 383
	},
	{
	"epoch": 0.5672082717872969,
	"grad_norm": 0.2914026379585266,
	"learning_rate": 0.0002,
	"loss": 0.2972,
	"step": 384
	},
	{
	"epoch": 0.568685376661743,
	"grad_norm": 0.3148682117462158,
	"learning_rate": 0.0002,
	"loss": 0.2982,
	"step": 385
	},
	{
	"epoch": 0.5701624815361891,
	"grad_norm": 0.29025575518608093,
	"learning_rate": 0.0002,
	"loss": 0.2821,
	"step": 386
	},
	{
	"epoch": 0.5716395864106352,
	"grad_norm": 0.267362117767334,
	"learning_rate": 0.0002,
	"loss": 0.244,
	"step": 387
	},
	{
	"epoch": 0.5731166912850812,
	"grad_norm": 0.32638978958129883,
	"learning_rate": 0.0002,
	"loss": 0.3058,
	"step": 388
	},
	{
	"epoch": 0.5745937961595273,
	"grad_norm": 0.31582197546958923,
	"learning_rate": 0.0002,
	"loss": 0.3285,
	"step": 389
	},
	{
	"epoch": 0.5760709010339734,
	"grad_norm": 0.2933168113231659,
	"learning_rate": 0.0002,
	"loss": 0.2794,
	"step": 390
	},
	{
	"epoch": 0.5775480059084195,
	"grad_norm": 0.29435229301452637,
	"learning_rate": 0.0002,
	"loss": 0.287,
	"step": 391
	},
	{
	"epoch": 0.5790251107828656,
	"grad_norm": 0.29208388924598694,
	"learning_rate": 0.0002,
	"loss": 0.2786,
	"step": 392
	},
	{
	"epoch": 0.5805022156573116,
	"grad_norm": 0.2712183892726898,
	"learning_rate": 0.0002,
	"loss": 0.2708,
	"step": 393
	},
	{
	"epoch": 0.5819793205317577,
	"grad_norm": 0.27574923634529114,
	"learning_rate": 0.0002,
	"loss": 0.269,
	"step": 394
	},
	{
	"epoch": 0.5834564254062038,
	"grad_norm": 0.30967944860458374,
	"learning_rate": 0.0002,
	"loss": 0.2827,
	"step": 395
	},
	{
	"epoch": 0.5849335302806499,
	"grad_norm": 0.29655173420906067,
	"learning_rate": 0.0002,
	"loss": 0.306,
	"step": 396
	},
	{
	"epoch": 0.5864106351550961,
	"grad_norm": 1.6516242027282715,
	"learning_rate": 0.0002,
	"loss": 0.3294,
	"step": 397
	},
	{
	"epoch": 0.5878877400295421,
	"grad_norm": 0.2701549828052521,
	"learning_rate": 0.0002,
	"loss": 0.2451,
	"step": 398
	},
	{
	"epoch": 0.5893648449039882,
	"grad_norm": 0.2530956268310547,
	"learning_rate": 0.0002,
	"loss": 0.2341,
	"step": 399
	},
	{
	"epoch": 0.5908419497784343,
	"grad_norm": 0.3096421957015991,
	"learning_rate": 0.0002,
	"loss": 0.3,
	"step": 400
	},
	{
	"epoch": 0.5923190546528804,
	"grad_norm": 0.3079342842102051,
	"learning_rate": 0.0002,
	"loss": 0.3291,
	"step": 401
	},
	{
	"epoch": 0.5937961595273265,
	"grad_norm": 0.29586726427078247,
	"learning_rate": 0.0002,
	"loss": 0.3094,
	"step": 402
	},
	{
	"epoch": 0.5952732644017725,
	"grad_norm": 0.28764981031417847,
	"learning_rate": 0.0002,
	"loss": 0.2961,
	"step": 403
	},
	{
	"epoch": 0.5967503692762186,
	"grad_norm": 0.30434954166412354,
	"learning_rate": 0.0002,
	"loss": 0.2936,
	"step": 404
	},
	{
	"epoch": 0.5982274741506647,
	"grad_norm": 0.2840517461299896,
	"learning_rate": 0.0002,
	"loss": 0.2964,
	"step": 405
	},
	{
	"epoch": 0.5997045790251108,
	"grad_norm": 0.2927243113517761,
	"learning_rate": 0.0002,
	"loss": 0.313,
	"step": 406
	},
	{
	"epoch": 0.6011816838995568,
	"grad_norm": 0.26455628871917725,
	"learning_rate": 0.0002,
	"loss": 0.244,
	"step": 407
	},
	{
	"epoch": 0.6026587887740029,
	"grad_norm": 0.327934592962265,
	"learning_rate": 0.0002,
	"loss": 0.3271,
	"step": 408
	},
	{
	"epoch": 0.604135893648449,
	"grad_norm": 0.28486961126327515,
	"learning_rate": 0.0002,
	"loss": 0.2742,
	"step": 409
	},
	{
	"epoch": 0.6056129985228951,
	"grad_norm": 0.3310534656047821,
	"learning_rate": 0.0002,
	"loss": 0.2888,
	"step": 410
	},
	{
	"epoch": 0.6070901033973413,
	"grad_norm": 0.32391390204429626,
	"learning_rate": 0.0002,
	"loss": 0.3123,
	"step": 411
	},
	{
	"epoch": 0.6085672082717873,
	"grad_norm": 0.5019936561584473,
	"learning_rate": 0.0002,
	"loss": 0.3494,
	"step": 412
	},
	{
	"epoch": 0.6100443131462334,
	"grad_norm": 0.2915607988834381,
	"learning_rate": 0.0002,
	"loss": 0.2845,
	"step": 413
	},
	{
	"epoch": 0.6115214180206795,
	"grad_norm": 0.34125831723213196,
	"learning_rate": 0.0002,
	"loss": 0.2985,
	"step": 414
	},
	{
	"epoch": 0.6129985228951256,
	"grad_norm": 0.28235796093940735,
	"learning_rate": 0.0002,
	"loss": 0.29,
	"step": 415
	},
	{
	"epoch": 0.6144756277695717,
	"grad_norm": 0.30712956190109253,
	"learning_rate": 0.0002,
	"loss": 0.2863,
	"step": 416
	},
	{
	"epoch": 0.6159527326440177,
	"grad_norm": 0.3005330562591553,
	"learning_rate": 0.0002,
	"loss": 0.3186,
	"step": 417
	},
	{
	"epoch": 0.6174298375184638,
	"grad_norm": 0.4083673655986786,
	"learning_rate": 0.0002,
	"loss": 0.31,
	"step": 418
	},
	{
	"epoch": 0.6189069423929099,
	"grad_norm": 0.2704838812351227,
	"learning_rate": 0.0002,
	"loss": 0.2649,
	"step": 419
	},
	{
	"epoch": 0.620384047267356,
	"grad_norm": 0.29053810238838196,
	"learning_rate": 0.0002,
	"loss": 0.2789,
	"step": 420
	},
	{
	"epoch": 0.621861152141802,
	"grad_norm": 0.329973429441452,
	"learning_rate": 0.0002,
	"loss": 0.3313,
	"step": 421
	},
	{
	"epoch": 0.6233382570162481,
	"grad_norm": 0.31070685386657715,
	"learning_rate": 0.0002,
	"loss": 0.3045,
	"step": 422
	},
	{
	"epoch": 0.6248153618906942,
	"grad_norm": 0.3487679958343506,
	"learning_rate": 0.0002,
	"loss": 0.3286,
	"step": 423
	},
	{
	"epoch": 0.6262924667651403,
	"grad_norm": 0.3269588351249695,
	"learning_rate": 0.0002,
	"loss": 0.3326,
	"step": 424
	},
	{
	"epoch": 0.6277695716395865,
	"grad_norm": 0.26015186309814453,
	"learning_rate": 0.0002,
	"loss": 0.2457,
	"step": 425
	},
	{
	"epoch": 0.6292466765140325,
	"grad_norm": 0.2547609508037567,
	"learning_rate": 0.0002,
	"loss": 0.262,
	"step": 426
	},
	{
	"epoch": 0.6307237813884786,
	"grad_norm": 0.2524930238723755,
	"learning_rate": 0.0002,
	"loss": 0.23,
	"step": 427
	},
	{
	"epoch": 0.6322008862629247,
	"grad_norm": 0.3031904101371765,
	"learning_rate": 0.0002,
	"loss": 0.3427,
	"step": 428
	},
	{
	"epoch": 0.6336779911373708,
	"grad_norm": 0.3007690906524658,
	"learning_rate": 0.0002,
	"loss": 0.2974,
	"step": 429
	},
	{
	"epoch": 0.6351550960118169,
	"grad_norm": 0.28696200251579285,
	"learning_rate": 0.0002,
	"loss": 0.2911,
	"step": 430
	},
	{
	"epoch": 0.6366322008862629,
	"grad_norm": 0.2805304229259491,
	"learning_rate": 0.0002,
	"loss": 0.2745,
	"step": 431
	},
	{
	"epoch": 0.638109305760709,
	"grad_norm": 0.2757206857204437,
	"learning_rate": 0.0002,
	"loss": 0.2517,
	"step": 432
	},
	{
	"epoch": 0.6395864106351551,
	"grad_norm": 0.26851919293403625,
	"learning_rate": 0.0002,
	"loss": 0.2537,
	"step": 433
	},
	{
	"epoch": 0.6410635155096012,
	"grad_norm": 0.28059712052345276,
	"learning_rate": 0.0002,
	"loss": 0.2616,
	"step": 434
	},
	{
	"epoch": 0.6425406203840472,
	"grad_norm": 0.2718868553638458,
	"learning_rate": 0.0002,
	"loss": 0.2652,
	"step": 435
	},
	{
	"epoch": 0.6440177252584933,
	"grad_norm": 0.28253173828125,
	"learning_rate": 0.0002,
	"loss": 0.2866,
	"step": 436
	},
	{
	"epoch": 0.6454948301329394,
	"grad_norm": 0.3183034658432007,
	"learning_rate": 0.0002,
	"loss": 0.3485,
	"step": 437
	},
	{
	"epoch": 0.6469719350073855,
	"grad_norm": 0.2451733946800232,
	"learning_rate": 0.0002,
	"loss": 0.2312,
	"step": 438
	},
	{
	"epoch": 0.6484490398818316,
	"grad_norm": 0.3208939731121063,
	"learning_rate": 0.0002,
	"loss": 0.3245,
	"step": 439
	},
	{
	"epoch": 0.6499261447562777,
	"grad_norm": 0.26186874508857727,
	"learning_rate": 0.0002,
	"loss": 0.2485,
	"step": 440
	},
	{
	"epoch": 0.6514032496307238,
	"grad_norm": 0.27923303842544556,
	"learning_rate": 0.0002,
	"loss": 0.3221,
	"step": 441
	},
	{
	"epoch": 0.6528803545051699,
	"grad_norm": 0.28155946731567383,
	"learning_rate": 0.0002,
	"loss": 0.2843,
	"step": 442
	},
	{
	"epoch": 0.654357459379616,
	"grad_norm": 0.28456977009773254,
	"learning_rate": 0.0002,
	"loss": 0.296,
	"step": 443
	},
	{
	"epoch": 0.6558345642540621,
	"grad_norm": 0.27252209186553955,
	"learning_rate": 0.0002,
	"loss": 0.2765,
	"step": 444
	},
	{
	"epoch": 0.6573116691285081,
	"grad_norm": 0.30992233753204346,
	"learning_rate": 0.0002,
	"loss": 0.3055,
	"step": 445
	},
	{
	"epoch": 0.6587887740029542,
	"grad_norm": 0.30148544907569885,
	"learning_rate": 0.0002,
	"loss": 0.3059,
	"step": 446
	},
	{
	"epoch": 0.6602658788774003,
	"grad_norm": 0.29087716341018677,
	"learning_rate": 0.0002,
	"loss": 0.257,
	"step": 447
	},
	{
	"epoch": 0.6617429837518464,
	"grad_norm": 0.30917656421661377,
	"learning_rate": 0.0002,
	"loss": 0.3096,
	"step": 448
	},
	{
	"epoch": 0.6632200886262924,
	"grad_norm": 0.311759352684021,
	"learning_rate": 0.0002,
	"loss": 0.2842,
	"step": 449
	},
	{
	"epoch": 0.6646971935007385,
	"grad_norm": 0.2612153887748718,
	"learning_rate": 0.0002,
	"loss": 0.2659,
	"step": 450
	},
	{
	"epoch": 0.6661742983751846,
	"grad_norm": 0.2954850196838379,
	"learning_rate": 0.0002,
	"loss": 0.2755,
	"step": 451
	},
	{
	"epoch": 0.6676514032496307,
	"grad_norm": 0.3181207776069641,
	"learning_rate": 0.0002,
	"loss": 0.3163,
	"step": 452
	},
	{
	"epoch": 0.6691285081240768,
	"grad_norm": 0.2802172899246216,
	"learning_rate": 0.0002,
	"loss": 0.3007,
	"step": 453
	},
	{
	"epoch": 0.670605612998523,
	"grad_norm": 0.2662009298801422,
	"learning_rate": 0.0002,
	"loss": 0.2571,
	"step": 454
	},
	{
	"epoch": 0.672082717872969,
	"grad_norm": 0.2844826579093933,
	"learning_rate": 0.0002,
	"loss": 0.3074,
	"step": 455
	},
	{
	"epoch": 0.6735598227474151,
	"grad_norm": 0.2758782207965851,
	"learning_rate": 0.0002,
	"loss": 0.2773,
	"step": 456
	},
	{
	"epoch": 0.6750369276218612,
	"grad_norm": 0.2567600607872009,
	"learning_rate": 0.0002,
	"loss": 0.2742,
	"step": 457
	},
	{
	"epoch": 0.6765140324963073,
	"grad_norm": 0.34004896879196167,
	"learning_rate": 0.0002,
	"loss": 0.2288,
	"step": 458
	},
	{
	"epoch": 0.6779911373707533,
	"grad_norm": 0.2983347475528717,
	"learning_rate": 0.0002,
	"loss": 0.2812,
	"step": 459
	},
	{
	"epoch": 0.6794682422451994,
	"grad_norm": 0.29728880524635315,
	"learning_rate": 0.0002,
	"loss": 0.307,
	"step": 460
	},
	{
	"epoch": 0.6809453471196455,
	"grad_norm": 0.31359198689460754,
	"learning_rate": 0.0002,
	"loss": 0.3101,
	"step": 461
	},
	{
	"epoch": 0.6824224519940916,
	"grad_norm": 0.27619168162345886,
	"learning_rate": 0.0002,
	"loss": 0.2779,
	"step": 462
	},
	{
	"epoch": 0.6838995568685377,
	"grad_norm": 0.3086981773376465,
	"learning_rate": 0.0002,
	"loss": 0.3097,
	"step": 463
	},
	{
	"epoch": 0.6853766617429837,
	"grad_norm": 0.25216472148895264,
	"learning_rate": 0.0002,
	"loss": 0.2468,
	"step": 464
	},
	{
	"epoch": 0.6868537666174298,
	"grad_norm": 0.26497989892959595,
	"learning_rate": 0.0002,
	"loss": 0.2528,
	"step": 465
	},
	{
	"epoch": 0.6883308714918759,
	"grad_norm": 0.27617159485816956,
	"learning_rate": 0.0002,
	"loss": 0.2749,
	"step": 466
	},
	{
	"epoch": 0.689807976366322,
	"grad_norm": 0.30501970648765564,
	"learning_rate": 0.0002,
	"loss": 0.3091,
	"step": 467
	},
	{
	"epoch": 0.691285081240768,
	"grad_norm": 0.3360370099544525,
	"learning_rate": 0.0002,
	"loss": 0.3565,
	"step": 468
	},
	{
	"epoch": 0.6927621861152142,
	"grad_norm": 0.27070116996765137,
	"learning_rate": 0.0002,
	"loss": 0.2705,
	"step": 469
	},
	{
	"epoch": 0.6942392909896603,
	"grad_norm": 0.29874977469444275,
	"learning_rate": 0.0002,
	"loss": 0.2996,
	"step": 470
	},
	{
	"epoch": 0.6957163958641064,
	"grad_norm": 0.294386088848114,
	"learning_rate": 0.0002,
	"loss": 0.2894,
	"step": 471
	},
	{
	"epoch": 0.6971935007385525,
	"grad_norm": 0.3233067989349365,
	"learning_rate": 0.0002,
	"loss": 0.3024,
	"step": 472
	},
	{
	"epoch": 0.6986706056129985,
	"grad_norm": 0.31051644682884216,
	"learning_rate": 0.0002,
	"loss": 0.3339,
	"step": 473
	},
	{
	"epoch": 0.7001477104874446,
	"grad_norm": 0.28541213274002075,
	"learning_rate": 0.0002,
	"loss": 0.3097,
	"step": 474
	},
	{
	"epoch": 0.7016248153618907,
	"grad_norm": 0.30758950114250183,
	"learning_rate": 0.0002,
	"loss": 0.3221,
	"step": 475
	},
	{
	"epoch": 0.7031019202363368,
	"grad_norm": 0.37882164120674133,
	"learning_rate": 0.0002,
	"loss": 0.2922,
	"step": 476
	},
	{
	"epoch": 0.7045790251107829,
	"grad_norm": 0.2521478533744812,
	"learning_rate": 0.0002,
	"loss": 0.2535,
	"step": 477
	},
	{
	"epoch": 0.7060561299852289,
	"grad_norm": 0.36088013648986816,
	"learning_rate": 0.0002,
	"loss": 0.2863,
	"step": 478
	},
	{
	"epoch": 0.707533234859675,
	"grad_norm": 0.31090793013572693,
	"learning_rate": 0.0002,
	"loss": 0.311,
	"step": 479
	},
	{
	"epoch": 0.7090103397341211,
	"grad_norm": 0.2360762357711792,
	"learning_rate": 0.0002,
	"loss": 0.216,
	"step": 480
	},
	{
	"epoch": 0.7104874446085672,
	"grad_norm": 0.34354060888290405,
	"learning_rate": 0.0002,
	"loss": 0.2838,
	"step": 481
	},
	{
	"epoch": 0.7119645494830132,
	"grad_norm": 0.2607513666152954,
	"learning_rate": 0.0002,
	"loss": 0.2527,
	"step": 482
	},
	{
	"epoch": 0.7134416543574594,
	"grad_norm": 0.3016189634799957,
	"learning_rate": 0.0002,
	"loss": 0.2782,
	"step": 483
	},
	{
	"epoch": 0.7149187592319055,
	"grad_norm": 3.6188247203826904,
	"learning_rate": 0.0002,
	"loss": 0.2884,
	"step": 484
	},
	{
	"epoch": 0.7163958641063516,
	"grad_norm": 0.3072677552700043,
	"learning_rate": 0.0002,
	"loss": 0.3263,
	"step": 485
	},
	{
	"epoch": 0.7178729689807977,
	"grad_norm": 0.28074517846107483,
	"learning_rate": 0.0002,
	"loss": 0.298,
	"step": 486
	},
	{
	"epoch": 0.7193500738552437,
	"grad_norm": 0.3235277831554413,
	"learning_rate": 0.0002,
	"loss": 0.2615,
	"step": 487
	},
	{
	"epoch": 0.7208271787296898,
	"grad_norm": 2.001945734024048,
	"learning_rate": 0.0002,
	"loss": 0.3925,
	"step": 488
	},
	{
	"epoch": 0.7223042836041359,
	"grad_norm": 0.29725533723831177,
	"learning_rate": 0.0002,
	"loss": 0.2874,
	"step": 489
	},
	{
	"epoch": 0.723781388478582,
	"grad_norm": 0.28706061840057373,
	"learning_rate": 0.0002,
	"loss": 0.2898,
	"step": 490
	},
	{
	"epoch": 0.725258493353028,
	"grad_norm": 0.2864967882633209,
	"learning_rate": 0.0002,
	"loss": 0.2894,
	"step": 491
	},
	{
	"epoch": 0.7267355982274741,
	"grad_norm": 0.2824801802635193,
	"learning_rate": 0.0002,
	"loss": 0.2706,
	"step": 492
	},
	{
	"epoch": 0.7282127031019202,
	"grad_norm": 0.27492067217826843,
	"learning_rate": 0.0002,
	"loss": 0.2516,
	"step": 493
	},
	{
	"epoch": 0.7296898079763663,
	"grad_norm": 0.2876488268375397,
	"learning_rate": 0.0002,
	"loss": 0.2862,
	"step": 494
	},
	{
	"epoch": 0.7311669128508124,
	"grad_norm": 0.30311787128448486,
	"learning_rate": 0.0002,
	"loss": 0.2953,
	"step": 495
	},
	{
	"epoch": 0.7326440177252584,
	"grad_norm": 0.277235209941864,
	"learning_rate": 0.0002,
	"loss": 0.2981,
	"step": 496
	},
	{
	"epoch": 0.7341211225997046,
	"grad_norm": 0.30590546131134033,
	"learning_rate": 0.0002,
	"loss": 0.3557,
	"step": 497
	},
	{
	"epoch": 0.7355982274741507,
	"grad_norm": 0.3205493986606598,
	"learning_rate": 0.0002,
	"loss": 0.3304,
	"step": 498
	},
	{
	"epoch": 0.7370753323485968,
	"grad_norm": 0.2640839219093323,
	"learning_rate": 0.0002,
	"loss": 0.2807,
	"step": 499
	},
	{
	"epoch": 0.7385524372230429,
	"grad_norm": 0.27507102489471436,
	"learning_rate": 0.0002,
	"loss": 0.2565,
	"step": 500
	},
	{
	"epoch": 0.740029542097489,
	"grad_norm": 0.2716003954410553,
	"learning_rate": 0.0002,
	"loss": 0.2684,
	"step": 501
	},
	{
	"epoch": 0.741506646971935,
	"grad_norm": 0.2893518805503845,
	"learning_rate": 0.0002,
	"loss": 0.2708,
	"step": 502
	},
	{
	"epoch": 0.7429837518463811,
	"grad_norm": 0.2790103256702423,
	"learning_rate": 0.0002,
	"loss": 0.2809,
	"step": 503
	},
	{
	"epoch": 0.7444608567208272,
	"grad_norm": 0.29344794154167175,
	"learning_rate": 0.0002,
	"loss": 0.2961,
	"step": 504
	},
	{
	"epoch": 0.7459379615952733,
	"grad_norm": 0.3118347227573395,
	"learning_rate": 0.0002,
	"loss": 0.3184,
	"step": 505
	},
	{
	"epoch": 0.7474150664697193,
	"grad_norm": 0.29491183161735535,
	"learning_rate": 0.0002,
	"loss": 0.3194,
	"step": 506
	},
	{
	"epoch": 0.7488921713441654,
	"grad_norm": 0.3007814586162567,
	"learning_rate": 0.0002,
	"loss": 0.3,
	"step": 507
	},
	{
	"epoch": 0.7503692762186115,
	"grad_norm": 0.3303704261779785,
	"learning_rate": 0.0002,
	"loss": 0.2544,
	"step": 508
	},
	{
	"epoch": 0.7518463810930576,
	"grad_norm": 0.28095510601997375,
	"learning_rate": 0.0002,
	"loss": 0.2774,
	"step": 509
	},
	{
	"epoch": 0.7533234859675036,
	"grad_norm": 0.2669844329357147,
	"learning_rate": 0.0002,
	"loss": 0.2575,
	"step": 510
	},
	{
	"epoch": 0.7548005908419497,
	"grad_norm": 0.29896053671836853,
	"learning_rate": 0.0002,
	"loss": 0.2823,
	"step": 511
	},
	{
	"epoch": 0.7562776957163959,
	"grad_norm": 0.27470019459724426,
	"learning_rate": 0.0002,
	"loss": 0.2843,
	"step": 512
	},
	{
	"epoch": 0.757754800590842,
	"grad_norm": 0.27731189131736755,
	"learning_rate": 0.0002,
	"loss": 0.2504,
	"step": 513
	},
	{
	"epoch": 0.7592319054652881,
	"grad_norm": 0.2816368639469147,
	"learning_rate": 0.0002,
	"loss": 0.2877,
	"step": 514
	},
	{
	"epoch": 0.7607090103397341,
	"grad_norm": 0.2858635485172272,
	"learning_rate": 0.0002,
	"loss": 0.3348,
	"step": 515
	},
	{
	"epoch": 0.7621861152141802,
	"grad_norm": 0.2964169979095459,
	"learning_rate": 0.0002,
	"loss": 0.2775,
	"step": 516
	},
	{
	"epoch": 0.7636632200886263,
	"grad_norm": 0.2534787058830261,
	"learning_rate": 0.0002,
	"loss": 0.2274,
	"step": 517
	},
	{
	"epoch": 0.7651403249630724,
	"grad_norm": 0.28982672095298767,
	"learning_rate": 0.0002,
	"loss": 0.2939,
	"step": 518
	},
	{
	"epoch": 0.7666174298375185,
	"grad_norm": 0.27323317527770996,
	"learning_rate": 0.0002,
	"loss": 0.2842,
	"step": 519
	},
	{
	"epoch": 0.7680945347119645,
	"grad_norm": 0.27642300724983215,
	"learning_rate": 0.0002,
	"loss": 0.2966,
	"step": 520
	},
	{
	"epoch": 0.7695716395864106,
	"grad_norm": 0.26599329710006714,
	"learning_rate": 0.0002,
	"loss": 0.2326,
	"step": 521
	},
	{
	"epoch": 0.7710487444608567,
	"grad_norm": 0.2631528079509735,
	"learning_rate": 0.0002,
	"loss": 0.2771,
	"step": 522
	},
	{
	"epoch": 0.7725258493353028,
	"grad_norm": 0.2790911793708801,
	"learning_rate": 0.0002,
	"loss": 0.2898,
	"step": 523
	},
	{
	"epoch": 0.7740029542097489,
	"grad_norm": 0.266379714012146,
	"learning_rate": 0.0002,
	"loss": 0.2685,
	"step": 524
	},
	{
	"epoch": 0.7754800590841949,
	"grad_norm": 0.30508288741111755,
	"learning_rate": 0.0002,
	"loss": 0.2909,
	"step": 525
	},
	{
	"epoch": 0.7769571639586411,
	"grad_norm": 0.2602393329143524,
	"learning_rate": 0.0002,
	"loss": 0.2305,
	"step": 526
	},
	{
	"epoch": 0.7784342688330872,
	"grad_norm": 0.3033619523048401,
	"learning_rate": 0.0002,
	"loss": 0.2689,
	"step": 527
	},
	{
	"epoch": 0.7799113737075333,
	"grad_norm": 0.2758871614933014,
	"learning_rate": 0.0002,
	"loss": 0.2631,
	"step": 528
	},
	{
	"epoch": 0.7813884785819794,
	"grad_norm": 0.2910580039024353,
	"learning_rate": 0.0002,
	"loss": 0.2844,
	"step": 529
	},
	{
	"epoch": 0.7828655834564254,
	"grad_norm": 0.33454883098602295,
	"learning_rate": 0.0002,
	"loss": 0.301,
	"step": 530
	},
	{
	"epoch": 0.7843426883308715,
	"grad_norm": 0.31416234374046326,
	"learning_rate": 0.0002,
	"loss": 0.2948,
	"step": 531
	},
	{
	"epoch": 0.7858197932053176,
	"grad_norm": 0.3144732117652893,
	"learning_rate": 0.0002,
	"loss": 0.2649,
	"step": 532
	},
	{
	"epoch": 0.7872968980797637,
	"grad_norm": 0.2666049599647522,
	"learning_rate": 0.0002,
	"loss": 0.2602,
	"step": 533
	},
	{
	"epoch": 0.7887740029542097,
	"grad_norm": 0.26852795481681824,
	"learning_rate": 0.0002,
	"loss": 0.2761,
	"step": 534
	},
	{
	"epoch": 0.7902511078286558,
	"grad_norm": 0.2828836143016815,
	"learning_rate": 0.0002,
	"loss": 0.2643,
	"step": 535
	},
	{
	"epoch": 0.7917282127031019,
	"grad_norm": 0.24941638112068176,
	"learning_rate": 0.0002,
	"loss": 0.2715,
	"step": 536
	},
	{
	"epoch": 0.793205317577548,
	"grad_norm": 0.28167465329170227,
	"learning_rate": 0.0002,
	"loss": 0.2886,
	"step": 537
	},
	{
	"epoch": 0.794682422451994,
	"grad_norm": 0.27295514941215515,
	"learning_rate": 0.0002,
	"loss": 0.2838,
	"step": 538
	},
	{
	"epoch": 0.7961595273264401,
	"grad_norm": 0.28401198983192444,
	"learning_rate": 0.0002,
	"loss": 0.3027,
	"step": 539
	},
	{
	"epoch": 0.7976366322008862,
	"grad_norm": 0.36002475023269653,
	"learning_rate": 0.0002,
	"loss": 0.2743,
	"step": 540
	},
	{
	"epoch": 0.7991137370753324,
	"grad_norm": 0.24884235858917236,
	"learning_rate": 0.0002,
	"loss": 0.2236,
	"step": 541
	},
	{
	"epoch": 0.8005908419497785,
	"grad_norm": 0.29792970418930054,
	"learning_rate": 0.0002,
	"loss": 0.2685,
	"step": 542
	},
	{
	"epoch": 0.8020679468242246,
	"grad_norm": 0.293630450963974,
	"learning_rate": 0.0002,
	"loss": 0.3121,
	"step": 543
	},
	{
	"epoch": 0.8035450516986706,
	"grad_norm": 0.30826666951179504,
	"learning_rate": 0.0002,
	"loss": 0.2886,
	"step": 544
	},
	{
	"epoch": 0.8050221565731167,
	"grad_norm": 0.2855941355228424,
	"learning_rate": 0.0002,
	"loss": 0.2947,
	"step": 545
	},
	{
	"epoch": 0.8064992614475628,
	"grad_norm": 0.2649870812892914,
	"learning_rate": 0.0002,
	"loss": 0.2655,
	"step": 546
	},
	{
	"epoch": 0.8079763663220089,
	"grad_norm": 0.27176880836486816,
	"learning_rate": 0.0002,
	"loss": 0.2715,
	"step": 547
	},
	{
	"epoch": 0.8094534711964549,
	"grad_norm": 0.3225911557674408,
	"learning_rate": 0.0002,
	"loss": 0.3404,
	"step": 548
	},
	{
	"epoch": 0.810930576070901,
	"grad_norm": 0.30113476514816284,
	"learning_rate": 0.0002,
	"loss": 0.3347,
	"step": 549
	},
	{
	"epoch": 0.8124076809453471,
	"grad_norm": 0.2784980535507202,
	"learning_rate": 0.0002,
	"loss": 0.2599,
	"step": 550
	},
	{
	"epoch": 0.8138847858197932,
	"grad_norm": 0.2825387716293335,
	"learning_rate": 0.0002,
	"loss": 0.2759,
	"step": 551
	},
	{
	"epoch": 0.8153618906942393,
	"grad_norm": 0.26612088084220886,
	"learning_rate": 0.0002,
	"loss": 0.2464,
	"step": 552
	},
	{
	"epoch": 0.8168389955686853,
	"grad_norm": 0.2672181725502014,
	"learning_rate": 0.0002,
	"loss": 0.2182,
	"step": 553
	},
	{
	"epoch": 0.8183161004431314,
	"grad_norm": 0.28279784321784973,
	"learning_rate": 0.0002,
	"loss": 0.2612,
	"step": 554
	},
	{
	"epoch": 0.8197932053175776,
	"grad_norm": 0.277281790971756,
	"learning_rate": 0.0002,
	"loss": 0.2647,
	"step": 555
	},
	{
	"epoch": 0.8212703101920237,
	"grad_norm": 0.2784774899482727,
	"learning_rate": 0.0002,
	"loss": 0.2738,
	"step": 556
	},
	{
	"epoch": 0.8227474150664698,
	"grad_norm": 0.2438610941171646,
	"learning_rate": 0.0002,
	"loss": 0.2274,
	"step": 557
	},
	{
	"epoch": 0.8242245199409158,
	"grad_norm": 0.28168389201164246,
	"learning_rate": 0.0002,
	"loss": 0.2604,
	"step": 558
	},
	{
	"epoch": 0.8257016248153619,
	"grad_norm": 0.26112061738967896,
	"learning_rate": 0.0002,
	"loss": 0.2215,
	"step": 559
	},
	{
	"epoch": 0.827178729689808,
	"grad_norm": 0.25962984561920166,
	"learning_rate": 0.0002,
	"loss": 0.2834,
	"step": 560
	},
	{
	"epoch": 0.8286558345642541,
	"grad_norm": 0.27150726318359375,
	"learning_rate": 0.0002,
	"loss": 0.2877,
	"step": 561
	},
	{
	"epoch": 0.8301329394387001,
	"grad_norm": 0.2753923237323761,
	"learning_rate": 0.0002,
	"loss": 0.298,
	"step": 562
	},
	{
	"epoch": 0.8316100443131462,
	"grad_norm": 0.37228959798812866,
	"learning_rate": 0.0002,
	"loss": 0.333,
	"step": 563
	},
	{
	"epoch": 0.8330871491875923,
	"grad_norm": 0.27188584208488464,
	"learning_rate": 0.0002,
	"loss": 0.2578,
	"step": 564
	},
	{
	"epoch": 0.8345642540620384,
	"grad_norm": 0.2894970178604126,
	"learning_rate": 0.0002,
	"loss": 0.3051,
	"step": 565
	},
	{
	"epoch": 0.8360413589364845,
	"grad_norm": 0.2769443690776825,
	"learning_rate": 0.0002,
	"loss": 0.2833,
	"step": 566
	},
	{
	"epoch": 0.8375184638109305,
	"grad_norm": 0.25693845748901367,
	"learning_rate": 0.0002,
	"loss": 0.2571,
	"step": 567
	},
	{
	"epoch": 0.8389955686853766,
	"grad_norm": 0.27856937050819397,
	"learning_rate": 0.0002,
	"loss": 0.2942,
	"step": 568
	},
	{
	"epoch": 0.8404726735598228,
	"grad_norm": 0.2575175166130066,
	"learning_rate": 0.0002,
	"loss": 0.2733,
	"step": 569
	},
	{
	"epoch": 0.8419497784342689,
	"grad_norm": 0.27574828267097473,
	"learning_rate": 0.0002,
	"loss": 0.2642,
	"step": 570
	},
	{
	"epoch": 0.843426883308715,
	"grad_norm": 0.2522878646850586,
	"learning_rate": 0.0002,
	"loss": 0.2377,
	"step": 571
	},
	{
	"epoch": 0.844903988183161,
	"grad_norm": 0.26878973841667175,
	"learning_rate": 0.0002,
	"loss": 0.2635,
	"step": 572
	},
	{
	"epoch": 0.8463810930576071,
	"grad_norm": 0.25874340534210205,
	"learning_rate": 0.0002,
	"loss": 0.2622,
	"step": 573
	},
	{
	"epoch": 0.8478581979320532,
	"grad_norm": 0.2808675765991211,
	"learning_rate": 0.0002,
	"loss": 0.2679,
	"step": 574
	},
	{
	"epoch": 0.8493353028064993,
	"grad_norm": 0.3035877048969269,
	"learning_rate": 0.0002,
	"loss": 0.3097,
	"step": 575
	},
	{
	"epoch": 0.8508124076809453,
	"grad_norm": 0.2748059928417206,
	"learning_rate": 0.0002,
	"loss": 0.2986,
	"step": 576
	},
	{
	"epoch": 0.8522895125553914,
	"grad_norm": 0.2966136932373047,
	"learning_rate": 0.0002,
	"loss": 0.2799,
	"step": 577
	},
	{
	"epoch": 0.8537666174298375,
	"grad_norm": 1.3606016635894775,
	"learning_rate": 0.0002,
	"loss": 0.2808,
	"step": 578
	},
	{
	"epoch": 0.8552437223042836,
	"grad_norm": 0.2695050835609436,
	"learning_rate": 0.0002,
	"loss": 0.2417,
	"step": 579
	},
	{
	"epoch": 0.8567208271787297,
	"grad_norm": 0.26403385400772095,
	"learning_rate": 0.0002,
	"loss": 0.2474,
	"step": 580
	},
	{
	"epoch": 0.8581979320531757,
	"grad_norm": 0.2719348669052124,
	"learning_rate": 0.0002,
	"loss": 0.2558,
	"step": 581
	},
	{
	"epoch": 0.8596750369276218,
	"grad_norm": 0.2620692253112793,
	"learning_rate": 0.0002,
	"loss": 0.2704,
	"step": 582
	},
	{
	"epoch": 0.8611521418020679,
	"grad_norm": 0.3160097897052765,
	"learning_rate": 0.0002,
	"loss": 0.2967,
	"step": 583
	},
	{
	"epoch": 0.8626292466765141,
	"grad_norm": 0.27527111768722534,
	"learning_rate": 0.0002,
	"loss": 0.2508,
	"step": 584
	},
	{
	"epoch": 0.8641063515509602,
	"grad_norm": 0.27846094965934753,
	"learning_rate": 0.0002,
	"loss": 0.2766,
	"step": 585
	},
	{
	"epoch": 0.8655834564254062,
	"grad_norm": 0.2789734899997711,
	"learning_rate": 0.0002,
	"loss": 0.2857,
	"step": 586
	},
	{
	"epoch": 0.8670605612998523,
	"grad_norm": 0.30942806601524353,
	"learning_rate": 0.0002,
	"loss": 0.3216,
	"step": 587
	},
	{
	"epoch": 0.8685376661742984,
	"grad_norm": 0.27556589245796204,
	"learning_rate": 0.0002,
	"loss": 0.257,
	"step": 588
	},
	{
	"epoch": 0.8700147710487445,
	"grad_norm": 0.2209852784872055,
	"learning_rate": 0.0002,
	"loss": 0.1862,
	"step": 589
	},
	{
	"epoch": 0.8714918759231906,
	"grad_norm": 0.29638856649398804,
	"learning_rate": 0.0002,
	"loss": 0.3049,
	"step": 590
	},
	{
	"epoch": 0.8729689807976366,
	"grad_norm": 0.309600830078125,
	"learning_rate": 0.0002,
	"loss": 0.2675,
	"step": 591
	},
	{
	"epoch": 0.8744460856720827,
	"grad_norm": 0.28644561767578125,
	"learning_rate": 0.0002,
	"loss": 0.2859,
	"step": 592
	},
	{
	"epoch": 0.8759231905465288,
	"grad_norm": 0.25827983021736145,
	"learning_rate": 0.0002,
	"loss": 0.2543,
	"step": 593
	},
	{
	"epoch": 0.8774002954209749,
	"grad_norm": 0.2538520395755768,
	"learning_rate": 0.0002,
	"loss": 0.2523,
	"step": 594
	},
	{
	"epoch": 0.8788774002954209,
	"grad_norm": 0.26979878544807434,
	"learning_rate": 0.0002,
	"loss": 0.2379,
	"step": 595
	},
	{
	"epoch": 0.880354505169867,
	"grad_norm": 0.2815455496311188,
	"learning_rate": 0.0002,
	"loss": 0.2793,
	"step": 596
	},
	{
	"epoch": 0.8818316100443131,
	"grad_norm": 0.2549828588962555,
	"learning_rate": 0.0002,
	"loss": 0.2743,
	"step": 597
	},
	{
	"epoch": 0.8833087149187593,
	"grad_norm": 0.24497728049755096,
	"learning_rate": 0.0002,
	"loss": 0.2234,
	"step": 598
	},
	{
	"epoch": 0.8847858197932054,
	"grad_norm": 0.2854422628879547,
	"learning_rate": 0.0002,
	"loss": 0.2858,
	"step": 599
	},
	{
	"epoch": 0.8862629246676514,
	"grad_norm": 0.2807024121284485,
	"learning_rate": 0.0002,
	"loss": 0.2608,
	"step": 600
	},
	{
	"epoch": 0.8877400295420975,
	"grad_norm": 0.2663458585739136,
	"learning_rate": 0.0002,
	"loss": 0.2399,
	"step": 601
	},
	{
	"epoch": 0.8892171344165436,
	"grad_norm": 0.2760714888572693,
	"learning_rate": 0.0002,
	"loss": 0.2934,
	"step": 602
	},
	{
	"epoch": 0.8906942392909897,
	"grad_norm": 0.3003925383090973,
	"learning_rate": 0.0002,
	"loss": 0.2765,
	"step": 603
	},
	{
	"epoch": 0.8921713441654358,
	"grad_norm": 0.32742151618003845,
	"learning_rate": 0.0002,
	"loss": 0.3116,
	"step": 604
	},
	{
	"epoch": 0.8936484490398818,
	"grad_norm": 0.29396241903305054,
	"learning_rate": 0.0002,
	"loss": 0.2548,
	"step": 605
	},
	{
	"epoch": 0.8951255539143279,
	"grad_norm": 0.28835952281951904,
	"learning_rate": 0.0002,
	"loss": 0.2665,
	"step": 606
	},
	{
	"epoch": 0.896602658788774,
	"grad_norm": 0.2689400017261505,
	"learning_rate": 0.0002,
	"loss": 0.2554,
	"step": 607
	},
	{
	"epoch": 0.8980797636632201,
	"grad_norm": 0.27350932359695435,
	"learning_rate": 0.0002,
	"loss": 0.2474,
	"step": 608
	},
	{
	"epoch": 0.8995568685376661,
	"grad_norm": 0.26769059896469116,
	"learning_rate": 0.0002,
	"loss": 0.286,
	"step": 609
	},
	{
	"epoch": 0.9010339734121122,
	"grad_norm": 0.25921839475631714,
	"learning_rate": 0.0002,
	"loss": 0.2438,
	"step": 610
	},
	{
	"epoch": 0.9025110782865583,
	"grad_norm": 0.26628950238227844,
	"learning_rate": 0.0002,
	"loss": 0.2713,
	"step": 611
	},
	{
	"epoch": 0.9039881831610044,
	"grad_norm": 0.26283326745033264,
	"learning_rate": 0.0002,
	"loss": 0.2696,
	"step": 612
	},
	{
	"epoch": 0.9054652880354506,
	"grad_norm": 0.29980388283729553,
	"learning_rate": 0.0002,
	"loss": 0.2581,
	"step": 613
	},
	{
	"epoch": 0.9069423929098966,
	"grad_norm": 0.2768777310848236,
	"learning_rate": 0.0002,
	"loss": 0.2853,
	"step": 614
	},
	{
	"epoch": 0.9084194977843427,
	"grad_norm": 0.27376455068588257,
	"learning_rate": 0.0002,
	"loss": 0.2836,
	"step": 615
	},
	{
	"epoch": 0.9098966026587888,
	"grad_norm": 0.28933191299438477,
	"learning_rate": 0.0002,
	"loss": 0.3071,
	"step": 616
	},
	{
	"epoch": 0.9113737075332349,
	"grad_norm": 0.3081536293029785,
	"learning_rate": 0.0002,
	"loss": 0.2461,
	"step": 617
	},
	{
	"epoch": 0.912850812407681,
	"grad_norm": 0.2886345386505127,
	"learning_rate": 0.0002,
	"loss": 0.3,
	"step": 618
	},
	{
	"epoch": 0.914327917282127,
	"grad_norm": 0.2829267680644989,
	"learning_rate": 0.0002,
	"loss": 0.2746,
	"step": 619
	},
	{
	"epoch": 0.9158050221565731,
	"grad_norm": 0.2512478232383728,
	"learning_rate": 0.0002,
	"loss": 0.2435,
	"step": 620
	},
	{
	"epoch": 0.9172821270310192,
	"grad_norm": 0.4229198694229126,
	"learning_rate": 0.0002,
	"loss": 0.2847,
	"step": 621
	},
	{
	"epoch": 0.9187592319054653,
	"grad_norm": 0.2993115186691284,
	"learning_rate": 0.0002,
	"loss": 0.2869,
	"step": 622
	},
	{
	"epoch": 0.9202363367799113,
	"grad_norm": 0.2935909330844879,
	"learning_rate": 0.0002,
	"loss": 0.2691,
	"step": 623
	},
	{
	"epoch": 0.9217134416543574,
	"grad_norm": 0.3156206011772156,
	"learning_rate": 0.0002,
	"loss": 0.2936,
	"step": 624
	},
	{
	"epoch": 0.9231905465288035,
	"grad_norm": 0.2829430401325226,
	"learning_rate": 0.0002,
	"loss": 0.2782,
	"step": 625
	},
	{
	"epoch": 0.9246676514032496,
	"grad_norm": 0.2769679129123688,
	"learning_rate": 0.0002,
	"loss": 0.2751,
	"step": 626
	},
	{
	"epoch": 0.9261447562776958,
	"grad_norm": 0.2695547044277191,
	"learning_rate": 0.0002,
	"loss": 0.2768,
	"step": 627
	},
	{
	"epoch": 0.9276218611521418,
	"grad_norm": 0.2564750909805298,
	"learning_rate": 0.0002,
	"loss": 0.2691,
	"step": 628
	},
	{
	"epoch": 0.9290989660265879,
	"grad_norm": 0.3216243386268616,
	"learning_rate": 0.0002,
	"loss": 0.2895,
	"step": 629
	},
	{
	"epoch": 0.930576070901034,
	"grad_norm": 0.26920050382614136,
	"learning_rate": 0.0002,
	"loss": 0.2943,
	"step": 630
	},
	{
	"epoch": 0.9320531757754801,
	"grad_norm": 0.23926717042922974,
	"learning_rate": 0.0002,
	"loss": 0.2114,
	"step": 631
	},
	{
	"epoch": 0.9335302806499262,
	"grad_norm": 0.3015134036540985,
	"learning_rate": 0.0002,
	"loss": 0.2889,
	"step": 632
	},
	{
	"epoch": 0.9350073855243722,
	"grad_norm": 0.29262953996658325,
	"learning_rate": 0.0002,
	"loss": 0.2977,
	"step": 633
	},
	{
	"epoch": 0.9364844903988183,
	"grad_norm": 0.27330338954925537,
	"learning_rate": 0.0002,
	"loss": 0.2706,
	"step": 634
	},
	{
	"epoch": 0.9379615952732644,
	"grad_norm": 0.2691650092601776,
	"learning_rate": 0.0002,
	"loss": 0.2471,
	"step": 635
	},
	{
	"epoch": 0.9394387001477105,
	"grad_norm": 0.30574268102645874,
	"learning_rate": 0.0002,
	"loss": 0.2977,
	"step": 636
	},
	{
	"epoch": 0.9409158050221565,
	"grad_norm": 0.2739352881908417,
	"learning_rate": 0.0002,
	"loss": 0.2825,
	"step": 637
	},
	{
	"epoch": 0.9423929098966026,
	"grad_norm": 0.3041648268699646,
	"learning_rate": 0.0002,
	"loss": 0.3344,
	"step": 638
	},
	{
	"epoch": 0.9438700147710487,
	"grad_norm": 0.2827674150466919,
	"learning_rate": 0.0002,
	"loss": 0.2618,
	"step": 639
	},
	{
	"epoch": 0.9453471196454948,
	"grad_norm": 0.25939705967903137,
	"learning_rate": 0.0002,
	"loss": 0.2279,
	"step": 640
	},
	{
	"epoch": 0.946824224519941,
	"grad_norm": 0.3013932406902313,
	"learning_rate": 0.0002,
	"loss": 0.3114,
	"step": 641
	},
	{
	"epoch": 0.948301329394387,
	"grad_norm": 4.885525703430176,
	"learning_rate": 0.0002,
	"loss": 0.2818,
	"step": 642
	},
	{
	"epoch": 0.9497784342688331,
	"grad_norm": 0.25590044260025024,
	"learning_rate": 0.0002,
	"loss": 0.2427,
	"step": 643
	},
	{
	"epoch": 0.9512555391432792,
	"grad_norm": 0.2372172772884369,
	"learning_rate": 0.0002,
	"loss": 0.2397,
	"step": 644
	},
	{
	"epoch": 0.9527326440177253,
	"grad_norm": 0.26376283168792725,
	"learning_rate": 0.0002,
	"loss": 0.2624,
	"step": 645
	},
	{
	"epoch": 0.9542097488921714,
	"grad_norm": 0.27342459559440613,
	"learning_rate": 0.0002,
	"loss": 0.2652,
	"step": 646
	},
	{
	"epoch": 0.9556868537666174,
	"grad_norm": 0.260745644569397,
	"learning_rate": 0.0002,
	"loss": 0.2523,
	"step": 647
	},
	{
	"epoch": 0.9571639586410635,
	"grad_norm": 0.24873754382133484,
	"learning_rate": 0.0002,
	"loss": 0.2238,
	"step": 648
	},
	{
	"epoch": 0.9586410635155096,
	"grad_norm": 0.281990110874176,
	"learning_rate": 0.0002,
	"loss": 0.235,
	"step": 649
	},
	{
	"epoch": 0.9601181683899557,
	"grad_norm": 0.25676026940345764,
	"learning_rate": 0.0002,
	"loss": 0.215,
	"step": 650
	},
	{
	"epoch": 0.9615952732644018,
	"grad_norm": 0.2927687466144562,
	"learning_rate": 0.0002,
	"loss": 0.2764,
	"step": 651
	},
	{
	"epoch": 0.9630723781388478,
	"grad_norm": 0.26322099566459656,
	"learning_rate": 0.0002,
	"loss": 0.2511,
	"step": 652
	},
	{
	"epoch": 0.9645494830132939,
	"grad_norm": 0.2764233350753784,
	"learning_rate": 0.0002,
	"loss": 0.2439,
	"step": 653
	},
	{
	"epoch": 0.96602658788774,
	"grad_norm": 0.29849788546562195,
	"learning_rate": 0.0002,
	"loss": 0.2689,
	"step": 654
	},
	{
	"epoch": 0.9675036927621861,
	"grad_norm": 0.2834247648715973,
	"learning_rate": 0.0002,
	"loss": 0.3398,
	"step": 655
	},
	{
	"epoch": 0.9689807976366323,
	"grad_norm": 0.28436174988746643,
	"learning_rate": 0.0002,
	"loss": 0.3086,
	"step": 656
	},
	{
	"epoch": 0.9704579025110783,
	"grad_norm": 0.24340803921222687,
	"learning_rate": 0.0002,
	"loss": 0.2288,
	"step": 657
	},
	{
	"epoch": 0.9719350073855244,
	"grad_norm": 0.2577742338180542,
	"learning_rate": 0.0002,
	"loss": 0.2598,
	"step": 658
	},
	{
	"epoch": 0.9734121122599705,
	"grad_norm": 0.28326281905174255,
	"learning_rate": 0.0002,
	"loss": 0.2862,
	"step": 659
	},
	{
	"epoch": 0.9748892171344166,
	"grad_norm": 0.27066269516944885,
	"learning_rate": 0.0002,
	"loss": 0.2585,
	"step": 660
	},
	{
	"epoch": 0.9763663220088626,
	"grad_norm": 0.26694634556770325,
	"learning_rate": 0.0002,
	"loss": 0.2788,
	"step": 661
	},
	{
	"epoch": 0.9778434268833087,
	"grad_norm": 0.2890130281448364,
	"learning_rate": 0.0002,
	"loss": 0.3073,
	"step": 662
	},
	{
	"epoch": 0.9793205317577548,
	"grad_norm": 0.26095882058143616,
	"learning_rate": 0.0002,
	"loss": 0.2184,
	"step": 663
	},
	{
	"epoch": 0.9807976366322009,
	"grad_norm": 0.2648635506629944,
	"learning_rate": 0.0002,
	"loss": 0.2465,
	"step": 664
	},
	{
	"epoch": 0.982274741506647,
	"grad_norm": 0.2354656457901001,
	"learning_rate": 0.0002,
	"loss": 0.2457,
	"step": 665
	},
	{
	"epoch": 0.983751846381093,
	"grad_norm": 0.2767215669155121,
	"learning_rate": 0.0002,
	"loss": 0.2735,
	"step": 666
	},
	{
	"epoch": 0.9852289512555391,
	"grad_norm": 0.27141231298446655,
	"learning_rate": 0.0002,
	"loss": 0.2589,
	"step": 667
	},
	{
	"epoch": 0.9867060561299852,
	"grad_norm": 0.254549115896225,
	"learning_rate": 0.0002,
	"loss": 0.2785,
	"step": 668
	},
	{
	"epoch": 0.9881831610044313,
	"grad_norm": 0.2712014317512512,
	"learning_rate": 0.0002,
	"loss": 0.2579,
	"step": 669
	},
	{
	"epoch": 0.9896602658788775,
	"grad_norm": 0.26712852716445923,
	"learning_rate": 0.0002,
	"loss": 0.3165,
	"step": 670
	},
	{
	"epoch": 0.9911373707533235,
	"grad_norm": 0.2829815447330475,
	"learning_rate": 0.0002,
	"loss": 0.2438,
	"step": 671
	},
	{
	"epoch": 0.9926144756277696,
	"grad_norm": 0.27326712012290955,
	"learning_rate": 0.0002,
	"loss": 0.2622,
	"step": 672
	},
	{
	"epoch": 0.9940915805022157,
	"grad_norm": 0.2569233179092407,
	"learning_rate": 0.0002,
	"loss": 0.2353,
	"step": 673
	},
	{
	"epoch": 0.9955686853766618,
	"grad_norm": 0.28441140055656433,
	"learning_rate": 0.0002,
	"loss": 0.2732,
	"step": 674
	},
	{
	"epoch": 0.9970457902511078,
	"grad_norm": 0.2831505835056305,
	"learning_rate": 0.0002,
	"loss": 0.2605,
	"step": 675
	},
	{
	"epoch": 0.9985228951255539,
	"grad_norm": 0.26520466804504395,
	"learning_rate": 0.0002,
	"loss": 0.2614,
	"step": 676
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.7976667881011963,
	"learning_rate": 0.0002,
	"loss": 0.3423,
	"step": 677
	},
	{
	"epoch": 1.0,
	"step": 677,
	"total_flos": 1.1323313955746611e+17,
	"train_loss": 0.3172708253432588,
	"train_runtime": 2971.8662,
	"train_samples_per_second": 1.82,
	"train_steps_per_second": 0.228
	}
	],
	"logging_steps": 1,
	"max_steps": 677,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1323313955746611e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}