End of training

6351ea2 verified 4 months ago

22.5 kB

	{
	"best_metric": 0.3964671194553375,
	"best_model_checkpoint": "limb_classification_person_crop_seq/t2_4heads_1layers_5e-4lr/checkpoint-2520",
	"epoch": 15.0,
	"eval_steps": 500,
	"global_step": 2700,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1388888888888889,
	"grad_norm": 275926.53125,
	"learning_rate": 5e-05,
	"loss": 1.2686,
	"step": 25
	},
	{
	"epoch": 0.2777777777777778,
	"grad_norm": 328248.0,
	"learning_rate": 0.0001,
	"loss": 0.9051,
	"step": 50
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 368871.40625,
	"learning_rate": 0.00015,
	"loss": 0.7478,
	"step": 75
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 98371.5390625,
	"learning_rate": 0.0002,
	"loss": 0.5482,
	"step": 100
	},
	{
	"epoch": 0.6944444444444444,
	"grad_norm": 116783.9921875,
	"learning_rate": 0.00025,
	"loss": 0.5521,
	"step": 125
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 390853.9375,
	"learning_rate": 0.0003,
	"loss": 0.4814,
	"step": 150
	},
	{
	"epoch": 0.9722222222222222,
	"grad_norm": 156001.8125,
	"learning_rate": 0.00035,
	"loss": 0.5406,
	"step": 175
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.8883399209486166,
	"eval_loss": 0.48044389486312866,
	"eval_runtime": 37.7276,
	"eval_samples_per_second": 26.824,
	"eval_steps_per_second": 0.848,
	"step": 180
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 191408.703125,
	"learning_rate": 0.0004,
	"loss": 0.5133,
	"step": 200
	},
	{
	"epoch": 1.25,
	"grad_norm": 313042.46875,
	"learning_rate": 0.00045000000000000004,
	"loss": 0.4485,
	"step": 225
	},
	{
	"epoch": 1.3888888888888888,
	"grad_norm": 164934.65625,
	"learning_rate": 0.0005,
	"loss": 0.5473,
	"step": 250
	},
	{
	"epoch": 1.5277777777777777,
	"grad_norm": 266101.15625,
	"learning_rate": 0.0004948979591836735,
	"loss": 0.4893,
	"step": 275
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 216736.703125,
	"learning_rate": 0.0004897959183673469,
	"loss": 0.4952,
	"step": 300
	},
	{
	"epoch": 1.8055555555555556,
	"grad_norm": 130781.34375,
	"learning_rate": 0.0004846938775510204,
	"loss": 0.5304,
	"step": 325
	},
	{
	"epoch": 1.9444444444444444,
	"grad_norm": 83755.078125,
	"learning_rate": 0.00047959183673469387,
	"loss": 0.4852,
	"step": 350
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8794466403162056,
	"eval_loss": 0.5456948280334473,
	"eval_runtime": 36.26,
	"eval_samples_per_second": 27.91,
	"eval_steps_per_second": 0.883,
	"step": 360
	},
	{
	"epoch": 2.0833333333333335,
	"grad_norm": 140542.96875,
	"learning_rate": 0.0004744897959183674,
	"loss": 0.5491,
	"step": 375
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 275681.375,
	"learning_rate": 0.00046938775510204083,
	"loss": 0.4691,
	"step": 400
	},
	{
	"epoch": 2.361111111111111,
	"grad_norm": 119873.5625,
	"learning_rate": 0.00046428571428571433,
	"loss": 0.4607,
	"step": 425
	},
	{
	"epoch": 2.5,
	"grad_norm": 147333.703125,
	"learning_rate": 0.0004591836734693878,
	"loss": 0.5189,
	"step": 450
	},
	{
	"epoch": 2.638888888888889,
	"grad_norm": 152648.078125,
	"learning_rate": 0.00045408163265306124,
	"loss": 0.4508,
	"step": 475
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 129466.5078125,
	"learning_rate": 0.0004489795918367347,
	"loss": 0.4649,
	"step": 500
	},
	{
	"epoch": 2.9166666666666665,
	"grad_norm": 39402.28515625,
	"learning_rate": 0.00044387755102040814,
	"loss": 0.4664,
	"step": 525
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9051383399209486,
	"eval_loss": 0.42033523321151733,
	"eval_runtime": 36.9286,
	"eval_samples_per_second": 27.404,
	"eval_steps_per_second": 0.867,
	"step": 540
	},
	{
	"epoch": 3.0555555555555554,
	"grad_norm": 167756.265625,
	"learning_rate": 0.00043877551020408165,
	"loss": 0.4957,
	"step": 550
	},
	{
	"epoch": 3.1944444444444446,
	"grad_norm": 178619.546875,
	"learning_rate": 0.0004336734693877551,
	"loss": 0.4743,
	"step": 575
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 109380.5,
	"learning_rate": 0.00042857142857142855,
	"loss": 0.5037,
	"step": 600
	},
	{
	"epoch": 3.4722222222222223,
	"grad_norm": 161733.875,
	"learning_rate": 0.00042346938775510206,
	"loss": 0.4998,
	"step": 625
	},
	{
	"epoch": 3.611111111111111,
	"grad_norm": 139706.953125,
	"learning_rate": 0.00041836734693877556,
	"loss": 0.4484,
	"step": 650
	},
	{
	"epoch": 3.75,
	"grad_norm": 150799.125,
	"learning_rate": 0.000413265306122449,
	"loss": 0.5218,
	"step": 675
	},
	{
	"epoch": 3.888888888888889,
	"grad_norm": 233782.0625,
	"learning_rate": 0.00040816326530612246,
	"loss": 0.4929,
	"step": 700
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.900197628458498,
	"eval_loss": 0.43486830592155457,
	"eval_runtime": 35.8273,
	"eval_samples_per_second": 28.247,
	"eval_steps_per_second": 0.893,
	"step": 720
	},
	{
	"epoch": 4.027777777777778,
	"grad_norm": 124010.9140625,
	"learning_rate": 0.0004030612244897959,
	"loss": 0.4506,
	"step": 725
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 142697.78125,
	"learning_rate": 0.00039795918367346937,
	"loss": 0.4781,
	"step": 750
	},
	{
	"epoch": 4.305555555555555,
	"grad_norm": 167024.359375,
	"learning_rate": 0.0003928571428571429,
	"loss": 0.4571,
	"step": 775
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 91725.46875,
	"learning_rate": 0.0003877551020408163,
	"loss": 0.45,
	"step": 800
	},
	{
	"epoch": 4.583333333333333,
	"grad_norm": 99782.9921875,
	"learning_rate": 0.0003826530612244898,
	"loss": 0.4521,
	"step": 825
	},
	{
	"epoch": 4.722222222222222,
	"grad_norm": 178208.5625,
	"learning_rate": 0.00037755102040816323,
	"loss": 0.4598,
	"step": 850
	},
	{
	"epoch": 4.861111111111111,
	"grad_norm": 189875.09375,
	"learning_rate": 0.0003724489795918368,
	"loss": 0.4492,
	"step": 875
	},
	{
	"epoch": 5.0,
	"grad_norm": 31828.625,
	"learning_rate": 0.00036734693877551024,
	"loss": 0.4334,
	"step": 900
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.8764822134387352,
	"eval_loss": 0.4815811514854431,
	"eval_runtime": 36.4103,
	"eval_samples_per_second": 27.794,
	"eval_steps_per_second": 0.879,
	"step": 900
	},
	{
	"epoch": 5.138888888888889,
	"grad_norm": 131415.0,
	"learning_rate": 0.0003622448979591837,
	"loss": 0.4699,
	"step": 925
	},
	{
	"epoch": 5.277777777777778,
	"grad_norm": 42832.09765625,
	"learning_rate": 0.00035714285714285714,
	"loss": 0.4448,
	"step": 950
	},
	{
	"epoch": 5.416666666666667,
	"grad_norm": 202659.328125,
	"learning_rate": 0.00035204081632653065,
	"loss": 0.4595,
	"step": 975
	},
	{
	"epoch": 5.555555555555555,
	"grad_norm": 95209.203125,
	"learning_rate": 0.0003469387755102041,
	"loss": 0.4968,
	"step": 1000
	},
	{
	"epoch": 5.694444444444445,
	"grad_norm": 121417.4140625,
	"learning_rate": 0.00034183673469387755,
	"loss": 0.4662,
	"step": 1025
	},
	{
	"epoch": 5.833333333333333,
	"grad_norm": 103243.7734375,
	"learning_rate": 0.000336734693877551,
	"loss": 0.4726,
	"step": 1050
	},
	{
	"epoch": 5.972222222222222,
	"grad_norm": 79883.8671875,
	"learning_rate": 0.00033163265306122445,
	"loss": 0.4709,
	"step": 1075
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.8932806324110671,
	"eval_loss": 0.45736971497535706,
	"eval_runtime": 36.8482,
	"eval_samples_per_second": 27.464,
	"eval_steps_per_second": 0.868,
	"step": 1080
	},
	{
	"epoch": 6.111111111111111,
	"grad_norm": 70588.4609375,
	"learning_rate": 0.00032653061224489796,
	"loss": 0.4736,
	"step": 1100
	},
	{
	"epoch": 6.25,
	"grad_norm": 235716.375,
	"learning_rate": 0.00032142857142857147,
	"loss": 0.4877,
	"step": 1125
	},
	{
	"epoch": 6.388888888888889,
	"grad_norm": 118860.515625,
	"learning_rate": 0.0003163265306122449,
	"loss": 0.4801,
	"step": 1150
	},
	{
	"epoch": 6.527777777777778,
	"grad_norm": 96496.296875,
	"learning_rate": 0.00031122448979591837,
	"loss": 0.4387,
	"step": 1175
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 122115.0859375,
	"learning_rate": 0.0003061224489795919,
	"loss": 0.3712,
	"step": 1200
	},
	{
	"epoch": 6.805555555555555,
	"grad_norm": 87567.2265625,
	"learning_rate": 0.0003010204081632653,
	"loss": 0.443,
	"step": 1225
	},
	{
	"epoch": 6.944444444444445,
	"grad_norm": 102648.7265625,
	"learning_rate": 0.0002959183673469388,
	"loss": 0.4525,
	"step": 1250
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.8883399209486166,
	"eval_loss": 0.465226411819458,
	"eval_runtime": 36.2286,
	"eval_samples_per_second": 27.934,
	"eval_steps_per_second": 0.883,
	"step": 1260
	},
	{
	"epoch": 7.083333333333333,
	"grad_norm": 54489.8828125,
	"learning_rate": 0.00029081632653061223,
	"loss": 0.4306,
	"step": 1275
	},
	{
	"epoch": 7.222222222222222,
	"grad_norm": 81611.7890625,
	"learning_rate": 0.0002857142857142857,
	"loss": 0.4381,
	"step": 1300
	},
	{
	"epoch": 7.361111111111111,
	"grad_norm": 139663.171875,
	"learning_rate": 0.0002806122448979592,
	"loss": 0.457,
	"step": 1325
	},
	{
	"epoch": 7.5,
	"grad_norm": 73111.8828125,
	"learning_rate": 0.00027551020408163264,
	"loss": 0.4403,
	"step": 1350
	},
	{
	"epoch": 7.638888888888889,
	"grad_norm": 56448.75,
	"learning_rate": 0.00027040816326530614,
	"loss": 0.4308,
	"step": 1375
	},
	{
	"epoch": 7.777777777777778,
	"grad_norm": 59582.625,
	"learning_rate": 0.0002653061224489796,
	"loss": 0.4565,
	"step": 1400
	},
	{
	"epoch": 7.916666666666667,
	"grad_norm": 167981.71875,
	"learning_rate": 0.0002602040816326531,
	"loss": 0.4601,
	"step": 1425
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.900197628458498,
	"eval_loss": 0.4387129545211792,
	"eval_runtime": 36.2307,
	"eval_samples_per_second": 27.932,
	"eval_steps_per_second": 0.883,
	"step": 1440
	},
	{
	"epoch": 8.055555555555555,
	"grad_norm": 146485.015625,
	"learning_rate": 0.00025510204081632655,
	"loss": 0.4442,
	"step": 1450
	},
	{
	"epoch": 8.194444444444445,
	"grad_norm": 77854.203125,
	"learning_rate": 0.00025,
	"loss": 0.4185,
	"step": 1475
	},
	{
	"epoch": 8.333333333333334,
	"grad_norm": 123192.34375,
	"learning_rate": 0.00024489795918367346,
	"loss": 0.4692,
	"step": 1500
	},
	{
	"epoch": 8.472222222222221,
	"grad_norm": 74983.546875,
	"learning_rate": 0.00023979591836734694,
	"loss": 0.4189,
	"step": 1525
	},
	{
	"epoch": 8.61111111111111,
	"grad_norm": 136541.65625,
	"learning_rate": 0.00023469387755102041,
	"loss": 0.4135,
	"step": 1550
	},
	{
	"epoch": 8.75,
	"grad_norm": 90828.046875,
	"learning_rate": 0.0002295918367346939,
	"loss": 0.419,
	"step": 1575
	},
	{
	"epoch": 8.88888888888889,
	"grad_norm": 92607.2109375,
	"learning_rate": 0.00022448979591836734,
	"loss": 0.4361,
	"step": 1600
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9071146245059288,
	"eval_loss": 0.4137505292892456,
	"eval_runtime": 36.7818,
	"eval_samples_per_second": 27.514,
	"eval_steps_per_second": 0.87,
	"step": 1620
	},
	{
	"epoch": 9.027777777777779,
	"grad_norm": 206206.59375,
	"learning_rate": 0.00021938775510204082,
	"loss": 0.4229,
	"step": 1625
	},
	{
	"epoch": 9.166666666666666,
	"grad_norm": 61973.49609375,
	"learning_rate": 0.00021428571428571427,
	"loss": 0.4488,
	"step": 1650
	},
	{
	"epoch": 9.305555555555555,
	"grad_norm": 134002.28125,
	"learning_rate": 0.00020918367346938778,
	"loss": 0.4099,
	"step": 1675
	},
	{
	"epoch": 9.444444444444445,
	"grad_norm": 162290.21875,
	"learning_rate": 0.00020408163265306123,
	"loss": 0.4352,
	"step": 1700
	},
	{
	"epoch": 9.583333333333334,
	"grad_norm": 108405.265625,
	"learning_rate": 0.00019897959183673468,
	"loss": 0.4241,
	"step": 1725
	},
	{
	"epoch": 9.722222222222221,
	"grad_norm": 66163.1875,
	"learning_rate": 0.00019387755102040816,
	"loss": 0.4053,
	"step": 1750
	},
	{
	"epoch": 9.86111111111111,
	"grad_norm": 35489.41796875,
	"learning_rate": 0.00018877551020408161,
	"loss": 0.4023,
	"step": 1775
	},
	{
	"epoch": 10.0,
	"grad_norm": 148451.015625,
	"learning_rate": 0.00018367346938775512,
	"loss": 0.4297,
	"step": 1800
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9140316205533597,
	"eval_loss": 0.4089234173297882,
	"eval_runtime": 36.486,
	"eval_samples_per_second": 27.737,
	"eval_steps_per_second": 0.877,
	"step": 1800
	},
	{
	"epoch": 10.13888888888889,
	"grad_norm": 132313.015625,
	"learning_rate": 0.00017857142857142857,
	"loss": 0.4157,
	"step": 1825
	},
	{
	"epoch": 10.277777777777779,
	"grad_norm": 79190.890625,
	"learning_rate": 0.00017346938775510205,
	"loss": 0.4155,
	"step": 1850
	},
	{
	"epoch": 10.416666666666666,
	"grad_norm": 59022.73828125,
	"learning_rate": 0.0001683673469387755,
	"loss": 0.3802,
	"step": 1875
	},
	{
	"epoch": 10.555555555555555,
	"grad_norm": 113138.1640625,
	"learning_rate": 0.00016326530612244898,
	"loss": 0.4633,
	"step": 1900
	},
	{
	"epoch": 10.694444444444445,
	"grad_norm": 80191.265625,
	"learning_rate": 0.00015816326530612246,
	"loss": 0.4034,
	"step": 1925
	},
	{
	"epoch": 10.833333333333334,
	"grad_norm": 80256.8984375,
	"learning_rate": 0.00015306122448979594,
	"loss": 0.4033,
	"step": 1950
	},
	{
	"epoch": 10.972222222222221,
	"grad_norm": 92320.3359375,
	"learning_rate": 0.0001479591836734694,
	"loss": 0.4,
	"step": 1975
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9199604743083004,
	"eval_loss": 0.3999524712562561,
	"eval_runtime": 36.413,
	"eval_samples_per_second": 27.792,
	"eval_steps_per_second": 0.879,
	"step": 1980
	},
	{
	"epoch": 11.11111111111111,
	"grad_norm": 83646.3828125,
	"learning_rate": 0.00014285714285714284,
	"loss": 0.4017,
	"step": 2000
	},
	{
	"epoch": 11.25,
	"grad_norm": 47865.28515625,
	"learning_rate": 0.00013775510204081632,
	"loss": 0.4172,
	"step": 2025
	},
	{
	"epoch": 11.38888888888889,
	"grad_norm": 100859.5859375,
	"learning_rate": 0.0001326530612244898,
	"loss": 0.3601,
	"step": 2050
	},
	{
	"epoch": 11.527777777777779,
	"grad_norm": 89678.1796875,
	"learning_rate": 0.00012755102040816328,
	"loss": 0.459,
	"step": 2075
	},
	{
	"epoch": 11.666666666666666,
	"grad_norm": 97468.703125,
	"learning_rate": 0.00012244897959183673,
	"loss": 0.3659,
	"step": 2100
	},
	{
	"epoch": 11.805555555555555,
	"grad_norm": 116296.359375,
	"learning_rate": 0.00011734693877551021,
	"loss": 0.4134,
	"step": 2125
	},
	{
	"epoch": 11.944444444444445,
	"grad_norm": 66697.9296875,
	"learning_rate": 0.00011224489795918367,
	"loss": 0.4035,
	"step": 2150
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.9071146245059288,
	"eval_loss": 0.42599722743034363,
	"eval_runtime": 36.752,
	"eval_samples_per_second": 27.536,
	"eval_steps_per_second": 0.871,
	"step": 2160
	},
	{
	"epoch": 12.083333333333334,
	"grad_norm": 139186.21875,
	"learning_rate": 0.00010714285714285714,
	"loss": 0.3609,
	"step": 2175
	},
	{
	"epoch": 12.222222222222221,
	"grad_norm": 69709.2109375,
	"learning_rate": 0.00010204081632653062,
	"loss": 0.4146,
	"step": 2200
	},
	{
	"epoch": 12.36111111111111,
	"grad_norm": 84500.0859375,
	"learning_rate": 9.693877551020408e-05,
	"loss": 0.4013,
	"step": 2225
	},
	{
	"epoch": 12.5,
	"grad_norm": 45239.5703125,
	"learning_rate": 9.183673469387756e-05,
	"loss": 0.3918,
	"step": 2250
	},
	{
	"epoch": 12.63888888888889,
	"grad_norm": 49387.7421875,
	"learning_rate": 8.673469387755102e-05,
	"loss": 0.388,
	"step": 2275
	},
	{
	"epoch": 12.777777777777779,
	"grad_norm": 98527.546875,
	"learning_rate": 8.163265306122449e-05,
	"loss": 0.3941,
	"step": 2300
	},
	{
	"epoch": 12.916666666666666,
	"grad_norm": 75106.1640625,
	"learning_rate": 7.653061224489797e-05,
	"loss": 0.3875,
	"step": 2325
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.9100790513833992,
	"eval_loss": 0.40881994366645813,
	"eval_runtime": 36.7096,
	"eval_samples_per_second": 27.568,
	"eval_steps_per_second": 0.872,
	"step": 2340
	},
	{
	"epoch": 13.055555555555555,
	"grad_norm": 94333.46875,
	"learning_rate": 7.142857142857142e-05,
	"loss": 0.395,
	"step": 2350
	},
	{
	"epoch": 13.194444444444445,
	"grad_norm": 150090.71875,
	"learning_rate": 6.63265306122449e-05,
	"loss": 0.3972,
	"step": 2375
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 86562.6015625,
	"learning_rate": 6.122448979591836e-05,
	"loss": 0.3347,
	"step": 2400
	},
	{
	"epoch": 13.472222222222221,
	"grad_norm": 205886.484375,
	"learning_rate": 5.6122448979591836e-05,
	"loss": 0.4316,
	"step": 2425
	},
	{
	"epoch": 13.61111111111111,
	"grad_norm": 90394.1640625,
	"learning_rate": 5.102040816326531e-05,
	"loss": 0.3521,
	"step": 2450
	},
	{
	"epoch": 13.75,
	"grad_norm": 118663.3359375,
	"learning_rate": 4.591836734693878e-05,
	"loss": 0.4071,
	"step": 2475
	},
	{
	"epoch": 13.88888888888889,
	"grad_norm": 91543.4765625,
	"learning_rate": 4.0816326530612245e-05,
	"loss": 0.4117,
	"step": 2500
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9179841897233202,
	"eval_loss": 0.3964671194553375,
	"eval_runtime": 36.2893,
	"eval_samples_per_second": 27.887,
	"eval_steps_per_second": 0.882,
	"step": 2520
	},
	{
	"epoch": 14.027777777777779,
	"grad_norm": 48705.08203125,
	"learning_rate": 3.571428571428571e-05,
	"loss": 0.3965,
	"step": 2525
	},
	{
	"epoch": 14.166666666666666,
	"grad_norm": 71733.8046875,
	"learning_rate": 3.061224489795918e-05,
	"loss": 0.4043,
	"step": 2550
	},
	{
	"epoch": 14.305555555555555,
	"grad_norm": 113618.6484375,
	"learning_rate": 2.5510204081632654e-05,
	"loss": 0.3868,
	"step": 2575
	},
	{
	"epoch": 14.444444444444445,
	"grad_norm": 90760.4609375,
	"learning_rate": 2.0408163265306123e-05,
	"loss": 0.3633,
	"step": 2600
	},
	{
	"epoch": 14.583333333333334,
	"grad_norm": 58063.44921875,
	"learning_rate": 1.530612244897959e-05,
	"loss": 0.3651,
	"step": 2625
	},
	{
	"epoch": 14.722222222222221,
	"grad_norm": 66486.3984375,
	"learning_rate": 1.0204081632653061e-05,
	"loss": 0.3904,
	"step": 2650
	},
	{
	"epoch": 14.86111111111111,
	"grad_norm": 68429.1484375,
	"learning_rate": 5.102040816326531e-06,
	"loss": 0.4017,
	"step": 2675
	},
	{
	"epoch": 15.0,
	"grad_norm": 489841.0625,
	"learning_rate": 0.0,
	"loss": 0.3518,
	"step": 2700
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.91600790513834,
	"eval_loss": 0.3987027406692505,
	"eval_runtime": 36.8038,
	"eval_samples_per_second": 27.497,
	"eval_steps_per_second": 0.869,
	"step": 2700
	},
	{
	"epoch": 15.0,
	"step": 2700,
	"total_flos": 0.0,
	"train_loss": 0.45526096591243037,
	"train_runtime": 5324.9693,
	"train_samples_per_second": 16.141,
	"train_steps_per_second": 0.507
	}
	],
	"logging_steps": 25,
	"max_steps": 2700,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 15,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}