Upload 15 files

Browse files

Files changed (4) hide show

optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1316 -0

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08d8b6110f30946c8e09685f87195011acceb0d1ae0c0605ca917a7e14c8913b
+size 31779730

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38600c788169bd0310cb35337beabfec6cb3a8ba30afe7f852dd7213c819b1bb
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5da1e16c544a148301e93754f9bd45191e21057765d09355f060ebc1b44addc6
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1316 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.99949083503055,
+  "eval_steps": 100,
+  "global_step": 5891,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.025458248472505093,
+      "grad_norm": 0.7198461890220642,
+      "learning_rate": 1e-05,
+      "loss": 0.2893,
+      "step": 50
+    },
+    {
+      "epoch": 0.05091649694501019,
+      "grad_norm": 1.0035477876663208,
+      "learning_rate": 1e-05,
+      "loss": 0.2938,
+      "step": 100
+    },
+    {
+      "epoch": 0.05091649694501019,
+      "eval_loss": 0.30817005038261414,
+      "eval_runtime": 22.8318,
+      "eval_samples_per_second": 4.38,
+      "eval_steps_per_second": 0.569,
+      "step": 100
+    },
+    {
+      "epoch": 0.07637474541751528,
+      "grad_norm": 1.1024292707443237,
+      "learning_rate": 1e-05,
+      "loss": 0.3017,
+      "step": 150
+    },
+    {
+      "epoch": 0.10183299389002037,
+      "grad_norm": 0.8950141668319702,
+      "learning_rate": 1e-05,
+      "loss": 0.2912,
+      "step": 200
+    },
+    {
+      "epoch": 0.10183299389002037,
+      "eval_loss": 0.30671748518943787,
+      "eval_runtime": 21.6577,
+      "eval_samples_per_second": 4.617,
+      "eval_steps_per_second": 0.6,
+      "step": 200
+    },
+    {
+      "epoch": 0.12729124236252545,
+      "grad_norm": 0.9789568781852722,
+      "learning_rate": 1e-05,
+      "loss": 0.2928,
+      "step": 250
+    },
+    {
+      "epoch": 0.15274949083503056,
+      "grad_norm": 1.0154632329940796,
+      "learning_rate": 1e-05,
+      "loss": 0.2839,
+      "step": 300
+    },
+    {
+      "epoch": 0.15274949083503056,
+      "eval_loss": 0.30376389622688293,
+      "eval_runtime": 21.5085,
+      "eval_samples_per_second": 4.649,
+      "eval_steps_per_second": 0.604,
+      "step": 300
+    },
+    {
+      "epoch": 0.17820773930753564,
+      "grad_norm": 0.977684736251831,
+      "learning_rate": 1e-05,
+      "loss": 0.299,
+      "step": 350
+    },
+    {
+      "epoch": 0.20366598778004075,
+      "grad_norm": 1.02386474609375,
+      "learning_rate": 1e-05,
+      "loss": 0.2922,
+      "step": 400
+    },
+    {
+      "epoch": 0.20366598778004075,
+      "eval_loss": 0.3035086393356323,
+      "eval_runtime": 21.9907,
+      "eval_samples_per_second": 4.547,
+      "eval_steps_per_second": 0.591,
+      "step": 400
+    },
+    {
+      "epoch": 0.22912423625254583,
+      "grad_norm": 1.0174798965454102,
+      "learning_rate": 1e-05,
+      "loss": 0.2955,
+      "step": 450
+    },
+    {
+      "epoch": 0.2545824847250509,
+      "grad_norm": 1.0312519073486328,
+      "learning_rate": 1e-05,
+      "loss": 0.3013,
+      "step": 500
+    },
+    {
+      "epoch": 0.2545824847250509,
+      "eval_loss": 0.29991400241851807,
+      "eval_runtime": 21.9988,
+      "eval_samples_per_second": 4.546,
+      "eval_steps_per_second": 0.591,
+      "step": 500
+    },
+    {
+      "epoch": 0.280040733197556,
+      "grad_norm": 0.8153128623962402,
+      "learning_rate": 1e-05,
+      "loss": 0.2902,
+      "step": 550
+    },
+    {
+      "epoch": 0.3054989816700611,
+      "grad_norm": 0.9280871748924255,
+      "learning_rate": 1e-05,
+      "loss": 0.2933,
+      "step": 600
+    },
+    {
+      "epoch": 0.3054989816700611,
+      "eval_loss": 0.29873424768447876,
+      "eval_runtime": 21.424,
+      "eval_samples_per_second": 4.668,
+      "eval_steps_per_second": 0.607,
+      "step": 600
+    },
+    {
+      "epoch": 0.33095723014256617,
+      "grad_norm": 1.0311402082443237,
+      "learning_rate": 1e-05,
+      "loss": 0.2871,
+      "step": 650
+    },
+    {
+      "epoch": 0.3564154786150713,
+      "grad_norm": 1.1811566352844238,
+      "learning_rate": 1e-05,
+      "loss": 0.2968,
+      "step": 700
+    },
+    {
+      "epoch": 0.3564154786150713,
+      "eval_loss": 0.29955142736434937,
+      "eval_runtime": 23.1012,
+      "eval_samples_per_second": 4.329,
+      "eval_steps_per_second": 0.563,
+      "step": 700
+    },
+    {
+      "epoch": 0.3818737270875764,
+      "grad_norm": 1.2003265619277954,
+      "learning_rate": 1e-05,
+      "loss": 0.2887,
+      "step": 750
+    },
+    {
+      "epoch": 0.4073319755600815,
+      "grad_norm": 1.488318920135498,
+      "learning_rate": 1e-05,
+      "loss": 0.2891,
+      "step": 800
+    },
+    {
+      "epoch": 0.4073319755600815,
+      "eval_loss": 0.29836124181747437,
+      "eval_runtime": 22.3121,
+      "eval_samples_per_second": 4.482,
+      "eval_steps_per_second": 0.583,
+      "step": 800
+    },
+    {
+      "epoch": 0.43279022403258655,
+      "grad_norm": 0.858514130115509,
+      "learning_rate": 1e-05,
+      "loss": 0.2985,
+      "step": 850
+    },
+    {
+      "epoch": 0.45824847250509165,
+      "grad_norm": 0.9991205930709839,
+      "learning_rate": 1e-05,
+      "loss": 0.2877,
+      "step": 900
+    },
+    {
+      "epoch": 0.45824847250509165,
+      "eval_loss": 0.2956816554069519,
+      "eval_runtime": 21.6536,
+      "eval_samples_per_second": 4.618,
+      "eval_steps_per_second": 0.6,
+      "step": 900
+    },
+    {
+      "epoch": 0.48370672097759676,
+      "grad_norm": 1.130011796951294,
+      "learning_rate": 1e-05,
+      "loss": 0.2831,
+      "step": 950
+    },
+    {
+      "epoch": 0.5091649694501018,
+      "grad_norm": 0.97832852602005,
+      "learning_rate": 1e-05,
+      "loss": 0.2844,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5091649694501018,
+      "eval_loss": 0.29429855942726135,
+      "eval_runtime": 21.7902,
+      "eval_samples_per_second": 4.589,
+      "eval_steps_per_second": 0.597,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5346232179226069,
+      "grad_norm": 1.1608392000198364,
+      "learning_rate": 1e-05,
+      "loss": 0.2802,
+      "step": 1050
+    },
+    {
+      "epoch": 0.560081466395112,
+      "grad_norm": 0.9106999635696411,
+      "learning_rate": 1e-05,
+      "loss": 0.2736,
+      "step": 1100
+    },
+    {
+      "epoch": 0.560081466395112,
+      "eval_loss": 0.29138484597206116,
+      "eval_runtime": 21.847,
+      "eval_samples_per_second": 4.577,
+      "eval_steps_per_second": 0.595,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5855397148676171,
+      "grad_norm": 1.077606201171875,
+      "learning_rate": 1e-05,
+      "loss": 0.2916,
+      "step": 1150
+    },
+    {
+      "epoch": 0.6109979633401222,
+      "grad_norm": 1.078594446182251,
+      "learning_rate": 1e-05,
+      "loss": 0.2877,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6109979633401222,
+      "eval_loss": 0.2930351495742798,
+      "eval_runtime": 21.8584,
+      "eval_samples_per_second": 4.575,
+      "eval_steps_per_second": 0.595,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6364562118126272,
+      "grad_norm": 1.044995665550232,
+      "learning_rate": 1e-05,
+      "loss": 0.2852,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6619144602851323,
+      "grad_norm": 1.0691392421722412,
+      "learning_rate": 1e-05,
+      "loss": 0.2914,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6619144602851323,
+      "eval_loss": 0.29031333327293396,
+      "eval_runtime": 21.8883,
+      "eval_samples_per_second": 4.569,
+      "eval_steps_per_second": 0.594,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6873727087576375,
+      "grad_norm": 1.165562629699707,
+      "learning_rate": 1e-05,
+      "loss": 0.2854,
+      "step": 1350
+    },
+    {
+      "epoch": 0.7128309572301426,
+      "grad_norm": 1.1224968433380127,
+      "learning_rate": 1e-05,
+      "loss": 0.2846,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7128309572301426,
+      "eval_loss": 0.2897338271141052,
+      "eval_runtime": 22.173,
+      "eval_samples_per_second": 4.51,
+      "eval_steps_per_second": 0.586,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7382892057026477,
+      "grad_norm": 0.9951677918434143,
+      "learning_rate": 1e-05,
+      "loss": 0.2754,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7637474541751528,
+      "grad_norm": 1.116921305656433,
+      "learning_rate": 1e-05,
+      "loss": 0.2754,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7637474541751528,
+      "eval_loss": 0.2867298424243927,
+      "eval_runtime": 21.7838,
+      "eval_samples_per_second": 4.591,
+      "eval_steps_per_second": 0.597,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7892057026476579,
+      "grad_norm": 1.104265570640564,
+      "learning_rate": 1e-05,
+      "loss": 0.2824,
+      "step": 1550
+    },
+    {
+      "epoch": 0.814663951120163,
+      "grad_norm": 0.8793336749076843,
+      "learning_rate": 1e-05,
+      "loss": 0.2901,
+      "step": 1600
+    },
+    {
+      "epoch": 0.814663951120163,
+      "eval_loss": 0.28652000427246094,
+      "eval_runtime": 21.8736,
+      "eval_samples_per_second": 4.572,
+      "eval_steps_per_second": 0.594,
+      "step": 1600
+    },
+    {
+      "epoch": 0.840122199592668,
+      "grad_norm": 1.2304877042770386,
+      "learning_rate": 1e-05,
+      "loss": 0.2718,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8655804480651731,
+      "grad_norm": 0.9079441428184509,
+      "learning_rate": 1e-05,
+      "loss": 0.2787,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8655804480651731,
+      "eval_loss": 0.2839984893798828,
+      "eval_runtime": 21.7844,
+      "eval_samples_per_second": 4.59,
+      "eval_steps_per_second": 0.597,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8910386965376782,
+      "grad_norm": 1.359052300453186,
+      "learning_rate": 1e-05,
+      "loss": 0.2703,
+      "step": 1750
+    },
+    {
+      "epoch": 0.9164969450101833,
+      "grad_norm": 1.0245873928070068,
+      "learning_rate": 1e-05,
+      "loss": 0.2678,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9164969450101833,
+      "eval_loss": 0.2825533151626587,
+      "eval_runtime": 22.022,
+      "eval_samples_per_second": 4.541,
+      "eval_steps_per_second": 0.59,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9419551934826884,
+      "grad_norm": 0.9011121988296509,
+      "learning_rate": 1e-05,
+      "loss": 0.2747,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9674134419551935,
+      "grad_norm": 1.006032943725586,
+      "learning_rate": 1e-05,
+      "loss": 0.2721,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9674134419551935,
+      "eval_loss": 0.2824758291244507,
+      "eval_runtime": 22.1289,
+      "eval_samples_per_second": 4.519,
+      "eval_steps_per_second": 0.587,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9928716904276986,
+      "grad_norm": 0.9993594288825989,
+      "learning_rate": 1e-05,
+      "loss": 0.2784,
+      "step": 1950
+    },
+    {
+      "epoch": 1.0183299389002036,
+      "grad_norm": 0.9710284471511841,
+      "learning_rate": 1e-05,
+      "loss": 0.2713,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0183299389002036,
+      "eval_loss": 0.2820639908313751,
+      "eval_runtime": 21.7507,
+      "eval_samples_per_second": 4.598,
+      "eval_steps_per_second": 0.598,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0437881873727088,
+      "grad_norm": 1.2046750783920288,
+      "learning_rate": 1e-05,
+      "loss": 0.2799,
+      "step": 2050
+    },
+    {
+      "epoch": 1.0692464358452138,
+      "grad_norm": 0.9969730377197266,
+      "learning_rate": 1e-05,
+      "loss": 0.2842,
+      "step": 2100
+    },
+    {
+      "epoch": 1.0692464358452138,
+      "eval_loss": 0.28064805269241333,
+      "eval_runtime": 21.7423,
+      "eval_samples_per_second": 4.599,
+      "eval_steps_per_second": 0.598,
+      "step": 2100
+    },
+    {
+      "epoch": 1.094704684317719,
+      "grad_norm": 0.9368526339530945,
+      "learning_rate": 1e-05,
+      "loss": 0.2783,
+      "step": 2150
+    },
+    {
+      "epoch": 1.120162932790224,
+      "grad_norm": 1.2995036840438843,
+      "learning_rate": 1e-05,
+      "loss": 0.2781,
+      "step": 2200
+    },
+    {
+      "epoch": 1.120162932790224,
+      "eval_loss": 0.2789928913116455,
+      "eval_runtime": 21.6436,
+      "eval_samples_per_second": 4.62,
+      "eval_steps_per_second": 0.601,
+      "step": 2200
+    },
+    {
+      "epoch": 1.145621181262729,
+      "grad_norm": 1.2737852334976196,
+      "learning_rate": 1e-05,
+      "loss": 0.2731,
+      "step": 2250
+    },
+    {
+      "epoch": 1.1710794297352343,
+      "grad_norm": 1.0202410221099854,
+      "learning_rate": 1e-05,
+      "loss": 0.273,
+      "step": 2300
+    },
+    {
+      "epoch": 1.1710794297352343,
+      "eval_loss": 0.27778831124305725,
+      "eval_runtime": 21.9156,
+      "eval_samples_per_second": 4.563,
+      "eval_steps_per_second": 0.593,
+      "step": 2300
+    },
+    {
+      "epoch": 1.1965376782077393,
+      "grad_norm": 0.9710997939109802,
+      "learning_rate": 1e-05,
+      "loss": 0.2578,
+      "step": 2350
+    },
+    {
+      "epoch": 1.2219959266802445,
+      "grad_norm": 0.86209636926651,
+      "learning_rate": 1e-05,
+      "loss": 0.2714,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2219959266802445,
+      "eval_loss": 0.27559801936149597,
+      "eval_runtime": 21.9259,
+      "eval_samples_per_second": 4.561,
+      "eval_steps_per_second": 0.593,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2474541751527495,
+      "grad_norm": 1.0652376413345337,
+      "learning_rate": 1e-05,
+      "loss": 0.265,
+      "step": 2450
+    },
+    {
+      "epoch": 1.2729124236252547,
+      "grad_norm": 1.002944827079773,
+      "learning_rate": 1e-05,
+      "loss": 0.2536,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2729124236252547,
+      "eval_loss": 0.2747356593608856,
+      "eval_runtime": 21.9091,
+      "eval_samples_per_second": 4.564,
+      "eval_steps_per_second": 0.593,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2983706720977597,
+      "grad_norm": 1.0743255615234375,
+      "learning_rate": 1e-05,
+      "loss": 0.2742,
+      "step": 2550
+    },
+    {
+      "epoch": 1.3238289205702647,
+      "grad_norm": 1.2174959182739258,
+      "learning_rate": 1e-05,
+      "loss": 0.268,
+      "step": 2600
+    },
+    {
+      "epoch": 1.3238289205702647,
+      "eval_loss": 0.27502280473709106,
+      "eval_runtime": 21.9371,
+      "eval_samples_per_second": 4.558,
+      "eval_steps_per_second": 0.593,
+      "step": 2600
+    },
+    {
+      "epoch": 1.34928716904277,
+      "grad_norm": 1.1314553022384644,
+      "learning_rate": 1e-05,
+      "loss": 0.26,
+      "step": 2650
+    },
+    {
+      "epoch": 1.374745417515275,
+      "grad_norm": 1.007804036140442,
+      "learning_rate": 1e-05,
+      "loss": 0.2776,
+      "step": 2700
+    },
+    {
+      "epoch": 1.374745417515275,
+      "eval_loss": 0.27191075682640076,
+      "eval_runtime": 21.9972,
+      "eval_samples_per_second": 4.546,
+      "eval_steps_per_second": 0.591,
+      "step": 2700
+    },
+    {
+      "epoch": 1.4002036659877801,
+      "grad_norm": 1.1400426626205444,
+      "learning_rate": 1e-05,
+      "loss": 0.2577,
+      "step": 2750
+    },
+    {
+      "epoch": 1.4256619144602851,
+      "grad_norm": 0.9301505088806152,
+      "learning_rate": 1e-05,
+      "loss": 0.2726,
+      "step": 2800
+    },
+    {
+      "epoch": 1.4256619144602851,
+      "eval_loss": 0.2725023925304413,
+      "eval_runtime": 21.722,
+      "eval_samples_per_second": 4.604,
+      "eval_steps_per_second": 0.598,
+      "step": 2800
+    },
+    {
+      "epoch": 1.4511201629327903,
+      "grad_norm": 1.142259120941162,
+      "learning_rate": 1e-05,
+      "loss": 0.2635,
+      "step": 2850
+    },
+    {
+      "epoch": 1.4765784114052953,
+      "grad_norm": 1.1009142398834229,
+      "learning_rate": 1e-05,
+      "loss": 0.2572,
+      "step": 2900
+    },
+    {
+      "epoch": 1.4765784114052953,
+      "eval_loss": 0.2723616063594818,
+      "eval_runtime": 21.8662,
+      "eval_samples_per_second": 4.573,
+      "eval_steps_per_second": 0.595,
+      "step": 2900
+    },
+    {
+      "epoch": 1.5020366598778003,
+      "grad_norm": 1.2985098361968994,
+      "learning_rate": 1e-05,
+      "loss": 0.2477,
+      "step": 2950
+    },
+    {
+      "epoch": 1.5274949083503055,
+      "grad_norm": 1.2853788137435913,
+      "learning_rate": 1e-05,
+      "loss": 0.2518,
+      "step": 3000
+    },
+    {
+      "epoch": 1.5274949083503055,
+      "eval_loss": 0.2711648643016815,
+      "eval_runtime": 22.1089,
+      "eval_samples_per_second": 4.523,
+      "eval_steps_per_second": 0.588,
+      "step": 3000
+    },
+    {
+      "epoch": 1.5529531568228105,
+      "grad_norm": 1.3646196126937866,
+      "learning_rate": 1e-05,
+      "loss": 0.2545,
+      "step": 3050
+    },
+    {
+      "epoch": 1.5784114052953155,
+      "grad_norm": 1.0580254793167114,
+      "learning_rate": 1e-05,
+      "loss": 0.2665,
+      "step": 3100
+    },
+    {
+      "epoch": 1.5784114052953155,
+      "eval_loss": 0.27152860164642334,
+      "eval_runtime": 21.563,
+      "eval_samples_per_second": 4.638,
+      "eval_steps_per_second": 0.603,
+      "step": 3100
+    },
+    {
+      "epoch": 1.6038696537678208,
+      "grad_norm": 1.529466152191162,
+      "learning_rate": 1e-05,
+      "loss": 0.2589,
+      "step": 3150
+    },
+    {
+      "epoch": 1.629327902240326,
+      "grad_norm": 1.0657099485397339,
+      "learning_rate": 1e-05,
+      "loss": 0.2559,
+      "step": 3200
+    },
+    {
+      "epoch": 1.629327902240326,
+      "eval_loss": 0.2696399390697479,
+      "eval_runtime": 21.6487,
+      "eval_samples_per_second": 4.619,
+      "eval_steps_per_second": 0.6,
+      "step": 3200
+    },
+    {
+      "epoch": 1.654786150712831,
+      "grad_norm": 1.0233310461044312,
+      "learning_rate": 1e-05,
+      "loss": 0.2654,
+      "step": 3250
+    },
+    {
+      "epoch": 1.680244399185336,
+      "grad_norm": 1.151859998703003,
+      "learning_rate": 1e-05,
+      "loss": 0.2609,
+      "step": 3300
+    },
+    {
+      "epoch": 1.680244399185336,
+      "eval_loss": 0.26971447467803955,
+      "eval_runtime": 21.8279,
+      "eval_samples_per_second": 4.581,
+      "eval_steps_per_second": 0.596,
+      "step": 3300
+    },
+    {
+      "epoch": 1.7057026476578412,
+      "grad_norm": 1.1169921159744263,
+      "learning_rate": 1e-05,
+      "loss": 0.266,
+      "step": 3350
+    },
+    {
+      "epoch": 1.7311608961303462,
+      "grad_norm": 0.9375786185264587,
+      "learning_rate": 1e-05,
+      "loss": 0.2603,
+      "step": 3400
+    },
+    {
+      "epoch": 1.7311608961303462,
+      "eval_loss": 0.26760581135749817,
+      "eval_runtime": 21.6655,
+      "eval_samples_per_second": 4.616,
+      "eval_steps_per_second": 0.6,
+      "step": 3400
+    },
+    {
+      "epoch": 1.7566191446028512,
+      "grad_norm": 1.0559574365615845,
+      "learning_rate": 1e-05,
+      "loss": 0.2644,
+      "step": 3450
+    },
+    {
+      "epoch": 1.7820773930753564,
+      "grad_norm": 1.1326260566711426,
+      "learning_rate": 1e-05,
+      "loss": 0.2448,
+      "step": 3500
+    },
+    {
+      "epoch": 1.7820773930753564,
+      "eval_loss": 0.2665054500102997,
+      "eval_runtime": 21.6484,
+      "eval_samples_per_second": 4.619,
+      "eval_steps_per_second": 0.601,
+      "step": 3500
+    },
+    {
+      "epoch": 1.8075356415478616,
+      "grad_norm": 1.396811842918396,
+      "learning_rate": 1e-05,
+      "loss": 0.252,
+      "step": 3550
+    },
+    {
+      "epoch": 1.8329938900203666,
+      "grad_norm": 1.6235796213150024,
+      "learning_rate": 1e-05,
+      "loss": 0.2587,
+      "step": 3600
+    },
+    {
+      "epoch": 1.8329938900203666,
+      "eval_loss": 0.2665034234523773,
+      "eval_runtime": 21.9855,
+      "eval_samples_per_second": 4.548,
+      "eval_steps_per_second": 0.591,
+      "step": 3600
+    },
+    {
+      "epoch": 1.8584521384928716,
+      "grad_norm": 1.2640048265457153,
+      "learning_rate": 1e-05,
+      "loss": 0.2525,
+      "step": 3650
+    },
+    {
+      "epoch": 1.8839103869653768,
+      "grad_norm": 1.1669272184371948,
+      "learning_rate": 1e-05,
+      "loss": 0.2534,
+      "step": 3700
+    },
+    {
+      "epoch": 1.8839103869653768,
+      "eval_loss": 0.26496145129203796,
+      "eval_runtime": 22.0324,
+      "eval_samples_per_second": 4.539,
+      "eval_steps_per_second": 0.59,
+      "step": 3700
+    },
+    {
+      "epoch": 1.9093686354378818,
+      "grad_norm": 1.2015262842178345,
+      "learning_rate": 1e-05,
+      "loss": 0.2532,
+      "step": 3750
+    },
+    {
+      "epoch": 1.9348268839103868,
+      "grad_norm": 1.0683043003082275,
+      "learning_rate": 1e-05,
+      "loss": 0.2496,
+      "step": 3800
+    },
+    {
+      "epoch": 1.9348268839103868,
+      "eval_loss": 0.2648490369319916,
+      "eval_runtime": 21.9752,
+      "eval_samples_per_second": 4.551,
+      "eval_steps_per_second": 0.592,
+      "step": 3800
+    },
+    {
+      "epoch": 1.960285132382892,
+      "grad_norm": 1.4562475681304932,
+      "learning_rate": 1e-05,
+      "loss": 0.242,
+      "step": 3850
+    },
+    {
+      "epoch": 1.9857433808553973,
+      "grad_norm": 0.9929770231246948,
+      "learning_rate": 1e-05,
+      "loss": 0.2528,
+      "step": 3900
+    },
+    {
+      "epoch": 1.9857433808553973,
+      "eval_loss": 0.263571560382843,
+      "eval_runtime": 21.7216,
+      "eval_samples_per_second": 4.604,
+      "eval_steps_per_second": 0.598,
+      "step": 3900
+    },
+    {
+      "epoch": 2.011201629327902,
+      "grad_norm": 1.0417041778564453,
+      "learning_rate": 1e-05,
+      "loss": 0.2452,
+      "step": 3950
+    },
+    {
+      "epoch": 2.0366598778004072,
+      "grad_norm": 1.0510022640228271,
+      "learning_rate": 1e-05,
+      "loss": 0.2652,
+      "step": 4000
+    },
+    {
+      "epoch": 2.0366598778004072,
+      "eval_loss": 0.262724906206131,
+      "eval_runtime": 22.0633,
+      "eval_samples_per_second": 4.532,
+      "eval_steps_per_second": 0.589,
+      "step": 4000
+    },
+    {
+      "epoch": 2.0621181262729125,
+      "grad_norm": 1.383092999458313,
+      "learning_rate": 1e-05,
+      "loss": 0.2369,
+      "step": 4050
+    },
+    {
+      "epoch": 2.0875763747454177,
+      "grad_norm": 1.3613831996917725,
+      "learning_rate": 1e-05,
+      "loss": 0.2493,
+      "step": 4100
+    },
+    {
+      "epoch": 2.0875763747454177,
+      "eval_loss": 0.2625581622123718,
+      "eval_runtime": 21.7251,
+      "eval_samples_per_second": 4.603,
+      "eval_steps_per_second": 0.598,
+      "step": 4100
+    },
+    {
+      "epoch": 2.1130346232179225,
+      "grad_norm": 1.0267040729522705,
+      "learning_rate": 1e-05,
+      "loss": 0.2511,
+      "step": 4150
+    },
+    {
+      "epoch": 2.1384928716904277,
+      "grad_norm": 0.9748584032058716,
+      "learning_rate": 1e-05,
+      "loss": 0.2383,
+      "step": 4200
+    },
+    {
+      "epoch": 2.1384928716904277,
+      "eval_loss": 0.26004984974861145,
+      "eval_runtime": 21.6797,
+      "eval_samples_per_second": 4.613,
+      "eval_steps_per_second": 0.6,
+      "step": 4200
+    },
+    {
+      "epoch": 2.163951120162933,
+      "grad_norm": 1.3859432935714722,
+      "learning_rate": 1e-05,
+      "loss": 0.2544,
+      "step": 4250
+    },
+    {
+      "epoch": 2.189409368635438,
+      "grad_norm": 1.598718285560608,
+      "learning_rate": 1e-05,
+      "loss": 0.2527,
+      "step": 4300
+    },
+    {
+      "epoch": 2.189409368635438,
+      "eval_loss": 0.25936272740364075,
+      "eval_runtime": 21.803,
+      "eval_samples_per_second": 4.587,
+      "eval_steps_per_second": 0.596,
+      "step": 4300
+    },
+    {
+      "epoch": 2.214867617107943,
+      "grad_norm": 0.9896050691604614,
+      "learning_rate": 1e-05,
+      "loss": 0.2423,
+      "step": 4350
+    },
+    {
+      "epoch": 2.240325865580448,
+      "grad_norm": 1.4134578704833984,
+      "learning_rate": 1e-05,
+      "loss": 0.2446,
+      "step": 4400
+    },
+    {
+      "epoch": 2.240325865580448,
+      "eval_loss": 0.2597595751285553,
+      "eval_runtime": 21.9078,
+      "eval_samples_per_second": 4.565,
+      "eval_steps_per_second": 0.593,
+      "step": 4400
+    },
+    {
+      "epoch": 2.2657841140529533,
+      "grad_norm": 1.1840572357177734,
+      "learning_rate": 1e-05,
+      "loss": 0.251,
+      "step": 4450
+    },
+    {
+      "epoch": 2.291242362525458,
+      "grad_norm": 1.3326150178909302,
+      "learning_rate": 1e-05,
+      "loss": 0.2504,
+      "step": 4500
+    },
+    {
+      "epoch": 2.291242362525458,
+      "eval_loss": 0.2583908438682556,
+      "eval_runtime": 21.7836,
+      "eval_samples_per_second": 4.591,
+      "eval_steps_per_second": 0.597,
+      "step": 4500
+    },
+    {
+      "epoch": 2.3167006109979633,
+      "grad_norm": 1.4150619506835938,
+      "learning_rate": 1e-05,
+      "loss": 0.2481,
+      "step": 4550
+    },
+    {
+      "epoch": 2.3421588594704685,
+      "grad_norm": 1.4056681394577026,
+      "learning_rate": 1e-05,
+      "loss": 0.2474,
+      "step": 4600
+    },
+    {
+      "epoch": 2.3421588594704685,
+      "eval_loss": 0.25896069407463074,
+      "eval_runtime": 21.9165,
+      "eval_samples_per_second": 4.563,
+      "eval_steps_per_second": 0.593,
+      "step": 4600
+    },
+    {
+      "epoch": 2.3676171079429738,
+      "grad_norm": 1.1109027862548828,
+      "learning_rate": 1e-05,
+      "loss": 0.2447,
+      "step": 4650
+    },
+    {
+      "epoch": 2.3930753564154785,
+      "grad_norm": 1.1159225702285767,
+      "learning_rate": 1e-05,
+      "loss": 0.2482,
+      "step": 4700
+    },
+    {
+      "epoch": 2.3930753564154785,
+      "eval_loss": 0.2578243911266327,
+      "eval_runtime": 21.5943,
+      "eval_samples_per_second": 4.631,
+      "eval_steps_per_second": 0.602,
+      "step": 4700
+    },
+    {
+      "epoch": 2.4185336048879837,
+      "grad_norm": 1.1924070119857788,
+      "learning_rate": 1e-05,
+      "loss": 0.2506,
+      "step": 4750
+    },
+    {
+      "epoch": 2.443991853360489,
+      "grad_norm": 1.5512938499450684,
+      "learning_rate": 1e-05,
+      "loss": 0.2405,
+      "step": 4800
+    },
+    {
+      "epoch": 2.443991853360489,
+      "eval_loss": 0.2575813829898834,
+      "eval_runtime": 22.0278,
+      "eval_samples_per_second": 4.54,
+      "eval_steps_per_second": 0.59,
+      "step": 4800
+    },
+    {
+      "epoch": 2.4694501018329937,
+      "grad_norm": 1.0490576028823853,
+      "learning_rate": 1e-05,
+      "loss": 0.2476,
+      "step": 4850
+    },
+    {
+      "epoch": 2.494908350305499,
+      "grad_norm": 1.0198191404342651,
+      "learning_rate": 1e-05,
+      "loss": 0.2399,
+      "step": 4900
+    },
+    {
+      "epoch": 2.494908350305499,
+      "eval_loss": 0.25637081265449524,
+      "eval_runtime": 21.9152,
+      "eval_samples_per_second": 4.563,
+      "eval_steps_per_second": 0.593,
+      "step": 4900
+    },
+    {
+      "epoch": 2.520366598778004,
+      "grad_norm": 1.122515320777893,
+      "learning_rate": 1e-05,
+      "loss": 0.2501,
+      "step": 4950
+    },
+    {
+      "epoch": 2.5458248472505094,
+      "grad_norm": 1.082686424255371,
+      "learning_rate": 1e-05,
+      "loss": 0.2443,
+      "step": 5000
+    },
+    {
+      "epoch": 2.5458248472505094,
+      "eval_loss": 0.25523728132247925,
+      "eval_runtime": 21.0107,
+      "eval_samples_per_second": 4.759,
+      "eval_steps_per_second": 0.619,
+      "step": 5000
+    },
+    {
+      "epoch": 2.571283095723014,
+      "grad_norm": 1.0135226249694824,
+      "learning_rate": 1e-05,
+      "loss": 0.2414,
+      "step": 5050
+    },
+    {
+      "epoch": 2.5967413441955194,
+      "grad_norm": 0.9929371476173401,
+      "learning_rate": 1e-05,
+      "loss": 0.248,
+      "step": 5100
+    },
+    {
+      "epoch": 2.5967413441955194,
+      "eval_loss": 0.2532651722431183,
+      "eval_runtime": 21.3518,
+      "eval_samples_per_second": 4.683,
+      "eval_steps_per_second": 0.609,
+      "step": 5100
+    },
+    {
+      "epoch": 2.6221995926680246,
+      "grad_norm": 1.1128815412521362,
+      "learning_rate": 1e-05,
+      "loss": 0.2375,
+      "step": 5150
+    },
+    {
+      "epoch": 2.6476578411405294,
+      "grad_norm": 1.5581951141357422,
+      "learning_rate": 1e-05,
+      "loss": 0.2432,
+      "step": 5200
+    },
+    {
+      "epoch": 2.6476578411405294,
+      "eval_loss": 0.2521425485610962,
+      "eval_runtime": 21.0088,
+      "eval_samples_per_second": 4.76,
+      "eval_steps_per_second": 0.619,
+      "step": 5200
+    },
+    {
+      "epoch": 2.6731160896130346,
+      "grad_norm": 1.1291751861572266,
+      "learning_rate": 1e-05,
+      "loss": 0.2415,
+      "step": 5250
+    },
+    {
+      "epoch": 2.69857433808554,
+      "grad_norm": 1.139137625694275,
+      "learning_rate": 1e-05,
+      "loss": 0.2398,
+      "step": 5300
+    },
+    {
+      "epoch": 2.69857433808554,
+      "eval_loss": 0.25268828868865967,
+      "eval_runtime": 21.7715,
+      "eval_samples_per_second": 4.593,
+      "eval_steps_per_second": 0.597,
+      "step": 5300
+    },
+    {
+      "epoch": 2.724032586558045,
+      "grad_norm": 1.0960917472839355,
+      "learning_rate": 1e-05,
+      "loss": 0.2397,
+      "step": 5350
+    },
+    {
+      "epoch": 2.74949083503055,
+      "grad_norm": 1.4622306823730469,
+      "learning_rate": 1e-05,
+      "loss": 0.2371,
+      "step": 5400
+    },
+    {
+      "epoch": 2.74949083503055,
+      "eval_loss": 0.25145551562309265,
+      "eval_runtime": 21.3534,
+      "eval_samples_per_second": 4.683,
+      "eval_steps_per_second": 0.609,
+      "step": 5400
+    },
+    {
+      "epoch": 2.774949083503055,
+      "grad_norm": 1.0508596897125244,
+      "learning_rate": 1e-05,
+      "loss": 0.2389,
+      "step": 5450
+    },
+    {
+      "epoch": 2.8004073319755602,
+      "grad_norm": 0.8241857886314392,
+      "learning_rate": 1e-05,
+      "loss": 0.2403,
+      "step": 5500
+    },
+    {
+      "epoch": 2.8004073319755602,
+      "eval_loss": 0.25168588757514954,
+      "eval_runtime": 21.2395,
+      "eval_samples_per_second": 4.708,
+      "eval_steps_per_second": 0.612,
+      "step": 5500
+    },
+    {
+      "epoch": 2.825865580448065,
+      "grad_norm": 1.214141845703125,
+      "learning_rate": 1e-05,
+      "loss": 0.2406,
+      "step": 5550
+    },
+    {
+      "epoch": 2.8513238289205702,
+      "grad_norm": 1.3861531019210815,
+      "learning_rate": 1e-05,
+      "loss": 0.2479,
+      "step": 5600
+    },
+    {
+      "epoch": 2.8513238289205702,
+      "eval_loss": 0.24935197830200195,
+      "eval_runtime": 21.4872,
+      "eval_samples_per_second": 4.654,
+      "eval_steps_per_second": 0.605,
+      "step": 5600
+    },
+    {
+      "epoch": 2.8767820773930755,
+      "grad_norm": 1.1861828565597534,
+      "learning_rate": 1e-05,
+      "loss": 0.2318,
+      "step": 5650
+    },
+    {
+      "epoch": 2.9022403258655807,
+      "grad_norm": 1.1281813383102417,
+      "learning_rate": 1e-05,
+      "loss": 0.2413,
+      "step": 5700
+    },
+    {
+      "epoch": 2.9022403258655807,
+      "eval_loss": 0.25039103627204895,
+      "eval_runtime": 20.9675,
+      "eval_samples_per_second": 4.769,
+      "eval_steps_per_second": 0.62,
+      "step": 5700
+    },
+    {
+      "epoch": 2.9276985743380854,
+      "grad_norm": 1.1463491916656494,
+      "learning_rate": 1e-05,
+      "loss": 0.2364,
+      "step": 5750
+    },
+    {
+      "epoch": 2.9531568228105907,
+      "grad_norm": 1.3118984699249268,
+      "learning_rate": 1e-05,
+      "loss": 0.2388,
+      "step": 5800
+    },
+    {
+      "epoch": 2.9531568228105907,
+      "eval_loss": 0.24982962012290955,
+      "eval_runtime": 21.5908,
+      "eval_samples_per_second": 4.632,
+      "eval_steps_per_second": 0.602,
+      "step": 5800
+    },
+    {
+      "epoch": 2.978615071283096,
+      "grad_norm": 1.0851026773452759,
+      "learning_rate": 1e-05,
+      "loss": 0.2348,
+      "step": 5850
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5891,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.421089311391744e+20,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}