{
  "best_metric": 0.7787196636199951,
  "best_model_checkpoint": "miner_id_24/checkpoint-75",
  "epoch": 0.507399577167019,
  "eval_steps": 25,
  "global_step": 75,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.006765327695560253,
      "grad_norm": 0.4105001389980316,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 1.1547,
      "step": 1
    },
    {
      "epoch": 0.006765327695560253,
      "eval_loss": 1.3302627801895142,
      "eval_runtime": 5.5813,
      "eval_samples_per_second": 8.958,
      "eval_steps_per_second": 2.329,
      "step": 1
    },
    {
      "epoch": 0.013530655391120507,
      "grad_norm": 0.4988150894641876,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.1957,
      "step": 2
    },
    {
      "epoch": 0.02029598308668076,
      "grad_norm": 0.5284056663513184,
      "learning_rate": 0.0001,
      "loss": 1.2429,
      "step": 3
    },
    {
      "epoch": 0.027061310782241013,
      "grad_norm": 0.6159738302230835,
      "learning_rate": 9.99571699711836e-05,
      "loss": 1.2172,
      "step": 4
    },
    {
      "epoch": 0.03382663847780127,
      "grad_norm": 0.6695424318313599,
      "learning_rate": 9.982876141412856e-05,
      "loss": 1.1396,
      "step": 5
    },
    {
      "epoch": 0.04059196617336152,
      "grad_norm": 0.46587496995925903,
      "learning_rate": 9.961501876182148e-05,
      "loss": 1.1083,
      "step": 6
    },
    {
      "epoch": 0.047357293868921777,
      "grad_norm": 0.5138280987739563,
      "learning_rate": 9.931634888554937e-05,
      "loss": 1.0178,
      "step": 7
    },
    {
      "epoch": 0.054122621564482026,
      "grad_norm": 0.6567085981369019,
      "learning_rate": 9.893332032039701e-05,
      "loss": 0.9936,
      "step": 8
    },
    {
      "epoch": 0.06088794926004228,
      "grad_norm": 0.4991365969181061,
      "learning_rate": 9.846666218300807e-05,
      "loss": 0.9567,
      "step": 9
    },
    {
      "epoch": 0.06765327695560254,
      "grad_norm": 0.42876169085502625,
      "learning_rate": 9.791726278367022e-05,
      "loss": 0.9446,
      "step": 10
    },
    {
      "epoch": 0.07441860465116279,
      "grad_norm": 0.41731691360473633,
      "learning_rate": 9.728616793536588e-05,
      "loss": 0.9218,
      "step": 11
    },
    {
      "epoch": 0.08118393234672304,
      "grad_norm": 2.934391975402832,
      "learning_rate": 9.657457896300791e-05,
      "loss": 0.9585,
      "step": 12
    },
    {
      "epoch": 0.0879492600422833,
      "grad_norm": 1.6130743026733398,
      "learning_rate": 9.578385041664925e-05,
      "loss": 0.9643,
      "step": 13
    },
    {
      "epoch": 0.09471458773784355,
      "grad_norm": 1.1588642597198486,
      "learning_rate": 9.491548749301997e-05,
      "loss": 0.942,
      "step": 14
    },
    {
      "epoch": 0.1014799154334038,
      "grad_norm": 0.9010165929794312,
      "learning_rate": 9.397114317029975e-05,
      "loss": 0.9326,
      "step": 15
    },
    {
      "epoch": 0.10824524312896405,
      "grad_norm": 0.3292103707790375,
      "learning_rate": 9.295261506157986e-05,
      "loss": 0.9024,
      "step": 16
    },
    {
      "epoch": 0.11501057082452432,
      "grad_norm": 0.2744453251361847,
      "learning_rate": 9.186184199300464e-05,
      "loss": 0.868,
      "step": 17
    },
    {
      "epoch": 0.12177589852008457,
      "grad_norm": 0.2665325999259949,
      "learning_rate": 9.070090031310558e-05,
      "loss": 0.8674,
      "step": 18
    },
    {
      "epoch": 0.12854122621564482,
      "grad_norm": 0.23800139129161835,
      "learning_rate": 8.947199994035401e-05,
      "loss": 0.8713,
      "step": 19
    },
    {
      "epoch": 0.13530655391120508,
      "grad_norm": 0.24993380904197693,
      "learning_rate": 8.817748015645558e-05,
      "loss": 0.8562,
      "step": 20
    },
    {
      "epoch": 0.14207188160676532,
      "grad_norm": 0.26530978083610535,
      "learning_rate": 8.681980515339464e-05,
      "loss": 0.8761,
      "step": 21
    },
    {
      "epoch": 0.14883720930232558,
      "grad_norm": 0.27946487069129944,
      "learning_rate": 8.540155934270471e-05,
      "loss": 0.8727,
      "step": 22
    },
    {
      "epoch": 0.15560253699788584,
      "grad_norm": 0.30878332257270813,
      "learning_rate": 8.392544243589427e-05,
      "loss": 0.8535,
      "step": 23
    },
    {
      "epoch": 0.16236786469344608,
      "grad_norm": 0.37868309020996094,
      "learning_rate": 8.239426430539243e-05,
      "loss": 0.8772,
      "step": 24
    },
    {
      "epoch": 0.16913319238900634,
      "grad_norm": 0.35293129086494446,
      "learning_rate": 8.081093963579707e-05,
      "loss": 0.9301,
      "step": 25
    },
    {
      "epoch": 0.16913319238900634,
      "eval_loss": 0.8348499536514282,
      "eval_runtime": 5.375,
      "eval_samples_per_second": 9.302,
      "eval_steps_per_second": 2.419,
      "step": 25
    },
    {
      "epoch": 0.1758985200845666,
      "grad_norm": 0.2902161180973053,
      "learning_rate": 7.917848237560709e-05,
      "loss": 0.9089,
      "step": 26
    },
    {
      "epoch": 0.18266384778012684,
      "grad_norm": 0.2747015058994293,
      "learning_rate": 7.75e-05,
      "loss": 0.9002,
      "step": 27
    },
    {
      "epoch": 0.1894291754756871,
      "grad_norm": 0.2739669680595398,
      "learning_rate": 7.577868759557654e-05,
      "loss": 0.8693,
      "step": 28
    },
    {
      "epoch": 0.19619450317124737,
      "grad_norm": 0.32363882660865784,
      "learning_rate": 7.401782177833148e-05,
      "loss": 0.87,
      "step": 29
    },
    {
      "epoch": 0.2029598308668076,
      "grad_norm": 0.22914020717144012,
      "learning_rate": 7.222075445642904e-05,
      "loss": 0.8642,
      "step": 30
    },
    {
      "epoch": 0.20972515856236787,
      "grad_norm": 0.22579313814640045,
      "learning_rate": 7.03909064496551e-05,
      "loss": 0.8326,
      "step": 31
    },
    {
      "epoch": 0.2164904862579281,
      "grad_norm": 0.21553149819374084,
      "learning_rate": 6.853176097769229e-05,
      "loss": 0.8511,
      "step": 32
    },
    {
      "epoch": 0.22325581395348837,
      "grad_norm": 0.2171638011932373,
      "learning_rate": 6.664685702961344e-05,
      "loss": 0.8291,
      "step": 33
    },
    {
      "epoch": 0.23002114164904863,
      "grad_norm": 0.23992548882961273,
      "learning_rate": 6.473978262721463e-05,
      "loss": 0.8349,
      "step": 34
    },
    {
      "epoch": 0.23678646934460887,
      "grad_norm": 0.2586527466773987,
      "learning_rate": 6.281416799501188e-05,
      "loss": 0.8241,
      "step": 35
    },
    {
      "epoch": 0.24355179704016913,
      "grad_norm": 0.30564969778060913,
      "learning_rate": 6.087367864990233e-05,
      "loss": 0.806,
      "step": 36
    },
    {
      "epoch": 0.25031712473572937,
      "grad_norm": 0.31983381509780884,
      "learning_rate": 5.8922008423644624e-05,
      "loss": 0.8733,
      "step": 37
    },
    {
      "epoch": 0.25708245243128963,
      "grad_norm": 0.23221205174922943,
      "learning_rate": 5.696287243144013e-05,
      "loss": 0.8931,
      "step": 38
    },
    {
      "epoch": 0.2638477801268499,
      "grad_norm": 0.22967343032360077,
      "learning_rate": 5.500000000000001e-05,
      "loss": 0.8619,
      "step": 39
    },
    {
      "epoch": 0.27061310782241016,
      "grad_norm": 0.21873976290225983,
      "learning_rate": 5.303712756855988e-05,
      "loss": 0.8559,
      "step": 40
    },
    {
      "epoch": 0.2773784355179704,
      "grad_norm": 0.21719108521938324,
      "learning_rate": 5.107799157635538e-05,
      "loss": 0.8557,
      "step": 41
    },
    {
      "epoch": 0.28414376321353063,
      "grad_norm": 0.22952087223529816,
      "learning_rate": 4.912632135009769e-05,
      "loss": 0.8358,
      "step": 42
    },
    {
      "epoch": 0.2909090909090909,
      "grad_norm": 0.20508794486522675,
      "learning_rate": 4.718583200498814e-05,
      "loss": 0.807,
      "step": 43
    },
    {
      "epoch": 0.29767441860465116,
      "grad_norm": 0.25145912170410156,
      "learning_rate": 4.526021737278538e-05,
      "loss": 0.8144,
      "step": 44
    },
    {
      "epoch": 0.3044397463002114,
      "grad_norm": 0.2271297127008438,
      "learning_rate": 4.3353142970386564e-05,
      "loss": 0.8071,
      "step": 45
    },
    {
      "epoch": 0.3112050739957717,
      "grad_norm": 0.2127731591463089,
      "learning_rate": 4.146823902230772e-05,
      "loss": 0.7954,
      "step": 46
    },
    {
      "epoch": 0.31797040169133195,
      "grad_norm": 0.2308739870786667,
      "learning_rate": 3.960909355034491e-05,
      "loss": 0.8334,
      "step": 47
    },
    {
      "epoch": 0.32473572938689216,
      "grad_norm": 0.245611771941185,
      "learning_rate": 3.777924554357096e-05,
      "loss": 0.8116,
      "step": 48
    },
    {
      "epoch": 0.3315010570824524,
      "grad_norm": 0.29155588150024414,
      "learning_rate": 3.598217822166854e-05,
      "loss": 0.8337,
      "step": 49
    },
    {
      "epoch": 0.3382663847780127,
      "grad_norm": 0.3584875762462616,
      "learning_rate": 3.422131240442349e-05,
      "loss": 0.8385,
      "step": 50
    },
    {
      "epoch": 0.3382663847780127,
      "eval_loss": 0.7932476997375488,
      "eval_runtime": 5.3869,
      "eval_samples_per_second": 9.282,
      "eval_steps_per_second": 2.413,
      "step": 50
    },
    {
      "epoch": 0.34503171247357295,
      "grad_norm": 0.1904909908771515,
      "learning_rate": 3.250000000000001e-05,
      "loss": 0.87,
      "step": 51
    },
    {
      "epoch": 0.3517970401691332,
      "grad_norm": 0.19124388694763184,
      "learning_rate": 3.082151762439293e-05,
      "loss": 0.8478,
      "step": 52
    },
    {
      "epoch": 0.3585623678646934,
      "grad_norm": 0.19980108737945557,
      "learning_rate": 2.9189060364202943e-05,
      "loss": 0.8312,
      "step": 53
    },
    {
      "epoch": 0.3653276955602537,
      "grad_norm": 0.20743730664253235,
      "learning_rate": 2.760573569460757e-05,
      "loss": 0.8215,
      "step": 54
    },
    {
      "epoch": 0.37209302325581395,
      "grad_norm": 0.19515347480773926,
      "learning_rate": 2.6074557564105727e-05,
      "loss": 0.8059,
      "step": 55
    },
    {
      "epoch": 0.3788583509513742,
      "grad_norm": 0.20205727219581604,
      "learning_rate": 2.459844065729529e-05,
      "loss": 0.8044,
      "step": 56
    },
    {
      "epoch": 0.3856236786469345,
      "grad_norm": 0.21145658195018768,
      "learning_rate": 2.3180194846605367e-05,
      "loss": 0.8261,
      "step": 57
    },
    {
      "epoch": 0.39238900634249474,
      "grad_norm": 0.22306717932224274,
      "learning_rate": 2.1822519843544424e-05,
      "loss": 0.7848,
      "step": 58
    },
    {
      "epoch": 0.39915433403805495,
      "grad_norm": 0.21222449839115143,
      "learning_rate": 2.0528000059645997e-05,
      "loss": 0.7658,
      "step": 59
    },
    {
      "epoch": 0.4059196617336152,
      "grad_norm": 0.2429528832435608,
      "learning_rate": 1.9299099686894423e-05,
      "loss": 0.7836,
      "step": 60
    },
    {
      "epoch": 0.4126849894291755,
      "grad_norm": 0.251037061214447,
      "learning_rate": 1.8138158006995364e-05,
      "loss": 0.8243,
      "step": 61
    },
    {
      "epoch": 0.41945031712473574,
      "grad_norm": 0.27348846197128296,
      "learning_rate": 1.7047384938420154e-05,
      "loss": 0.7773,
      "step": 62
    },
    {
      "epoch": 0.426215644820296,
      "grad_norm": 0.21012000739574432,
      "learning_rate": 1.602885682970026e-05,
      "loss": 0.8551,
      "step": 63
    },
    {
      "epoch": 0.4329809725158562,
      "grad_norm": 0.19766287505626678,
      "learning_rate": 1.5084512506980026e-05,
      "loss": 0.8454,
      "step": 64
    },
    {
      "epoch": 0.4397463002114165,
      "grad_norm": 0.21795031428337097,
      "learning_rate": 1.4216149583350754e-05,
      "loss": 0.8137,
      "step": 65
    },
    {
      "epoch": 0.44651162790697674,
      "grad_norm": 0.18766184151172638,
      "learning_rate": 1.3425421036992098e-05,
      "loss": 0.8081,
      "step": 66
    },
    {
      "epoch": 0.453276955602537,
      "grad_norm": 0.20499680936336517,
      "learning_rate": 1.2713832064634126e-05,
      "loss": 0.812,
      "step": 67
    },
    {
      "epoch": 0.46004228329809727,
      "grad_norm": 0.2015526294708252,
      "learning_rate": 1.2082737216329794e-05,
      "loss": 0.8016,
      "step": 68
    },
    {
      "epoch": 0.46680761099365753,
      "grad_norm": 0.2130436897277832,
      "learning_rate": 1.1533337816991932e-05,
      "loss": 0.773,
      "step": 69
    },
    {
      "epoch": 0.47357293868921774,
      "grad_norm": 0.20126216113567352,
      "learning_rate": 1.1066679679603e-05,
      "loss": 0.7987,
      "step": 70
    },
    {
      "epoch": 0.480338266384778,
      "grad_norm": 0.2301049381494522,
      "learning_rate": 1.0683651114450641e-05,
      "loss": 0.7992,
      "step": 71
    },
    {
      "epoch": 0.48710359408033826,
      "grad_norm": 0.22262722253799438,
      "learning_rate": 1.0384981238178534e-05,
      "loss": 0.8025,
      "step": 72
    },
    {
      "epoch": 0.49386892177589853,
      "grad_norm": 0.2374563217163086,
      "learning_rate": 1.017123858587145e-05,
      "loss": 0.7907,
      "step": 73
    },
    {
      "epoch": 0.5006342494714587,
      "grad_norm": 0.27033481001853943,
      "learning_rate": 1.00428300288164e-05,
      "loss": 0.7869,
      "step": 74
    },
    {
      "epoch": 0.507399577167019,
      "grad_norm": 0.39757001399993896,
      "learning_rate": 1e-05,
      "loss": 0.8538,
      "step": 75
    },
    {
      "epoch": 0.507399577167019,
      "eval_loss": 0.7787196636199951,
      "eval_runtime": 5.3775,
      "eval_samples_per_second": 9.298,
      "eval_steps_per_second": 2.417,
      "step": 75
    }
  ],
  "logging_steps": 1,
  "max_steps": 75,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.981224095776768e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}