{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.010688518749443307,
  "eval_steps": 25,
  "global_step": 75,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00014251358332591075,
      "grad_norm": 0.5286684036254883,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.3572,
      "step": 1
    },
    {
      "epoch": 0.00014251358332591075,
      "eval_loss": 0.726997971534729,
      "eval_runtime": 661.402,
      "eval_samples_per_second": 8.934,
      "eval_steps_per_second": 4.468,
      "step": 1
    },
    {
      "epoch": 0.0002850271666518215,
      "grad_norm": 0.8529459834098816,
      "learning_rate": 6.666666666666667e-05,
      "loss": 0.4774,
      "step": 2
    },
    {
      "epoch": 0.0004275407499777323,
      "grad_norm": 0.8531914353370667,
      "learning_rate": 0.0001,
      "loss": 0.4578,
      "step": 3
    },
    {
      "epoch": 0.000570054333303643,
      "grad_norm": 0.7617012858390808,
      "learning_rate": 9.99524110790929e-05,
      "loss": 0.4255,
      "step": 4
    },
    {
      "epoch": 0.0007125679166295537,
      "grad_norm": 0.8331463932991028,
      "learning_rate": 9.980973490458728e-05,
      "loss": 0.4965,
      "step": 5
    },
    {
      "epoch": 0.0008550814999554646,
      "grad_norm": 0.6015136241912842,
      "learning_rate": 9.957224306869053e-05,
      "loss": 0.3378,
      "step": 6
    },
    {
      "epoch": 0.0009975950832813753,
      "grad_norm": 0.5096763372421265,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.2702,
      "step": 7
    },
    {
      "epoch": 0.001140108666607286,
      "grad_norm": 0.5414308309555054,
      "learning_rate": 9.881480035599667e-05,
      "loss": 0.2927,
      "step": 8
    },
    {
      "epoch": 0.0012826222499331967,
      "grad_norm": 0.5943763852119446,
      "learning_rate": 9.829629131445342e-05,
      "loss": 0.3432,
      "step": 9
    },
    {
      "epoch": 0.0014251358332591074,
      "grad_norm": 0.4650630056858063,
      "learning_rate": 9.768584753741134e-05,
      "loss": 0.2631,
      "step": 10
    },
    {
      "epoch": 0.0015676494165850182,
      "grad_norm": 0.6323360204696655,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.2229,
      "step": 11
    },
    {
      "epoch": 0.0017101629999109291,
      "grad_norm": 0.5006006956100464,
      "learning_rate": 9.619397662556435e-05,
      "loss": 0.269,
      "step": 12
    },
    {
      "epoch": 0.0018526765832368398,
      "grad_norm": 0.5573012828826904,
      "learning_rate": 9.53153893518325e-05,
      "loss": 0.3009,
      "step": 13
    },
    {
      "epoch": 0.0019951901665627506,
      "grad_norm": 0.5448488593101501,
      "learning_rate": 9.435054165891109e-05,
      "loss": 0.2284,
      "step": 14
    },
    {
      "epoch": 0.002137703749888661,
      "grad_norm": 0.5544106364250183,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.3631,
      "step": 15
    },
    {
      "epoch": 0.002280217333214572,
      "grad_norm": 0.5530200004577637,
      "learning_rate": 9.21695722906443e-05,
      "loss": 0.2696,
      "step": 16
    },
    {
      "epoch": 0.002422730916540483,
      "grad_norm": 0.4284527003765106,
      "learning_rate": 9.09576022144496e-05,
      "loss": 0.1474,
      "step": 17
    },
    {
      "epoch": 0.0025652444998663934,
      "grad_norm": 0.5289801359176636,
      "learning_rate": 8.966766701456177e-05,
      "loss": 0.2195,
      "step": 18
    },
    {
      "epoch": 0.0027077580831923044,
      "grad_norm": 0.5054536461830139,
      "learning_rate": 8.83022221559489e-05,
      "loss": 0.2707,
      "step": 19
    },
    {
      "epoch": 0.002850271666518215,
      "grad_norm": 0.49131473898887634,
      "learning_rate": 8.68638668405062e-05,
      "loss": 0.2967,
      "step": 20
    },
    {
      "epoch": 0.002992785249844126,
      "grad_norm": 0.6517403721809387,
      "learning_rate": 8.535533905932738e-05,
      "loss": 0.2569,
      "step": 21
    },
    {
      "epoch": 0.0031352988331700363,
      "grad_norm": 0.5934978723526001,
      "learning_rate": 8.377951038078302e-05,
      "loss": 0.2963,
      "step": 22
    },
    {
      "epoch": 0.0032778124164959473,
      "grad_norm": 0.4970532953739166,
      "learning_rate": 8.213938048432697e-05,
      "loss": 0.1723,
      "step": 23
    },
    {
      "epoch": 0.0034203259998218582,
      "grad_norm": 0.5633928775787354,
      "learning_rate": 8.043807145043604e-05,
      "loss": 0.2567,
      "step": 24
    },
    {
      "epoch": 0.0035628395831477687,
      "grad_norm": 0.5598058700561523,
      "learning_rate": 7.86788218175523e-05,
      "loss": 0.2421,
      "step": 25
    },
    {
      "epoch": 0.0035628395831477687,
      "eval_loss": 0.2365945279598236,
      "eval_runtime": 661.1785,
      "eval_samples_per_second": 8.937,
      "eval_steps_per_second": 4.469,
      "step": 25
    },
    {
      "epoch": 0.0037053531664736797,
      "grad_norm": 0.5766668319702148,
      "learning_rate": 7.68649804173412e-05,
      "loss": 0.2285,
      "step": 26
    },
    {
      "epoch": 0.00384786674979959,
      "grad_norm": 0.5979423522949219,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.2332,
      "step": 27
    },
    {
      "epoch": 0.003990380333125501,
      "grad_norm": 0.5915391445159912,
      "learning_rate": 7.308743066175172e-05,
      "loss": 0.1864,
      "step": 28
    },
    {
      "epoch": 0.004132893916451412,
      "grad_norm": 0.4926585257053375,
      "learning_rate": 7.113091308703498e-05,
      "loss": 0.2192,
      "step": 29
    },
    {
      "epoch": 0.004275407499777322,
      "grad_norm": 0.5323159694671631,
      "learning_rate": 6.91341716182545e-05,
      "loss": 0.2427,
      "step": 30
    },
    {
      "epoch": 0.0044179210831032335,
      "grad_norm": 0.42422640323638916,
      "learning_rate": 6.710100716628344e-05,
      "loss": 0.1645,
      "step": 31
    },
    {
      "epoch": 0.004560434666429144,
      "grad_norm": 0.4056670665740967,
      "learning_rate": 6.503528997521366e-05,
      "loss": 0.1404,
      "step": 32
    },
    {
      "epoch": 0.0047029482497550545,
      "grad_norm": 0.48962685465812683,
      "learning_rate": 6.294095225512603e-05,
      "loss": 0.1816,
      "step": 33
    },
    {
      "epoch": 0.004845461833080966,
      "grad_norm": 0.5523415207862854,
      "learning_rate": 6.0821980696905146e-05,
      "loss": 0.2628,
      "step": 34
    },
    {
      "epoch": 0.004987975416406876,
      "grad_norm": 0.7031404972076416,
      "learning_rate": 5.868240888334653e-05,
      "loss": 0.1975,
      "step": 35
    },
    {
      "epoch": 0.005130488999732787,
      "grad_norm": 0.5704624056816101,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 0.1744,
      "step": 36
    },
    {
      "epoch": 0.005273002583058697,
      "grad_norm": 0.6087537407875061,
      "learning_rate": 5.435778713738292e-05,
      "loss": 0.1944,
      "step": 37
    },
    {
      "epoch": 0.005415516166384609,
      "grad_norm": 0.538994550704956,
      "learning_rate": 5.218096936826681e-05,
      "loss": 0.1498,
      "step": 38
    },
    {
      "epoch": 0.005558029749710519,
      "grad_norm": 0.5805429220199585,
      "learning_rate": 5e-05,
      "loss": 0.2031,
      "step": 39
    },
    {
      "epoch": 0.00570054333303643,
      "grad_norm": 0.48223042488098145,
      "learning_rate": 4.781903063173321e-05,
      "loss": 0.1716,
      "step": 40
    },
    {
      "epoch": 0.005843056916362341,
      "grad_norm": 0.4930039644241333,
      "learning_rate": 4.564221286261709e-05,
      "loss": 0.222,
      "step": 41
    },
    {
      "epoch": 0.005985570499688252,
      "grad_norm": 0.5086273550987244,
      "learning_rate": 4.347369038899744e-05,
      "loss": 0.1692,
      "step": 42
    },
    {
      "epoch": 0.006128084083014162,
      "grad_norm": 0.5886092782020569,
      "learning_rate": 4.131759111665349e-05,
      "loss": 0.2631,
      "step": 43
    },
    {
      "epoch": 0.006270597666340073,
      "grad_norm": 0.6095135807991028,
      "learning_rate": 3.917801930309486e-05,
      "loss": 0.2026,
      "step": 44
    },
    {
      "epoch": 0.006413111249665984,
      "grad_norm": 0.45123517513275146,
      "learning_rate": 3.705904774487396e-05,
      "loss": 0.1678,
      "step": 45
    },
    {
      "epoch": 0.0065556248329918946,
      "grad_norm": 0.5881041288375854,
      "learning_rate": 3.4964710024786354e-05,
      "loss": 0.1763,
      "step": 46
    },
    {
      "epoch": 0.006698138416317805,
      "grad_norm": 0.48113682866096497,
      "learning_rate": 3.289899283371657e-05,
      "loss": 0.1733,
      "step": 47
    },
    {
      "epoch": 0.0068406519996437164,
      "grad_norm": 0.6552814841270447,
      "learning_rate": 3.086582838174551e-05,
      "loss": 0.1934,
      "step": 48
    },
    {
      "epoch": 0.006983165582969627,
      "grad_norm": 0.5882071256637573,
      "learning_rate": 2.886908691296504e-05,
      "loss": 0.1994,
      "step": 49
    },
    {
      "epoch": 0.0071256791662955375,
      "grad_norm": 0.5063338279724121,
      "learning_rate": 2.6912569338248315e-05,
      "loss": 0.143,
      "step": 50
    },
    {
      "epoch": 0.0071256791662955375,
      "eval_loss": 0.23592181503772736,
      "eval_runtime": 662.8993,
      "eval_samples_per_second": 8.914,
      "eval_steps_per_second": 4.458,
      "step": 50
    },
    {
      "epoch": 0.007268192749621448,
      "grad_norm": 0.406108558177948,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.4125,
      "step": 51
    },
    {
      "epoch": 0.007410706332947359,
      "grad_norm": 0.46124741435050964,
      "learning_rate": 2.3135019582658802e-05,
      "loss": 0.2856,
      "step": 52
    },
    {
      "epoch": 0.00755321991627327,
      "grad_norm": 0.5175564289093018,
      "learning_rate": 2.132117818244771e-05,
      "loss": 0.3434,
      "step": 53
    },
    {
      "epoch": 0.00769573349959918,
      "grad_norm": 0.4141230583190918,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 0.2163,
      "step": 54
    },
    {
      "epoch": 0.007838247082925092,
      "grad_norm": 0.5257975459098816,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 0.3133,
      "step": 55
    },
    {
      "epoch": 0.007980760666251002,
      "grad_norm": 0.480843722820282,
      "learning_rate": 1.622048961921699e-05,
      "loss": 0.2629,
      "step": 56
    },
    {
      "epoch": 0.008123274249576913,
      "grad_norm": 0.5092347860336304,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 0.3373,
      "step": 57
    },
    {
      "epoch": 0.008265787832902823,
      "grad_norm": 0.6335684061050415,
      "learning_rate": 1.3136133159493802e-05,
      "loss": 0.2306,
      "step": 58
    },
    {
      "epoch": 0.008408301416228734,
      "grad_norm": 0.4471769630908966,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 0.2458,
      "step": 59
    },
    {
      "epoch": 0.008550814999554644,
      "grad_norm": 0.5540795922279358,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 0.3237,
      "step": 60
    },
    {
      "epoch": 0.008693328582880556,
      "grad_norm": 0.563100278377533,
      "learning_rate": 9.042397785550405e-06,
      "loss": 0.289,
      "step": 61
    },
    {
      "epoch": 0.008835842166206467,
      "grad_norm": 0.7537733912467957,
      "learning_rate": 7.830427709355725e-06,
      "loss": 0.234,
      "step": 62
    },
    {
      "epoch": 0.008978355749532377,
      "grad_norm": 0.5941769480705261,
      "learning_rate": 6.698729810778065e-06,
      "loss": 0.3997,
      "step": 63
    },
    {
      "epoch": 0.009120869332858288,
      "grad_norm": 0.4771871864795685,
      "learning_rate": 5.649458341088915e-06,
      "loss": 0.2874,
      "step": 64
    },
    {
      "epoch": 0.009263382916184199,
      "grad_norm": 0.5075575113296509,
      "learning_rate": 4.684610648167503e-06,
      "loss": 0.2415,
      "step": 65
    },
    {
      "epoch": 0.009405896499510109,
      "grad_norm": 0.5450537204742432,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 0.271,
      "step": 66
    },
    {
      "epoch": 0.00954841008283602,
      "grad_norm": 0.5052174925804138,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 0.2612,
      "step": 67
    },
    {
      "epoch": 0.009690923666161932,
      "grad_norm": 0.38948696851730347,
      "learning_rate": 2.314152462588659e-06,
      "loss": 0.2249,
      "step": 68
    },
    {
      "epoch": 0.009833437249487842,
      "grad_norm": 0.44858595728874207,
      "learning_rate": 1.70370868554659e-06,
      "loss": 0.2774,
      "step": 69
    },
    {
      "epoch": 0.009975950832813753,
      "grad_norm": 0.4744488596916199,
      "learning_rate": 1.1851996440033319e-06,
      "loss": 0.3045,
      "step": 70
    },
    {
      "epoch": 0.010118464416139663,
      "grad_norm": 0.5326921343803406,
      "learning_rate": 7.596123493895991e-07,
      "loss": 0.2987,
      "step": 71
    },
    {
      "epoch": 0.010260977999465574,
      "grad_norm": 0.5433304905891418,
      "learning_rate": 4.277569313094809e-07,
      "loss": 0.3229,
      "step": 72
    },
    {
      "epoch": 0.010403491582791484,
      "grad_norm": 0.5645239353179932,
      "learning_rate": 1.9026509541272275e-07,
      "loss": 0.2353,
      "step": 73
    },
    {
      "epoch": 0.010546005166117395,
      "grad_norm": 0.4569799602031708,
      "learning_rate": 4.7588920907110094e-08,
      "loss": 0.2181,
      "step": 74
    },
    {
      "epoch": 0.010688518749443307,
      "grad_norm": 0.4840969145298004,
      "learning_rate": 0.0,
      "loss": 0.2345,
      "step": 75
    },
    {
      "epoch": 0.010688518749443307,
      "eval_loss": 0.22989000380039215,
      "eval_runtime": 661.6996,
      "eval_samples_per_second": 8.93,
      "eval_steps_per_second": 4.466,
      "step": 75
    }
  ],
  "logging_steps": 1,
  "max_steps": 75,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1208807043773235e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}