{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.998833138856476,
  "eval_steps": 100,
  "global_step": 1070,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1866977829638273,
      "grad_norm": 0.7474788427352905,
      "learning_rate": 9.897354414771155e-05,
      "loss": 0.4229,
      "step": 100
    },
    {
      "epoch": 0.1866977829638273,
      "eval_loss": 0.28400614857673645,
      "eval_mean_token_accuracy": 0.9360235780477524,
      "eval_num_tokens": 753574.0,
      "eval_runtime": 24.301,
      "eval_samples_per_second": 3.58,
      "eval_steps_per_second": 1.811,
      "step": 100
    },
    {
      "epoch": 0.3733955659276546,
      "grad_norm": 0.5415596961975098,
      "learning_rate": 9.37362880620353e-05,
      "loss": 0.1742,
      "step": 200
    },
    {
      "epoch": 0.3733955659276546,
      "eval_loss": 0.16010414063930511,
      "eval_mean_token_accuracy": 0.9588268209587444,
      "eval_num_tokens": 1509175.0,
      "eval_runtime": 24.4254,
      "eval_samples_per_second": 3.562,
      "eval_steps_per_second": 1.801,
      "step": 200
    },
    {
      "epoch": 0.5600933488914819,
      "grad_norm": 0.27767494320869446,
      "learning_rate": 8.45155759681916e-05,
      "loss": 0.1231,
      "step": 300
    },
    {
      "epoch": 0.5600933488914819,
      "eval_loss": 0.12863604724407196,
      "eval_mean_token_accuracy": 0.9672336619008671,
      "eval_num_tokens": 2238386.0,
      "eval_runtime": 24.3631,
      "eval_samples_per_second": 3.571,
      "eval_steps_per_second": 1.806,
      "step": 300
    },
    {
      "epoch": 0.7467911318553092,
      "grad_norm": 0.26716530323028564,
      "learning_rate": 7.215122081367397e-05,
      "loss": 0.1049,
      "step": 400
    },
    {
      "epoch": 0.7467911318553092,
      "eval_loss": 0.11134738475084305,
      "eval_mean_token_accuracy": 0.9710766889832236,
      "eval_num_tokens": 3002050.0,
      "eval_runtime": 24.4377,
      "eval_samples_per_second": 3.56,
      "eval_steps_per_second": 1.8,
      "step": 400
    },
    {
      "epoch": 0.9334889148191365,
      "grad_norm": 0.25053659081459045,
      "learning_rate": 5.776935531366666e-05,
      "loss": 0.094,
      "step": 500
    },
    {
      "epoch": 0.9334889148191365,
      "eval_loss": 0.10696757584810257,
      "eval_mean_token_accuracy": 0.9726415276527405,
      "eval_num_tokens": 3739837.0,
      "eval_runtime": 24.3374,
      "eval_samples_per_second": 3.575,
      "eval_steps_per_second": 1.808,
      "step": 500
    },
    {
      "epoch": 1.1213535589264878,
      "grad_norm": 0.09818451851606369,
      "learning_rate": 4.267986494481096e-05,
      "loss": 0.0805,
      "step": 600
    },
    {
      "epoch": 1.1213535589264878,
      "eval_loss": 0.10096889734268188,
      "eval_mean_token_accuracy": 0.9736701046878641,
      "eval_num_tokens": 4569712.0,
      "eval_runtime": 24.4327,
      "eval_samples_per_second": 3.561,
      "eval_steps_per_second": 1.801,
      "step": 600
    },
    {
      "epoch": 1.308051341890315,
      "grad_norm": 0.10120042413473129,
      "learning_rate": 2.825708492697614e-05,
      "loss": 0.076,
      "step": 700
    },
    {
      "epoch": 1.308051341890315,
      "eval_loss": 0.09955887496471405,
      "eval_mean_token_accuracy": 0.9743891155177896,
      "eval_num_tokens": 5319704.0,
      "eval_runtime": 24.371,
      "eval_samples_per_second": 3.57,
      "eval_steps_per_second": 1.805,
      "step": 700
    },
    {
      "epoch": 1.4947491248541422,
      "grad_norm": 0.11474630236625671,
      "learning_rate": 1.5814627188888998e-05,
      "loss": 0.0733,
      "step": 800
    },
    {
      "epoch": 1.4947491248541422,
      "eval_loss": 0.0951637253165245,
      "eval_mean_token_accuracy": 0.9746209504929456,
      "eval_num_tokens": 6071159.0,
      "eval_runtime": 24.3111,
      "eval_samples_per_second": 3.579,
      "eval_steps_per_second": 1.81,
      "step": 800
    },
    {
      "epoch": 1.6814469078179697,
      "grad_norm": 0.11802946776151657,
      "learning_rate": 6.4857379484922375e-06,
      "loss": 0.0711,
      "step": 900
    },
    {
      "epoch": 1.6814469078179697,
      "eval_loss": 0.09255451709032059,
      "eval_mean_token_accuracy": 0.9750508327375759,
      "eval_num_tokens": 6816801.0,
      "eval_runtime": 24.4438,
      "eval_samples_per_second": 3.559,
      "eval_steps_per_second": 1.8,
      "step": 900
    },
    {
      "epoch": 1.8681446907817971,
      "grad_norm": 0.10331830382347107,
      "learning_rate": 1.1200828162162003e-06,
      "loss": 0.0686,
      "step": 1000
    },
    {
      "epoch": 1.8681446907817971,
      "eval_loss": 0.09277711808681488,
      "eval_mean_token_accuracy": 0.9753785553303632,
      "eval_num_tokens": 7563320.0,
      "eval_runtime": 24.3425,
      "eval_samples_per_second": 3.574,
      "eval_steps_per_second": 1.808,
      "step": 1000
    }
  ],
  "logging_steps": 100,
  "max_steps": 1070,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.483340887936e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}