Training in progress, step 117, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +123 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3acf7a45155f7c22d023e73c49917651ac320442b64cee5808cc571f8aa6fbd3
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:29b394c06545ec2a1281071f7d15c82df6807f2dd55269f77e75c5d2f0411422
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ecb182c6b5caa1bb7562c40c8e6e05448c07da4ce5e52c960fe59dc946ba544
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:f39ee47e244a927f051413fcdce59cafe82216d03819ef6761b9369dad4057d7
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:724e920b7466292c6dcab261d9c031d25dfeaf7cb6176f8f596cadd3c1e800d5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dec3d57234dce1e724a0245c6cc2d26181d9cbc9eed24bb65e72e29d4e819f45
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a9a9a0e1220b77fd9e183eebee851bf8ad0e90181863138ec8d5c5c2014ecd0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:09557b1d4da433a4489d12bec551f7b75466f796a905598e6ba8698b633264c8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.3446539640426636,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.8565310492505354,
   "eval_steps": 100,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -723,6 +723,125 @@
       "eval_samples_per_second": 12.936,
       "eval_steps_per_second": 3.283,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -746,12 +865,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.3554618661758566e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.3446539640426636,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.0021413276231264,
   "eval_steps": 100,
+  "global_step": 117,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.936,
       "eval_steps_per_second": 3.283,
       "step": 100
+    },
+    {
+      "epoch": 0.8650963597430407,
+      "grad_norm": 0.39375630021095276,
+      "learning_rate": 6.564413174092443e-06,
+      "loss": 1.3082,
+      "step": 101
+    },
+    {
+      "epoch": 0.8736616702355461,
+      "grad_norm": 0.37335363030433655,
+      "learning_rate": 5.785225463498828e-06,
+      "loss": 1.3074,
+      "step": 102
+    },
+    {
+      "epoch": 0.8822269807280514,
+      "grad_norm": 0.39959633350372314,
+      "learning_rate": 5.05241294573024e-06,
+      "loss": 1.2991,
+      "step": 103
+    },
+    {
+      "epoch": 0.8907922912205567,
+      "grad_norm": 0.4094507694244385,
+      "learning_rate": 4.366744239922998e-06,
+      "loss": 1.2843,
+      "step": 104
+    },
+    {
+      "epoch": 0.8993576017130621,
+      "grad_norm": 0.4303068518638611,
+      "learning_rate": 3.728938517864794e-06,
+      "loss": 1.3151,
+      "step": 105
+    },
+    {
+      "epoch": 0.9079229122055674,
+      "grad_norm": 0.42622363567352295,
+      "learning_rate": 3.1396647496828247e-06,
+      "loss": 1.3469,
+      "step": 106
+    },
+    {
+      "epoch": 0.9164882226980728,
+      "grad_norm": 0.4673132002353668,
+      "learning_rate": 2.5995410021864787e-06,
+      "loss": 1.4081,
+      "step": 107
+    },
+    {
+      "epoch": 0.9250535331905781,
+      "grad_norm": 0.5070969462394714,
+      "learning_rate": 2.1091337906006482e-06,
+      "loss": 1.4305,
+      "step": 108
+    },
+    {
+      "epoch": 0.9336188436830836,
+      "grad_norm": 0.526165246963501,
+      "learning_rate": 1.6689574843694433e-06,
+      "loss": 1.4545,
+      "step": 109
+    },
+    {
+      "epoch": 0.9421841541755889,
+      "grad_norm": 0.5437924265861511,
+      "learning_rate": 1.2794737676536994e-06,
+      "loss": 1.4216,
+      "step": 110
+    },
+    {
+      "epoch": 0.9507494646680942,
+      "grad_norm": 0.6112513542175293,
+      "learning_rate": 9.410911550880475e-07,
+      "loss": 1.5846,
+      "step": 111
+    },
+    {
+      "epoch": 0.9593147751605996,
+      "grad_norm": 0.6393526792526245,
+      "learning_rate": 6.54164563305465e-07,
+      "loss": 1.2972,
+      "step": 112
+    },
+    {
+      "epoch": 0.9678800856531049,
+      "grad_norm": 0.6852487921714783,
+      "learning_rate": 4.189949386787462e-07,
+      "loss": 1.3823,
+      "step": 113
+    },
+    {
+      "epoch": 0.9764453961456103,
+      "grad_norm": 0.7834839224815369,
+      "learning_rate": 2.3582894166930268e-07,
+      "loss": 1.4955,
+      "step": 114
+    },
+    {
+      "epoch": 0.9850107066381156,
+      "grad_norm": 0.9401648044586182,
+      "learning_rate": 1.0485868811441757e-07,
+      "loss": 1.515,
+      "step": 115
+    },
+    {
+      "epoch": 0.9935760171306209,
+      "grad_norm": 1.1517846584320068,
+      "learning_rate": 2.6221547724253337e-08,
+      "loss": 1.4529,
+      "step": 116
+    },
+    {
+      "epoch": 1.0021413276231264,
+      "grad_norm": 0.49016863107681274,
+      "learning_rate": 0.0,
+      "loss": 1.788,
+      "step": 117
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.5869640165870797e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null