Training in progress, epoch 0, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +65 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f8b9682b43bdeed01f3934c7b4376dafcccbd5c80fd094d655244613aee1f8e
 size 161533192

 version https://git-lfs.github.com/spec/v1
+oid sha256:b23bb944012252c2e43e3bf5678e7f4a1bf0dabf43d433c7a0d9ffe054c82307
 size 161533192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c13ec3a8ed5fe7b6e8771f746ce2c949db42e9bd02fe328370cf6462a754b39a
 size 323290986

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d822f9ac4068a0ed6a97cc6ec23381fb86760f668c2ad94d642f603d7e018f5
 size 323290986

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d19b5d9bb2549dbad254c009b063a725d7b3736e59eec32be36d8d009ad3208f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:552e3d3cf9cb44fef1c26f04bb6414966a11bf7c925b92ec2c6327dfb7ffbd39
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfed7a9c513fb4dc9c3300c941108cb79744ddd15d7f3c0ec0b501331be45d7f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:756b4673b64af1f690114c3fca9e03a16a9abde66559f4c5dfec5148ff3a7d00
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6725609302520752,
-  "best_model_checkpoint": "ru_qwen7b_gec_Ag/checkpoint-2600",
-  "epoch": 0.7621280961453906,
   "eval_steps": 200,
-  "global_step": 2600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -202,6 +202,66 @@
       "eval_samples_per_second": 13.452,
       "eval_steps_per_second": 1.684,
       "step": 2600
     }
   ],
   "logging_steps": 200,
@@ -230,7 +290,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.087503013249024e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6679416298866272,
+  "best_model_checkpoint": "ru_qwen7b_gec_Ag/checkpoint-3400",
+  "epoch": 0.9966290488055107,
   "eval_steps": 200,
+  "global_step": 3400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.452,
       "eval_steps_per_second": 1.684,
       "step": 2600
+    },
+    {
+      "epoch": 0.8207533343104206,
+      "grad_norm": 1.2224448919296265,
+      "learning_rate": 1.4807874171782795e-05,
+      "loss": 0.5785,
+      "step": 2800
+    },
+    {
+      "epoch": 0.8207533343104206,
+      "eval_loss": 0.6695232391357422,
+      "eval_runtime": 185.8805,
+      "eval_samples_per_second": 13.45,
+      "eval_steps_per_second": 1.684,
+      "step": 2800
+    },
+    {
+      "epoch": 0.8793785724754507,
+      "grad_norm": 1.116542100906372,
+      "learning_rate": 1.4016954246529697e-05,
+      "loss": 0.5778,
+      "step": 3000
+    },
+    {
+      "epoch": 0.8793785724754507,
+      "eval_loss": 0.6703296899795532,
+      "eval_runtime": 186.6523,
+      "eval_samples_per_second": 13.394,
+      "eval_steps_per_second": 1.677,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9380038106404808,
+      "grad_norm": 1.0617640018463135,
+      "learning_rate": 1.3194816296459483e-05,
+      "loss": 0.5823,
+      "step": 3200
+    },
+    {
+      "epoch": 0.9380038106404808,
+      "eval_loss": 0.6692666411399841,
+      "eval_runtime": 186.0381,
+      "eval_samples_per_second": 13.438,
+      "eval_steps_per_second": 1.682,
+      "step": 3200
+    },
+    {
+      "epoch": 0.9966290488055107,
+      "grad_norm": 1.1942830085754395,
+      "learning_rate": 1.234784962086541e-05,
+      "loss": 0.5765,
+      "step": 3400
+    },
+    {
+      "epoch": 0.9966290488055107,
+      "eval_loss": 0.6679416298866272,
+      "eval_runtime": 186.4984,
+      "eval_samples_per_second": 13.405,
+      "eval_steps_per_second": 1.678,
+      "step": 3400
     }
   ],
   "logging_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 1.1883657786556416e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null