Training in progress, epoch 6, checkpoint

Browse files

Files changed (4) hide show

checkpoint-600/config.json +33 -0
checkpoint-600/model.safetensors +3 -0
checkpoint-600/trainer_state.json +309 -0
checkpoint-600/training_args.bin +3 -0

checkpoint-600/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-large",
+  "architectures": [
+    "DebertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "c2p",
+    "p2c"
+  ],
+  "position_biased_input": false,
+  "relative_attention": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 0,
+  "vocab_size": 50265
+}

checkpoint-600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae4cfb9c404fca1b58825310df4535d24fe91ad5a28456d8ad7018cf9b0e91f8
+size 1624907048

checkpoint-600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,309 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 50,
+  "global_step": 600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5,
+      "grad_norm": 14.797772407531738,
+      "learning_rate": 2.75e-05,
+      "loss": 0.5962,
+      "step": 50
+    },
+    {
+      "epoch": 0.5,
+      "eval_pet_AUC": 0.8351851851851851,
+      "eval_pet_accuracy": 0.8025,
+      "eval_pet_f1": 0.6775510204081633,
+      "eval_pet_loss": 0.5332173705101013,
+      "eval_pet_macro_f1": 0.7676043390329105,
+      "eval_pet_micro_f1": 0.8025,
+      "eval_pet_precision": 0.7217391304347827,
+      "eval_pet_recall": 0.6384615384615384,
+      "eval_pet_runtime": 0.9704,
+      "eval_pet_samples_per_second": 412.209,
+      "eval_pet_specificity": 0.8814814814814815,
+      "eval_pet_steps_per_second": 1.031,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.127084493637085,
+      "learning_rate": 2.5e-05,
+      "loss": 0.5733,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_pet_AUC": 0.27964387464387463,
+      "eval_pet_accuracy": 0.6875,
+      "eval_pet_f1": 0.07407407407407407,
+      "eval_pet_loss": 0.6733165979385376,
+      "eval_pet_macro_f1": 0.443052074631022,
+      "eval_pet_micro_f1": 0.6875,
+      "eval_pet_precision": 1.0,
+      "eval_pet_recall": 0.038461538461538464,
+      "eval_pet_runtime": 0.9613,
+      "eval_pet_samples_per_second": 416.088,
+      "eval_pet_specificity": 1.0,
+      "eval_pet_steps_per_second": 1.04,
+      "step": 100
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 7.847217559814453,
+      "learning_rate": 2.25e-05,
+      "loss": 0.5866,
+      "step": 150
+    },
+    {
+      "epoch": 1.5,
+      "eval_pet_AUC": 0.8843874643874644,
+      "eval_pet_accuracy": 0.7975,
+      "eval_pet_f1": 0.7361563517915309,
+      "eval_pet_loss": 0.46060317754745483,
+      "eval_pet_macro_f1": 0.7859280744758872,
+      "eval_pet_micro_f1": 0.7975,
+      "eval_pet_precision": 0.6384180790960452,
+      "eval_pet_recall": 0.8692307692307693,
+      "eval_pet_runtime": 0.9636,
+      "eval_pet_samples_per_second": 415.11,
+      "eval_pet_specificity": 0.762962962962963,
+      "eval_pet_steps_per_second": 1.038,
+      "step": 150
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 7.877416610717773,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 0.3741,
+      "step": 200
+    },
+    {
+      "epoch": 2.0,
+      "eval_pet_AUC": 0.8881766381766382,
+      "eval_pet_accuracy": 0.815,
+      "eval_pet_f1": 0.7581699346405228,
+      "eval_pet_loss": 0.4415346384048462,
+      "eval_pet_macro_f1": 0.8041861818951602,
+      "eval_pet_micro_f1": 0.815,
+      "eval_pet_precision": 0.6590909090909091,
+      "eval_pet_recall": 0.8923076923076924,
+      "eval_pet_runtime": 0.9595,
+      "eval_pet_samples_per_second": 416.867,
+      "eval_pet_specificity": 0.7777777777777778,
+      "eval_pet_steps_per_second": 1.042,
+      "step": 200
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 11.366959571838379,
+      "learning_rate": 1.7500000000000002e-05,
+      "loss": 0.4004,
+      "step": 250
+    },
+    {
+      "epoch": 2.5,
+      "eval_pet_AUC": 0.9125498575498576,
+      "eval_pet_accuracy": 0.83,
+      "eval_pet_f1": 0.782051282051282,
+      "eval_pet_loss": 0.4811069071292877,
+      "eval_pet_macro_f1": 0.8213535098781,
+      "eval_pet_micro_f1": 0.83,
+      "eval_pet_precision": 0.6703296703296703,
+      "eval_pet_recall": 0.9384615384615385,
+      "eval_pet_runtime": 0.9612,
+      "eval_pet_samples_per_second": 416.154,
+      "eval_pet_specificity": 0.7777777777777778,
+      "eval_pet_steps_per_second": 1.04,
+      "step": 250
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 17.459558486938477,
+      "learning_rate": 1.5e-05,
+      "loss": 0.2983,
+      "step": 300
+    },
+    {
+      "epoch": 3.0,
+      "eval_pet_AUC": 0.8991737891737892,
+      "eval_pet_accuracy": 0.7925,
+      "eval_pet_f1": 0.7446153846153846,
+      "eval_pet_loss": 0.5743342638015747,
+      "eval_pet_macro_f1": 0.7849392712550607,
+      "eval_pet_micro_f1": 0.7925,
+      "eval_pet_precision": 0.6205128205128205,
+      "eval_pet_recall": 0.9307692307692308,
+      "eval_pet_runtime": 0.9582,
+      "eval_pet_samples_per_second": 417.438,
+      "eval_pet_specificity": 0.725925925925926,
+      "eval_pet_steps_per_second": 1.044,
+      "step": 300
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 0.6785043478012085,
+      "learning_rate": 1.25e-05,
+      "loss": 0.251,
+      "step": 350
+    },
+    {
+      "epoch": 3.5,
+      "eval_pet_AUC": 0.9170655270655271,
+      "eval_pet_accuracy": 0.845,
+      "eval_pet_f1": 0.7769784172661871,
+      "eval_pet_loss": 0.5284662246704102,
+      "eval_pet_macro_f1": 0.8291022354530169,
+      "eval_pet_micro_f1": 0.845,
+      "eval_pet_precision": 0.7297297297297297,
+      "eval_pet_recall": 0.8307692307692308,
+      "eval_pet_runtime": 0.9761,
+      "eval_pet_samples_per_second": 409.779,
+      "eval_pet_specificity": 0.8518518518518519,
+      "eval_pet_steps_per_second": 1.024,
+      "step": 350
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 6.269617557525635,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.2556,
+      "step": 400
+    },
+    {
+      "epoch": 4.0,
+      "eval_pet_AUC": 0.9231054131054132,
+      "eval_pet_accuracy": 0.8475,
+      "eval_pet_f1": 0.779783393501805,
+      "eval_pet_loss": 0.38620322942733765,
+      "eval_pet_macro_f1": 0.8315742971333118,
+      "eval_pet_micro_f1": 0.8475,
+      "eval_pet_precision": 0.7346938775510204,
+      "eval_pet_recall": 0.8307692307692308,
+      "eval_pet_runtime": 0.9582,
+      "eval_pet_samples_per_second": 417.437,
+      "eval_pet_specificity": 0.8555555555555555,
+      "eval_pet_steps_per_second": 1.044,
+      "step": 400
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 268.5960998535156,
+      "learning_rate": 7.5e-06,
+      "loss": 0.1711,
+      "step": 450
+    },
+    {
+      "epoch": 4.5,
+      "eval_pet_AUC": 0.9212250712250712,
+      "eval_pet_accuracy": 0.85,
+      "eval_pet_f1": 0.7857142857142857,
+      "eval_pet_loss": 0.5741958022117615,
+      "eval_pet_macro_f1": 0.8351648351648351,
+      "eval_pet_micro_f1": 0.85,
+      "eval_pet_precision": 0.7333333333333333,
+      "eval_pet_recall": 0.8461538461538461,
+      "eval_pet_runtime": 0.9798,
+      "eval_pet_samples_per_second": 408.226,
+      "eval_pet_specificity": 0.8518518518518519,
+      "eval_pet_steps_per_second": 1.021,
+      "step": 450
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.5370795726776123,
+      "learning_rate": 4.9999999999999996e-06,
+      "loss": 0.1942,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_pet_AUC": 0.9196296296296297,
+      "eval_pet_accuracy": 0.8375,
+      "eval_pet_f1": 0.7653429602888087,
+      "eval_pet_loss": 0.5052361488342285,
+      "eval_pet_macro_f1": 0.8205299887486108,
+      "eval_pet_micro_f1": 0.8375,
+      "eval_pet_precision": 0.7210884353741497,
+      "eval_pet_recall": 0.8153846153846154,
+      "eval_pet_runtime": 0.9739,
+      "eval_pet_samples_per_second": 410.701,
+      "eval_pet_specificity": 0.8481481481481481,
+      "eval_pet_steps_per_second": 1.027,
+      "step": 500
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 65.75556945800781,
+      "learning_rate": 2.4999999999999998e-06,
+      "loss": 0.1122,
+      "step": 550
+    },
+    {
+      "epoch": 5.5,
+      "eval_pet_AUC": 0.913931623931624,
+      "eval_pet_accuracy": 0.845,
+      "eval_pet_f1": 0.7785714285714286,
+      "eval_pet_loss": 0.590245246887207,
+      "eval_pet_macro_f1": 0.8296703296703296,
+      "eval_pet_micro_f1": 0.845,
+      "eval_pet_precision": 0.7266666666666667,
+      "eval_pet_recall": 0.8384615384615385,
+      "eval_pet_runtime": 0.9755,
+      "eval_pet_samples_per_second": 410.028,
+      "eval_pet_specificity": 0.8481481481481481,
+      "eval_pet_steps_per_second": 1.025,
+      "step": 550
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.31698858737945557,
+      "learning_rate": 0.0,
+      "loss": 0.138,
+      "step": 600
+    },
+    {
+      "epoch": 6.0,
+      "eval_pet_AUC": 0.9194301994301994,
+      "eval_pet_accuracy": 0.845,
+      "eval_pet_f1": 0.7785714285714286,
+      "eval_pet_loss": 0.5720162391662598,
+      "eval_pet_macro_f1": 0.8296703296703296,
+      "eval_pet_micro_f1": 0.845,
+      "eval_pet_precision": 0.7266666666666667,
+      "eval_pet_recall": 0.8384615384615385,
+      "eval_pet_runtime": 0.9564,
+      "eval_pet_samples_per_second": 418.255,
+      "eval_pet_specificity": 0.8481481481481481,
+      "eval_pet_steps_per_second": 1.046,
+      "step": 600
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 600,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 814912639488000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b0216cc5eff463ac2446af91ddb08c5dd1f7f444a009f566b7314b5057e685
+size 5432