Training in progress, epoch 5, checkpoint

Browse files

Files changed (4) hide show

checkpoint-500/config.json +33 -0
checkpoint-500/model.safetensors +3 -0
checkpoint-500/trainer_state.json +263 -0
checkpoint-500/training_args.bin +3 -0

checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-large",
+  "architectures": [
+    "DebertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "c2p",
+    "p2c"
+  ],
+  "position_biased_input": false,
+  "relative_attention": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 0,
+  "vocab_size": 50265
+}

checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbd0df4cea2fff7cb6d68864326e6e6e7dc18428fe6fa99d87e470ffa498336f
+size 1624907048

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,263 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 50,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5,
+      "grad_norm": 7.457424163818359,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.6324,
+      "step": 50
+    },
+    {
+      "epoch": 0.5,
+      "eval_sport_AUC": 0.8304120879120879,
+      "eval_sport_accuracy": 0.65,
+      "eval_sport_f1": 0.0,
+      "eval_sport_loss": 0.5250802040100098,
+      "eval_sport_macro_f1": 0.3939393939393939,
+      "eval_sport_micro_f1": 0.65,
+      "eval_sport_precision": 0.0,
+      "eval_sport_recall": 0.0,
+      "eval_sport_runtime": 1.1394,
+      "eval_sport_samples_per_second": 351.062,
+      "eval_sport_specificity": 1.0,
+      "eval_sport_steps_per_second": 0.878,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 5.422190189361572,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.5076,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_sport_AUC": 0.8500274725274726,
+      "eval_sport_accuracy": 0.7825,
+      "eval_sport_f1": 0.6448979591836734,
+      "eval_sport_loss": 0.5157707929611206,
+      "eval_sport_macro_f1": 0.7440706012134584,
+      "eval_sport_micro_f1": 0.7825,
+      "eval_sport_precision": 0.7523809523809524,
+      "eval_sport_recall": 0.5642857142857143,
+      "eval_sport_runtime": 1.1662,
+      "eval_sport_samples_per_second": 343.005,
+      "eval_sport_specificity": 0.9,
+      "eval_sport_steps_per_second": 0.858,
+      "step": 100
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 13.851410865783691,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.4243,
+      "step": 150
+    },
+    {
+      "epoch": 1.5,
+      "eval_sport_AUC": 0.8775,
+      "eval_sport_accuracy": 0.77,
+      "eval_sport_f1": 0.7341040462427746,
+      "eval_sport_loss": 0.435852974653244,
+      "eval_sport_macro_f1": 0.7657304372183036,
+      "eval_sport_micro_f1": 0.77,
+      "eval_sport_precision": 0.616504854368932,
+      "eval_sport_recall": 0.9071428571428571,
+      "eval_sport_runtime": 1.1657,
+      "eval_sport_samples_per_second": 343.153,
+      "eval_sport_specificity": 0.6961538461538461,
+      "eval_sport_steps_per_second": 0.858,
+      "step": 150
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 13.909685134887695,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.4124,
+      "step": 200
+    },
+    {
+      "epoch": 2.0,
+      "eval_sport_AUC": 0.8836813186813187,
+      "eval_sport_accuracy": 0.8125,
+      "eval_sport_f1": 0.7232472324723247,
+      "eval_sport_loss": 0.43182089924812317,
+      "eval_sport_macro_f1": 0.7907351474270886,
+      "eval_sport_micro_f1": 0.8125,
+      "eval_sport_precision": 0.7480916030534351,
+      "eval_sport_recall": 0.7,
+      "eval_sport_runtime": 1.1592,
+      "eval_sport_samples_per_second": 345.066,
+      "eval_sport_specificity": 0.8730769230769231,
+      "eval_sport_steps_per_second": 0.863,
+      "step": 200
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 6.286098003387451,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.3136,
+      "step": 250
+    },
+    {
+      "epoch": 2.5,
+      "eval_sport_AUC": 0.8988736263736266,
+      "eval_sport_accuracy": 0.8075,
+      "eval_sport_f1": 0.7353951890034365,
+      "eval_sport_loss": 0.410043865442276,
+      "eval_sport_macro_f1": 0.7920590876254903,
+      "eval_sport_micro_f1": 0.8075,
+      "eval_sport_precision": 0.7086092715231788,
+      "eval_sport_recall": 0.7642857142857142,
+      "eval_sport_runtime": 1.1531,
+      "eval_sport_samples_per_second": 346.882,
+      "eval_sport_specificity": 0.8307692307692308,
+      "eval_sport_steps_per_second": 0.867,
+      "step": 250
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 12.10146427154541,
+      "learning_rate": 5e-06,
+      "loss": 0.3356,
+      "step": 300
+    },
+    {
+      "epoch": 3.0,
+      "eval_sport_AUC": 0.8957967032967034,
+      "eval_sport_accuracy": 0.7925,
+      "eval_sport_f1": 0.7492447129909365,
+      "eval_sport_loss": 0.41360825300216675,
+      "eval_sport_macro_f1": 0.7861362157705216,
+      "eval_sport_micro_f1": 0.7925,
+      "eval_sport_precision": 0.6492146596858639,
+      "eval_sport_recall": 0.8857142857142857,
+      "eval_sport_runtime": 1.1571,
+      "eval_sport_samples_per_second": 345.688,
+      "eval_sport_specificity": 0.7423076923076923,
+      "eval_sport_steps_per_second": 0.864,
+      "step": 300
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 20.41313362121582,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.1984,
+      "step": 350
+    },
+    {
+      "epoch": 3.5,
+      "eval_sport_AUC": 0.8906868131868132,
+      "eval_sport_accuracy": 0.8025,
+      "eval_sport_f1": 0.7375415282392026,
+      "eval_sport_loss": 0.572439968585968,
+      "eval_sport_macro_f1": 0.7896124474863347,
+      "eval_sport_micro_f1": 0.8025,
+      "eval_sport_precision": 0.6894409937888198,
+      "eval_sport_recall": 0.7928571428571428,
+      "eval_sport_runtime": 1.1428,
+      "eval_sport_samples_per_second": 350.014,
+      "eval_sport_specificity": 0.8076923076923077,
+      "eval_sport_steps_per_second": 0.875,
+      "step": 350
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 6.701220989227295,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.2116,
+      "step": 400
+    },
+    {
+      "epoch": 4.0,
+      "eval_sport_AUC": 0.8903571428571428,
+      "eval_sport_accuracy": 0.805,
+      "eval_sport_f1": 0.7310344827586207,
+      "eval_sport_loss": 0.5627374053001404,
+      "eval_sport_macro_f1": 0.7890466531440162,
+      "eval_sport_micro_f1": 0.805,
+      "eval_sport_precision": 0.7066666666666667,
+      "eval_sport_recall": 0.7571428571428571,
+      "eval_sport_runtime": 1.1389,
+      "eval_sport_samples_per_second": 351.223,
+      "eval_sport_specificity": 0.8307692307692308,
+      "eval_sport_steps_per_second": 0.878,
+      "step": 400
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 7.881011962890625,
+      "learning_rate": 2.5e-06,
+      "loss": 0.1592,
+      "step": 450
+    },
+    {
+      "epoch": 4.5,
+      "eval_sport_AUC": 0.8919780219780219,
+      "eval_sport_accuracy": 0.815,
+      "eval_sport_f1": 0.7581699346405228,
+      "eval_sport_loss": 0.6977052092552185,
+      "eval_sport_macro_f1": 0.8041861818951602,
+      "eval_sport_micro_f1": 0.815,
+      "eval_sport_precision": 0.6987951807228916,
+      "eval_sport_recall": 0.8285714285714286,
+      "eval_sport_runtime": 1.1728,
+      "eval_sport_samples_per_second": 341.066,
+      "eval_sport_specificity": 0.8076923076923077,
+      "eval_sport_steps_per_second": 0.853,
+      "step": 450
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 11.35710620880127,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.12,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_sport_AUC": 0.891565934065934,
+      "eval_sport_accuracy": 0.8225,
+      "eval_sport_f1": 0.7641196013289037,
+      "eval_sport_loss": 0.7499765157699585,
+      "eval_sport_macro_f1": 0.8109175160953135,
+      "eval_sport_micro_f1": 0.8225,
+      "eval_sport_precision": 0.7142857142857143,
+      "eval_sport_recall": 0.8214285714285714,
+      "eval_sport_runtime": 1.1465,
+      "eval_sport_samples_per_second": 348.894,
+      "eval_sport_specificity": 0.823076923076923,
+      "eval_sport_steps_per_second": 0.872,
+      "step": 500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 600,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 678669432573600.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89ea036e31dedf09ee41ba848e76f18b84cb49b9929a5f2845bdf3506e9220fa
+size 5432