End of training

Browse files

Files changed (5) hide show

README.md +2 -13
config.json +188 -1
generation_config.json +4 -1
pytorch_model.bin +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -3,8 +3,6 @@ license: apache-2.0
 base_model: google/mt5-base
 tags:
 - generated_from_trainer
-metrics:
-- rouge
 model-index:
 - name: en_bn_summarize_v10
   results: []
@@ -16,13 +14,6 @@ should probably proofread and complete it, then remove this comment. -->
 # en_bn_summarize_v10
 This model is a fine-tuned version of [google/mt5-base](https://huggingface.co/google/mt5-base) on an unknown dataset.
-It achieves the following results on the evaluation set:
-- Loss: 17.9980
-- Rouge1: 0.0
-- Rouge2: 0.0
-- Rougel: 0.0
-- Rougelsum: 0.0
-- Gen Len: 11.1118
 ## Model description
@@ -50,15 +41,13 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 5000
-- num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
-| No log        | 1.0   | 154  | 20.6865         | 0.0    | 0.0    | 0.0    | 0.0       | 7.2795  |
-| 22.549        | 2.0   | 308  | 20.0045         | 0.0    | 0.0    | 0.0    | 0.0       | 9.4348  |
-| 22.549        | 3.0   | 462  | 17.9980         | 0.0    | 0.0    | 0.0    | 0.0       | 11.1118 |
 ### Framework versions

 base_model: google/mt5-base
 tags:
 - generated_from_trainer
 model-index:
 - name: en_bn_summarize_v10
   results: []
 # en_bn_summarize_v10
 This model is a fine-tuned version of [google/mt5-base](https://huggingface.co/google/mt5-base) on an unknown dataset.
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 5000
+- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
+| No log        | 1.0   | 154  | 21.8463         | 0.0    | 0.0    | 0.0    | 0.0       | 51.5901 |
 ### Framework versions

config.json CHANGED Viewed

@@ -7,7 +7,7 @@
   "d_ff": 2048,
   "d_kv": 64,
   "d_model": 768,
-  "decoder_start_token_id": 2,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
   "eos_token_id": 1,
@@ -16,7 +16,10 @@
   "is_encoder_decoder": true,
   "is_gated_act": true,
   "layer_norm_epsilon": 1e-06,
   "model_type": "mt5",
   "num_decoder_layers": 12,
   "num_heads": 12,
   "num_layers": 12,
@@ -24,6 +27,190 @@
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
   "tokenizer_class": "T5Tokenizer",
   "torch_dtype": "float32",

   "d_ff": 2048,
   "d_kv": 64,
   "d_model": 768,
+  "decoder_start_token_id": 250042,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
   "eos_token_id": 1,
   "is_encoder_decoder": true,
   "is_gated_act": true,
   "layer_norm_epsilon": 1e-06,
+  "length_penalty": 0.6,
+  "max_length": 84,
   "model_type": "mt5",
+  "num_beams": 4,
   "num_decoder_layers": 12,
   "num_heads": 12,
   "num_layers": 12,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "langid_map": {
+      "amharic": [
+        35,
+        "\u2581<extra_id_64>"
+      ],
+      "arabic": [
+        4,
+        "\u2581<extra_id_95>"
+      ],
+      "azerbaijani": [
+        7,
+        "\u2581<extra_id_92>"
+      ],
+      "bengali": [
+        42,
+        "\u2581<extra_id_57>"
+      ],
+      "burmese": [
+        33,
+        "\u2581<extra_id_66>"
+      ],
+      "chinese_simplified": [
+        40,
+        "\u2581<extra_id_59>"
+      ],
+      "chinese_traditional": [
+        44,
+        "\u2581<extra_id_55>"
+      ],
+      "english": [
+        30,
+        "\u2581<extra_id_69>"
+      ],
+      "french": [
+        10,
+        "\u2581<extra_id_89>"
+      ],
+      "gujarati": [
+        27,
+        "\u2581<extra_id_72>"
+      ],
+      "hausa": [
+        43,
+        "\u2581<extra_id_56>"
+      ],
+      "hindi": [
+        21,
+        "\u2581<extra_id_78>"
+      ],
+      "igbo": [
+        9,
+        "\u2581<extra_id_90>"
+      ],
+      "indonesian": [
+        1,
+        "\u2581<extra_id_98>"
+      ],
+      "japanese": [
+        37,
+        "\u2581<extra_id_62>"
+      ],
+      "kirundi": [
+        0,
+        "\u2581<extra_id_99>"
+      ],
+      "korean": [
+        29,
+        "\u2581<extra_id_70>"
+      ],
+      "kyrgyz": [
+        5,
+        "\u2581<extra_id_94>"
+      ],
+      "marathi": [
+        13,
+        "\u2581<extra_id_86>"
+      ],
+      "nepali": [
+        20,
+        "\u2581<extra_id_79>"
+      ],
+      "oromo": [
+        41,
+        "\u2581<extra_id_58>"
+      ],
+      "pashto": [
+        34,
+        "\u2581<extra_id_65>"
+      ],
+      "persian": [
+        23,
+        "\u2581<extra_id_76>"
+      ],
+      "pidgin": [
+        14,
+        "\u2581<extra_id_85>"
+      ],
+      "portuguese": [
+        39,
+        "\u2581<extra_id_60>"
+      ],
+      "punjabi": [
+        17,
+        "\u2581<extra_id_82>"
+      ],
+      "russian": [
+        36,
+        "\u2581<extra_id_63>"
+      ],
+      "scottish_gaelic": [
+        24,
+        "\u2581<extra_id_75>"
+      ],
+      "serbian_cyrillic": [
+        28,
+        "\u2581<extra_id_71>"
+      ],
+      "serbian_latin": [
+        11,
+        "\u2581<extra_id_88>"
+      ],
+      "sinhala": [
+        31,
+        "\u2581<extra_id_68>"
+      ],
+      "somali": [
+        19,
+        "\u2581<extra_id_80>"
+      ],
+      "spanish": [
+        3,
+        "\u2581<extra_id_96>"
+      ],
+      "swahili": [
+        18,
+        "\u2581<extra_id_81>"
+      ],
+      "tamil": [
+        32,
+        "\u2581<extra_id_67>"
+      ],
+      "telugu": [
+        22,
+        "\u2581<extra_id_77>"
+      ],
+      "thai": [
+        6,
+        "\u2581<extra_id_93>"
+      ],
+      "tigrinya": [
+        16,
+        "\u2581<extra_id_83>"
+      ],
+      "turkish": [
+        15,
+        "\u2581<extra_id_84>"
+      ],
+      "ukrainian": [
+        2,
+        "\u2581<extra_id_97>"
+      ],
+      "urdu": [
+        38,
+        "\u2581<extra_id_61>"
+      ],
+      "uzbek": [
+        8,
+        "\u2581<extra_id_91>"
+      ],
+      "vietnamese": [
+        12,
+        "\u2581<extra_id_87>"
+      ],
+      "welsh": [
+        26,
+        "\u2581<extra_id_73>"
+      ],
+      "yoruba": [
+        25,
+        "\u2581<extra_id_74>"
+      ]
+    }
+  },
   "tie_word_embeddings": false,
   "tokenizer_class": "T5Tokenizer",
   "torch_dtype": "float32",

generation_config.json CHANGED Viewed

@@ -1,6 +1,9 @@
 {
-  "decoder_start_token_id": 2,
   "eos_token_id": 1,
   "pad_token_id": 0,
   "transformers_version": "4.34.0"
 }

 {
+  "decoder_start_token_id": 250042,
   "eos_token_id": 1,
+  "length_penalty": 0.6,
+  "max_length": 84,
+  "num_beams": 4,
   "pad_token_id": 0,
   "transformers_version": "4.34.0"
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c713fdab7f99535b13dec5957df269574af550cbc5685a932689907e195c06b
 size 2329702581

 version https://git-lfs.github.com/spec/v1
+oid sha256:463a50ad15c9c0c2c8a7f6950790c52ec47e2c1c6b33920a4fcdaf5b8d4dab2f
 size 2329702581

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d41a327d7dbb68bdd916d3a0282dc0f54083139750b15ba1521a53ef017df7b
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:fee17a8e368fd46ee983224f7e1aed285706fd6ffacdd66c7a482f8f23b957a8
 size 4219