train_mnli_1744902581

This model is a fine-tuned version of google/gemma-3-1b-it on the mnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1030
  • Num Input Tokens Seen: 64338040

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2775 0.0091 200 0.3191 320544
0.3007 0.0181 400 0.3029 640416
0.2854 0.0272 600 0.2960 964160
0.2808 0.0362 800 0.2792 1285344
0.2978 0.0453 1000 0.2849 1608256
0.2865 0.0543 1200 0.2782 1932352
0.2818 0.0634 1400 0.2779 2252192
0.3173 0.0724 1600 0.3176 2579136
0.2923 0.0815 1800 0.3042 2898880
0.2769 0.0905 2000 0.2872 3221312
0.2714 0.0996 2200 0.2828 3542752
0.287 0.1086 2400 0.3334 3866688
0.2807 0.1177 2600 0.2905 4189440
0.2798 0.1268 2800 0.2849 4512768
0.289 0.1358 3000 0.2862 4833792
0.2829 0.1449 3200 0.2846 5157664
0.2767 0.1539 3400 0.2967 5479168
0.2876 0.1630 3600 0.3012 5803680
0.2648 0.1720 3800 0.2781 6125472
0.2817 0.1811 4000 0.2833 6448128
0.2783 0.1901 4200 0.2810 6771360
0.2857 0.1992 4400 0.2875 7097088
0.2633 0.2082 4600 0.2894 7418432
0.269 0.2173 4800 0.2656 7739200
0.2557 0.2264 5000 0.2610 8062528
0.2741 0.2354 5200 0.2584 8382240
0.2988 0.2445 5400 0.2665 8703872
0.2547 0.2535 5600 0.2421 9021760
0.2422 0.2626 5800 0.2421 9343744
0.2233 0.2716 6000 0.2371 9663168
0.2387 0.2807 6200 0.2398 9983680
0.2479 0.2897 6400 0.2342 10305504
0.25 0.2988 6600 0.2637 10628064
0.2427 0.3078 6800 0.2388 10947264
0.2575 0.3169 7000 0.2313 11268736
0.1964 0.3259 7200 0.2405 11593952
0.2264 0.3350 7400 0.2345 11912448
0.2502 0.3441 7600 0.2325 12230144
0.2107 0.3531 7800 0.2242 12551712
0.2147 0.3622 8000 0.2310 12870016
0.2032 0.3712 8200 0.2301 13192096
0.2076 0.3803 8400 0.2301 13513696
0.208 0.3893 8600 0.2289 13838880
0.2286 0.3984 8800 0.2467 14159072
0.1746 0.4074 9000 0.2457 14481184
0.2156 0.4165 9200 0.2148 14802624
0.2072 0.4255 9400 0.2231 15129216
0.1889 0.4346 9600 0.2265 15445632
0.2064 0.4436 9800 0.2181 15768224
0.16 0.4527 10000 0.2132 16090112
0.1826 0.4618 10200 0.2246 16413248
0.2195 0.4708 10400 0.2119 16741440
0.2392 0.4799 10600 0.2058 17061536
0.2079 0.4889 10800 0.2323 17383360
0.1962 0.4980 11000 0.2091 17708608
0.1877 0.5070 11200 0.2010 18032288
0.2268 0.5161 11400 0.2070 18353024
0.2023 0.5251 11600 0.2047 18677184
0.1784 0.5342 11800 0.2097 18999136
0.2128 0.5432 12000 0.1963 19316576
0.2027 0.5523 12200 0.1993 19640544
0.1875 0.5614 12400 0.2021 19959648
0.1781 0.5704 12600 0.1934 20279232
0.1793 0.5795 12800 0.2054 20601792
0.15 0.5885 13000 0.1877 20923456
0.2034 0.5976 13200 0.1895 21242368
0.1826 0.6066 13400 0.1850 21561952
0.1846 0.6157 13600 0.1824 21881856
0.1674 0.6247 13800 0.1785 22210080
0.1913 0.6338 14000 0.1811 22529216
0.1507 0.6428 14200 0.1810 22849376
0.1606 0.6519 14400 0.1719 23171168
0.1799 0.6609 14600 0.1709 23493152
0.1685 0.6700 14800 0.1744 23815360
0.1819 0.6791 15000 0.1688 24137696
0.1586 0.6881 15200 0.1647 24455584
0.151 0.6972 15400 0.1563 24779040
0.1721 0.7062 15600 0.1550 25099584
0.1593 0.7153 15800 0.1463 25420512
0.1241 0.7243 16000 0.1486 25746912
0.1473 0.7334 16200 0.1441 26070048
0.1564 0.7424 16400 0.1423 26389952
0.1587 0.7515 16600 0.1348 26706080
0.1786 0.7605 16800 0.1375 27029344
0.1294 0.7696 17000 0.1383 27349920
0.145 0.7787 17200 0.1326 27671008
0.1269 0.7877 17400 0.1315 27993280
0.1139 0.7968 17600 0.1309 28319712
0.0966 0.8058 17800 0.1425 28640832
0.1094 0.8149 18000 0.1317 28964096
0.1229 0.8239 18200 0.1245 29286752
0.1241 0.8330 18400 0.1286 29606528
0.1363 0.8420 18600 0.1233 29925408
0.1303 0.8511 18800 0.1244 30247104
0.1 0.8601 19000 0.1229 30566528
0.135 0.8692 19200 0.1257 30887744
0.1142 0.8782 19400 0.1215 31208352
0.138 0.8873 19600 0.1230 31526720
0.1149 0.8964 19800 0.1205 31848736
0.1121 0.9054 20000 0.1246 32169056
0.1145 0.9145 20200 0.1190 32490752
0.1123 0.9235 20400 0.1226 32813120
0.1024 0.9326 20600 0.1186 33133696
0.1231 0.9416 20800 0.1177 33452320
0.0835 0.9507 21000 0.1184 33776032
0.0963 0.9597 21200 0.1166 34099680
0.1404 0.9688 21400 0.1213 34424928
0.1327 0.9778 21600 0.1180 34748544
0.1162 0.9869 21800 0.1206 35071104
0.1028 0.9959 22000 0.1145 35388960
0.1034 1.0050 22200 0.1153 35712792
0.1443 1.0140 22400 0.1160 36032952
0.0886 1.0231 22600 0.1162 36353656
0.1369 1.0321 22800 0.1143 36671480
0.1125 1.0412 23000 0.1150 36990680
0.0936 1.0503 23200 0.1140 37312248
0.155 1.0593 23400 0.1151 37633848
0.114 1.0684 23600 0.1210 37954104
0.1355 1.0774 23800 0.1144 38272056
0.0903 1.0865 24000 0.1161 38594968
0.1406 1.0955 24200 0.1137 38918264
0.1252 1.1046 24400 0.1138 39242584
0.1068 1.1136 24600 0.1110 39566872
0.0815 1.1227 24800 0.1109 39889656
0.1231 1.1317 25000 0.1150 40209528
0.1084 1.1408 25200 0.1130 40535352
0.0951 1.1498 25400 0.1111 40858264
0.128 1.1589 25600 0.1104 41182296
0.0604 1.1680 25800 0.1114 41502296
0.1097 1.1770 26000 0.1106 41824280
0.0998 1.1861 26200 0.1115 42148504
0.1372 1.1951 26400 0.1101 42470008
0.0967 1.2042 26600 0.1089 42789400
0.1274 1.2132 26800 0.1097 43109688
0.0784 1.2223 27000 0.1125 43433720
0.1068 1.2313 27200 0.1107 43755288
0.0917 1.2404 27400 0.1095 44072376
0.1141 1.2494 27600 0.1093 44391832
0.0779 1.2585 27800 0.1094 44714776
0.0972 1.2675 28000 0.1079 45035480
0.1198 1.2766 28200 0.1098 45354808
0.1231 1.2857 28400 0.1092 45678200
0.0915 1.2947 28600 0.1105 45998328
0.1706 1.3038 28800 0.1110 46314552
0.0854 1.3128 29000 0.1068 46639640
0.1749 1.3219 29200 0.1067 46962616
0.1095 1.3309 29400 0.1074 47284152
0.1165 1.3400 29600 0.1075 47605208
0.094 1.3490 29800 0.1062 47925944
0.1375 1.3581 30000 0.1067 48250168
0.07 1.3671 30200 0.1081 48570040
0.129 1.3762 30400 0.1061 48891448
0.1064 1.3853 30600 0.1057 49216568
0.0995 1.3943 30800 0.1057 49535352
0.0876 1.4034 31000 0.1055 49859864
0.1298 1.4124 31200 0.1060 50183160
0.0842 1.4215 31400 0.1059 50505176
0.0993 1.4305 31600 0.1052 50823608
0.0891 1.4396 31800 0.1048 51142072
0.1022 1.4486 32000 0.1053 51462648
0.0892 1.4577 32200 0.1074 51788568
0.1001 1.4667 32400 0.1049 52107544
0.0961 1.4758 32600 0.1046 52430680
0.1437 1.4848 32800 0.1046 52750648
0.1479 1.4939 33000 0.1053 53070040
0.1133 1.5030 33200 0.1052 53392248
0.0933 1.5120 33400 0.1059 53715256
0.0873 1.5211 33600 0.1054 54035320
0.1075 1.5301 33800 0.1045 54359832
0.0649 1.5392 34000 0.1042 54681080
0.0861 1.5482 34200 0.1038 55004920
0.0814 1.5573 34400 0.1041 55328216
0.074 1.5663 34600 0.1040 55651352
0.0819 1.5754 34800 0.1038 55973688
0.064 1.5844 35000 0.1038 56295192
0.1199 1.5935 35200 0.1036 56617656
0.1077 1.6025 35400 0.1036 56938168
0.1226 1.6116 35600 0.1039 57260536
0.0921 1.6207 35800 0.1036 57581848
0.097 1.6297 36000 0.1035 57900760
0.1194 1.6388 36200 0.1040 58226104
0.0965 1.6478 36400 0.1035 58548024
0.0832 1.6569 36600 0.1033 58869400
0.0864 1.6659 36800 0.1034 59192472
0.1277 1.6750 37000 0.1033 59516888
0.0804 1.6840 37200 0.1031 59840056
0.0614 1.6931 37400 0.1033 60166712
0.1037 1.7021 37600 0.1033 60488984
0.0874 1.7112 37800 0.1031 60810360
0.0783 1.7203 38000 0.1031 61132280
0.0941 1.7293 38200 0.1032 61456312
0.0929 1.7384 38400 0.1031 61776888
0.1339 1.7474 38600 0.1031 62093144
0.0966 1.7565 38800 0.1032 62410264
0.0785 1.7655 39000 0.1032 62732824
0.0942 1.7746 39200 0.1031 63054168
0.1183 1.7836 39400 0.1031 63375640
0.0924 1.7927 39600 0.1031 63697560
0.0543 1.8017 39800 0.1031 64016568
0.0784 1.8108 40000 0.1030 64338040

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
6
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mnli_1744902581

Adapter
(80)
this model