train_mnli_1744902588

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the mnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1219
  • Num Input Tokens Seen: 65325648

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.3032 0.0091 200 0.3444 324448
0.2352 0.0181 400 0.2627 648960
0.224 0.0272 600 0.2412 978272
0.2823 0.0362 800 0.2286 1304544
0.2385 0.0453 1000 0.2195 1632320
0.2736 0.0543 1200 0.2130 1960640
0.1934 0.0634 1400 0.2068 2285632
0.1414 0.0724 1600 0.2008 2618496
0.1758 0.0815 1800 0.1970 2944032
0.1925 0.0905 2000 0.1933 3272000
0.1826 0.0996 2200 0.1908 3597472
0.1573 0.1086 2400 0.1864 3927168
0.112 0.1177 2600 0.1863 4255584
0.1453 0.1268 2800 0.1804 4584288
0.1463 0.1358 3000 0.1782 4909888
0.1461 0.1449 3200 0.1749 5238176
0.1924 0.1539 3400 0.1738 5565344
0.1914 0.1630 3600 0.1707 5894816
0.2461 0.1720 3800 0.1688 6221824
0.1189 0.1811 4000 0.1670 6549344
0.1342 0.1901 4200 0.1662 6877728
0.1281 0.1992 4400 0.1651 7208416
0.1202 0.2082 4600 0.1634 7534752
0.1502 0.2173 4800 0.1626 7860736
0.1593 0.2264 5000 0.1598 8188256
0.1524 0.2354 5200 0.1586 8511680
0.1504 0.2445 5400 0.1571 8837568
0.1704 0.2535 5600 0.1557 9160064
0.153 0.2626 5800 0.1543 9487296
0.1463 0.2716 6000 0.1532 9811712
0.1254 0.2807 6200 0.1525 10136992
0.1758 0.2897 6400 0.1511 10462272
0.1006 0.2988 6600 0.1517 10789600
0.1458 0.3078 6800 0.1519 11113952
0.1425 0.3169 7000 0.1486 11441248
0.0777 0.3259 7200 0.1484 11771744
0.172 0.3350 7400 0.1472 12094400
0.1172 0.3441 7600 0.1461 12416992
0.1068 0.3531 7800 0.1461 12743488
0.1615 0.3622 8000 0.1460 13067648
0.1746 0.3712 8200 0.1441 13394336
0.1477 0.3803 8400 0.1467 13721024
0.0784 0.3893 8600 0.1431 14051424
0.1506 0.3984 8800 0.1423 14376864
0.0779 0.4074 9000 0.1428 14703264
0.165 0.4165 9200 0.1427 15029760
0.1242 0.4255 9400 0.1406 15361920
0.0981 0.4346 9600 0.1399 15682912
0.1451 0.4436 9800 0.1396 16010208
0.1045 0.4527 10000 0.1394 16337472
0.1355 0.4618 10200 0.1394 16665216
0.1504 0.4708 10400 0.1394 16998848
0.1616 0.4799 10600 0.1384 17323904
0.1605 0.4889 10800 0.1373 17650528
0.1311 0.4980 11000 0.1372 17980544
0.1381 0.5070 11200 0.1378 18309024
0.1316 0.5161 11400 0.1372 18634272
0.1468 0.5251 11600 0.1360 18963136
0.1778 0.5342 11800 0.1363 19290912
0.1219 0.5432 12000 0.1353 19612800
0.1358 0.5523 12200 0.1343 19941216
0.1107 0.5614 12400 0.1342 20264608
0.122 0.5704 12600 0.1338 20589280
0.0929 0.5795 12800 0.1335 20916288
0.0914 0.5885 13000 0.1346 21243456
0.1268 0.5976 13200 0.1330 21567008
0.1056 0.6066 13400 0.1324 21891776
0.1738 0.6157 13600 0.1322 22216544
0.1048 0.6247 13800 0.1347 22549952
0.1093 0.6338 14000 0.1317 22873376
0.1237 0.6428 14200 0.1320 23198016
0.1476 0.6519 14400 0.1324 23524256
0.1182 0.6609 14600 0.1320 23851808
0.1321 0.6700 14800 0.1312 24178976
0.1284 0.6791 15000 0.1303 24506336
0.0974 0.6881 15200 0.1301 24829472
0.0863 0.6972 15400 0.1315 25157504
0.14 0.7062 15600 0.1297 25483232
0.0902 0.7153 15800 0.1303 25808352
0.1352 0.7243 16000 0.1296 26140320
0.1089 0.7334 16200 0.1304 26468320
0.1688 0.7424 16400 0.1300 26792800
0.1423 0.7515 16600 0.1294 27113248
0.1579 0.7605 16800 0.1285 27442048
0.0888 0.7696 17000 0.1293 27766816
0.1038 0.7787 17200 0.1288 28092576
0.126 0.7877 17400 0.1289 28420128
0.1326 0.7968 17600 0.1278 28753152
0.0804 0.8058 17800 0.1281 29079392
0.1405 0.8149 18000 0.1286 29407776
0.1031 0.8239 18200 0.1274 29735104
0.0959 0.8330 18400 0.1274 30059584
0.1382 0.8420 18600 0.1276 30382752
0.112 0.8511 18800 0.1277 30709120
0.1187 0.8601 19000 0.1273 31033824
0.1207 0.8692 19200 0.1268 31360256
0.1399 0.8782 19400 0.1270 31685120
0.1407 0.8873 19600 0.1263 32008192
0.1568 0.8964 19800 0.1268 32334784
0.1549 0.9054 20000 0.1264 32660640
0.1416 0.9145 20200 0.1258 32987392
0.0978 0.9235 20400 0.1258 33314592
0.1358 0.9326 20600 0.1255 33640256
0.1149 0.9416 20800 0.1264 33963328
0.0931 0.9507 21000 0.1254 34291328
0.1168 0.9597 21200 0.1255 34621536
0.1218 0.9688 21400 0.1253 34952416
0.1276 0.9778 21600 0.1251 35281184
0.1316 0.9869 21800 0.1251 35609536
0.1234 0.9959 22000 0.1256 35932000
0.1009 1.0050 22200 0.1249 36261328
0.1121 1.0140 22400 0.1252 36586768
0.1369 1.0231 22600 0.1246 36912400
0.1304 1.0321 22800 0.1244 37234576
0.0972 1.0412 23000 0.1245 37558256
0.0822 1.0503 23200 0.1249 37885552
0.0995 1.0593 23400 0.1247 38212304
0.1047 1.0684 23600 0.1251 38537360
0.1431 1.0774 23800 0.1240 38859952
0.1015 1.0865 24000 0.1241 39187024
0.1643 1.0955 24200 0.1244 39514800
0.1877 1.1046 24400 0.1239 39844432
0.0957 1.1136 24600 0.1238 40173104
0.0896 1.1227 24800 0.1240 40501584
0.1227 1.1317 25000 0.1242 40826064
0.1777 1.1408 25200 0.1237 41157808
0.1331 1.1498 25400 0.1237 41484464
0.1713 1.1589 25600 0.1235 41813008
0.088 1.1680 25800 0.1235 42137552
0.1092 1.1770 26000 0.1234 42463856
0.0912 1.1861 26200 0.1234 42792816
0.1612 1.1951 26400 0.1234 43119408
0.1061 1.2042 26600 0.1235 43443728
0.1426 1.2132 26800 0.1231 43768400
0.096 1.2223 27000 0.1232 44097456
0.0845 1.2313 27200 0.1236 44424592
0.1236 1.2404 27400 0.1230 44745968
0.1298 1.2494 27600 0.1229 45070992
0.0784 1.2585 27800 0.1237 45399120
0.1172 1.2675 28000 0.1230 45724560
0.0987 1.2766 28200 0.1230 46049424
0.1963 1.2857 28400 0.1226 46378736
0.1376 1.2947 28600 0.1230 46704368
0.1788 1.3038 28800 0.1231 47024752
0.0925 1.3128 29000 0.1226 47354768
0.1576 1.3219 29200 0.1224 47683536
0.1154 1.3309 29400 0.1225 48009456
0.1532 1.3400 29600 0.1225 48335280
0.1133 1.3490 29800 0.1227 48661616
0.1822 1.3581 30000 0.1225 48990960
0.1113 1.3671 30200 0.1222 49316656
0.1181 1.3762 30400 0.1226 49642704
0.1216 1.3853 30600 0.1227 49973200
0.1208 1.3943 30800 0.1225 50295952
0.131 1.4034 31000 0.1223 50626416
0.1164 1.4124 31200 0.1222 50955696
0.0775 1.4215 31400 0.1224 51283248
0.0786 1.4305 31600 0.1223 51605616
0.0685 1.4396 31800 0.1227 51928880
0.0833 1.4486 32000 0.1223 52254448
0.1098 1.4577 32200 0.1224 52584816
0.067 1.4667 32400 0.1222 52909264
0.1011 1.4758 32600 0.1222 53237136
0.1434 1.4848 32800 0.1223 53561232
0.1549 1.4939 33000 0.1223 53886096
0.1455 1.5030 33200 0.1221 54213552
0.1236 1.5120 33400 0.1226 54541744
0.1055 1.5211 33600 0.1225 54866672
0.1559 1.5301 33800 0.1224 55196400
0.1011 1.5392 34000 0.1220 55522928
0.1099 1.5482 34200 0.1220 55851984
0.0908 1.5573 34400 0.1221 56180080
0.1314 1.5663 34600 0.1221 56508016
0.0865 1.5754 34800 0.1222 56834992
0.1051 1.5844 35000 0.1219 57161136
0.1176 1.5935 35200 0.1221 57489264
0.1073 1.6025 35400 0.1220 57815440
0.1508 1.6116 35600 0.1220 58142864
0.0994 1.6207 35800 0.1219 58469616
0.1437 1.6297 36000 0.1220 58792656
0.159 1.6388 36200 0.1220 59123504
0.1009 1.6478 36400 0.1221 59449936
0.0874 1.6569 36600 0.1219 59776048
0.1021 1.6659 36800 0.1220 60104592
0.1486 1.6750 37000 0.1221 60434192
0.0819 1.6840 37200 0.1220 60762128
0.0808 1.6931 37400 0.1220 61094320
0.1355 1.7021 37600 0.1223 61421040
0.1033 1.7112 37800 0.1220 61747120
0.1151 1.7203 38000 0.1220 62073424
0.122 1.7293 38200 0.1221 62401776
0.0992 1.7384 38400 0.1219 62726928
0.1577 1.7474 38600 0.1221 63048080
0.1311 1.7565 38800 0.1221 63369712
0.1018 1.7655 39000 0.1220 63696112
0.1229 1.7746 39200 0.1219 64022416
0.1105 1.7836 39400 0.1219 64348304
0.0664 1.7927 39600 0.1219 64675472
0.0694 1.8017 39800 0.1219 64999728
0.1083 1.8108 40000 0.1219 65325648

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mnli_1744902588

Adapter
(355)
this model