train_mnli_1744902589

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the mnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0822
  • Num Input Tokens Seen: 65325648

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.3965 0.0091 200 0.4141 324448
0.3746 0.0181 400 0.3753 648960
0.3615 0.0272 600 0.3822 978272
0.3844 0.0362 800 0.3138 1304544
0.1833 0.0453 1000 0.1620 1632320
0.1372 0.0543 1200 0.1440 1960640
0.1135 0.0634 1400 0.1312 2285632
0.0898 0.0724 1600 0.1266 2618496
0.0891 0.0815 1800 0.1173 2944032
0.1235 0.0905 2000 0.1099 3272000
0.1175 0.0996 2200 0.1345 3597472
0.1044 0.1086 2400 0.1175 3927168
0.1046 0.1177 2600 0.1443 4255584
0.078 0.1268 2800 0.1138 4584288
0.124 0.1358 3000 0.1206 4909888
0.1259 0.1449 3200 0.1140 5238176
0.1213 0.1539 3400 0.1109 5565344
0.112 0.1630 3600 0.1050 5894816
0.1753 0.1720 3800 0.1097 6221824
0.0931 0.1811 4000 0.1074 6549344
0.06 0.1901 4200 0.1040 6877728
0.1073 0.1992 4400 0.0992 7208416
0.0841 0.2082 4600 0.1044 7534752
0.0774 0.2173 4800 0.1065 7860736
0.0842 0.2264 5000 0.1028 8188256
0.0763 0.2354 5200 0.1066 8511680
0.1273 0.2445 5400 0.1013 8837568
0.1139 0.2535 5600 0.0995 9160064
0.1226 0.2626 5800 0.1071 9487296
0.0678 0.2716 6000 0.0969 9811712
0.1137 0.2807 6200 0.0990 10136992
0.1202 0.2897 6400 0.1026 10462272
0.0555 0.2988 6600 0.0990 10789600
0.0718 0.3078 6800 0.0977 11113952
0.0758 0.3169 7000 0.1019 11441248
0.0763 0.3259 7200 0.1010 11771744
0.1444 0.3350 7400 0.0997 12094400
0.0627 0.3441 7600 0.0987 12416992
0.0583 0.3531 7800 0.0977 12743488
0.0857 0.3622 8000 0.1012 13067648
0.1244 0.3712 8200 0.0997 13394336
0.0996 0.3803 8400 0.1115 13721024
0.0838 0.3893 8600 0.0970 14051424
0.1093 0.3984 8800 0.0981 14376864
0.0549 0.4074 9000 0.0952 14703264
0.127 0.4165 9200 0.1009 15029760
0.126 0.4255 9400 0.1006 15361920
0.08 0.4346 9600 0.0958 15682912
0.0856 0.4436 9800 0.0948 16010208
0.0618 0.4527 10000 0.0968 16337472
0.095 0.4618 10200 0.0992 16665216
0.1181 0.4708 10400 0.0926 16998848
0.1616 0.4799 10600 0.0949 17323904
0.0901 0.4889 10800 0.1001 17650528
0.1134 0.4980 11000 0.1006 17980544
0.0907 0.5070 11200 0.0931 18309024
0.0866 0.5161 11400 0.0955 18634272
0.0861 0.5251 11600 0.0949 18963136
0.1076 0.5342 11800 0.1031 19290912
0.0806 0.5432 12000 0.0921 19612800
0.0779 0.5523 12200 0.0947 19941216
0.0874 0.5614 12400 0.0928 20264608
0.0729 0.5704 12600 0.0924 20589280
0.0567 0.5795 12800 0.0944 20916288
0.0638 0.5885 13000 0.0920 21243456
0.0783 0.5976 13200 0.0912 21567008
0.1021 0.6066 13400 0.0918 21891776
0.1274 0.6157 13600 0.0918 22216544
0.0805 0.6247 13800 0.0892 22549952
0.0811 0.6338 14000 0.0913 22873376
0.0758 0.6428 14200 0.0969 23198016
0.0889 0.6519 14400 0.0906 23524256
0.0804 0.6609 14600 0.0931 23851808
0.1041 0.6700 14800 0.0914 24178976
0.0883 0.6791 15000 0.0911 24506336
0.0461 0.6881 15200 0.0925 24829472
0.0486 0.6972 15400 0.0903 25157504
0.0882 0.7062 15600 0.0887 25483232
0.0291 0.7153 15800 0.0904 25808352
0.0824 0.7243 16000 0.0895 26140320
0.0822 0.7334 16200 0.0915 26468320
0.13 0.7424 16400 0.0913 26792800
0.1474 0.7515 16600 0.0902 27113248
0.1258 0.7605 16800 0.0889 27442048
0.0848 0.7696 17000 0.0897 27766816
0.0676 0.7787 17200 0.0884 28092576
0.0565 0.7877 17400 0.0886 28420128
0.0935 0.7968 17600 0.0884 28753152
0.0531 0.8058 17800 0.0905 29079392
0.1051 0.8149 18000 0.0919 29407776
0.0814 0.8239 18200 0.0882 29735104
0.0633 0.8330 18400 0.0877 30059584
0.0664 0.8420 18600 0.0902 30382752
0.0544 0.8511 18800 0.0908 30709120
0.0803 0.8601 19000 0.0869 31033824
0.0531 0.8692 19200 0.0887 31360256
0.0716 0.8782 19400 0.0875 31685120
0.1074 0.8873 19600 0.0881 32008192
0.0848 0.8964 19800 0.0881 32334784
0.0764 0.9054 20000 0.0874 32660640
0.0926 0.9145 20200 0.0883 32987392
0.0687 0.9235 20400 0.0870 33314592
0.0913 0.9326 20600 0.0878 33640256
0.0627 0.9416 20800 0.0875 33963328
0.0476 0.9507 21000 0.0863 34291328
0.0866 0.9597 21200 0.0859 34621536
0.0776 0.9688 21400 0.0891 34952416
0.073 0.9778 21600 0.0871 35281184
0.0911 0.9869 21800 0.0865 35609536
0.0604 0.9959 22000 0.0870 35932000
0.076 1.0050 22200 0.0859 36261328
0.0908 1.0140 22400 0.0871 36586768
0.0675 1.0231 22600 0.0860 36912400
0.1176 1.0321 22800 0.0856 37234576
0.0538 1.0412 23000 0.0872 37558256
0.0406 1.0503 23200 0.0853 37885552
0.0932 1.0593 23400 0.0876 38212304
0.1233 1.0684 23600 0.0862 38537360
0.0738 1.0774 23800 0.0871 38859952
0.0507 1.0865 24000 0.0891 39187024
0.1249 1.0955 24200 0.0896 39514800
0.1496 1.1046 24400 0.0851 39844432
0.0706 1.1136 24600 0.0872 40173104
0.0637 1.1227 24800 0.0879 40501584
0.0972 1.1317 25000 0.0863 40826064
0.1201 1.1408 25200 0.0848 41157808
0.0814 1.1498 25400 0.0860 41484464
0.1013 1.1589 25600 0.0844 41813008
0.0458 1.1680 25800 0.0843 42137552
0.0513 1.1770 26000 0.0860 42463856
0.0453 1.1861 26200 0.0859 42792816
0.1223 1.1951 26400 0.0843 43119408
0.0659 1.2042 26600 0.0843 43443728
0.0912 1.2132 26800 0.0847 43768400
0.0522 1.2223 27000 0.0851 44097456
0.0458 1.2313 27200 0.0846 44424592
0.0776 1.2404 27400 0.0844 44745968
0.0824 1.2494 27600 0.0853 45070992
0.0492 1.2585 27800 0.0856 45399120
0.0756 1.2675 28000 0.0853 45724560
0.0938 1.2766 28200 0.0846 46049424
0.1108 1.2857 28400 0.0839 46378736
0.0754 1.2947 28600 0.0855 46704368
0.1299 1.3038 28800 0.0842 47024752
0.048 1.3128 29000 0.0840 47354768
0.1063 1.3219 29200 0.0843 47683536
0.0768 1.3309 29400 0.0835 48009456
0.0975 1.3400 29600 0.0838 48335280
0.0736 1.3490 29800 0.0836 48661616
0.1061 1.3581 30000 0.0844 48990960
0.0557 1.3671 30200 0.0838 49316656
0.0732 1.3762 30400 0.0833 49642704
0.07 1.3853 30600 0.0833 49973200
0.0831 1.3943 30800 0.0841 50295952
0.0716 1.4034 31000 0.0830 50626416
0.0923 1.4124 31200 0.0831 50955696
0.0441 1.4215 31400 0.0830 51283248
0.0755 1.4305 31600 0.0835 51605616
0.0414 1.4396 31800 0.0839 51928880
0.0728 1.4486 32000 0.0829 52254448
0.0714 1.4577 32200 0.0840 52584816
0.0579 1.4667 32400 0.0831 52909264
0.0488 1.4758 32600 0.0832 53237136
0.1042 1.4848 32800 0.0829 53561232
0.0806 1.4939 33000 0.0830 53886096
0.0984 1.5030 33200 0.0828 54213552
0.0848 1.5120 33400 0.0829 54541744
0.0661 1.5211 33600 0.0832 54866672
0.114 1.5301 33800 0.0833 55196400
0.0608 1.5392 34000 0.0825 55522928
0.1102 1.5482 34200 0.0825 55851984
0.0499 1.5573 34400 0.0828 56180080
0.06 1.5663 34600 0.0826 56508016
0.0573 1.5754 34800 0.0827 56834992
0.0575 1.5844 35000 0.0823 57161136
0.0795 1.5935 35200 0.0823 57489264
0.0822 1.6025 35400 0.0823 57815440
0.124 1.6116 35600 0.0825 58142864
0.0604 1.6207 35800 0.0825 58469616
0.0851 1.6297 36000 0.0826 58792656
0.1173 1.6388 36200 0.0822 59123504
0.0741 1.6478 36400 0.0825 59449936
0.0703 1.6569 36600 0.0825 59776048
0.0573 1.6659 36800 0.0824 60104592
0.1298 1.6750 37000 0.0823 60434192
0.0495 1.6840 37200 0.0823 60762128
0.0297 1.6931 37400 0.0824 61094320
0.0893 1.7021 37600 0.0824 61421040
0.0497 1.7112 37800 0.0823 61747120
0.0917 1.7203 38000 0.0822 62073424
0.0714 1.7293 38200 0.0822 62401776
0.0704 1.7384 38400 0.0823 62726928
0.1191 1.7474 38600 0.0823 63048080
0.0823 1.7565 38800 0.0823 63369712
0.0535 1.7655 39000 0.0823 63696112
0.1242 1.7746 39200 0.0823 64022416
0.0864 1.7836 39400 0.0823 64348304
0.0483 1.7927 39600 0.0823 64675472
0.0352 1.8017 39800 0.0823 64999728
0.0702 1.8108 40000 0.0822 65325648

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
12
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mnli_1744902589

Adapter
(355)
this model