train_qnli_1744902608

This model is a fine-tuned version of google/gemma-3-1b-it on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0678
  • Num Input Tokens Seen: 73102784

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2201 0.0339 200 0.2234 367200
0.0726 0.0679 400 0.1261 737312
0.1142 0.1018 600 0.1096 1102816
0.0995 0.1358 800 0.1027 1468736
0.1089 0.1697 1000 0.0995 1829952
0.0976 0.2037 1200 0.0960 2199200
0.1023 0.2376 1400 0.0943 2565536
0.0905 0.2716 1600 0.0933 2930336
0.0822 0.3055 1800 0.0916 3297216
0.0795 0.3395 2000 0.0911 3666880
0.0888 0.3734 2200 0.0895 4036544
0.0861 0.4073 2400 0.0884 4400256
0.0998 0.4413 2600 0.0874 4765408
0.0919 0.4752 2800 0.0871 5130336
0.068 0.5092 3000 0.0859 5495328
0.0903 0.5431 3200 0.0853 5857280
0.1068 0.5771 3400 0.0845 6221504
0.0682 0.6110 3600 0.0844 6589568
0.0788 0.6450 3800 0.0847 6959584
0.0784 0.6789 4000 0.0830 7323712
0.0992 0.7129 4200 0.0826 7690880
0.0885 0.7468 4400 0.0821 8053632
0.0773 0.7808 4600 0.0814 8417216
0.0824 0.8147 4800 0.0812 8782624
0.095 0.8486 5000 0.0808 9145728
0.0875 0.8826 5200 0.0804 9513920
0.0805 0.9165 5400 0.0801 9877152
0.0894 0.9505 5600 0.0810 10240128
0.0881 0.9844 5800 0.0795 10606272
0.0757 1.0183 6000 0.0790 10971744
0.0968 1.0523 6200 0.0786 11335648
0.0803 1.0862 6400 0.0784 11702592
0.0912 1.1202 6600 0.0783 12070112
0.0838 1.1541 6800 0.0779 12437088
0.0695 1.1881 7000 0.0777 12802848
0.0873 1.2220 7200 0.0773 13171040
0.071 1.2560 7400 0.0772 13539968
0.0822 1.2899 7600 0.0766 13904864
0.0855 1.3238 7800 0.0764 14272512
0.0872 1.3578 8000 0.0762 14634880
0.0569 1.3917 8200 0.0767 15002592
0.0648 1.4257 8400 0.0765 15369600
0.0498 1.4596 8600 0.0759 15731008
0.0706 1.4936 8800 0.0754 16092896
0.0891 1.5275 9000 0.0765 16458208
0.0686 1.5615 9200 0.0755 16823328
0.0934 1.5954 9400 0.0752 17185120
0.0732 1.6294 9600 0.0750 17551488
0.09 1.6633 9800 0.0746 17914752
0.0691 1.6972 10000 0.0746 18281888
0.0782 1.7312 10200 0.0756 18645120
0.0571 1.7651 10400 0.0743 19010848
0.0721 1.7991 10600 0.0740 19377344
0.0702 1.8330 10800 0.0739 19739232
0.0726 1.8670 11000 0.0738 20107584
0.0723 1.9009 11200 0.0739 20470912
0.0832 1.9349 11400 0.0740 20832736
0.0623 1.9688 11600 0.0735 21199808
0.0755 2.0027 11800 0.0752 21568384
0.0663 2.0367 12000 0.0734 21931424
0.0826 2.0706 12200 0.0731 22294816
0.0694 2.1046 12400 0.0729 22655968
0.0674 2.1385 12600 0.0728 23020896
0.0669 2.1724 12800 0.0726 23383104
0.0714 2.2064 13000 0.0724 23746656
0.0577 2.2403 13200 0.0724 24110208
0.0718 2.2743 13400 0.0722 24476544
0.0791 2.3082 13600 0.0721 24841440
0.07 2.3422 13800 0.0732 25206624
0.0682 2.3761 14000 0.0719 25573280
0.056 2.4101 14200 0.0719 25939392
0.0686 2.4440 14400 0.0723 26303968
0.0684 2.4780 14600 0.0718 26666944
0.0782 2.5119 14800 0.0716 27035136
0.0782 2.5458 15000 0.0718 27406144
0.0678 2.5798 15200 0.0715 27772832
0.07 2.6137 15400 0.0714 28134848
0.0579 2.6477 15600 0.0713 28505504
0.0633 2.6816 15800 0.0712 28870784
0.0754 2.7156 16000 0.0711 29233952
0.0688 2.7495 16200 0.0713 29603328
0.0687 2.7835 16400 0.0714 29968768
0.0752 2.8174 16600 0.0711 30334496
0.0626 2.8514 16800 0.0711 30703616
0.0792 2.8853 17000 0.0713 31068224
0.0692 2.9193 17200 0.0708 31438688
0.0602 2.9532 17400 0.0707 31802368
0.0766 2.9871 17600 0.0704 32165728
0.0649 3.0210 17800 0.0704 32528896
0.0758 3.0550 18000 0.0712 32897376
0.0858 3.0889 18200 0.0705 33262688
0.0653 3.1229 18400 0.0707 33623616
0.0722 3.1568 18600 0.0700 33989920
0.0766 3.1908 18800 0.0701 34354528
0.0698 3.2247 19000 0.0705 34724672
0.0852 3.2587 19200 0.0702 35092288
0.0705 3.2926 19400 0.0703 35458048
0.0623 3.3266 19600 0.0699 35826240
0.0656 3.3605 19800 0.0700 36191232
0.0816 3.3944 20000 0.0700 36553088
0.059 3.4284 20200 0.0698 36917376
0.0612 3.4623 20400 0.0698 37284512
0.0772 3.4963 20600 0.0697 37649248
0.0608 3.5302 20800 0.0696 38012256
0.0637 3.5642 21000 0.0696 38378592
0.0829 3.5981 21200 0.0694 38743328
0.0668 3.6321 21400 0.0698 39111200
0.0651 3.6660 21600 0.0693 39473536
0.0706 3.7000 21800 0.0693 39836704
0.068 3.7339 22000 0.0701 40202176
0.0806 3.7679 22200 0.0696 40568544
0.0671 3.8018 22400 0.0693 40932032
0.0842 3.8357 22600 0.0694 41296544
0.0599 3.8697 22800 0.0691 41661472
0.0818 3.9036 23000 0.0692 42031616
0.0663 3.9376 23200 0.0690 42395200
0.054 3.9715 23400 0.0691 42760960
0.0543 4.0054 23600 0.0690 43128480
0.0647 4.0394 23800 0.0693 43492288
0.0523 4.0733 24000 0.0689 43859360
0.0734 4.1073 24200 0.0688 44222400
0.0712 4.1412 24400 0.0691 44585632
0.0492 4.1752 24600 0.0690 44956064
0.0661 4.2091 24800 0.0688 45323456
0.0583 4.2431 25000 0.0688 45688544
0.0682 4.2770 25200 0.0686 46054272
0.0843 4.3109 25400 0.0687 46420608
0.0594 4.3449 25600 0.0689 46787232
0.0622 4.3788 25800 0.0688 47151008
0.0574 4.4128 26000 0.0690 47516064
0.0594 4.4467 26200 0.0687 47880960
0.0698 4.4807 26400 0.0686 48244480
0.0468 4.5146 26600 0.0688 48612352
0.0469 4.5486 26800 0.0688 48977376
0.0529 4.5825 27000 0.0685 49343328
0.0649 4.6165 27200 0.0685 49712064
0.0805 4.6504 27400 0.0685 50076832
0.0531 4.6843 27600 0.0683 50439616
0.0733 4.7183 27800 0.0686 50803552
0.0751 4.7522 28000 0.0685 51165472
0.0621 4.7862 28200 0.0684 51527808
0.0636 4.8201 28400 0.0683 51895200
0.064 4.8541 28600 0.0683 52259648
0.0755 4.8880 28800 0.0684 52628032
0.0781 4.9220 29000 0.0684 52997024
0.083 4.9559 29200 0.0684 53364352
0.0688 4.9899 29400 0.0684 53730624
0.0806 5.0238 29600 0.0683 54094208
0.0654 5.0577 29800 0.0682 54461312
0.066 5.0917 30000 0.0685 54825216
0.0505 5.1256 30200 0.0685 55189504
0.0719 5.1595 30400 0.0682 55553280
0.0674 5.1935 30600 0.0683 55917792
0.072 5.2274 30800 0.0683 56282176
0.0495 5.2614 31000 0.0684 56643104
0.0575 5.2953 31200 0.0690 57005120
0.0511 5.3293 31400 0.0683 57373152
0.0483 5.3632 31600 0.0684 57735872
0.0635 5.3972 31800 0.0682 58101536
0.0946 5.4311 32000 0.0683 58472288
0.0701 5.4651 32200 0.0681 58840960
0.0785 5.4990 32400 0.0685 59204992
0.0741 5.5329 32600 0.0681 59570752
0.0594 5.5669 32800 0.0680 59937728
0.0511 5.6008 33000 0.0683 60306240
0.0809 5.6348 33200 0.0681 60675168
0.0648 5.6687 33400 0.0682 61042176
0.0818 5.7027 33600 0.0681 61409120
0.0697 5.7366 33800 0.0678 61775168
0.0437 5.7706 34000 0.0682 62143616
0.0819 5.8045 34200 0.0681 62507552
0.0636 5.8385 34400 0.0680 62872928
0.0748 5.8724 34600 0.0680 63234816
0.0511 5.9064 34800 0.0680 63599616
0.08 5.9403 35000 0.0681 63966688
0.053 5.9742 35200 0.0680 64332704
0.0796 6.0081 35400 0.0680 64693664
0.0642 6.0421 35600 0.0682 65053728
0.0656 6.0760 35800 0.0681 65419648
0.0789 6.1100 36000 0.0679 65786464
0.0648 6.1439 36200 0.0681 66152416
0.0629 6.1779 36400 0.0681 66522528
0.0629 6.2118 36600 0.0681 66888512
0.0565 6.2458 36800 0.0681 67255840
0.0591 6.2797 37000 0.0681 67620416
0.0556 6.3137 37200 0.0681 67983360
0.0514 6.3476 37400 0.0682 68348480
0.07 6.3816 37600 0.0679 68715840
0.0543 6.4155 37800 0.0681 69081536
0.0887 6.4494 38000 0.0680 69446208
0.051 6.4834 38200 0.0680 69813728
0.0644 6.5173 38400 0.0680 70182464
0.0457 6.5513 38600 0.0682 70547904
0.0766 6.5852 38800 0.0680 70911456
0.0701 6.6192 39000 0.0681 71277536
0.0563 6.6531 39200 0.0680 71642624
0.0755 6.6871 39400 0.0680 72006592
0.0527 6.7210 39600 0.0681 72370176
0.062 6.7550 39800 0.0682 72737088
0.0616 6.7889 40000 0.0682 73102784

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902608

Adapter
(80)
this model