train_qnli_1744902604

This model is a fine-tuned version of google/gemma-3-1b-it on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0644
  • Num Input Tokens Seen: 73102784

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.181 0.0339 200 0.1799 367200
0.0713 0.0679 400 0.1139 737312
0.1075 0.1018 600 0.1029 1102816
0.0941 0.1358 800 0.0980 1468736
0.1026 0.1697 1000 0.0952 1829952
0.0921 0.2037 1200 0.0925 2199200
0.0984 0.2376 1400 0.0912 2565536
0.09 0.2716 1600 0.0897 2930336
0.0778 0.3055 1800 0.0885 3297216
0.0816 0.3395 2000 0.0879 3666880
0.0863 0.3734 2200 0.0868 4036544
0.0822 0.4073 2400 0.0859 4400256
0.0966 0.4413 2600 0.0848 4765408
0.0938 0.4752 2800 0.0843 5130336
0.066 0.5092 3000 0.0832 5495328
0.0856 0.5431 3200 0.0826 5857280
0.1075 0.5771 3400 0.0818 6221504
0.0672 0.6110 3600 0.0812 6589568
0.0763 0.6450 3800 0.0823 6959584
0.074 0.6789 4000 0.0805 7323712
0.0981 0.7129 4200 0.0799 7690880
0.0849 0.7468 4400 0.0795 8053632
0.074 0.7808 4600 0.0788 8417216
0.0809 0.8147 4800 0.0791 8782624
0.0938 0.8486 5000 0.0783 9145728
0.0839 0.8826 5200 0.0781 9513920
0.0772 0.9165 5400 0.0774 9877152
0.0839 0.9505 5600 0.0778 10240128
0.0889 0.9844 5800 0.0768 10606272
0.0753 1.0183 6000 0.0761 10971744
0.0924 1.0523 6200 0.0758 11335648
0.0772 1.0862 6400 0.0757 11702592
0.088 1.1202 6600 0.0753 12070112
0.0784 1.1541 6800 0.0752 12437088
0.0655 1.1881 7000 0.0755 12802848
0.0809 1.2220 7200 0.0748 13171040
0.0686 1.2560 7400 0.0744 13539968
0.0781 1.2899 7600 0.0737 13904864
0.0861 1.3238 7800 0.0735 14272512
0.0834 1.3578 8000 0.0736 14634880
0.0557 1.3917 8200 0.0736 15002592
0.0626 1.4257 8400 0.0735 15369600
0.0481 1.4596 8600 0.0735 15731008
0.0653 1.4936 8800 0.0726 16092896
0.0891 1.5275 9000 0.0733 16458208
0.0666 1.5615 9200 0.0727 16823328
0.0902 1.5954 9400 0.0726 17185120
0.0701 1.6294 9600 0.0718 17551488
0.0845 1.6633 9800 0.0717 17914752
0.066 1.6972 10000 0.0714 18281888
0.0748 1.7312 10200 0.0723 18645120
0.0576 1.7651 10400 0.0711 19010848
0.0704 1.7991 10600 0.0710 19377344
0.0675 1.8330 10800 0.0711 19739232
0.0721 1.8670 11000 0.0708 20107584
0.0691 1.9009 11200 0.0708 20470912
0.0782 1.9349 11400 0.0713 20832736
0.057 1.9688 11600 0.0703 21199808
0.0712 2.0027 11800 0.0724 21568384
0.062 2.0367 12000 0.0707 21931424
0.0746 2.0706 12200 0.0701 22294816
0.063 2.1046 12400 0.0701 22655968
0.065 2.1385 12600 0.0695 23020896
0.0634 2.1724 12800 0.0693 23383104
0.0699 2.2064 13000 0.0694 23746656
0.0566 2.2403 13200 0.0693 24110208
0.0709 2.2743 13400 0.0691 24476544
0.0786 2.3082 13600 0.0690 24841440
0.0676 2.3422 13800 0.0704 25206624
0.0619 2.3761 14000 0.0689 25573280
0.0528 2.4101 14200 0.0686 25939392
0.0641 2.4440 14400 0.0689 26303968
0.0668 2.4780 14600 0.0686 26666944
0.0764 2.5119 14800 0.0685 27035136
0.0741 2.5458 15000 0.0689 27406144
0.0625 2.5798 15200 0.0682 27772832
0.0664 2.6137 15400 0.0683 28134848
0.0536 2.6477 15600 0.0682 28505504
0.0592 2.6816 15800 0.0681 28870784
0.0717 2.7156 16000 0.0680 29233952
0.0675 2.7495 16200 0.0682 29603328
0.066 2.7835 16400 0.0680 29968768
0.0729 2.8174 16600 0.0683 30334496
0.0559 2.8514 16800 0.0677 30703616
0.0771 2.8853 17000 0.0684 31068224
0.0654 2.9193 17200 0.0675 31438688
0.0593 2.9532 17400 0.0674 31802368
0.0713 2.9871 17600 0.0670 32165728
0.0593 3.0210 17800 0.0672 32528896
0.0722 3.0550 18000 0.0689 32897376
0.0795 3.0889 18200 0.0670 33262688
0.0661 3.1229 18400 0.0678 33623616
0.0704 3.1568 18600 0.0669 33989920
0.075 3.1908 18800 0.0668 34354528
0.0676 3.2247 19000 0.0667 34724672
0.0855 3.2587 19200 0.0667 35092288
0.0659 3.2926 19400 0.0667 35458048
0.0619 3.3266 19600 0.0665 35826240
0.0638 3.3605 19800 0.0667 36191232
0.0775 3.3944 20000 0.0669 36553088
0.0566 3.4284 20200 0.0664 36917376
0.0571 3.4623 20400 0.0663 37284512
0.0761 3.4963 20600 0.0666 37649248
0.0601 3.5302 20800 0.0663 38012256
0.0623 3.5642 21000 0.0662 38378592
0.0789 3.5981 21200 0.0663 38743328
0.0629 3.6321 21400 0.0669 39111200
0.062 3.6660 21600 0.0661 39473536
0.0729 3.7000 21800 0.0660 39836704
0.0664 3.7339 22000 0.0668 40202176
0.0741 3.7679 22200 0.0662 40568544
0.066 3.8018 22400 0.0660 40932032
0.081 3.8357 22600 0.0657 41296544
0.0553 3.8697 22800 0.0657 41661472
0.0761 3.9036 23000 0.0657 42031616
0.0626 3.9376 23200 0.0657 42395200
0.0514 3.9715 23400 0.0657 42760960
0.0476 4.0054 23600 0.0658 43128480
0.0649 4.0394 23800 0.0664 43492288
0.0513 4.0733 24000 0.0656 43859360
0.0651 4.1073 24200 0.0654 44222400
0.0633 4.1412 24400 0.0658 44585632
0.0442 4.1752 24600 0.0654 44956064
0.063 4.2091 24800 0.0655 45323456
0.0564 4.2431 25000 0.0654 45688544
0.0702 4.2770 25200 0.0652 46054272
0.0779 4.3109 25400 0.0654 46420608
0.0563 4.3449 25600 0.0653 46787232
0.0595 4.3788 25800 0.0653 47151008
0.054 4.4128 26000 0.0658 47516064
0.0565 4.4467 26200 0.0652 47880960
0.0593 4.4807 26400 0.0650 48244480
0.048 4.5146 26600 0.0651 48612352
0.0438 4.5486 26800 0.0652 48977376
0.0505 4.5825 27000 0.0651 49343328
0.0614 4.6165 27200 0.0650 49712064
0.0779 4.6504 27400 0.0651 50076832
0.0506 4.6843 27600 0.0650 50439616
0.0673 4.7183 27800 0.0650 50803552
0.0711 4.7522 28000 0.0652 51165472
0.0579 4.7862 28200 0.0649 51527808
0.0612 4.8201 28400 0.0651 51895200
0.06 4.8541 28600 0.0649 52259648
0.0712 4.8880 28800 0.0647 52628032
0.0733 4.9220 29000 0.0650 52997024
0.0792 4.9559 29200 0.0648 53364352
0.0654 4.9899 29400 0.0651 53730624
0.0752 5.0238 29600 0.0653 54094208
0.0655 5.0577 29800 0.0648 54461312
0.0641 5.0917 30000 0.0650 54825216
0.0451 5.1256 30200 0.0648 55189504
0.0729 5.1595 30400 0.0650 55553280
0.0648 5.1935 30600 0.0647 55917792
0.065 5.2274 30800 0.0649 56282176
0.0469 5.2614 31000 0.0649 56643104
0.059 5.2953 31200 0.0648 57005120
0.0525 5.3293 31400 0.0646 57373152
0.0454 5.3632 31600 0.0650 57735872
0.0578 5.3972 31800 0.0647 58101536
0.0889 5.4311 32000 0.0647 58472288
0.0664 5.4651 32200 0.0647 58840960
0.0729 5.4990 32400 0.0649 59204992
0.07 5.5329 32600 0.0647 59570752
0.055 5.5669 32800 0.0647 59937728
0.0523 5.6008 33000 0.0647 60306240
0.0812 5.6348 33200 0.0646 60675168
0.0647 5.6687 33400 0.0647 61042176
0.0785 5.7027 33600 0.0646 61409120
0.0645 5.7366 33800 0.0648 61775168
0.04 5.7706 34000 0.0645 62143616
0.0799 5.8045 34200 0.0647 62507552
0.0582 5.8385 34400 0.0646 62872928
0.0721 5.8724 34600 0.0645 63234816
0.0473 5.9064 34800 0.0647 63599616
0.0799 5.9403 35000 0.0645 63966688
0.0469 5.9742 35200 0.0645 64332704
0.0755 6.0081 35400 0.0647 64693664
0.065 6.0421 35600 0.0646 65053728
0.0632 6.0760 35800 0.0647 65419648
0.0759 6.1100 36000 0.0645 65786464
0.06 6.1439 36200 0.0646 66152416
0.0608 6.1779 36400 0.0646 66522528
0.0625 6.2118 36600 0.0647 66888512
0.0501 6.2458 36800 0.0644 67255840
0.0556 6.2797 37000 0.0649 67620416
0.0561 6.3137 37200 0.0647 67983360
0.0475 6.3476 37400 0.0644 68348480
0.0721 6.3816 37600 0.0647 68715840
0.0539 6.4155 37800 0.0646 69081536
0.0891 6.4494 38000 0.0646 69446208
0.0491 6.4834 38200 0.0646 69813728
0.0613 6.5173 38400 0.0646 70182464
0.0396 6.5513 38600 0.0645 70547904
0.073 6.5852 38800 0.0645 70911456
0.0656 6.6192 39000 0.0647 71277536
0.0507 6.6531 39200 0.0646 71642624
0.0691 6.6871 39400 0.0646 72006592
0.0479 6.7210 39600 0.0646 72370176
0.0593 6.7550 39800 0.0646 72737088
0.0565 6.7889 40000 0.0646 73102784

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902604

Adapter
(80)
this model