train_qqp_1744902592

This model is a fine-tuned version of google/gemma-3-1b-it on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0843
  • Num Input Tokens Seen: 51858816

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.174 0.0098 200 0.1990 260832
0.1254 0.0195 400 0.1474 518880
0.1118 0.0293 600 0.1374 780768
0.1434 0.0391 800 0.1267 1038304
0.1338 0.0489 1000 0.1187 1296288
0.1049 0.0586 1200 0.1163 1554400
0.1315 0.0684 1400 0.1125 1813856
0.0978 0.0782 1600 0.1097 2074816
0.0788 0.0879 1800 0.1086 2332544
0.0962 0.0977 2000 0.1065 2594720
0.1133 0.1075 2200 0.1077 2853856
0.1008 0.1173 2400 0.1041 3112928
0.103 0.1270 2600 0.1050 3374048
0.0837 0.1368 2800 0.1016 3637152
0.1017 0.1466 3000 0.1014 3896512
0.102 0.1564 3200 0.1007 4157216
0.1082 0.1661 3400 0.0998 4418592
0.0687 0.1759 3600 0.0991 4677248
0.1145 0.1857 3800 0.0992 4934080
0.1169 0.1954 4000 0.0999 5191936
0.084 0.2052 4200 0.0975 5451200
0.111 0.2150 4400 0.0968 5711648
0.0865 0.2248 4600 0.0966 5970048
0.0961 0.2345 4800 0.0965 6226272
0.0695 0.2443 5000 0.0982 6486336
0.0988 0.2541 5200 0.0964 6744864
0.1007 0.2638 5400 0.0954 7006944
0.0861 0.2736 5600 0.0954 7267584
0.1192 0.2834 5800 0.0947 7529280
0.0805 0.2932 6000 0.0946 7788992
0.0787 0.3029 6200 0.0941 8052736
0.0925 0.3127 6400 0.0936 8311808
0.1061 0.3225 6600 0.0946 8568416
0.0628 0.3323 6800 0.0945 8830400
0.1084 0.3420 7000 0.0931 9091040
0.0973 0.3518 7200 0.0928 9350272
0.1005 0.3616 7400 0.0928 9609312
0.0807 0.3713 7600 0.0930 9867648
0.0966 0.3811 7800 0.0924 10127328
0.0744 0.3909 8000 0.0924 10383808
0.0883 0.4007 8200 0.0922 10643424
0.1007 0.4104 8400 0.0924 10901760
0.1258 0.4202 8600 0.0921 11159584
0.0953 0.4300 8800 0.0923 11420640
0.0939 0.4397 9000 0.0911 11683072
0.1062 0.4495 9200 0.0910 11941600
0.0968 0.4593 9400 0.0912 12198528
0.0835 0.4691 9600 0.0909 12455968
0.0997 0.4788 9800 0.0907 12716992
0.0849 0.4886 10000 0.0906 12974048
0.0764 0.4984 10200 0.0910 13231360
0.0684 0.5081 10400 0.0913 13489760
0.08 0.5179 10600 0.0905 13750592
0.084 0.5277 10800 0.0903 14009088
0.0809 0.5375 11000 0.0898 14268352
0.0717 0.5472 11200 0.0896 14527072
0.1109 0.5570 11400 0.0904 14787040
0.0797 0.5668 11600 0.0896 15045600
0.0671 0.5766 11800 0.0894 15306176
0.0924 0.5863 12000 0.0903 15565184
0.1 0.5961 12200 0.0890 15824576
0.1045 0.6059 12400 0.0894 16083104
0.0683 0.6156 12600 0.0890 16342784
0.0907 0.6254 12800 0.0886 16601824
0.1004 0.6352 13000 0.0886 16860320
0.0938 0.6450 13200 0.0903 17118528
0.0927 0.6547 13400 0.0898 17378528
0.0742 0.6645 13600 0.0885 17638400
0.0665 0.6743 13800 0.0883 17898336
0.0977 0.6840 14000 0.0897 18158528
0.1079 0.6938 14200 0.0886 18418528
0.079 0.7036 14400 0.0883 18679264
0.0957 0.7134 14600 0.0900 18940320
0.0825 0.7231 14800 0.0889 19196416
0.0937 0.7329 15000 0.0879 19454912
0.096 0.7427 15200 0.0877 19715616
0.1002 0.7524 15400 0.0877 19976768
0.1231 0.7622 15600 0.0888 20234592
0.075 0.7720 15800 0.0877 20493056
0.0878 0.7818 16000 0.0873 20750368
0.0917 0.7915 16200 0.0876 21010432
0.0696 0.8013 16400 0.0872 21270112
0.1328 0.8111 16600 0.0876 21531456
0.0848 0.8209 16800 0.0872 21788384
0.085 0.8306 17000 0.0874 22045600
0.073 0.8404 17200 0.0875 22303808
0.0675 0.8502 17400 0.0882 22562496
0.0833 0.8599 17600 0.0867 22821376
0.1033 0.8697 17800 0.0869 23080448
0.1068 0.8795 18000 0.0867 23338016
0.1148 0.8893 18200 0.0871 23598208
0.0666 0.8990 18400 0.0866 23857824
0.0688 0.9088 18600 0.0867 24117056
0.1111 0.9186 18800 0.0863 24375456
0.0937 0.9283 19000 0.0866 24635712
0.073 0.9381 19200 0.0863 24895360
0.0834 0.9479 19400 0.0862 25156480
0.1065 0.9577 19600 0.0866 25415936
0.0915 0.9674 19800 0.0860 25677472
0.0689 0.9772 20000 0.0859 25934656
0.0981 0.9870 20200 0.0864 26193248
0.0806 0.9968 20400 0.0862 26449184
0.097 1.0065 20600 0.0860 26710048
0.1083 1.0163 20800 0.0868 26968800
0.0655 1.0261 21000 0.0859 27230240
0.0722 1.0359 21200 0.0861 27489152
0.1097 1.0456 21400 0.0867 27746528
0.0886 1.0554 21600 0.0857 28009568
0.0744 1.0652 21800 0.0857 28270592
0.0531 1.0750 22000 0.0858 28533952
0.0959 1.0847 22200 0.0857 28788352
0.0945 1.0945 22400 0.0857 29047328
0.088 1.1043 22600 0.0860 29306368
0.09 1.1140 22800 0.0856 29567616
0.0857 1.1238 23000 0.0857 29829920
0.0607 1.1336 23200 0.0860 30092128
0.0871 1.1434 23400 0.0857 30349984
0.0686 1.1531 23600 0.0862 30605344
0.0931 1.1629 23800 0.0854 30867648
0.0837 1.1727 24000 0.0854 31127744
0.0955 1.1824 24200 0.0853 31383392
0.0701 1.1922 24400 0.0864 31641056
0.102 1.2020 24600 0.0861 31900960
0.0734 1.2118 24800 0.0852 32158304
0.0694 1.2215 25000 0.0854 32419552
0.0585 1.2313 25200 0.0854 32677888
0.0797 1.2411 25400 0.0851 32936608
0.0819 1.2508 25600 0.0853 33195264
0.0676 1.2606 25800 0.0853 33454720
0.1014 1.2704 26000 0.0850 33714496
0.0797 1.2802 26200 0.0850 33972576
0.0932 1.2899 26400 0.0850 34231488
0.0948 1.2997 26600 0.0859 34491904
0.0642 1.3095 26800 0.0850 34751008
0.0912 1.3193 27000 0.0850 35006432
0.0749 1.3290 27200 0.0857 35264896
0.0802 1.3388 27400 0.0871 35523424
0.0874 1.3486 27600 0.0848 35781024
0.0911 1.3583 27800 0.0849 36040224
0.0772 1.3681 28000 0.0853 36297952
0.1222 1.3779 28200 0.0848 36557056
0.0601 1.3877 28400 0.0846 36815904
0.0766 1.3974 28600 0.0850 37076064
0.0889 1.4072 28800 0.0846 37333536
0.0847 1.4170 29000 0.0845 37593216
0.0737 1.4267 29200 0.0847 37850816
0.0748 1.4365 29400 0.0852 38111232
0.0616 1.4463 29600 0.0846 38370144
0.077 1.4561 29800 0.0847 38629280
0.0807 1.4658 30000 0.0848 38887744
0.105 1.4756 30200 0.0850 39146016
0.0702 1.4854 30400 0.0850 39406240
0.0739 1.4952 30600 0.0845 39664736
0.075 1.5049 30800 0.0848 39922240
0.0729 1.5147 31000 0.0845 40181504
0.0779 1.5245 31200 0.0846 40439712
0.0556 1.5342 31400 0.0845 40700736
0.0998 1.5440 31600 0.0846 40963072
0.074 1.5538 31800 0.0848 41224800
0.0726 1.5636 32000 0.0844 41485536
0.0848 1.5733 32200 0.0845 41743456
0.0732 1.5831 32400 0.0849 42005696
0.1141 1.5929 32600 0.0845 42267520
0.0641 1.6026 32800 0.0846 42528896
0.0975 1.6124 33000 0.0846 42786240
0.0848 1.6222 33200 0.0844 43043616
0.0855 1.6320 33400 0.0845 43300896
0.0685 1.6417 33600 0.0847 43559424
0.0936 1.6515 33800 0.0844 43815424
0.0767 1.6613 34000 0.0848 44074432
0.0833 1.6710 34200 0.0847 44334304
0.0685 1.6808 34400 0.0847 44594368
0.0855 1.6906 34600 0.0843 44852576
0.0559 1.7004 34800 0.0846 45109056
0.0668 1.7101 35000 0.0847 45367936
0.0698 1.7199 35200 0.0845 45627104
0.0752 1.7297 35400 0.0844 45885312
0.0686 1.7395 35600 0.0843 46145568
0.0814 1.7492 35800 0.0845 46409504
0.0755 1.7590 36000 0.0844 46669472
0.0921 1.7688 36200 0.0846 46929280
0.1009 1.7785 36400 0.0845 47188416
0.0964 1.7883 36600 0.0844 47447328
0.1026 1.7981 36800 0.0847 47707040
0.0686 1.8079 37000 0.0845 47966176
0.084 1.8176 37200 0.0844 48227328
0.0875 1.8274 37400 0.0846 48485632
0.0756 1.8372 37600 0.0845 48744768
0.1079 1.8469 37800 0.0846 49002400
0.0769 1.8567 38000 0.0844 49259584
0.0868 1.8665 38200 0.0846 49518144
0.085 1.8763 38400 0.0844 49775776
0.0826 1.8860 38600 0.0846 50036384
0.0733 1.8958 38800 0.0844 50298720
0.0803 1.9056 39000 0.0843 50560704
0.0669 1.9153 39200 0.0845 50820416
0.0879 1.9251 39400 0.0844 51080832
0.0765 1.9349 39600 0.0844 51339424
0.0725 1.9447 39800 0.0844 51597120
0.0685 1.9544 40000 0.0844 51858816

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
29
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902592

Adapter
(80)
this model