train_qqp_1744902595

This model is a fine-tuned version of google/gemma-3-1b-it on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0872
  • Num Input Tokens Seen: 51858816

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2209 0.0098 200 0.2408 260832
0.137 0.0195 400 0.1660 518880
0.1244 0.0293 600 0.1488 780768
0.1629 0.0391 800 0.1366 1038304
0.1414 0.0489 1000 0.1284 1296288
0.1101 0.0586 1200 0.1248 1554400
0.1429 0.0684 1400 0.1204 1813856
0.1061 0.0782 1600 0.1174 2074816
0.0867 0.0879 1800 0.1144 2332544
0.1038 0.0977 2000 0.1125 2594720
0.1141 0.1075 2200 0.1110 2853856
0.1021 0.1173 2400 0.1091 3112928
0.1091 0.1270 2600 0.1090 3374048
0.0882 0.1368 2800 0.1060 3637152
0.1053 0.1466 3000 0.1058 3896512
0.1077 0.1564 3200 0.1045 4157216
0.1086 0.1661 3400 0.1032 4418592
0.0749 0.1759 3600 0.1029 4677248
0.1233 0.1857 3800 0.1019 4934080
0.1171 0.1954 4000 0.1039 5191936
0.0911 0.2052 4200 0.1006 5451200
0.1135 0.2150 4400 0.1000 5711648
0.0905 0.2248 4600 0.1001 5970048
0.0945 0.2345 4800 0.0992 6226272
0.0722 0.2443 5000 0.1002 6486336
0.103 0.2541 5200 0.0991 6744864
0.102 0.2638 5400 0.0984 7006944
0.0918 0.2736 5600 0.0979 7267584
0.1174 0.2834 5800 0.0976 7529280
0.0869 0.2932 6000 0.0976 7788992
0.0825 0.3029 6200 0.0971 8052736
0.0997 0.3127 6400 0.0965 8311808
0.1088 0.3225 6600 0.0967 8568416
0.0638 0.3323 6800 0.0963 8830400
0.114 0.3420 7000 0.0961 9091040
0.0982 0.3518 7200 0.0959 9350272
0.1036 0.3616 7400 0.0954 9609312
0.0818 0.3713 7600 0.0957 9867648
0.0938 0.3811 7800 0.0950 10127328
0.0798 0.3909 8000 0.0949 10383808
0.0917 0.4007 8200 0.0949 10643424
0.1053 0.4104 8400 0.0950 10901760
0.1287 0.4202 8600 0.0947 11159584
0.0949 0.4300 8800 0.0942 11420640
0.0993 0.4397 9000 0.0946 11683072
0.1095 0.4495 9200 0.0940 11941600
0.1012 0.4593 9400 0.0939 12198528
0.0905 0.4691 9600 0.0941 12455968
0.102 0.4788 9800 0.0936 12716992
0.0917 0.4886 10000 0.0936 12974048
0.0785 0.4984 10200 0.0934 13231360
0.0688 0.5081 10400 0.0937 13489760
0.083 0.5179 10600 0.0933 13750592
0.0866 0.5277 10800 0.0926 14009088
0.08 0.5375 11000 0.0925 14268352
0.0721 0.5472 11200 0.0927 14527072
0.114 0.5570 11400 0.0927 14787040
0.0787 0.5668 11600 0.0923 15045600
0.0709 0.5766 11800 0.0925 15306176
0.0965 0.5863 12000 0.0927 15565184
0.1025 0.5961 12200 0.0917 15824576
0.1073 0.6059 12400 0.0923 16083104
0.0747 0.6156 12600 0.0917 16342784
0.0969 0.6254 12800 0.0917 16601824
0.1037 0.6352 13000 0.0914 16860320
0.094 0.6450 13200 0.0932 17118528
0.0959 0.6547 13400 0.0915 17378528
0.0789 0.6645 13600 0.0915 17638400
0.0712 0.6743 13800 0.0910 17898336
0.1007 0.6840 14000 0.0918 18158528
0.1135 0.6938 14200 0.0907 18418528
0.0853 0.7036 14400 0.0916 18679264
0.0988 0.7134 14600 0.0923 18940320
0.0816 0.7231 14800 0.0920 19196416
0.0937 0.7329 15000 0.0906 19454912
0.0987 0.7427 15200 0.0905 19715616
0.1072 0.7524 15400 0.0904 19976768
0.1297 0.7622 15600 0.0907 20234592
0.0795 0.7720 15800 0.0903 20493056
0.0911 0.7818 16000 0.0901 20750368
0.0956 0.7915 16200 0.0900 21010432
0.0735 0.8013 16400 0.0900 21270112
0.131 0.8111 16600 0.0899 21531456
0.0908 0.8209 16800 0.0898 21788384
0.0853 0.8306 17000 0.0897 22045600
0.0804 0.8404 17200 0.0907 22303808
0.066 0.8502 17400 0.0904 22562496
0.0843 0.8599 17600 0.0899 22821376
0.1056 0.8697 17800 0.0901 23080448
0.1112 0.8795 18000 0.0894 23338016
0.1136 0.8893 18200 0.0897 23598208
0.0664 0.8990 18400 0.0900 23857824
0.0703 0.9088 18600 0.0892 24117056
0.1125 0.9186 18800 0.0891 24375456
0.0953 0.9283 19000 0.0890 24635712
0.0729 0.9381 19200 0.0891 24895360
0.087 0.9479 19400 0.0890 25156480
0.1061 0.9577 19600 0.0891 25415936
0.093 0.9674 19800 0.0890 25677472
0.0704 0.9772 20000 0.0888 25934656
0.1025 0.9870 20200 0.0892 26193248
0.0833 0.9968 20400 0.0889 26449184
0.1009 1.0065 20600 0.0888 26710048
0.1114 1.0163 20800 0.0891 26968800
0.0707 1.0261 21000 0.0886 27230240
0.0742 1.0359 21200 0.0888 27489152
0.1052 1.0456 21400 0.0892 27746528
0.0898 1.0554 21600 0.0884 28009568
0.0782 1.0652 21800 0.0886 28270592
0.0578 1.0750 22000 0.0887 28533952
0.0975 1.0847 22200 0.0883 28788352
0.0986 1.0945 22400 0.0884 29047328
0.0893 1.1043 22600 0.0883 29306368
0.0878 1.1140 22800 0.0883 29567616
0.0908 1.1238 23000 0.0885 29829920
0.056 1.1336 23200 0.0882 30092128
0.0931 1.1434 23400 0.0885 30349984
0.0704 1.1531 23600 0.0883 30605344
0.0984 1.1629 23800 0.0882 30867648
0.0808 1.1727 24000 0.0883 31127744
0.1008 1.1824 24200 0.0882 31383392
0.0729 1.1922 24400 0.0888 31641056
0.1071 1.2020 24600 0.0888 31900960
0.0779 1.2118 24800 0.0883 32158304
0.0784 1.2215 25000 0.0878 32419552
0.0652 1.2313 25200 0.0879 32677888
0.0816 1.2411 25400 0.0877 32936608
0.0813 1.2508 25600 0.0882 33195264
0.0737 1.2606 25800 0.0880 33454720
0.1029 1.2704 26000 0.0881 33714496
0.0838 1.2802 26200 0.0878 33972576
0.0902 1.2899 26400 0.0877 34231488
0.0971 1.2997 26600 0.0897 34491904
0.0691 1.3095 26800 0.0879 34751008
0.0955 1.3193 27000 0.0879 35006432
0.0723 1.3290 27200 0.0885 35264896
0.0792 1.3388 27400 0.0891 35523424
0.0965 1.3486 27600 0.0877 35781024
0.0966 1.3583 27800 0.0876 36040224
0.0762 1.3681 28000 0.0878 36297952
0.1319 1.3779 28200 0.0877 36557056
0.0644 1.3877 28400 0.0876 36815904
0.0808 1.3974 28600 0.0876 37076064
0.0954 1.4072 28800 0.0877 37333536
0.0887 1.4170 29000 0.0875 37593216
0.0824 1.4267 29200 0.0874 37850816
0.0799 1.4365 29400 0.0878 38111232
0.0682 1.4463 29600 0.0873 38370144
0.0787 1.4561 29800 0.0877 38629280
0.0837 1.4658 30000 0.0875 38887744
0.1068 1.4756 30200 0.0874 39146016
0.0716 1.4854 30400 0.0877 39406240
0.0791 1.4952 30600 0.0874 39664736
0.077 1.5049 30800 0.0875 39922240
0.0779 1.5147 31000 0.0876 40181504
0.0865 1.5245 31200 0.0876 40439712
0.0571 1.5342 31400 0.0874 40700736
0.1024 1.5440 31600 0.0874 40963072
0.08 1.5538 31800 0.0878 41224800
0.0797 1.5636 32000 0.0877 41485536
0.0883 1.5733 32200 0.0876 41743456
0.0821 1.5831 32400 0.0877 42005696
0.1171 1.5929 32600 0.0874 42267520
0.0645 1.6026 32800 0.0874 42528896
0.1057 1.6124 33000 0.0874 42786240
0.0915 1.6222 33200 0.0876 43043616
0.0905 1.6320 33400 0.0876 43300896
0.0678 1.6417 33600 0.0875 43559424
0.0985 1.6515 33800 0.0873 43815424
0.0736 1.6613 34000 0.0872 44074432
0.0871 1.6710 34200 0.0873 44334304
0.0751 1.6808 34400 0.0872 44594368
0.0937 1.6906 34600 0.0874 44852576
0.0571 1.7004 34800 0.0875 45109056
0.0699 1.7101 35000 0.0873 45367936
0.0747 1.7199 35200 0.0872 45627104
0.0753 1.7297 35400 0.0874 45885312
0.0692 1.7395 35600 0.0872 46145568
0.0823 1.7492 35800 0.0872 46409504
0.0777 1.7590 36000 0.0872 46669472
0.095 1.7688 36200 0.0874 46929280
0.1026 1.7785 36400 0.0875 47188416
0.101 1.7883 36600 0.0874 47447328
0.1037 1.7981 36800 0.0874 47707040
0.0706 1.8079 37000 0.0873 47966176
0.0874 1.8176 37200 0.0875 48227328
0.0928 1.8274 37400 0.0875 48485632
0.0784 1.8372 37600 0.0874 48744768
0.1127 1.8469 37800 0.0873 49002400
0.0796 1.8567 38000 0.0873 49259584
0.0896 1.8665 38200 0.0874 49518144
0.086 1.8763 38400 0.0873 49775776
0.0885 1.8860 38600 0.0873 50036384
0.0758 1.8958 38800 0.0873 50298720
0.0839 1.9056 39000 0.0873 50560704
0.0699 1.9153 39200 0.0872 50820416
0.0897 1.9251 39400 0.0872 51080832
0.0761 1.9349 39600 0.0873 51339424
0.077 1.9447 39800 0.0872 51597120
0.071 1.9544 40000 0.0872 51858816

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
10
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902595

Adapter
(80)
this model