train_sst2_1744902617

This model is a fine-tuned version of google/gemma-3-1b-it on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0698
  • Num Input Tokens Seen: 36181120

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2565 0.0528 200 0.3159 180224
0.1385 0.1056 400 0.1850 361024
0.0757 0.1584 600 0.1486 541408
0.0957 0.2112 800 0.1271 722496
0.0862 0.2640 1000 0.1171 903200
0.0991 0.3167 1200 0.1128 1084928
0.074 0.3695 1400 0.1092 1265312
0.1002 0.4223 1600 0.1069 1447200
0.0924 0.4751 1800 0.1046 1628352
0.1369 0.5279 2000 0.1029 1809312
0.0959 0.5807 2200 0.1016 1992416
0.114 0.6335 2400 0.0997 2171744
0.0947 0.6863 2600 0.0991 2352352
0.1257 0.7391 2800 0.0981 2532128
0.1197 0.7919 3000 0.0965 2713888
0.0893 0.8447 3200 0.0951 2894304
0.081 0.8975 3400 0.0942 3076640
0.1164 0.9502 3600 0.0956 3257632
0.0994 1.0029 3800 0.0926 3436976
0.1151 1.0557 4000 0.0921 3618672
0.1066 1.1085 4200 0.0924 3800592
0.073 1.1613 4400 0.0904 3980592
0.0537 1.2141 4600 0.0899 4161936
0.1062 1.2669 4800 0.0917 4343440
0.0825 1.3197 5000 0.0886 4526576
0.1025 1.3724 5200 0.0880 4707952
0.0982 1.4252 5400 0.0877 4887824
0.0837 1.4780 5600 0.0870 5068368
0.0882 1.5308 5800 0.0867 5250800
0.0574 1.5836 6000 0.0857 5431440
0.1082 1.6364 6200 0.0856 5611184
0.0572 1.6892 6400 0.0848 5792144
0.1012 1.7420 6600 0.0846 5974000
0.0764 1.7948 6800 0.0841 6154320
0.1162 1.8476 7000 0.0837 6334608
0.0697 1.9004 7200 0.0834 6515152
0.0655 1.9531 7400 0.0830 6695472
0.0762 2.0058 7600 0.0826 6875184
0.1284 2.0586 7800 0.0831 7057584
0.1031 2.1114 8000 0.0819 7236880
0.0993 2.1642 8200 0.0817 7418160
0.1042 2.2170 8400 0.0817 7598544
0.0545 2.2698 8600 0.0812 7777744
0.0798 2.3226 8800 0.0809 7957552
0.0814 2.3753 9000 0.0813 8138448
0.0613 2.4281 9200 0.0807 8321584
0.0787 2.4809 9400 0.0805 8502288
0.074 2.5337 9600 0.0801 8684240
0.1157 2.5865 9800 0.0800 8866128
0.1038 2.6393 10000 0.0794 9045584
0.0717 2.6921 10200 0.0794 9225744
0.127 2.7449 10400 0.0789 9409616
0.0751 2.7977 10600 0.0791 9590384
0.0813 2.8505 10800 0.0783 9772624
0.0833 2.9033 11000 0.0784 9953712
0.0471 2.9561 11200 0.0781 10132784
0.0787 3.0087 11400 0.0777 10312800
0.0738 3.0615 11600 0.0773 10492768
0.0569 3.1143 11800 0.0773 10673088
0.0838 3.1671 12000 0.0770 10854592
0.0412 3.2199 12200 0.0770 11035424
0.0416 3.2727 12400 0.0770 11217728
0.0957 3.3255 12600 0.0765 11400032
0.0434 3.3782 12800 0.0765 11580736
0.0357 3.4310 13000 0.0763 11761344
0.0597 3.4838 13200 0.0763 11940800
0.1107 3.5366 13400 0.0770 12121216
0.0544 3.5894 13600 0.0759 12302080
0.0698 3.6422 13800 0.0758 12482400
0.1012 3.6950 14000 0.0759 12664768
0.0828 3.7478 14200 0.0753 12845696
0.0927 3.8006 14400 0.0753 13026720
0.0846 3.8534 14600 0.0764 13207904
0.0717 3.9062 14800 0.0749 13389408
0.0433 3.9590 15000 0.0747 13569120
0.0742 4.0116 15200 0.0748 13749232
0.0904 4.0644 15400 0.0744 13929232
0.0757 4.1172 15600 0.0744 14111056
0.0377 4.1700 15800 0.0744 14290896
0.048 4.2228 16000 0.0744 14470384
0.0621 4.2756 16200 0.0745 14650736
0.0427 4.3284 16400 0.0739 14834416
0.0868 4.3812 16600 0.0741 15014800
0.0613 4.4339 16800 0.0736 15194064
0.0558 4.4867 17000 0.0739 15376368
0.0451 4.5395 17200 0.0740 15556464
0.0871 4.5923 17400 0.0739 15738448
0.0666 4.6451 17600 0.0734 15919856
0.068 4.6979 17800 0.0730 16100016
0.086 4.7507 18000 0.0734 16282288
0.0814 4.8035 18200 0.0731 16461520
0.0741 4.8563 18400 0.0730 16642640
0.0595 4.9091 18600 0.0730 16825040
0.058 4.9619 18800 0.0733 17006160
0.0377 5.0145 19000 0.0737 17188336
0.0337 5.0673 19200 0.0728 17369104
0.0892 5.1201 19400 0.0726 17549968
0.0842 5.1729 19600 0.0725 17730032
0.1269 5.2257 19800 0.0725 17910128
0.0621 5.2785 20000 0.0726 18091056
0.0338 5.3313 20200 0.0727 18271440
0.089 5.3841 20400 0.0724 18450832
0.0699 5.4368 20600 0.0720 18632304
0.0315 5.4896 20800 0.0722 18813264
0.0918 5.5424 21000 0.0726 18994928
0.0612 5.5952 21200 0.0721 19174960
0.032 5.6480 21400 0.0724 19356976
0.0319 5.7008 21600 0.0720 19538672
0.083 5.7536 21800 0.0720 19719600
0.0352 5.8064 22000 0.0717 19900592
0.0978 5.8592 22200 0.0719 20080976
0.0463 5.9120 22400 0.0721 20262096
0.0619 5.9648 22600 0.0713 20442992
0.0611 6.0174 22800 0.0717 20624000
0.066 6.0702 23000 0.0715 20805728
0.0555 6.1230 23200 0.0716 20986976
0.0573 6.1758 23400 0.0718 21167808
0.0356 6.2286 23600 0.0712 21349184
0.0626 6.2814 23800 0.0716 21529376
0.0876 6.3342 24000 0.0712 21710304
0.0676 6.3870 24200 0.0713 21889920
0.0738 6.4398 24400 0.0718 22070176
0.0503 6.4925 24600 0.0711 22249984
0.0409 6.5453 24800 0.0709 22432352
0.082 6.5981 25000 0.0708 22612672
0.0619 6.6509 25200 0.0712 22793920
0.0767 6.7037 25400 0.0711 22974976
0.077 6.7565 25600 0.0707 23155872
0.0456 6.8093 25800 0.0711 23338048
0.0476 6.8621 26000 0.0707 23518912
0.0472 6.9149 26200 0.0707 23700448
0.0477 6.9677 26400 0.0708 23880704
0.0905 7.0203 26600 0.0709 24061744
0.0628 7.0731 26800 0.0710 24240720
0.0451 7.1259 27000 0.0707 24423344
0.0665 7.1787 27200 0.0711 24603344
0.056 7.2315 27400 0.0710 24784688
0.055 7.2843 27600 0.0705 24965104
0.06 7.3371 27800 0.0705 25146416
0.0378 7.3899 28000 0.0705 25327344
0.0787 7.4427 28200 0.0706 25507504
0.0664 7.4954 28400 0.0708 25688464
0.0669 7.5482 28600 0.0704 25870064
0.0683 7.6010 28800 0.0704 26051856
0.0474 7.6538 29000 0.0705 26232080
0.0783 7.7066 29200 0.0703 26415344
0.046 7.7594 29400 0.0704 26597616
0.0712 7.8122 29600 0.0704 26779344
0.0699 7.8650 29800 0.0703 26960208
0.0559 7.9178 30000 0.0702 27142320
0.0445 7.9706 30200 0.0705 27322864
0.055 8.0232 30400 0.0704 27502208
0.0726 8.0760 30600 0.0706 27683072
0.0472 8.1288 30800 0.0703 27864736
0.0737 8.1816 31000 0.0703 28044640
0.0739 8.2344 31200 0.0703 28226016
0.1009 8.2872 31400 0.0704 28406464
0.0595 8.3400 31600 0.0704 28587264
0.0363 8.3928 31800 0.0702 28767840
0.0796 8.4456 32000 0.0703 28948576
0.0716 8.4984 32200 0.0701 29130656
0.0541 8.5511 32400 0.0703 29312288
0.0645 8.6039 32600 0.0702 29492416
0.0786 8.6567 32800 0.0701 29672864
0.0971 8.7095 33000 0.0702 29854336
0.051 8.7623 33200 0.0702 30036448
0.0264 8.8151 33400 0.0699 30216896
0.0599 8.8679 33600 0.0702 30396960
0.0467 8.9207 33800 0.0701 30576960
0.0818 8.9735 34000 0.0699 30759200
0.051 9.0261 34200 0.0699 30938880
0.075 9.0789 34400 0.0699 31120480
0.0913 9.1317 34600 0.0700 31301056
0.0644 9.1845 34800 0.0700 31481824
0.0803 9.2373 35000 0.0700 31661536
0.0414 9.2901 35200 0.0699 31842016
0.0368 9.3429 35400 0.0700 32021408
0.0684 9.3957 35600 0.0699 32202368
0.0636 9.4485 35800 0.0699 32381184
0.052 9.5013 36000 0.0699 32562688
0.0937 9.5540 36200 0.0701 32743456
0.1215 9.6068 36400 0.0700 32926592
0.0492 9.6596 36600 0.0698 33105696
0.0519 9.7124 36800 0.0699 33286560
0.0324 9.7652 37000 0.0700 33468000
0.0855 9.8180 37200 0.0701 33650176
0.0351 9.8708 37400 0.0701 33831008
0.0745 9.9236 37600 0.0701 34012992
0.0615 9.9764 37800 0.0698 34195168
0.0832 10.0290 38000 0.0699 34373792
0.0739 10.0818 38200 0.0701 34553856
0.0718 10.1346 38400 0.0699 34734976
0.0418 10.1874 38600 0.0701 34915936
0.0534 10.2402 38800 0.0699 35096960
0.0517 10.2930 39000 0.0700 35276448
0.0705 10.3458 39200 0.0700 35457088
0.064 10.3986 39400 0.0701 35637600
0.045 10.4514 39600 0.0701 35817824
0.0627 10.5042 39800 0.0701 35999840
0.0689 10.5569 40000 0.0701 36181120

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902617

Adapter
(80)
this model