train_sst2_1744902619

This model is a fine-tuned version of google/gemma-3-1b-it on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0449
  • Num Input Tokens Seen: 36181120

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0856 0.0528 200 0.0798 180224
0.0479 0.1056 400 0.0696 361024
0.036 0.1584 600 0.0763 541408
0.0418 0.2112 800 0.0612 722496
0.0577 0.2640 1000 0.0688 903200
0.0328 0.3167 1200 0.0640 1084928
0.0618 0.3695 1400 0.0676 1265312
0.0868 0.4223 1600 0.0594 1447200
0.0324 0.4751 1800 0.0585 1628352
0.0857 0.5279 2000 0.0576 1809312
0.0447 0.5807 2200 0.0561 1992416
0.0526 0.6335 2400 0.0536 2171744
0.0611 0.6863 2600 0.0529 2352352
0.0738 0.7391 2800 0.0588 2532128
0.0734 0.7919 3000 0.0516 2713888
0.0475 0.8447 3200 0.0535 2894304
0.0244 0.8975 3400 0.0511 3076640
0.0727 0.9502 3600 0.0504 3257632
0.0407 1.0029 3800 0.0507 3436976
0.0588 1.0557 4000 0.0513 3618672
0.0225 1.1085 4200 0.0490 3800592
0.0272 1.1613 4400 0.0488 3980592
0.0318 1.2141 4600 0.0483 4161936
0.031 1.2669 4800 0.0504 4343440
0.0438 1.3197 5000 0.0525 4526576
0.0361 1.3724 5200 0.0493 4707952
0.064 1.4252 5400 0.0476 4887824
0.0354 1.4780 5600 0.0470 5068368
0.04 1.5308 5800 0.0516 5250800
0.0292 1.5836 6000 0.0499 5431440
0.0849 1.6364 6200 0.0457 5611184
0.0159 1.6892 6400 0.0494 5792144
0.0636 1.7420 6600 0.0470 5974000
0.0254 1.7948 6800 0.0449 6154320
0.0486 1.8476 7000 0.0488 6334608
0.0308 1.9004 7200 0.0481 6515152
0.0797 1.9531 7400 0.0499 6695472
0.04 2.0058 7600 0.0467 6875184
0.0402 2.0586 7800 0.0473 7057584
0.0458 2.1114 8000 0.0476 7236880
0.0157 2.1642 8200 0.0505 7418160
0.044 2.2170 8400 0.0477 7598544
0.0114 2.2698 8600 0.0482 7777744
0.0261 2.3226 8800 0.0483 7957552
0.0551 2.3753 9000 0.0506 8138448
0.0349 2.4281 9200 0.0527 8321584
0.0209 2.4809 9400 0.0544 8502288
0.0184 2.5337 9600 0.0469 8684240
0.0307 2.5865 9800 0.0515 8866128
0.0479 2.6393 10000 0.0494 9045584
0.0309 2.6921 10200 0.0546 9225744
0.0267 2.7449 10400 0.0512 9409616
0.0116 2.7977 10600 0.0469 9590384
0.0321 2.8505 10800 0.0503 9772624
0.0279 2.9033 11000 0.0468 9953712
0.0083 2.9561 11200 0.0470 10132784
0.0246 3.0087 11400 0.0526 10312800
0.025 3.0615 11600 0.0542 10492768
0.004 3.1143 11800 0.0571 10673088
0.0155 3.1671 12000 0.0606 10854592
0.0019 3.2199 12200 0.0545 11035424
0.0063 3.2727 12400 0.0542 11217728
0.0234 3.3255 12600 0.0541 11400032
0.0028 3.3782 12800 0.0626 11580736
0.0114 3.4310 13000 0.0533 11761344
0.0019 3.4838 13200 0.0581 11940800
0.007 3.5366 13400 0.0571 12121216
0.0245 3.5894 13600 0.0549 12302080
0.0038 3.6422 13800 0.0543 12482400
0.0336 3.6950 14000 0.0516 12664768
0.0151 3.7478 14200 0.0501 12845696
0.0376 3.8006 14400 0.0572 13026720
0.0194 3.8534 14600 0.0525 13207904
0.0178 3.9062 14800 0.0511 13389408
0.008 3.9590 15000 0.0553 13569120
0.0031 4.0116 15200 0.0578 13749232
0.0185 4.0644 15400 0.0628 13929232
0.0214 4.1172 15600 0.0717 14111056
0.0174 4.1700 15800 0.0678 14290896
0.0014 4.2228 16000 0.0691 14470384
0.0206 4.2756 16200 0.0722 14650736
0.004 4.3284 16400 0.0688 14834416
0.005 4.3812 16600 0.0578 15014800
0.0425 4.4339 16800 0.0610 15194064
0.004 4.4867 17000 0.0691 15376368
0.0104 4.5395 17200 0.0599 15556464
0.019 4.5923 17400 0.0709 15738448
0.0175 4.6451 17600 0.0598 15919856
0.0573 4.6979 17800 0.0587 16100016
0.0131 4.7507 18000 0.0673 16282288
0.0362 4.8035 18200 0.0607 16461520
0.0321 4.8563 18400 0.0574 16642640
0.0054 4.9091 18600 0.0658 16825040
0.0101 4.9619 18800 0.0571 17006160
0.0022 5.0145 19000 0.0621 17188336
0.0083 5.0673 19200 0.0780 17369104
0.003 5.1201 19400 0.0874 17549968
0.0012 5.1729 19600 0.0716 17730032
0.0042 5.2257 19800 0.0833 17910128
0.0304 5.2785 20000 0.0750 18091056
0.0175 5.3313 20200 0.0770 18271440
0.0242 5.3841 20400 0.0719 18450832
0.0047 5.4368 20600 0.0812 18632304
0.026 5.4896 20800 0.0790 18813264
0.0004 5.5424 21000 0.0834 18994928
0.0066 5.5952 21200 0.0738 19174960
0.0209 5.6480 21400 0.0797 19356976
0.0023 5.7008 21600 0.0775 19538672
0.013 5.7536 21800 0.0800 19719600
0.0077 5.8064 22000 0.0809 19900592
0.0105 5.8592 22200 0.0741 20080976
0.0009 5.9120 22400 0.0745 20262096
0.0015 5.9648 22600 0.0784 20442992
0.0007 6.0174 22800 0.0871 20624000
0.0035 6.0702 23000 0.1119 20805728
0.0025 6.1230 23200 0.1060 20986976
0.0164 6.1758 23400 0.1120 21167808
0.0011 6.2286 23600 0.1232 21349184
0.0126 6.2814 23800 0.0993 21529376
0.0002 6.3342 24000 0.1194 21710304
0.0005 6.3870 24200 0.1012 21889920
0.0019 6.4398 24400 0.1071 22070176
0.0051 6.4925 24600 0.1033 22249984
0.0002 6.5453 24800 0.1127 22432352
0.0113 6.5981 25000 0.1211 22612672
0.0018 6.6509 25200 0.0924 22793920
0.0429 6.7037 25400 0.1009 22974976
0.0184 6.7565 25600 0.1062 23155872
0.0011 6.8093 25800 0.1043 23338048
0.0151 6.8621 26000 0.1182 23518912
0.0007 6.9149 26200 0.0959 23700448
0.0207 6.9677 26400 0.0878 23880704
0.0085 7.0203 26600 0.0968 24061744
0.0007 7.0731 26800 0.1073 24240720
0.0039 7.1259 27000 0.1205 24423344
0.0013 7.1787 27200 0.1232 24603344
0.0004 7.2315 27400 0.1402 24784688
0.0001 7.2843 27600 0.1350 24965104
0.0 7.3371 27800 0.1473 25146416
0.0006 7.3899 28000 0.1577 25327344
0.0 7.4427 28200 0.1531 25507504
0.0048 7.4954 28400 0.1271 25688464
0.0008 7.5482 28600 0.1554 25870064
0.0001 7.6010 28800 0.1379 26051856
0.0 7.6538 29000 0.1549 26232080
0.0002 7.7066 29200 0.1545 26415344
0.0001 7.7594 29400 0.1598 26597616
0.0001 7.8122 29600 0.1493 26779344
0.0046 7.8650 29800 0.1495 26960208
0.0002 7.9178 30000 0.1557 27142320
0.0017 7.9706 30200 0.1577 27322864
0.0 8.0232 30400 0.1640 27502208
0.0 8.0760 30600 0.1622 27683072
0.0001 8.1288 30800 0.1725 27864736
0.0 8.1816 31000 0.1657 28044640
0.0 8.2344 31200 0.1709 28226016
0.0001 8.2872 31400 0.1702 28406464
0.0 8.3400 31600 0.1787 28587264
0.0 8.3928 31800 0.1827 28767840
0.0 8.4456 32000 0.1833 28948576
0.0001 8.4984 32200 0.1796 29130656
0.0001 8.5511 32400 0.1753 29312288
0.0 8.6039 32600 0.1818 29492416
0.0004 8.6567 32800 0.1841 29672864
0.0 8.7095 33000 0.1834 29854336
0.0 8.7623 33200 0.1906 30036448
0.0 8.8151 33400 0.1810 30216896
0.0 8.8679 33600 0.1844 30396960
0.0 8.9207 33800 0.1920 30576960
0.0001 8.9735 34000 0.1839 30759200
0.0 9.0261 34200 0.1882 30938880
0.0037 9.0789 34400 0.1908 31120480
0.0 9.1317 34600 0.1942 31301056
0.0 9.1845 34800 0.1965 31481824
0.0041 9.2373 35000 0.1986 31661536
0.0163 9.2901 35200 0.2013 31842016
0.0001 9.3429 35400 0.2056 32021408
0.0 9.3957 35600 0.2061 32202368
0.0 9.4485 35800 0.2078 32381184
0.0001 9.5013 36000 0.2094 32562688
0.0001 9.5540 36200 0.2107 32743456
0.0002 9.6068 36400 0.2103 32926592
0.0001 9.6596 36600 0.2090 33105696
0.0029 9.7124 36800 0.2097 33286560
0.0003 9.7652 37000 0.2084 33468000
0.0 9.8180 37200 0.2110 33650176
0.0 9.8708 37400 0.2103 33831008
0.0 9.9236 37600 0.2107 34012992
0.0 9.9764 37800 0.2109 34195168
0.0002 10.0290 38000 0.2107 34373792
0.0 10.0818 38200 0.2104 34553856
0.0 10.1346 38400 0.2109 34734976
0.0 10.1874 38600 0.2116 34915936
0.0001 10.2402 38800 0.2118 35096960
0.0 10.2930 39000 0.2105 35276448
0.0 10.3458 39200 0.2110 35457088
0.0 10.3986 39400 0.2106 35637600
0.0002 10.4514 39600 0.2110 35817824
0.0 10.5042 39800 0.2105 35999840
0.0 10.5569 40000 0.2111 36181120

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902619

Adapter
(81)
this model