train_boolq_1745950271

This model is a fine-tuned version of google/gemma-3-1b-it on the boolq dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1989
  • Num Input Tokens Seen: 34633072

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.4743 0.0943 200 0.5495 174096
0.4901 0.1886 400 0.3760 344560
0.523 0.2829 600 0.2802 517536
0.2411 0.3772 800 0.2724 696016
0.1891 0.4715 1000 0.2586 868992
0.1707 0.5658 1200 0.2449 1040544
0.3671 0.6601 1400 0.2390 1211680
0.1354 0.7544 1600 0.2394 1381792
0.2328 0.8487 1800 0.2352 1559456
0.2788 0.9430 2000 0.2356 1735840
0.2671 1.0372 2200 0.2288 1910848
0.2308 1.1315 2400 0.2234 2081696
0.2644 1.2258 2600 0.2239 2255952
0.2028 1.3201 2800 0.2223 2427152
0.1915 1.4144 3000 0.2204 2601296
0.1827 1.5087 3200 0.2219 2774672
0.2717 1.6030 3400 0.2257 2944896
0.2092 1.6973 3600 0.2249 3117216
0.3069 1.7916 3800 0.2205 3287952
0.1938 1.8859 4000 0.2239 3464640
0.178 1.9802 4200 0.2206 3638880
0.2565 2.0745 4400 0.2166 3812624
0.3385 2.1688 4600 0.2184 3986544
0.1578 2.2631 4800 0.2148 4158272
0.2113 2.3574 5000 0.2149 4328240
0.2212 2.4517 5200 0.2165 4507760
0.1806 2.5460 5400 0.2147 4681664
0.2273 2.6403 5600 0.2161 4856928
0.2041 2.7346 5800 0.2148 5024976
0.2044 2.8289 6000 0.2161 5202368
0.1957 2.9231 6200 0.2163 5377360
0.1939 3.0174 6400 0.2153 5550480
0.2674 3.1117 6600 0.2150 5724080
0.1837 3.2060 6800 0.2133 5896688
0.2225 3.3003 7000 0.2162 6070544
0.1862 3.3946 7200 0.2120 6244624
0.2273 3.4889 7400 0.2140 6416176
0.2755 3.5832 7600 0.2097 6587616
0.2027 3.6775 7800 0.2104 6759696
0.2504 3.7718 8000 0.2139 6932384
0.1801 3.8661 8200 0.2104 7103328
0.2825 3.9604 8400 0.2096 7276304
0.1634 4.0547 8600 0.2127 7448112
0.1915 4.1490 8800 0.2098 7623632
0.1694 4.2433 9000 0.2104 7799248
0.1458 4.3376 9200 0.2083 7974368
0.2236 4.4319 9400 0.2106 8146384
0.2027 4.5262 9600 0.2086 8321456
0.1654 4.6205 9800 0.2079 8490096
0.1937 4.7148 10000 0.2152 8665904
0.1727 4.8091 10200 0.2100 8837712
0.2062 4.9033 10400 0.2072 9010400
0.1884 4.9976 10600 0.2056 9185584
0.2037 5.0919 10800 0.2067 9358160
0.1906 5.1862 11000 0.2099 9535520
0.2102 5.2805 11200 0.2077 9709232
0.1786 5.3748 11400 0.2096 9880896
0.1862 5.4691 11600 0.2101 10053056
0.2268 5.5634 11800 0.2065 10229152
0.1881 5.6577 12000 0.2058 10404384
0.18 5.7520 12200 0.2093 10573872
0.2274 5.8463 12400 0.2079 10748304
0.177 5.9406 12600 0.2050 10917920
0.2307 6.0349 12800 0.2066 11092736
0.1909 6.1292 13000 0.2068 11269264
0.2759 6.2235 13200 0.2072 11441120
0.2091 6.3178 13400 0.2066 11614176
0.1318 6.4121 13600 0.2056 11785424
0.1866 6.5064 13800 0.2039 11960752
0.1811 6.6007 14000 0.2075 12132672
0.2338 6.6950 14200 0.2037 12303424
0.2086 6.7893 14400 0.2053 12474592
0.2102 6.8835 14600 0.2027 12649424
0.0934 6.9778 14800 0.2061 12821280
0.2323 7.0721 15000 0.2081 12996208
0.2743 7.1664 15200 0.2063 13172592
0.2108 7.2607 15400 0.2057 13342864
0.2056 7.3550 15600 0.2045 13515600
0.2515 7.4493 15800 0.2053 13688640
0.2318 7.5436 16000 0.2060 13863312
0.2144 7.6379 16200 0.2030 14032992
0.18 7.7322 16400 0.2044 14205936
0.1864 7.8265 16600 0.2035 14378336
0.1913 7.9208 16800 0.2032 14551456
0.1406 8.0151 17000 0.2038 14730672
0.2018 8.1094 17200 0.2029 14904544
0.133 8.2037 17400 0.2030 15078832
0.2306 8.2980 17600 0.2009 15254544
0.1876 8.3923 17800 0.2030 15422256
0.181 8.4866 18000 0.2054 15595776
0.1669 8.5809 18200 0.2020 15768288
0.2619 8.6752 18400 0.2024 15941776
0.1593 8.7694 18600 0.2028 16115152
0.19 8.8637 18800 0.2030 16284384
0.1903 8.9580 19000 0.2034 16457552
0.1835 9.0523 19200 0.2075 16632272
0.2002 9.1466 19400 0.2042 16806304
0.1987 9.2409 19600 0.2015 16979072
0.2362 9.3352 19800 0.2026 17150160
0.2449 9.4295 20000 0.2047 17321280
0.1978 9.5238 20200 0.2006 17495488
0.2193 9.6181 20400 0.2043 17670576
0.1625 9.7124 20600 0.2031 17843440
0.1655 9.8067 20800 0.2045 18012496
0.161 9.9010 21000 0.2017 18186480
0.1796 9.9953 21200 0.2016 18360368
0.1749 10.0896 21400 0.2026 18539664
0.1869 10.1839 21600 0.2016 18718016
0.16 10.2782 21800 0.2025 18888560
0.1502 10.3725 22000 0.2059 19061328
0.174 10.4668 22200 0.2043 19236176
0.1802 10.5611 22400 0.2072 19404288
0.1499 10.6554 22600 0.2055 19574224
0.2155 10.7496 22800 0.2023 19744496
0.1557 10.8439 23000 0.2035 19915984
0.2032 10.9382 23200 0.2004 20090944
0.1394 11.0325 23400 0.2006 20264992
0.1736 11.1268 23600 0.2010 20437952
0.2597 11.2211 23800 0.2032 20611040
0.2103 11.3154 24000 0.2024 20787488
0.2394 11.4097 24200 0.2020 20958240
0.2223 11.5040 24400 0.2014 21133392
0.1571 11.5983 24600 0.2002 21303360
0.1842 11.6926 24800 0.2001 21475184
0.206 11.7869 25000 0.1993 21649744
0.2084 11.8812 25200 0.2007 21819728
0.168 11.9755 25400 0.2004 21993120
0.1637 12.0698 25600 0.2008 22164624
0.2579 12.1641 25800 0.2014 22340064
0.1575 12.2584 26000 0.2027 22515088
0.1485 12.3527 26200 0.2015 22692240
0.079 12.4470 26400 0.2017 22864512
0.1747 12.5413 26600 0.2012 23037568
0.2277 12.6355 26800 0.2002 23207936
0.1293 12.7298 27000 0.2001 23381376
0.165 12.8241 27200 0.2009 23553008
0.2417 12.9184 27400 0.2006 23722608
0.188 13.0127 27600 0.2013 23892928
0.1443 13.1070 27800 0.2010 24063632
0.1565 13.2013 28000 0.2016 24237248
0.2199 13.2956 28200 0.2003 24411712
0.2351 13.3899 28400 0.2002 24584800
0.1459 13.4842 28600 0.2007 24759888
0.2332 13.5785 28800 0.1996 24936720
0.1106 13.6728 29000 0.2001 25110864
0.2217 13.7671 29200 0.2002 25284944
0.2221 13.8614 29400 0.2010 25456816
0.1589 13.9557 29600 0.2009 25631728
0.2079 14.0500 29800 0.2024 25801056
0.2091 14.1443 30000 0.2005 25978896
0.1508 14.2386 30200 0.2005 26156672
0.1096 14.3329 30400 0.1998 26330592
0.1928 14.4272 30600 0.2000 26502800
0.1728 14.5215 30800 0.2009 26671584
0.2114 14.6157 31000 0.1998 26845568
0.265 14.7100 31200 0.2002 27017952
0.2021 14.8043 31400 0.1989 27191600
0.1362 14.8986 31600 0.1997 27362144
0.1321 14.9929 31800 0.1998 27536992
0.1896 15.0872 32000 0.2004 27707728
0.1785 15.1815 32200 0.2011 27886368
0.2646 15.2758 32400 0.2001 28061984
0.2009 15.3701 32600 0.1998 28233360
0.1572 15.4644 32800 0.1996 28411200
0.144 15.5587 33000 0.1997 28582944
0.2015 15.6530 33200 0.2004 28756240
0.1031 15.7473 33400 0.2007 28926208
0.1614 15.8416 33600 0.2000 29096816
0.1393 15.9359 33800 0.1998 29267072
0.1771 16.0302 34000 0.1995 29435360
0.2065 16.1245 34200 0.2001 29610720
0.2042 16.2188 34400 0.2002 29781472
0.196 16.3131 34600 0.2003 29959568
0.1149 16.4074 34800 0.1999 30134704
0.2473 16.5017 35000 0.1998 30305200
0.1653 16.5959 35200 0.2004 30478576
0.1396 16.6902 35400 0.2005 30647744
0.1229 16.7845 35600 0.2002 30823072
0.1862 16.8788 35800 0.2005 30996032
0.1848 16.9731 36000 0.2008 31167328
0.1349 17.0674 36200 0.2003 31341392
0.1819 17.1617 36400 0.2006 31515648
0.2701 17.2560 36600 0.2008 31690208
0.1884 17.3503 36800 0.2006 31868288
0.1824 17.4446 37000 0.2008 32041536
0.2799 17.5389 37200 0.2008 32213584
0.192 17.6332 37400 0.1993 32385920
0.1362 17.7275 37600 0.2003 32555856
0.1349 17.8218 37800 0.2006 32729024
0.1166 17.9161 38000 0.2002 32902832
0.1965 18.0104 38200 0.1993 33076912
0.1437 18.1047 38400 0.2001 33248832
0.1477 18.1990 38600 0.1996 33420800
0.2379 18.2933 38800 0.2004 33594000
0.1929 18.3876 39000 0.1996 33765936
0.0899 18.4818 39200 0.2004 33936896
0.1772 18.5761 39400 0.2003 34110592
0.1775 18.6704 39600 0.2003 34284208
0.157 18.7647 39800 0.2003 34458576
0.2026 18.8590 40000 0.2003 34633072

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_boolq_1745950271

Adapter
(81)
this model

Dataset used to train rbelanec/train_boolq_1745950271