train_boolq_1745950272

This model is a fine-tuned version of google/gemma-3-1b-it on the boolq dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2112
  • Num Input Tokens Seen: 34633072

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2964 0.0943 200 0.3284 174096
0.3882 0.1886 400 0.2599 344560
0.262 0.2829 600 0.3627 517536
0.1964 0.3772 800 0.2265 696016
0.2543 0.4715 1000 0.2216 868992
0.2859 0.5658 1200 0.2279 1040544
0.2272 0.6601 1400 0.3682 1211680
0.2348 0.7544 1600 0.3155 1381792
0.2577 0.8487 1800 0.2219 1559456
0.3163 0.9430 2000 0.2221 1735840
0.2406 1.0372 2200 0.2453 1910848
0.1931 1.1315 2400 0.2288 2081696
0.2177 1.2258 2600 0.2200 2255952
0.2397 1.3201 2800 0.2191 2427152
0.1923 1.4144 3000 0.2299 2601296
0.2004 1.5087 3200 0.2194 2774672
0.214 1.6030 3400 0.2178 2944896
0.2293 1.6973 3600 0.2339 3117216
0.2782 1.7916 3800 0.2190 3287952
0.1944 1.8859 4000 0.2201 3464640
0.2094 1.9802 4200 0.2235 3638880
0.3115 2.0745 4400 0.2513 3812624
0.2463 2.1688 4600 0.2509 3986544
0.1836 2.2631 4800 0.2228 4158272
0.2252 2.3574 5000 0.2204 4328240
0.2139 2.4517 5200 0.2194 4507760
0.2029 2.5460 5400 0.2192 4681664
0.2325 2.6403 5600 0.2188 4856928
0.2387 2.7346 5800 0.2171 5024976
0.3 2.8289 6000 0.2189 5202368
0.2308 2.9231 6200 0.2437 5377360
0.2332 3.0174 6400 0.2198 5550480
0.2422 3.1117 6600 0.2228 5724080
0.2444 3.2060 6800 0.2200 5896688
0.2385 3.3003 7000 0.2174 6070544
0.2365 3.3946 7200 0.2422 6244624
0.2499 3.4889 7400 0.2201 6416176
0.2372 3.5832 7600 0.2246 6587616
0.2897 3.6775 7800 0.3597 6759696
0.236 3.7718 8000 0.2284 6932384
0.2549 3.8661 8200 0.2483 7103328
0.264 3.9604 8400 0.2968 7276304
0.238 4.0547 8600 0.2217 7448112
0.2153 4.1490 8800 0.2325 7623632
0.1812 4.2433 9000 0.2273 7799248
0.2833 4.3376 9200 0.2250 7974368
0.2609 4.4319 9400 0.2269 8146384
0.2603 4.5262 9600 0.2293 8321456
0.2278 4.6205 9800 0.2213 8490096
0.2126 4.7148 10000 0.2270 8665904
0.2166 4.8091 10200 0.2207 8837712
0.2579 4.9033 10400 0.2487 9010400
0.2256 4.9976 10600 0.2206 9185584
0.2219 5.0919 10800 0.2237 9358160
0.2263 5.1862 11000 0.2265 9535520
0.185 5.2805 11200 0.2237 9709232
0.1847 5.3748 11400 0.2309 9880896
0.2223 5.4691 11600 0.2203 10053056
0.2419 5.5634 11800 0.2255 10229152
0.2415 5.6577 12000 0.2223 10404384
0.2475 5.7520 12200 0.2206 10573872
0.2396 5.8463 12400 0.2353 10748304
0.1792 5.9406 12600 0.2483 10917920
0.2638 6.0349 12800 0.2279 11092736
0.2217 6.1292 13000 0.2193 11269264
0.2475 6.2235 13200 0.2221 11441120
0.2348 6.3178 13400 0.2188 11614176
0.1659 6.4121 13600 0.2264 11785424
0.1838 6.5064 13800 0.2186 11960752
0.222 6.6007 14000 0.2183 12132672
0.2841 6.6950 14200 0.2160 12303424
0.2265 6.7893 14400 0.2227 12474592
0.2287 6.8835 14600 0.2395 12649424
0.2388 6.9778 14800 0.2331 12821280
0.2421 7.0721 15000 0.2266 12996208
0.2458 7.1664 15200 0.2415 13172592
0.2424 7.2607 15400 0.2357 13342864
0.2588 7.3550 15600 0.2186 13515600
0.2608 7.4493 15800 0.2198 13688640
0.2053 7.5436 16000 0.2214 13863312
0.231 7.6379 16200 0.2174 14032992
0.2223 7.7322 16400 0.2170 14205936
0.214 7.8265 16600 0.2170 14378336
0.23 7.9208 16800 0.2180 14551456
0.1974 8.0151 17000 0.2183 14730672
0.2445 8.1094 17200 0.2160 14904544
0.1646 8.2037 17400 0.2227 15078832
0.2175 8.2980 17600 0.2161 15254544
0.2334 8.3923 17800 0.2177 15422256
0.2287 8.4866 18000 0.2266 15595776
0.2202 8.5809 18200 0.2191 15768288
0.2279 8.6752 18400 0.2180 15941776
0.2137 8.7694 18600 0.2174 16115152
0.2182 8.8637 18800 0.2160 16284384
0.2249 8.9580 19000 0.2216 16457552
0.2489 9.0523 19200 0.2172 16632272
0.2361 9.1466 19400 0.2167 16806304
0.2656 9.2409 19600 0.2150 16979072
0.2317 9.3352 19800 0.2187 17150160
0.2482 9.4295 20000 0.2154 17321280
0.2261 9.5238 20200 0.2152 17495488
0.2319 9.6181 20400 0.2169 17670576
0.205 9.7124 20600 0.2156 17843440
0.2642 9.8067 20800 0.2301 18012496
0.2083 9.9010 21000 0.2201 18186480
0.2329 9.9953 21200 0.2180 18360368
0.2151 10.0896 21400 0.2189 18539664
0.2113 10.1839 21600 0.2232 18718016
0.2365 10.2782 21800 0.2181 18888560
0.2137 10.3725 22000 0.2164 19061328
0.2118 10.4668 22200 0.2166 19236176
0.208 10.5611 22400 0.2178 19404288
0.2201 10.6554 22600 0.2145 19574224
0.2331 10.7496 22800 0.2147 19744496
0.2107 10.8439 23000 0.2146 19915984
0.2288 10.9382 23200 0.2147 20090944
0.2446 11.0325 23400 0.2177 20264992
0.2159 11.1268 23600 0.2158 20437952
0.1985 11.2211 23800 0.2159 20611040
0.2262 11.3154 24000 0.2141 20787488
0.2036 11.4097 24200 0.2160 20958240
0.2398 11.5040 24400 0.2146 21133392
0.236 11.5983 24600 0.2143 21303360
0.2261 11.6926 24800 0.2173 21475184
0.1897 11.7869 25000 0.2155 21649744
0.208 11.8812 25200 0.2112 21819728
0.1995 11.9755 25400 0.2142 21993120
0.2066 12.0698 25600 0.2162 22164624
0.1747 12.1641 25800 0.2130 22340064
0.1969 12.2584 26000 0.2177 22515088
0.2165 12.3527 26200 0.2128 22692240
0.1789 12.4470 26400 0.2133 22864512
0.2362 12.5413 26600 0.2158 23037568
0.2457 12.6355 26800 0.2145 23207936
0.2113 12.7298 27000 0.2135 23381376
0.2103 12.8241 27200 0.2120 23553008
0.2114 12.9184 27400 0.2126 23722608
0.1868 13.0127 27600 0.2135 23892928
0.225 13.1070 27800 0.2140 24063632
0.2023 13.2013 28000 0.2141 24237248
0.2117 13.2956 28200 0.2138 24411712
0.1836 13.3899 28400 0.2122 24584800
0.1836 13.4842 28600 0.2222 24759888
0.2203 13.5785 28800 0.2209 24936720
0.1911 13.6728 29000 0.2139 25110864
0.2123 13.7671 29200 0.2118 25284944
0.159 13.8614 29400 0.2114 25456816
0.1791 13.9557 29600 0.2154 25631728
0.1437 14.0500 29800 0.2151 25801056
0.2108 14.1443 30000 0.2241 25978896
0.192 14.2386 30200 0.2220 26156672
0.1962 14.3329 30400 0.2274 26330592
0.1747 14.4272 30600 0.2177 26502800
0.2064 14.5215 30800 0.2167 26671584
0.1868 14.6157 31000 0.2215 26845568
0.179 14.7100 31200 0.2196 27017952
0.2227 14.8043 31400 0.2228 27191600
0.1798 14.8986 31600 0.2243 27362144
0.157 14.9929 31800 0.2161 27536992
0.1691 15.0872 32000 0.2260 27707728
0.119 15.1815 32200 0.2346 27886368
0.1075 15.2758 32400 0.2327 28061984
0.1668 15.3701 32600 0.2353 28233360
0.1905 15.4644 32800 0.2292 28411200
0.1303 15.5587 33000 0.2263 28582944
0.1954 15.6530 33200 0.2356 28756240
0.1933 15.7473 33400 0.2359 28926208
0.1241 15.8416 33600 0.2345 29096816
0.1931 15.9359 33800 0.2392 29267072
0.1113 16.0302 34000 0.2413 29435360
0.1501 16.1245 34200 0.2551 29610720
0.1441 16.2188 34400 0.2495 29781472
0.1606 16.3131 34600 0.2591 29959568
0.1382 16.4074 34800 0.2658 30134704
0.096 16.5017 35000 0.2655 30305200
0.1434 16.5959 35200 0.2730 30478576
0.0859 16.6902 35400 0.2621 30647744
0.1035 16.7845 35600 0.2634 30823072
0.1649 16.8788 35800 0.2613 30996032
0.0938 16.9731 36000 0.2709 31167328
0.0595 17.0674 36200 0.2738 31341392
0.1804 17.1617 36400 0.2758 31515648
0.0988 17.2560 36600 0.2815 31690208
0.1109 17.3503 36800 0.2811 31868288
0.0748 17.4446 37000 0.2802 32041536
0.105 17.5389 37200 0.2839 32213584
0.0659 17.6332 37400 0.2861 32385920
0.094 17.7275 37600 0.2828 32555856
0.113 17.8218 37800 0.2856 32729024
0.0887 17.9161 38000 0.2885 32902832
0.1239 18.0104 38200 0.2858 33076912
0.0903 18.1047 38400 0.2874 33248832
0.0294 18.1990 38600 0.2881 33420800
0.1241 18.2933 38800 0.2860 33594000
0.0538 18.3876 39000 0.2880 33765936
0.0482 18.4818 39200 0.2889 33936896
0.0872 18.5761 39400 0.2890 34110592
0.1452 18.6704 39600 0.2888 34284208
0.1472 18.7647 39800 0.2879 34458576
0.0763 18.8590 40000 0.2882 34633072

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_boolq_1745950272

Adapter
(81)
this model

Dataset used to train rbelanec/train_boolq_1745950272