train_wic_1745950283

This model is a fine-tuned version of google/gemma-3-1b-it on the wic dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2004
  • Num Input Tokens Seen: 13031928

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.5034 0.1637 200 0.5635 65024
0.3163 0.3275 400 0.3837 129984
0.2862 0.4912 600 0.3088 195024
0.3287 0.6549 800 0.2748 260624
0.2047 0.8187 1000 0.2613 325984
0.3136 0.9824 1200 0.2437 391280
0.2354 1.1457 1400 0.2379 456248
0.2185 1.3095 1600 0.2336 521464
0.1896 1.4732 1800 0.2306 586632
0.2201 1.6369 2000 0.2281 651384
0.223 1.8007 2200 0.2288 716552
0.1983 1.9644 2400 0.2224 781992
0.2409 2.1277 2600 0.2245 847136
0.2164 2.2914 2800 0.2195 912064
0.2203 2.4552 3000 0.2207 977312
0.202 2.6189 3200 0.2231 1042608
0.2518 2.7826 3400 0.2176 1107488
0.2164 2.9464 3600 0.2180 1172864
0.2582 3.1097 3800 0.2262 1238392
0.19 3.2734 4000 0.2168 1303640
0.2214 3.4372 4200 0.2131 1368504
0.2204 3.6009 4400 0.2119 1433480
0.2295 3.7646 4600 0.2134 1499016
0.1886 3.9284 4800 0.2109 1563880
0.1749 4.0917 5000 0.2108 1628808
0.2002 4.2554 5200 0.2092 1693576
0.1981 4.4192 5400 0.2094 1758536
0.2221 4.5829 5600 0.2094 1823544
0.2198 4.7466 5800 0.2080 1889272
0.2502 4.9104 6000 0.2071 1954632
0.2157 5.0737 6200 0.2068 2019440
0.1902 5.2374 6400 0.2097 2084816
0.2089 5.4011 6600 0.2085 2149632
0.2047 5.5649 6800 0.2053 2214864
0.228 5.7286 7000 0.2049 2280368
0.1863 5.8923 7200 0.2047 2345632
0.1874 6.0557 7400 0.2058 2410768
0.2297 6.2194 7600 0.2149 2476096
0.1849 6.3831 7800 0.2056 2541152
0.1483 6.5469 8000 0.2068 2606016
0.2332 6.7106 8200 0.2040 2670896
0.1563 6.8743 8400 0.2053 2736160
0.2354 7.0377 8600 0.2048 2801120
0.2675 7.2014 8800 0.2045 2865872
0.1436 7.3651 9000 0.2031 2931072
0.2574 7.5289 9200 0.2059 2996288
0.2052 7.6926 9400 0.2035 3061744
0.1674 7.8563 9600 0.2024 3126896
0.2028 8.0196 9800 0.2030 3191832
0.205 8.1834 10000 0.2034 3257640
0.1922 8.3471 10200 0.2053 3322584
0.1352 8.5108 10400 0.2081 3387672
0.2004 8.6746 10600 0.2053 3452968
0.1564 8.8383 10800 0.2046 3518104
0.1142 9.0016 11000 0.2020 3583216
0.2136 9.1654 11200 0.2042 3648592
0.2067 9.3291 11400 0.2022 3713808
0.1872 9.4928 11600 0.2018 3778848
0.1867 9.6566 11800 0.2009 3844208
0.1377 9.8203 12000 0.2024 3909264
0.1594 9.9840 12200 0.2020 3974224
0.2307 10.1474 12400 0.2105 4039488
0.1741 10.3111 12600 0.2025 4104512
0.1612 10.4748 12800 0.2024 4169856
0.2859 10.6386 13000 0.2008 4234864
0.1327 10.8023 13200 0.2027 4300144
0.1475 10.9660 13400 0.2012 4365440
0.163 11.1293 13600 0.2004 4430440
0.2207 11.2931 13800 0.2031 4495784
0.1531 11.4568 14000 0.2058 4560792
0.2296 11.6205 14200 0.2033 4625720
0.1961 11.7843 14400 0.2058 4690744
0.2351 11.9480 14600 0.2134 4756152
0.2088 12.1113 14800 0.2031 4821256
0.3128 12.2751 15000 0.2061 4886344
0.1364 12.4388 15200 0.2028 4951960
0.1291 12.6025 15400 0.2034 5016856
0.1437 12.7663 15600 0.2060 5082248
0.2195 12.9300 15800 0.2053 5147240
0.248 13.0933 16000 0.2055 5212440
0.2462 13.2571 16200 0.2062 5277800
0.2249 13.4208 16400 0.2067 5342760
0.1858 13.5845 16600 0.2061 5407816
0.1693 13.7483 16800 0.2059 5473672
0.162 13.9120 17000 0.2042 5538456
0.1208 14.0753 17200 0.2040 5603152
0.2128 14.2391 17400 0.2070 5668048
0.2558 14.4028 17600 0.2031 5732816
0.1512 14.5665 17800 0.2072 5798240
0.2159 14.7302 18000 0.2111 5863936
0.1695 14.8940 18200 0.2063 5929216
0.2496 15.0573 18400 0.2051 5994376
0.1911 15.2210 18600 0.2115 6059464
0.1756 15.3848 18800 0.2054 6125240
0.1436 15.5485 19000 0.2048 6190600
0.1537 15.7122 19200 0.2068 6255240
0.2514 15.8760 19400 0.2061 6320328
0.2055 16.0393 19600 0.2099 6385240
0.1238 16.2030 19800 0.2045 6450424
0.1912 16.3668 20000 0.2063 6515688
0.2017 16.5305 20200 0.2083 6580712
0.0828 16.6942 20400 0.2136 6646184
0.1354 16.8580 20600 0.2062 6711480
0.204 17.0213 20800 0.2086 6776176
0.1822 17.1850 21000 0.2111 6841120
0.221 17.3488 21200 0.2141 6906528
0.2017 17.5125 21400 0.2067 6971568
0.1142 17.6762 21600 0.2063 7036832
0.1921 17.8400 21800 0.2102 7102176
0.1601 18.0033 22000 0.2104 7167168
0.1581 18.1670 22200 0.2084 7232736
0.1955 18.3307 22400 0.2128 7297984
0.2257 18.4945 22600 0.2064 7362832
0.1878 18.6582 22800 0.2100 7428672
0.1361 18.8219 23000 0.2125 7493504
0.2363 18.9857 23200 0.2082 7558400
0.1438 19.1490 23400 0.2085 7623392
0.2128 19.3127 23600 0.2077 7688624
0.2493 19.4765 23800 0.2126 7753632
0.1422 19.6402 24000 0.2119 7819136
0.135 19.8039 24200 0.2112 7884272
0.1307 19.9677 24400 0.2111 7949504
0.1891 20.1310 24600 0.2114 8014544
0.2689 20.2947 24800 0.2132 8079920
0.1624 20.4585 25000 0.2102 8145552
0.228 20.6222 25200 0.2095 8210688
0.1237 20.7859 25400 0.2141 8275760
0.1324 20.9497 25600 0.2133 8340784
0.1542 21.1130 25800 0.2132 8405688
0.227 21.2767 26000 0.2117 8470664
0.1897 21.4404 26200 0.2114 8535736
0.1911 21.6042 26400 0.2113 8600728
0.2505 21.7679 26600 0.2201 8666296
0.2853 21.9316 26800 0.2104 8731640
0.1856 22.0950 27000 0.2145 8796704
0.146 22.2587 27200 0.2101 8861792
0.1597 22.4224 27400 0.2120 8927168
0.18 22.5862 27600 0.2123 8992240
0.1666 22.7499 27800 0.2117 9057600
0.1416 22.9136 28000 0.2116 9122992
0.1501 23.0770 28200 0.2138 9187992
0.1208 23.2407 28400 0.2112 9253112
0.2732 23.4044 28600 0.2154 9318440
0.1733 23.5682 28800 0.2098 9383656
0.1701 23.7319 29000 0.2146 9448616
0.1345 23.8956 29200 0.2136 9513976
0.1873 24.0589 29400 0.2118 9579416
0.1737 24.2227 29600 0.2130 9644664
0.1702 24.3864 29800 0.2157 9710056
0.1531 24.5501 30000 0.2141 9775272
0.1052 24.7139 30200 0.2159 9840600
0.126 24.8776 30400 0.2134 9905368
0.2103 25.0409 30600 0.2153 9970160
0.149 25.2047 30800 0.2131 10035200
0.171 25.3684 31000 0.2175 10100368
0.1219 25.5321 31200 0.2149 10165552
0.113 25.6959 31400 0.2141 10230992
0.1668 25.8596 31600 0.2135 10295840
0.1436 26.0229 31800 0.2119 10360952
0.1337 26.1867 32000 0.2139 10425832
0.2203 26.3504 32200 0.2136 10490904
0.1747 26.5141 32400 0.2161 10556056
0.1391 26.6779 32600 0.2145 10621432
0.2583 26.8416 32800 0.2134 10686808
0.1223 27.0049 33000 0.2112 10751912
0.139 27.1686 33200 0.2121 10817272
0.168 27.3324 33400 0.2193 10882568
0.2141 27.4961 33600 0.2161 10947368
0.2343 27.6598 33800 0.2125 11012568
0.2322 27.8236 34000 0.2132 11078056
0.2502 27.9873 34200 0.2136 11143272
0.145 28.1506 34400 0.2146 11208128
0.1127 28.3144 34600 0.2153 11273344
0.105 28.4781 34800 0.2139 11338704
0.1332 28.6418 35000 0.2160 11404240
0.12 28.8056 35200 0.2142 11469056
0.1864 28.9693 35400 0.2141 11534288
0.1407 29.1326 35600 0.2156 11599248
0.2872 29.2964 35800 0.2147 11664528
0.1861 29.4601 36000 0.2129 11729904
0.1767 29.6238 36200 0.2140 11794928
0.1488 29.7876 36400 0.2123 11860400
0.1311 29.9513 36600 0.2131 11925328
0.1531 30.1146 36800 0.2128 11989944
0.1226 30.2783 37000 0.2153 12054968
0.1902 30.4421 37200 0.2138 12120184
0.1804 30.6058 37400 0.2141 12185832
0.1548 30.7695 37600 0.2148 12250664
0.105 30.9333 37800 0.2142 12315704
0.23 31.0966 38000 0.2123 12380824
0.1433 31.2603 38200 0.2132 12446424
0.2038 31.4241 38400 0.2130 12511800
0.2055 31.5878 38600 0.2136 12576920
0.2024 31.7515 38800 0.2161 12641896
0.1504 31.9153 39000 0.2151 12706504
0.1118 32.0786 39200 0.2131 12771208
0.1624 32.2423 39400 0.2151 12836760
0.1188 32.4061 39600 0.2151 12901944
0.1194 32.5698 39800 0.2151 12967000
0.1335 32.7335 40000 0.2151 13031928

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_wic_1745950283

Adapter
(81)
this model