train_cola_1744902670

This model is a fine-tuned version of google/gemma-3-1b-it on the cola dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1314
  • Num Input Tokens Seen: 31253176

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
1.0199 0.4158 200 0.9345 156832
0.4834 0.8316 400 0.4653 313248
0.2765 1.2474 600 0.2476 469520
0.262 1.6632 800 0.1840 625360
0.2552 2.0790 1000 0.1702 782304
0.1828 2.4948 1200 0.1651 938560
0.1741 2.9106 1400 0.1595 1094144
0.1644 3.3264 1600 0.1559 1250544
0.1567 3.7422 1800 0.1537 1407440
0.1828 4.1580 2000 0.1515 1563512
0.1603 4.5738 2200 0.1537 1719064
0.1644 4.9896 2400 0.1553 1875384
0.1483 5.4054 2600 0.1473 2031440
0.1727 5.8212 2800 0.1462 2187952
0.1743 6.2370 3000 0.1477 2344864
0.1666 6.6528 3200 0.1476 2500448
0.1717 7.0686 3400 0.1465 2656400
0.1783 7.4844 3600 0.1454 2812912
0.1462 7.9002 3800 0.1434 2968816
0.1426 8.3160 4000 0.1443 3124448
0.1503 8.7318 4200 0.1443 3280320
0.138 9.1476 4400 0.1478 3437072
0.1528 9.5634 4600 0.1442 3593520
0.1484 9.9792 4800 0.1427 3750544
0.1359 10.3950 5000 0.1410 3905920
0.1586 10.8108 5200 0.1439 4063008
0.1458 11.2266 5400 0.1405 4219472
0.1543 11.6424 5600 0.1467 4376048
0.1619 12.0582 5800 0.1440 4531752
0.1541 12.4740 6000 0.1414 4687112
0.1272 12.8898 6200 0.1411 4843464
0.1504 13.3056 6400 0.1392 4999648
0.1758 13.7214 6600 0.1411 5157152
0.1237 14.1372 6800 0.1403 5312328
0.1594 14.5530 7000 0.1401 5468680
0.1644 14.9688 7200 0.1385 5624776
0.1156 15.3846 7400 0.1374 5782032
0.1205 15.8004 7600 0.1384 5938000
0.1583 16.2162 7800 0.1493 6094536
0.1725 16.6320 8000 0.1436 6250760
0.1353 17.0478 8200 0.1427 6406616
0.1372 17.4636 8400 0.1361 6563416
0.1305 17.8794 8600 0.1383 6719288
0.1529 18.2952 8800 0.1357 6875592
0.1435 18.7110 9000 0.1410 7032392
0.1446 19.1268 9200 0.1349 7188120
0.1407 19.5426 9400 0.1371 7344760
0.1478 19.9584 9600 0.1380 7501144
0.1349 20.3742 9800 0.1388 7657160
0.1338 20.7900 10000 0.1353 7813128
0.1846 21.2058 10200 0.1427 7969880
0.1395 21.6216 10400 0.1417 8126392
0.1701 22.0374 10600 0.1367 8282480
0.1647 22.4532 10800 0.1368 8438992
0.1144 22.8690 11000 0.1404 8595376
0.14 23.2848 11200 0.1351 8751352
0.1326 23.7006 11400 0.1350 8907960
0.1497 24.1164 11600 0.1408 9064424
0.1585 24.5322 11800 0.1397 9220456
0.1264 24.9480 12000 0.1397 9376488
0.1415 25.3638 12200 0.1348 9533208
0.1398 25.7796 12400 0.1353 9689464
0.1284 26.1954 12600 0.1417 9845048
0.1232 26.6112 12800 0.1340 10001784
0.1149 27.0270 13000 0.1344 10157800
0.1254 27.4428 13200 0.1350 10313128
0.1372 27.8586 13400 0.1364 10469384
0.1282 28.2744 13600 0.1339 10625944
0.0999 28.6902 13800 0.1389 10782456
0.1528 29.1060 14000 0.1359 10938304
0.1064 29.5218 14200 0.1346 11094528
0.1041 29.9376 14400 0.1406 11250976
0.1697 30.3534 14600 0.1359 11406672
0.1442 30.7692 14800 0.1402 11562768
0.1462 31.1850 15000 0.1345 11719016
0.0968 31.6008 15200 0.1338 11875368
0.1253 32.0166 15400 0.1368 12031048
0.102 32.4324 15600 0.1354 12187432
0.1342 32.8482 15800 0.1343 12343432
0.1112 33.2640 16000 0.1366 12500472
0.1647 33.6798 16200 0.1346 12656248
0.1175 34.0956 16400 0.1340 12811752
0.1261 34.5114 16600 0.1314 12968104
0.1259 34.9272 16800 0.1344 13124392
0.1171 35.3430 17000 0.1356 13281144
0.1593 35.7588 17200 0.1362 13437720
0.1429 36.1746 17400 0.1326 13594448
0.1451 36.5904 17600 0.1338 13750544
0.1583 37.0062 17800 0.1328 13906304
0.1447 37.4220 18000 0.1364 14062784
0.1262 37.8378 18200 0.1325 14219168
0.1201 38.2536 18400 0.1346 14375024
0.1666 38.6694 18600 0.1325 14530800
0.1433 39.0852 18800 0.1362 14687808
0.1106 39.5010 19000 0.1360 14843360
0.1105 39.9168 19200 0.1373 14999808
0.114 40.3326 19400 0.1323 15155496
0.1028 40.7484 19600 0.1353 15311688
0.1374 41.1642 19800 0.1333 15468264
0.1481 41.5800 20000 0.1355 15624072
0.1353 41.9958 20200 0.1332 15780456
0.1048 42.4116 20400 0.1330 15936432
0.1436 42.8274 20600 0.1346 16092272
0.1155 43.2432 20800 0.1355 16249048
0.1501 43.6590 21000 0.1370 16405368
0.1334 44.0748 21200 0.1328 16561000
0.1337 44.4906 21400 0.1345 16718312
0.1296 44.9064 21600 0.1358 16874632
0.1215 45.3222 21800 0.1333 17031680
0.1295 45.7380 22000 0.1345 17188288
0.1301 46.1538 22200 0.1336 17345048
0.1175 46.5696 22400 0.1344 17501560
0.1332 46.9854 22600 0.1323 17657336
0.0998 47.4012 22800 0.1350 17813576
0.1206 47.8170 23000 0.1342 17970024
0.0966 48.2328 23200 0.1317 18126280
0.1542 48.6486 23400 0.1341 18282568
0.118 49.0644 23600 0.1394 18438872
0.1429 49.4802 23800 0.1349 18595416
0.1464 49.8960 24000 0.1339 18751672
0.1389 50.3119 24200 0.1325 18906848
0.138 50.7277 24400 0.1341 19064192
0.1481 51.1435 24600 0.1418 19219856
0.13 51.5593 24800 0.1336 19376464
0.1503 51.9751 25000 0.1340 19532272
0.1321 52.3909 25200 0.1334 19688288
0.1277 52.8067 25400 0.1384 19844672
0.1118 53.2225 25600 0.1337 20001552
0.105 53.6383 25800 0.1323 20157424
0.1384 54.0541 26000 0.1336 20313440
0.1142 54.4699 26200 0.1369 20469664
0.1325 54.8857 26400 0.1321 20625984
0.1415 55.3015 26600 0.1352 20781904
0.1186 55.7173 26800 0.1367 20938512
0.1281 56.1331 27000 0.1335 21095008
0.1648 56.5489 27200 0.1367 21251264
0.141 56.9647 27400 0.1339 21407744
0.1336 57.3805 27600 0.1331 21564560
0.127 57.7963 27800 0.1326 21720560
0.1098 58.2121 28000 0.1356 21877024
0.1057 58.6279 28200 0.1335 22033344
0.1215 59.0437 28400 0.1388 22189872
0.1412 59.4595 28600 0.1318 22345712
0.1332 59.8753 28800 0.1341 22502352
0.132 60.2911 29000 0.1353 22658440
0.1477 60.7069 29200 0.1339 22814056
0.1082 61.1227 29400 0.1343 22970680
0.1747 61.5385 29600 0.1353 23126776
0.1357 61.9543 29800 0.1327 23283064
0.1002 62.3701 30000 0.1340 23440000
0.1126 62.7859 30200 0.1356 23596224
0.1258 63.2017 30400 0.1352 23751880
0.1333 63.6175 30600 0.1337 23907624
0.089 64.0333 30800 0.1337 24063864
0.1212 64.4491 31000 0.1329 24219608
0.1456 64.8649 31200 0.1331 24376856
0.1371 65.2807 31400 0.1335 24533352
0.1342 65.6965 31600 0.1355 24688616
0.1394 66.1123 31800 0.1324 24844832
0.1321 66.5281 32000 0.1372 25002240
0.1284 66.9439 32200 0.1333 25158144
0.1364 67.3597 32400 0.1336 25314384
0.1013 67.7755 32600 0.1330 25470704
0.1333 68.1913 32800 0.1330 25627200
0.1057 68.6071 33000 0.1366 25783456
0.1267 69.0229 33200 0.1339 25940304
0.1145 69.4387 33400 0.1341 26096432
0.1038 69.8545 33600 0.1334 26253360
0.1024 70.2703 33800 0.1343 26408736
0.1166 70.6861 34000 0.1333 26565056
0.1616 71.1019 34200 0.1350 26721176
0.1192 71.5177 34400 0.1353 26877368
0.1183 71.9335 34600 0.1358 27033912
0.1527 72.3493 34800 0.1323 27190376
0.146 72.7651 35000 0.1349 27347112
0.1274 73.1809 35200 0.1352 27503480
0.1277 73.5967 35400 0.1334 27660280
0.1407 74.0125 35600 0.1333 27815536
0.1269 74.4283 35800 0.1353 27971600
0.1255 74.8441 36000 0.1342 28127664
0.1432 75.2599 36200 0.1354 28284736
0.1083 75.6757 36400 0.1359 28440672
0.1248 76.0915 36600 0.1347 28596968
0.0944 76.5073 36800 0.1322 28753672
0.1213 76.9231 37000 0.1325 28909800
0.1175 77.3389 37200 0.1343 29066104
0.1217 77.7547 37400 0.1343 29222328
0.115 78.1705 37600 0.1353 29378344
0.1197 78.5863 37800 0.1370 29534888
0.1422 79.0021 38000 0.1331 29690392
0.1215 79.4179 38200 0.1363 29846936
0.1302 79.8337 38400 0.1352 30002424
0.1303 80.2495 38600 0.1365 30158536
0.121 80.6653 38800 0.1348 30314984
0.1364 81.0811 39000 0.1343 30471288
0.1273 81.4969 39200 0.1329 30628024
0.122 81.9127 39400 0.1361 30784376
0.1142 82.3285 39600 0.1341 30940904
0.1026 82.7443 39800 0.1340 31097352
0.124 83.1601 40000 0.1339 31253176

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_cola_1744902670

Adapter
(81)
this model