train_cola_1744902671

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the cola dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1468
  • Num Input Tokens Seen: 30508240

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2661 0.4158 200 0.2277 153120
0.1424 0.8316 400 0.1915 305504
0.1941 1.2474 600 0.1863 458648
0.194 1.6632 800 0.1743 610680
0.1875 2.0790 1000 0.1762 763880
0.1586 2.4948 1200 0.1773 916648
0.1543 2.9106 1400 0.1706 1068552
0.1448 3.3264 1600 0.1668 1220928
0.1343 3.7422 1800 0.1661 1373952
0.1781 4.1580 2000 0.1663 1526312
0.14 4.5738 2200 0.1653 1678248
0.1727 4.9896 2400 0.1689 1831112
0.1162 5.4054 2600 0.1613 1983296
0.1689 5.8212 2800 0.1603 2135968
0.2049 6.2370 3000 0.1604 2289200
0.1425 6.6528 3200 0.1632 2441648
0.184 7.0686 3400 0.1613 2593344
0.1321 7.4844 3600 0.1585 2745792
0.1282 7.9002 3800 0.1588 2898816
0.1602 8.3160 4000 0.1587 3050480
0.1692 8.7318 4200 0.1617 3202864
0.1273 9.1476 4400 0.1611 3355680
0.1787 9.5634 4600 0.1600 3508192
0.1663 9.9792 4800 0.1557 3661568
0.123 10.3950 5000 0.1566 3813552
0.1541 10.8108 5200 0.1558 3967024
0.1598 11.2266 5400 0.1570 4120032
0.2537 11.6424 5600 0.1594 4272608
0.1786 12.0582 5800 0.1604 4424280
0.1654 12.4740 6000 0.1568 4575480
0.0907 12.8898 6200 0.1555 4728792
0.1476 13.3056 6400 0.1536 4880880
0.1688 13.7214 6600 0.1547 5034608
0.122 14.1372 6800 0.1554 5186400
0.1313 14.5530 7000 0.1603 5339008
0.159 14.9688 7200 0.1515 5491424
0.1129 15.3846 7400 0.1512 5644520
0.1148 15.8004 7600 0.1506 5796744
0.1161 16.2162 7800 0.1601 5949536
0.1955 16.6320 8000 0.1611 6102304
0.1407 17.0478 8200 0.1597 6254288
0.1344 17.4636 8400 0.1496 6407504
0.1288 17.8794 8600 0.1535 6559760
0.1837 18.2952 8800 0.1523 6711968
0.1428 18.7110 9000 0.1579 6864736
0.1552 19.1268 9200 0.1491 7016944
0.1276 19.5426 9400 0.1524 7169456
0.1444 19.9584 9600 0.1509 7322736
0.1519 20.3742 9800 0.1539 7474848
0.1054 20.7900 10000 0.1507 7627360
0.1796 21.2058 10200 0.1531 7779952
0.1129 21.6216 10400 0.1558 7932848
0.1229 22.0374 10600 0.1513 8085448
0.1418 22.4532 10800 0.1476 8237768
0.1201 22.8690 11000 0.1546 8390664
0.0941 23.2848 11200 0.1483 8543280
0.0959 23.7006 11400 0.1486 8696432
0.1684 24.1164 11600 0.1561 8849408
0.1416 24.5322 11800 0.1616 9001408
0.0867 24.9480 12000 0.1541 9153696
0.1138 25.3638 12200 0.1513 9307088
0.1401 25.7796 12400 0.1502 9459824
0.1238 26.1954 12600 0.1562 9611704
0.1094 26.6112 12800 0.1479 9764344
0.1298 27.0270 13000 0.1512 9917064
0.0975 27.4428 13200 0.1470 10068520
0.1002 27.8586 13400 0.1549 10221224
0.1209 28.2744 13600 0.1560 10373912
0.0964 28.6902 13800 0.1593 10526808
0.1181 29.1060 14000 0.1515 10678976
0.0916 29.5218 14200 0.1507 10831520
0.1287 29.9376 14400 0.1567 10984224
0.161 30.3534 14600 0.1505 11135896
0.1195 30.7692 14800 0.1527 11288728
0.1708 31.1850 15000 0.1485 11441040
0.0692 31.6008 15200 0.1497 11593456
0.1534 32.0166 15400 0.1527 11745744
0.0937 32.4324 15600 0.1559 11898672
0.1043 32.8482 15800 0.1504 12050992
0.0985 33.2640 16000 0.1526 12204352
0.1363 33.6798 16200 0.1501 12356224
0.1044 34.0956 16400 0.1496 12507960
0.1079 34.5114 16600 0.1555 12660760
0.096 34.9272 16800 0.1510 12813272
0.0913 35.3430 17000 0.1501 12965896
0.1785 35.7588 17200 0.1526 13118824
0.1386 36.1746 17400 0.1492 13271872
0.1741 36.5904 17600 0.1515 13424128
0.1188 37.0062 17800 0.1545 13576056
0.1476 37.4220 18000 0.1483 13728696
0.1544 37.8378 18200 0.1468 13881368
0.1223 38.2536 18400 0.1510 14033616
0.124 38.6694 18600 0.1505 14185616
0.1618 39.0852 18800 0.1507 14338720
0.0901 39.5010 19000 0.1571 14490240
0.1137 39.9168 19200 0.1550 14643072
0.1122 40.3326 19400 0.1499 14795184
0.0935 40.7484 19600 0.1569 14947312
0.1039 41.1642 19800 0.1517 15100336
0.13 41.5800 20000 0.1542 15252464
0.1284 41.9958 20200 0.1521 15404912
0.0699 42.4116 20400 0.1501 15557176
0.1084 42.8274 20600 0.1529 15709912
0.082 43.2432 20800 0.1529 15862336
0.1141 43.6590 21000 0.1550 16014304
0.1653 44.0748 21200 0.1538 16166680
0.1138 44.4906 21400 0.1524 16320408
0.1406 44.9064 21600 0.1526 16472888
0.1356 45.3222 21800 0.1497 16625808
0.1288 45.7380 22000 0.1555 16778288
0.0988 46.1538 22200 0.1546 16931560
0.0873 46.5696 22400 0.1501 17083880
0.0866 46.9854 22600 0.1540 17235976
0.0619 47.4012 22800 0.1531 17388152
0.1097 47.8170 23000 0.1566 17540824
0.0773 48.2328 23200 0.1543 17693912
0.1272 48.6486 23400 0.1519 17846296
0.1045 49.0644 23600 0.1581 17998760
0.0727 49.4802 23800 0.1496 18152072
0.1072 49.8960 24000 0.1514 18304072
0.0865 50.3119 24200 0.1510 18455696
0.079 50.7277 24400 0.1515 18608976
0.1219 51.1435 24600 0.1578 18760928
0.1041 51.5593 24800 0.1556 18913856
0.1542 51.9751 25000 0.1526 19066528
0.0891 52.3909 25200 0.1531 19218616
0.129 52.8067 25400 0.1605 19370872
0.1081 53.2225 25600 0.1531 19524232
0.1028 53.6383 25800 0.1566 19676456
0.0956 54.0541 26000 0.1543 19828504
0.0728 54.4699 26200 0.1589 19980856
0.1111 54.8857 26400 0.1543 20133784
0.1244 55.3015 26600 0.1558 20286120
0.1273 55.7173 26800 0.1540 20439016
0.1106 56.1331 27000 0.1542 20591320
0.1044 56.5489 27200 0.1569 20743736
0.1615 56.9647 27400 0.1549 20896184
0.0892 57.3805 27600 0.1544 21049160
0.1215 57.7963 27800 0.1559 21201640
0.0788 58.2121 28000 0.1625 21354208
0.079 58.6279 28200 0.1531 21506752
0.0854 59.0437 28400 0.1585 21659696
0.094 59.4595 28600 0.1531 21811600
0.1311 59.8753 28800 0.1558 21964272
0.1349 60.2911 29000 0.1597 22116648
0.0796 60.7069 29200 0.1546 22269032
0.1244 61.1227 29400 0.1550 22421944
0.1407 61.5385 29600 0.1550 22574936
0.1224 61.9543 29800 0.1549 22727064
0.0849 62.3701 30000 0.1528 22880256
0.1631 62.7859 30200 0.1550 23032800
0.1382 63.2017 30400 0.1579 23184744
0.1149 63.6175 30600 0.1552 23336904
0.0581 64.0333 30800 0.1542 23489432
0.0715 64.4491 31000 0.1560 23641496
0.1751 64.8649 31200 0.1541 23794744
0.13 65.2807 31400 0.1527 23947688
0.0912 65.6965 31600 0.1590 24099432
0.0905 66.1123 31800 0.1546 24251200
0.1306 66.5281 32000 0.1565 24404736
0.0987 66.9439 32200 0.1557 24557120
0.1066 67.3597 32400 0.1574 24709616
0.0949 67.7755 32600 0.1571 24862224
0.0905 68.1913 32800 0.1544 25015296
0.0847 68.6071 33000 0.1556 25167744
0.0955 69.0229 33200 0.1566 25321016
0.0971 69.4387 33400 0.1552 25473368
0.1028 69.8545 33600 0.1553 25626520
0.0808 70.2703 33800 0.1562 25778248
0.1252 70.6861 34000 0.1547 25930920
0.1414 71.1019 34200 0.1560 26083456
0.1389 71.5177 34400 0.1569 26235552
0.0765 71.9335 34600 0.1572 26388832
0.0858 72.3493 34800 0.1558 26541680
0.1088 72.7651 35000 0.1567 26694832
0.0785 73.1809 35200 0.1544 26847168
0.0989 73.5967 35400 0.1563 27000096
0.1127 74.0125 35600 0.1567 27151800
0.1141 74.4283 35800 0.1563 27304152
0.0896 74.8441 36000 0.1563 27456856
0.0954 75.2599 36200 0.1579 27610376
0.0711 75.6757 36400 0.1580 27762984
0.0703 76.0915 36600 0.1575 27915504
0.0757 76.5073 36800 0.1564 28068432
0.0936 76.9231 37000 0.1559 28220720
0.1022 77.3389 37200 0.1552 28373600
0.0944 77.7547 37400 0.1556 28526304
0.0775 78.1705 37600 0.1567 28678672
0.1115 78.5863 37800 0.1553 28831632
0.079 79.0021 38000 0.1561 28983144
0.1022 79.4179 38200 0.1551 29136008
0.1413 79.8337 38400 0.1555 29288104
0.0683 80.2495 38600 0.1560 29440312
0.0978 80.6653 38800 0.1566 29592888
0.1031 81.0811 39000 0.1557 29745320
0.1248 81.4969 39200 0.1560 29898600
0.0578 81.9127 39400 0.1576 30050504
0.0666 82.3285 39600 0.1576 30203576
0.0724 82.7443 39800 0.1576 30356408
0.0939 83.1601 40000 0.1576 30508240

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
6
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_cola_1744902671

Adapter
(850)
this model