Upload folder using huggingface_hub

ae704e0 verified 4 months ago

14.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.981366459627329,
	"eval_steps": 50,
	"global_step": 120,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.12422360248447205,
	"grad_norm": 66.62363784407601,
	"learning_rate": 5e-07,
	"logits/chosen": -2.737199068069458,
	"logits/rejected": -2.716709613800049,
	"logps/chosen": -271.75335693359375,
	"logps/rejected": -215.45742797851562,
	"loss": 0.6894,
	"rewards/accuracies": 0.39375001192092896,
	"rewards/chosen": 0.016401026397943497,
	"rewards/margins": 0.012943076901137829,
	"rewards/rejected": 0.0034579492639750242,
	"step": 5
	},
	{
	"epoch": 0.2484472049689441,
	"grad_norm": 48.6825109729797,
	"learning_rate": 1e-06,
	"logits/chosen": -2.673478364944458,
	"logits/rejected": -2.6825709342956543,
	"logps/chosen": -274.2002258300781,
	"logps/rejected": -210.3507537841797,
	"loss": 0.6196,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": 0.5796890258789062,
	"rewards/margins": 0.2897328734397888,
	"rewards/rejected": 0.28995609283447266,
	"step": 10
	},
	{
	"epoch": 0.37267080745341613,
	"grad_norm": 46.74043921332661,
	"learning_rate": 9.949107209404663e-07,
	"logits/chosen": -2.474240303039551,
	"logits/rejected": -2.441648006439209,
	"logps/chosen": -231.01181030273438,
	"logps/rejected": -208.47927856445312,
	"loss": 0.6484,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": 1.5896726846694946,
	"rewards/margins": 0.8002876043319702,
	"rewards/rejected": 0.7893850207328796,
	"step": 15
	},
	{
	"epoch": 0.4968944099378882,
	"grad_norm": 51.05927483012936,
	"learning_rate": 9.797464868072486e-07,
	"logits/chosen": -2.29701566696167,
	"logits/rejected": -2.2914681434631348,
	"logps/chosen": -262.2198181152344,
	"logps/rejected": -218.2954864501953,
	"loss": 0.6125,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": 1.8730179071426392,
	"rewards/margins": 1.2619432210922241,
	"rewards/rejected": 0.6110745668411255,
	"step": 20
	},
	{
	"epoch": 0.6211180124223602,
	"grad_norm": 53.85418375459847,
	"learning_rate": 9.548159976772592e-07,
	"logits/chosen": -2.2311034202575684,
	"logits/rejected": -2.2267913818359375,
	"logps/chosen": -259.2829895019531,
	"logps/rejected": -203.93215942382812,
	"loss": 0.581,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": 1.702134370803833,
	"rewards/margins": 1.3699487447738647,
	"rewards/rejected": 0.3321855068206787,
	"step": 25
	},
	{
	"epoch": 0.7453416149068323,
	"grad_norm": 41.921620963182335,
	"learning_rate": 9.206267664155906e-07,
	"logits/chosen": -2.2750821113586426,
	"logits/rejected": -2.2540435791015625,
	"logps/chosen": -252.75881958007812,
	"logps/rejected": -227.4959716796875,
	"loss": 0.5342,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": 1.7333396673202515,
	"rewards/margins": 1.6640625,
	"rewards/rejected": 0.06927712261676788,
	"step": 30
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 36.22502143325224,
	"learning_rate": 8.778747871771291e-07,
	"logits/chosen": -2.3146414756774902,
	"logits/rejected": -2.2875092029571533,
	"logps/chosen": -263.4291687011719,
	"logps/rejected": -221.8418731689453,
	"loss": 0.5177,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": 1.4538803100585938,
	"rewards/margins": 1.299953579902649,
	"rewards/rejected": 0.153926819562912,
	"step": 35
	},
	{
	"epoch": 0.9937888198757764,
	"grad_norm": 45.69470972967703,
	"learning_rate": 8.274303669726426e-07,
	"logits/chosen": -2.289536714553833,
	"logits/rejected": -2.2876548767089844,
	"logps/chosen": -274.63818359375,
	"logps/rejected": -218.11038208007812,
	"loss": 0.5869,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": 1.579737901687622,
	"rewards/margins": 1.5463366508483887,
	"rewards/rejected": 0.03340107947587967,
	"step": 40
	},
	{
	"epoch": 1.1180124223602483,
	"grad_norm": 25.091084074273006,
	"learning_rate": 7.703204087277988e-07,
	"logits/chosen": -2.2782795429229736,
	"logits/rejected": -2.2675344944000244,
	"logps/chosen": -241.4102020263672,
	"logps/rejected": -232.1530303955078,
	"loss": 0.2415,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 2.0038599967956543,
	"rewards/margins": 2.8345634937286377,
	"rewards/rejected": -0.8307037353515625,
	"step": 45
	},
	{
	"epoch": 1.2422360248447206,
	"grad_norm": 21.01590218402833,
	"learning_rate": 7.077075065009433e-07,
	"logits/chosen": -2.304749011993408,
	"logits/rejected": -2.2815442085266113,
	"logps/chosen": -248.9634552001953,
	"logps/rejected": -262.0959777832031,
	"loss": 0.2594,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": 2.365910053253174,
	"rewards/margins": 3.3114895820617676,
	"rewards/rejected": -0.9455796480178833,
	"step": 50
	},
	{
	"epoch": 1.2422360248447206,
	"eval_logits/chosen": -2.2956461906433105,
	"eval_logits/rejected": -2.294363498687744,
	"eval_logps/chosen": -252.96337890625,
	"eval_logps/rejected": -231.52207946777344,
	"eval_loss": 0.5901808142662048,
	"eval_rewards/accuracies": 0.7986111044883728,
	"eval_rewards/chosen": 1.6738612651824951,
	"eval_rewards/margins": 1.8752751350402832,
	"eval_rewards/rejected": -0.20141386985778809,
	"eval_runtime": 75.2847,
	"eval_samples_per_second": 15.143,
	"eval_steps_per_second": 0.239,
	"step": 50
	},
	{
	"epoch": 1.3664596273291925,
	"grad_norm": 18.646514200070648,
	"learning_rate": 6.408662784207149e-07,
	"logits/chosen": -2.307347297668457,
	"logits/rejected": -2.263925075531006,
	"logps/chosen": -249.4068145751953,
	"logps/rejected": -214.16445922851562,
	"loss": 0.2176,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 2.3753602504730225,
	"rewards/margins": 3.139112949371338,
	"rewards/rejected": -0.7637524008750916,
	"step": 55
	},
	{
	"epoch": 1.4906832298136645,
	"grad_norm": 20.993852286888092,
	"learning_rate": 5.711574191366427e-07,
	"logits/chosen": -2.32312273979187,
	"logits/rejected": -2.313824415206909,
	"logps/chosen": -243.2293243408203,
	"logps/rejected": -206.0082550048828,
	"loss": 0.2417,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 2.353982448577881,
	"rewards/margins": 3.16640043258667,
	"rewards/rejected": -0.8124181032180786,
	"step": 60
	},
	{
	"epoch": 1.6149068322981366,
	"grad_norm": 19.030512980103158,
	"learning_rate": 5e-07,
	"logits/chosen": -2.377202272415161,
	"logits/rejected": -2.331650495529175,
	"logps/chosen": -248.04483032226562,
	"logps/rejected": -222.1618194580078,
	"loss": 0.2488,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 2.3110172748565674,
	"rewards/margins": 3.183046579360962,
	"rewards/rejected": -0.8720294833183289,
	"step": 65
	},
	{
	"epoch": 1.7391304347826086,
	"grad_norm": 28.536465499864658,
	"learning_rate": 4.2884258086335745e-07,
	"logits/chosen": -2.3466696739196777,
	"logits/rejected": -2.3642795085906982,
	"logps/chosen": -262.2099304199219,
	"logps/rejected": -250.7125701904297,
	"loss": 0.3053,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 2.6217122077941895,
	"rewards/margins": 3.932690382003784,
	"rewards/rejected": -1.3109780550003052,
	"step": 70
	},
	{
	"epoch": 1.8633540372670807,
	"grad_norm": 27.768310670938217,
	"learning_rate": 3.591337215792851e-07,
	"logits/chosen": -2.3459136486053467,
	"logits/rejected": -2.3365659713745117,
	"logps/chosen": -250.7726593017578,
	"logps/rejected": -221.8275909423828,
	"loss": 0.3016,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": 2.6287598609924316,
	"rewards/margins": 3.746206760406494,
	"rewards/rejected": -1.117447018623352,
	"step": 75
	},
	{
	"epoch": 1.9875776397515528,
	"grad_norm": 24.938158584160053,
	"learning_rate": 2.922924934990568e-07,
	"logits/chosen": -2.3689913749694824,
	"logits/rejected": -2.3461122512817383,
	"logps/chosen": -255.01962280273438,
	"logps/rejected": -232.1419677734375,
	"loss": 0.2954,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 3.2598438262939453,
	"rewards/margins": 4.275376319885254,
	"rewards/rejected": -1.015533208847046,
	"step": 80
	},
	{
	"epoch": 2.111801242236025,
	"grad_norm": 22.47951274264517,
	"learning_rate": 2.2967959127220137e-07,
	"logits/chosen": -2.3769583702087402,
	"logits/rejected": -2.313356399536133,
	"logps/chosen": -245.34432983398438,
	"logps/rejected": -256.83477783203125,
	"loss": 0.1701,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 2.893587112426758,
	"rewards/margins": 4.111905574798584,
	"rewards/rejected": -1.218318223953247,
	"step": 85
	},
	{
	"epoch": 2.2360248447204967,
	"grad_norm": 16.587973457804008,
	"learning_rate": 1.725696330273575e-07,
	"logits/chosen": -2.3217408657073975,
	"logits/rejected": -2.322180986404419,
	"logps/chosen": -261.08746337890625,
	"logps/rejected": -253.5300750732422,
	"loss": 0.1669,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": 3.13687801361084,
	"rewards/margins": 4.253005027770996,
	"rewards/rejected": -1.1161267757415771,
	"step": 90
	},
	{
	"epoch": 2.360248447204969,
	"grad_norm": 14.3562650408135,
	"learning_rate": 1.2212521282287093e-07,
	"logits/chosen": -2.2643933296203613,
	"logits/rejected": -2.2418789863586426,
	"logps/chosen": -230.6456298828125,
	"logps/rejected": -250.2694549560547,
	"loss": 0.1554,
	"rewards/accuracies": 0.956250011920929,
	"rewards/chosen": 2.822519302368164,
	"rewards/margins": 4.386029243469238,
	"rewards/rejected": -1.5635101795196533,
	"step": 95
	},
	{
	"epoch": 2.4844720496894412,
	"grad_norm": 18.916632747497697,
	"learning_rate": 7.937323358440934e-08,
	"logits/chosen": -2.2358391284942627,
	"logits/rejected": -2.2123188972473145,
	"logps/chosen": -245.39889526367188,
	"logps/rejected": -213.0316925048828,
	"loss": 0.1658,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": 2.8756985664367676,
	"rewards/margins": 4.066061973571777,
	"rewards/rejected": -1.1903636455535889,
	"step": 100
	},
	{
	"epoch": 2.4844720496894412,
	"eval_logits/chosen": -2.241981029510498,
	"eval_logits/rejected": -2.237220048904419,
	"eval_logps/chosen": -249.4546661376953,
	"eval_logps/rejected": -232.948974609375,
	"eval_loss": 0.5874444842338562,
	"eval_rewards/accuracies": 0.8333333134651184,
	"eval_rewards/chosen": 2.0247349739074707,
	"eval_rewards/margins": 2.3688364028930664,
	"eval_rewards/rejected": -0.34410178661346436,
	"eval_runtime": 74.9734,
	"eval_samples_per_second": 15.205,
	"eval_steps_per_second": 0.24,
	"step": 100
	},
	{
	"epoch": 2.608695652173913,
	"grad_norm": 12.416778851124059,
	"learning_rate": 4.518400232274078e-08,
	"logits/chosen": -2.229137659072876,
	"logits/rejected": -2.201681613922119,
	"logps/chosen": -237.0298309326172,
	"logps/rejected": -240.43429565429688,
	"loss": 0.1344,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 2.9165587425231934,
	"rewards/margins": 4.170973300933838,
	"rewards/rejected": -1.2544142007827759,
	"step": 105
	},
	{
	"epoch": 2.732919254658385,
	"grad_norm": 15.39582049536958,
	"learning_rate": 2.025351319275137e-08,
	"logits/chosen": -2.226637840270996,
	"logits/rejected": -2.1901309490203857,
	"logps/chosen": -232.8177947998047,
	"logps/rejected": -221.37646484375,
	"loss": 0.1763,
	"rewards/accuracies": 0.981249988079071,
	"rewards/chosen": 2.9458189010620117,
	"rewards/margins": 4.043347358703613,
	"rewards/rejected": -1.0975282192230225,
	"step": 110
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 17.081473104516775,
	"learning_rate": 5.0892790595336575e-09,
	"logits/chosen": -2.220303773880005,
	"logits/rejected": -2.2176926136016846,
	"logps/chosen": -252.9158172607422,
	"logps/rejected": -242.60400390625,
	"loss": 0.1587,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": 3.0858166217803955,
	"rewards/margins": 4.5951924324035645,
	"rewards/rejected": -1.5093762874603271,
	"step": 115
	},
	{
	"epoch": 2.981366459627329,
	"grad_norm": 17.254264529974623,
	"learning_rate": 0.0,
	"logits/chosen": -2.205538511276245,
	"logits/rejected": -2.1971898078918457,
	"logps/chosen": -235.06808471679688,
	"logps/rejected": -225.6627197265625,
	"loss": 0.1671,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": 2.8083322048187256,
	"rewards/margins": 4.552498817443848,
	"rewards/rejected": -1.7441661357879639,
	"step": 120
	}
	],
	"logging_steps": 5,
	"max_steps": 120,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1414680891359232.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}