citrinegui
/

Llama-3.2-3B-Instruct_countdown2345_grpo_classic_0.5_0.5_True_1600

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

Llama-3.2-3B-Instruct_countdown2345_grpo_classic_0.5_0.5_True_1600 / .hydra /overrides.yaml

citrinegui's picture

Training in progress, step 1600

7f4b6c3 verified 11 days ago

history blame contribute delete

298 Bytes

	- mode=train
	- task=countdown2345
	- algorithm=grpo
	- algorithm.training.curriculum_schedule=classic
	- model=llama
	- algorithm.training.per_device_train_batch_size=2
	- algorithm.training.scheduler_params.mu_exp=0.5
	- algorithm.training.scheduler_params.sigma=0.5
	- algorithm.training.max_steps=1600