RL4Reasoning
/

verl-grpo-lr-deepscaler-bsz128-16384-rtl-dynamic-m-e-cliphigh-hf-1.5B-4_deepscaler_-390

Model card Files Files and versions Community

No model card

Downloads last month: 4

Safetensors

Model size

1.78B params

Tensor type

F32

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support