reasoning training via RLAIF - a jerwitz Collection

jerwitz 's Collections

Agent training frameworks

reasoning training via RLAIF

Reasoning techniques (at inference)

Retrieval-intelligence

reasoning training via RLAIF

updated 11 days ago

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Paper • 2504.20157 • Published 13 days ago • 35