RL LLM Feedback - a tinycrops Collection

tinycrops 's Collections

RL LLM Feedback

RL LLM Feedback

updated Oct 20, 2023

Eureka: Human-Level Reward Design via Coding Large Language Models

Paper • 2310.12931 • Published Oct 19, 2023 • 26