inference - a iab Collection

iab 's Collections

world

inference

updated 11 days ago

A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

Paper • 2505.01658 • Published May 3 • 35
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Paper • 2205.14135 • Published May 27, 2022 • 13
Reward Reasoning Model

Paper • 2505.14674 • Published 14 days ago • 34