Multimodal/VLM - a ingridtv Collection

ingridtv 's Collections

Multimodal/VLM

updated 10 days ago

microsoft/Phi-4-multimodal-instruct

Automatic Speech Recognition • Updated May 1 • 436k • 1.41k
microsoft/Phi-4-mini-instruct

Text Generation • Updated May 1 • 343k • 489
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Paper • 2503.11576 • Published Mar 14 • 108
Emerging Properties in Unified Multimodal Pretraining

Paper • 2505.14683 • Published 12 days ago • 124
google/medgemma-4b-it

Image-Text-to-Text • Updated 11 days ago • 28.3k • 296
kelkalot/medgemma-4b-it-GGUF

Updated 11 days ago • 156 • 1