Hola a todos, Estais listos para un viaje rápidito al mundo de las IAs que sabes hacer practicamente de todo? Donde ya no solo hablan, sino que nos superan cognitivamente en muchos casos? Hoy os quiero hacer un viaje rápido los Modelos de Lenguaje Multimodal, o MLLM para abreviar. Como queria un tema actual y con recorrido, me propuse entender qué está pasando con estas IAs Multimodales de codigo abierto. Son tantas y se publican en espacios tan cortos que cuesta seguir el hilo... Me lance a revisar papers en Hugging Face y arXiv. Al final me junte con un corpus de 50-75 papers. Sí, suena a mucho, pero quería saber cómo han evolucionado desde los básicos hasta los actuales. Me puse manos a la obra en plan casero, desde local. Hice un benchmark en mi propio equipo con un par de modelos algo viejunos para que fuera rapidito no saliera ardiendo la GPU, pero perfectos para probar. El objetivo? Ver cómo se comportaban generando descripciones o respondiendo preguntas sobre imágenes. Nada del otro mundo, pero me dio una idea clara de cómo funcionan estas cosas en la práctica. Y de ahí satelité a lo divertido: creé un aplicativo en Gradio para hacer benchmarks. Es como un pequeño laboratorio donde puedes cargar una imagen, y comprobar su metricas. La idea es que con más potencia de computo, esto podría convertirse en una herramienta muy buena para comparar modelos y sacarles mucha chicha. Así que, en resumen, mi trabajo es una mezcla de investigación, ensuciarme las manos con un benchmark local y montar el aplicativo soñando con mas potencia de computo.