---
title: MLLM Benchmark
emoji: 📊
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.20.0
app_file: app.py
pinned: false
---
---
license: cc-by-4.0
---
# Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025)
© 2025 Pedro Ismael Ruiz.
Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
Este repositorio recopila **dos recursos fundamentales**, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la _multimodalidad aplicada a modelos de lenguaje grandes_. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos:
- **[Multimodality in Large Language Models](./Multimodality%20in%20Large%20Language%20Models.md):**
Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan _avances, tendencias, desafíos, benchmarks_ y se incluyen referencias de gran rigor técnico. *([Con copia en Inglés para subirlo a arXiv](./Summary%20for%20arXiv.pdf))*
- **[Benchmark MLLM](./Benchmark%20MLLM.ipynb):**
Notebook Jupyter que complementa la investigación con _análisis prácticos, código y visualizaciones_. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como _plataforma base para desarrollos futuros_.
## Contenido
### 1. Introducción y Contexto
- Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales.
### 2. Definición, Objetivos y Metodología
- Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información.
### 3. Estado del Arte y Benchmarks
- Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench).
### 4. Costes Computacionales y Desafíos
- Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales.
### 5. Implementaciones y Ecosistema Open-Source
- Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo.
### 6. Conclusiones y Perspectivas Futuras
- Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas.
## Aviso Importante
Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje.
## Licencia
Este proyecto se distribuye bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
## Autor
Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025.
## Contacto
Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de [LinkedIn](https://www.linkedin.com/in/pdro-ruiz/) o envía un correo (si proporcionas una dirección).
_Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025._