--- title: MLLM Benchmark emoji: 📊 colorFrom: blue colorTo: green sdk: gradio sdk_version: 5.20.0 app_file: app.py pinned: false --- --- license: cc-by-4.0 --- # Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025) © 2025 Pedro Ismael Ruiz. Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.

Portada

Este repositorio recopila **dos recursos fundamentales**, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la _multimodalidad aplicada a modelos de lenguaje grandes_. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos: - **[Multimodality in Large Language Models](./Multimodality%20in%20Large%20Language%20Models.md):** Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan _avances, tendencias, desafíos, benchmarks_ y se incluyen referencias de gran rigor técnico. *([Con copia en Inglés para subirlo a arXiv](./Summary%20for%20arXiv.pdf))* - **[Benchmark MLLM](./Benchmark%20MLLM.ipynb):** Notebook Jupyter que complementa la investigación con _análisis prácticos, código y visualizaciones_. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como _plataforma base para desarrollos futuros_. ## Contenido ### 1. Introducción y Contexto - Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales. ### 2. Definición, Objetivos y Metodología - Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información. ### 3. Estado del Arte y Benchmarks - Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench). ### 4. Costes Computacionales y Desafíos - Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales. ### 5. Implementaciones y Ecosistema Open-Source - Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo. ### 6. Conclusiones y Perspectivas Futuras - Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas. ## Aviso Importante Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje. ## Licencia Este proyecto se distribuye bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original. ## Autor Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025. ## Contacto Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de [LinkedIn](https://www.linkedin.com/in/pdro-ruiz/) o envía un correo (si proporcionas una dirección). _Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025._