Modelo multimodal

Modelo capaz de procesar y combinar varios tipos de datos a la vez —texto, imagen, audio o vídeo— en una misma representación. Permite, por ejemplo, describir una foto o responder preguntas sobre un vídeo.

Actualizado: 3 de junio de 2026.

Un modelo multimodal no se limita al texto: entiende imágenes, escucha audio o analiza vídeo, y relaciona todo ello. Modelos como GPT, Claude o Gemini aceptan imágenes además de texto.

Cómo lo logra

Convierte cada tipo de dato en embeddings dentro de un espacio común, de modo que el modelo razona sobre todos ellos a la vez.

Casos de uso

Describir imágenes para accesibilidad, analizar capturas de pantalla, leer gráficos o combinar voz y visión en un asistente virtual.