Visión artificial

Campo de la IA que permite a las máquinas interpretar imágenes y vídeo: detectar objetos, reconocer rostros, leer texto o segmentar escenas. Sustenta desde el desbloqueo facial hasta la conducción autónoma.

Actualizado: 3 de junio de 2026.

La visión artificial convierte píxeles en información útil. Antes se basaba en reglas manuales; hoy domina el deep learning, sobre todo las redes convolucionales y, cada vez más, los transformers de visión.

Tareas habituales

Clasificación de imágenes: ¿qué hay en la foto?
Detección de objetos: ¿dónde están y qué son?
Segmentación: delimitar cada objeto píxel a píxel.
OCR: leer texto en imágenes.

Hacia lo multimodal

Los modelos multimodales combinan visión y lenguaje, permitiendo describir imágenes o responder preguntas sobre ellas.