Visión artificial
Campo de la IA que permite a las máquinas interpretar imágenes y vídeo: detectar objetos, reconocer rostros, leer texto o segmentar escenas. Sustenta desde el desbloqueo facial hasta la conducción autónoma.
Campo de la IA que permite a las máquinas interpretar imágenes y vídeo: detectar objetos, reconocer rostros, leer texto o segmentar escenas. Sustenta desde el desbloqueo facial hasta la conducción autónoma.
Actualizado: 3 de junio de 2026.
La visión artificial convierte píxeles en información útil. Antes se basaba en reglas manuales; hoy domina el deep learning, sobre todo las redes convolucionales y, cada vez más, los transformers de visión.
Tareas habituales
- Clasificación de imágenes: ¿qué hay en la foto?
- Detección de objetos: ¿dónde están y qué son?
- Segmentación: delimitar cada objeto píxel a píxel.
- OCR: leer texto en imágenes.
Hacia lo multimodal
Los modelos multimodales combinan visión y lenguaje, permitiendo describir imágenes o responder preguntas sobre ellas.