Lección 4 de 16
Leccion 4: Vision - Analisis de imagenes con ChatGPT
Leccion 4: Vision - Analisis de imagenes con ChatGPT
ChatGPT Vision: ver el mundo con ojos de IA experta
Las capacidades de visión de ChatGPT han alcanzado un nivel de madurez impresionante en 2026. Esta lección va mucho más allá de "sube una imagen y pregunta": vamos a explorar técnicas avanzadas para extraer el máximo valor de documentos visuales, datos, y contenido multimedia.
¿Cómo funciona Vision técnicamente?
GPT-4o procesa imágenes usando un encoder visual que convierte la imagen en una representación que el modelo de lenguaje puede procesar. El resultado es un modelo que genuinamente "comprende" el contenido visual, no solo lo describe.
Límites técnicos que debes conocer:
- Resolución máxima procesada: 2048x2048 píxeles (las imágenes más grandes se reducen automáticamente)
- Hasta 10 imágenes por mensaje
- Formatos: JPG, PNG, GIF, WebP
- No procesa video (solo frames individuales)
- Texto manuscrito: lee bien letra de imprenta, regular con cursiva muy difícil
Los 6 tipos de análisis visual y cómo optimizar cada uno
1. OCR y extracción de texto
ChatGPT puede leer texto de imágenes con alta precisión. Casos de uso reales:
- Digitalizar facturas, recibos, tickets
- Extraer datos de documentos escaneados
- Leer screenshots de conversaciones o emails
- Transcribir pizarras y notas manuscritas
Prompt optimizado para OCR:
Extrae todo el texto visible en esta imagen. Organízalo de forma estructurada preservando el layout original. Si hay campos de formulario, preséntalo como pares clave:valor. Si hay tablas, conviértelas a formato markdown.
Para facturas y documentos financieros:
Analiza esta factura y extrae: - Proveedor (nombre, CUIT/RUT, dirección) - Fecha de emisión y vencimiento - Número de factura - Concepto o descripción del servicio - Subtotal, IVA y total - Datos bancarios si los hay Devuelve en formato JSON.
2. Análisis de gráficos y datos visuales
Una de las aplicaciones más poderosas: subir dashboards, gráficos de Excel, o reportes y pedir análisis.
Prompt para análisis de gráfico:
Analiza este gráfico de ventas: 1. ¿Cuál es la tendencia principal? 2. ¿Hay anomalías o puntos de inflexión notables? 3. ¿Qué período muestra el mejor y peor desempeño? 4. ¿Qué hipótesis explicarían los patrones que observas? 5. ¿Qué datos adicionales necesitarías para validar esas hipótesis?
3. Análisis de UI/UX y diseño
Muy útil para evaluación de landing pages, aplicaciones, o materiales de marketing:
Prompt para análisis de landing page:
Analiza esta captura de pantalla de landing page desde la perspectiva de conversión: 1. Jerarquía visual: ¿está clara la propuesta de valor? 2. CTA (llamada a la acción): ¿es visible, clara y convincente? 3. Elementos de confianza: testimonios, garantías, logos 4. Fricción: ¿qué puede estar frenando al usuario? 5. Top 3 mejoras específicas con mayor impacto en conversión
4. Análisis técnico y diagramas
Arquitecturas de software, circuitos, mapas conceptuales, diagramas de flujo:
Prompt para diagrama de arquitectura:
Analiza este diagrama de arquitectura de software: 1. Identifica todos los componentes y su función 2. Explica el flujo de datos entre componentes 3. ¿Qué patrones de arquitectura reconoces? 4. ¿Hay single points of failure visibles? 5. Sugiere 2-3 mejoras de escalabilidad o resiliencia
5. Análisis de productos y e-commerce
Para tiendas online, control de calidad, o análisis de competencia:
Prompt para análisis de producto:
Analiza la foto de este producto: 1. Descripción detallada para ficha de producto (incluye materiales, colores, dimensiones estimadas) 2. ¿Qué aspectos de la presentación son atractivos para el comprador? 3. ¿Qué detalles mejorarían la foto para aumentar conversión? 4. Genera 5 títulos alternativos para MercadoLibre/Shopify optimizados para búsqueda
6. Análisis comparativo (múltiples imágenes)
Una de las capacidades menos exploradas: subir varias imágenes para comparación directa:
Prompt para comparación competitiva:
Compara estas 3 imágenes de logos de competidores: - ¿Qué emociones y valores transmite cada uno? - ¿Qué elementos visuales se repiten en el sector? - ¿Qué oportunidades de diferenciación hay? - Si nuestro diferencial es [X], ¿cómo debería reflejarse visualmente?
Errores comunes y cómo evitarlos
| Error común | Consecuencia | Solución |
|---|---|---|
| Imagen borrosa o mal iluminada | Errores de OCR, descripción imprecisa | Foto clara, buena luz, sin sombras sobre texto |
| Pregunta demasiado vaga ("¿qué ves?") | Descripción genérica sin utilidad | Especificar qué aspecto analizar y para qué propósito |
| Expectativa de reconocimiento de personas | ChatGPT no identifica individuos por política | Enfocarse en objetos, texto, o contexto visual |
| Texto muy pequeño o en ángulo | Errores en la transcripción | Recortar y ampliar la zona de interés antes de subir |
Flujo de trabajo: Análisis masivo de documentos
Caso real: tienes 50 facturas en formato imagen que necesitas procesar. Workflow eficiente:
- Crea un Project con instrucciones sobre el formato que esperas
- Sube las facturas de a 5-10 por conversación
- Usa un prompt consistente para extraer los mismos campos
- Pide el output en JSON o CSV para importar a tu sistema
- Valida una muestra al azar antes de procesar todo
Casos de uso avanzados por industria
Sector inmobiliario
Analiza esta foto de propiedad: 1. Lista todas las características visibles (pisos, ventanas, antigüedad estimada) 2. Identifica puntos fuertes y débiles para la venta 3. Estima el estado de mantenimiento en escala 1-10 4. Sugiere mejoras de bajo costo que aumentarían el valor percibido
Recursos Humanos
Analiza el layout de esta hoja de vida (CV): 1. ¿Es fácil de escanear visualmente en 6 segundos? 2. ¿La jerarquía de información es correcta? 3. ¿Qué información está faltando o es redundante? 4. Sugiere mejoras de formato específicas
Salud y bienestar
Analiza este plato de comida: 1. Identifica los ingredientes visibles 2. Estima las proporciones de macronutrientes (proteína, carbohidratos, grasas) 3. Describe el método de cocción aparente (Nota: esto es una estimación educativa, no consejo médico)
Web Search + Vision: el combo poderoso
Un caso de uso avanzado muy potente: combinar Vision con la búsqueda web. Por ejemplo:
- Sube una imagen de un producto o logo
- Activa web search
- Pide: "Busca información actual sobre esta marca/producto y combínala con lo que ves en la imagen"
Esto permite hacer investigación de competencia en segundos combinando análisis visual con datos actualizados de la web.
Ejercicio práctico: OCR y análisis de documento
Vamos a practicar con un ejercicio real:
- Toma una foto de una factura, recibo o documento de trabajo
- Súbela a ChatGPT con este prompt:
Analiza este documento y: 1. Extrae todos los campos importantes en formato JSON 2. Identifica el tipo de documento 3. Señala cualquier información que parezca incompleta o inusual 4. Sugiere en qué carpeta o sistema archivarías este documento
- Toma nota del nivel de precisión y experimenta con una imagen de mejor o peor calidad
- Subir todas las facturas en un solo mensaje
- Crear un Project con instrucciones de extracción, procesar en lotes de 5-10, pedir output JSON/CSV para importar
- Describir verbalmente el contenido de cada factura
- Vision no puede manejar ese volumen de trabajo
Quiz Generado por IA
Evalua tu comprension de esta leccion con preguntas personalizadas.