Lección 6 de 16
Leccion 6: Advanced Reasoning - Pensamiento profundo
Leccion 6: Advanced Reasoning - Pensamiento profundo
El razonamiento extendido: la revolución silenciosa de OpenAI
Cuando OpenAI lanzó los modelos de la serie "o" (o1, o1-mini, o3-mini), no hicieron un anuncio épico. Pero lo que presentaron cambió fundamentalmente lo que es posible con IA: modelos que genuinamente razonan antes de responder, en lugar de simplemente predecir el siguiente token más probable.
Esta lección te va a dar el framework completo para explotar estos modelos: cuándo usarlos, cómo formular problemas, y qué esperar de su razonamiento.
¿Qué es el "extended thinking" y por qué importa?
Los modelos estándar (GPT-4o) generan texto prediciendo el siguiente token, uno por uno. Son brillantes en esto, pero su "razonamiento" está implícito en los patrones que aprendieron.
Los modelos o1/o3 hacen algo diferente: antes de responder, ejecutan una cadena de pensamiento interna (que tú no ves) donde el modelo:
- Descompone el problema en subproblemas manejables
- Explora múltiples enfoques y descarta los que no funcionan
- Verifica su propio razonamiento antes de comprometerse con una respuesta
- Revisa y corrige errores que detecta en su propio proceso
El resultado: respuestas significativamente más precisas en problemas donde el razonamiento paso a paso es esencial.
Benchmarks que demuestran la diferencia real
AIME (Olimpiadas Matemáticas Americanas)
Este es un examen diseñado para los mejores estudiantes de matemáticas de secundaria en EE.UU. Solo el 5% de participantes responde correctamente la mayoría de preguntas.
- GPT-4o: 13.4% de preguntas correctas
- o1: 83.3% de preguntas correctas
- o3-mini (alta potencia): 96.7% de preguntas correctas
SWE-bench (Software Engineering)
Resolver issues reales de GitHub en proyectos de código abierto:
- GPT-4o: 17.7% resueltos
- o1: 41.3% resueltos
GPQA Diamond (Ciencia PhD-level)
Preguntas que solo expertos con doctorado deberían poder responder:
- GPT-4o: 53.6%
- o1: 78.3%
- Humanos expertos: 65%
El mapa de cuándo usar cada modelo
Usa GPT-4o para:
- Conversación general y preguntas simples
- Escritura, edición y resumen
- Análisis de imágenes y Vision
- Voice Mode
- Código estándar sin bugs complejos
- Cuando la velocidad importa más que la precisión máxima
Usa o1 o o3-mini para:
- Problemas matemáticos con múltiples pasos
- Debugging de bugs complejos y sutiles
- Análisis de seguridad o auditoría de código
- Planificación estratégica con muchas variables
- Decisiones importantes con consecuencias difíciles de revertir
- Verificación de lógica o argumentos
- Cualquier cosa donde "pensar bien" supera a "pensar rápido"
Técnicas de prompting para modelos de razonamiento
Importante: los modelos o1/o3 responden diferente a los prompts. Algunas cosas que funcionan con GPT-4o no son necesarias o incluso pueden empeorar los resultados:
Lo que NO necesitas hacer con o1/o3
- "Piensa paso a paso" - El modelo ya hace esto internamente
- "Razona antes de responder" - Innecesario y puede confundir
- Chain-of-thought explícito (aunque puedes pedírselo si quieres verlo)
- Few-shot examples extensos para lógica simple
Lo que SÍ debes hacer con o1/o3
- Dar todo el contexto relevante upfront - el modelo lo va a usar todo
- Ser específico sobre el output esperado - formato, longitud, estilo
- Describir los criterios de evaluación - qué hace que una respuesta sea "buena"
- Incluir restricciones explícitas - qué no puede hacer, qué no puede asumir
Ejemplo de prompt optimizado para o1
Problema: tienes un sistema de base de datos con consultas SQL lentas y necesitas optimizarlas.
Prompt subóptimo:
Este SQL es lento, arreglalo: SELECT * FROM orders JOIN customers ON orders.customer_id = customers.id WHERE orders.status = 'pending'
Prompt optimizado para o1:
Contexto: - PostgreSQL 15, tabla orders con 2M filas, tabla customers con 500k filas - Este query tarda 8 segundos, necesito menos de 500ms - No puedo modificar el schema de la base de datos - Puedo agregar índices - La query se ejecuta 1000 veces por hora en producción Query actual: SELECT * FROM orders o JOIN customers c ON o.customer_id = c.id WHERE o.status = 'pending' ORDER BY o.created_at DESC; Necesito: 1. Diagnóstico de por qué es lento con evidencia 2. Estrategia de optimización con justificación 3. Código SQL de los índices necesarios 4. Query optimizada final 5. Cómo verificar que la mejora funcionó (EXPLAIN ANALYZE)
El problema del "overthinking"
Un fenómeno real con los modelos de razonamiento: a veces piensan demasiado en problemas simples. Si preguntas "¿cuál es la capital de Argentina?", o1 dará la respuesta correcta pero habrá usado más tokens que GPT-4o sin ningún beneficio.
Regla práctica: si tu problema se puede resolver con GPT-4o en menos de 2 intentos, probablemente no necesitas o1/o3. Si tienes que re-intentar más de 2 veces o el resultado es crítico, cambia a o1/o3.
Casos de uso de razonamiento avanzado para negocios
Análisis financiero y de inversión
Tengo estos datos financieros de 3 empresas competidoras [datos]. Necesito: 1. Analizar la salud financiera relativa de cada una 2. Identificar qué empresa tiene mejor posición estratégica y por qué 3. Si fuera a invertir $50,000 USD en una sola, ¿en cuál y por qué? 4. ¿Qué información adicional cambiaría materialmente mi decisión? Sé riguroso y muestra tu razonamiento para cada conclusión.
Auditoría de seguridad de código
Analiza este código Python buscando vulnerabilidades de seguridad. Categoriza cada vulnerabilidad por: tipo (OWASP), severidad (1-10), explotabilidad, y fix recomendado con código corregido. [código aquí] Sé exhaustivo - prefiero falsos positivos a falsos negativos.
Planificación de proyectos complejos
Quiero lanzar un e-commerce en Argentina en 90 días con $10,000 USD. Producto: [descripción del producto] Objetivo: $5,000 USD de ventas mensuales al día 90 Necesito un plan donde: - Cada semana tenga objetivos medibles - Se identifiquen los 5 riesgos principales y sus mitigaciones - Se calcule el capital de trabajo necesario mes a mes - Se definan los criterios de "go/no-go" para continuar vs pivotar Sé específico para la realidad del mercado argentino actual.
Diferencia entre o1 y o3-mini: guía práctica
| Dimensión | o1 | o3-mini (high) |
|---|---|---|
| Potencia de razonamiento | Muy alta | Extremadamente alta |
| Velocidad | Lenta (20-60s) | Más rápido que o1 |
| Costo (API) | $15/$60 per M tokens | $1.10/$4.40 per M tokens |
| Mejor para | Balance general de reasoning | STEM, código, matemáticas |
| Disponible en | Plus, Pro | Plus, Pro |
Consejo práctico: Para el 90% de casos de uso empresariales, o3-mini en modo "high" da resultados equivalentes a o1 a una fracción del costo de API. o1 completo reservarlo para análisis críticos donde cada detalle importa.
Ejercicio práctico: Problema de razonamiento multi-paso
Pon a o1 o o3-mini a prueba con este problema real:
Tengo una decisión de negocio compleja: Mi empresa de consultoría factura $200,000 ARS mensuales con 3 clientes. Un cliente me propone un contrato exclusivo de $500,000 ARS mensuales por 12 meses, pero con cláusula de exclusividad que me impide trabajar con competidores directos. Datos adicionales: - Mis otros 2 clientes son competidores del que me ofrece el contrato - La exclusividad afectaría el 60% de mi cartera actual - Tengo 2 empleados con sueldos de $80,000 ARS cada uno - El contrato incluye una cláusula de terminación temprana de 3 meses Necesito: 1. Análisis financiero completo (año 1 vs situación actual) 2. Análisis de riesgo (qué pasa si el cliente cancela a los 6 meses) 3. Consideraciones no financieras que podrían cambiar la decisión 4. Recomendación final con justificación
Compara la respuesta con la misma pregunta hecha a GPT-4o. Observa la profundidad del razonamiento.
- Porque esos modelos no pueden razonar paso a paso
- Porque estos modelos ya hacen razonamiento extendido internamente de forma automática, por lo que la instrucción es redundante e innecesaria
- Porque ralentiza demasiado la respuesta
- Porque esos modelos lo interpretan como un error
Quiz Generado por IA
Evalua tu comprension de esta leccion con preguntas personalizadas.