Lección 6 de 16

Leccion 6: Advanced Reasoning - Pensamiento profundo

0:00 / 0:00

Leccion 6: Advanced Reasoning - Pensamiento profundo

Advanced reasoning AI
El razonamiento extendido: la revolución silenciosa de OpenAI

Cuando OpenAI lanzó los modelos de la serie "o" (o1, o1-mini, o3-mini), no hicieron un anuncio épico. Pero lo que presentaron cambió fundamentalmente lo que es posible con IA: modelos que genuinamente razonan antes de responder, en lugar de simplemente predecir el siguiente token más probable.

Esta lección te va a dar el framework completo para explotar estos modelos: cuándo usarlos, cómo formular problemas, y qué esperar de su razonamiento.

¿Qué es el "extended thinking" y por qué importa?

Los modelos estándar (GPT-4o) generan texto prediciendo el siguiente token, uno por uno. Son brillantes en esto, pero su "razonamiento" está implícito en los patrones que aprendieron.

Los modelos o1/o3 hacen algo diferente: antes de responder, ejecutan una cadena de pensamiento interna (que tú no ves) donde el modelo:

  1. Descompone el problema en subproblemas manejables
  2. Explora múltiples enfoques y descarta los que no funcionan
  3. Verifica su propio razonamiento antes de comprometerse con una respuesta
  4. Revisa y corrige errores que detecta en su propio proceso

El resultado: respuestas significativamente más precisas en problemas donde el razonamiento paso a paso es esencial.

Benchmarks que demuestran la diferencia real

AIME (Olimpiadas Matemáticas Americanas)

Este es un examen diseñado para los mejores estudiantes de matemáticas de secundaria en EE.UU. Solo el 5% de participantes responde correctamente la mayoría de preguntas.

  • GPT-4o: 13.4% de preguntas correctas
  • o1: 83.3% de preguntas correctas
  • o3-mini (alta potencia): 96.7% de preguntas correctas

SWE-bench (Software Engineering)

Resolver issues reales de GitHub en proyectos de código abierto:

  • GPT-4o: 17.7% resueltos
  • o1: 41.3% resueltos

GPQA Diamond (Ciencia PhD-level)

Preguntas que solo expertos con doctorado deberían poder responder:

  • GPT-4o: 53.6%
  • o1: 78.3%
  • Humanos expertos: 65%

El mapa de cuándo usar cada modelo

Usa GPT-4o para:

  • Conversación general y preguntas simples
  • Escritura, edición y resumen
  • Análisis de imágenes y Vision
  • Voice Mode
  • Código estándar sin bugs complejos
  • Cuando la velocidad importa más que la precisión máxima

Usa o1 o o3-mini para:

  • Problemas matemáticos con múltiples pasos
  • Debugging de bugs complejos y sutiles
  • Análisis de seguridad o auditoría de código
  • Planificación estratégica con muchas variables
  • Decisiones importantes con consecuencias difíciles de revertir
  • Verificación de lógica o argumentos
  • Cualquier cosa donde "pensar bien" supera a "pensar rápido"

Técnicas de prompting para modelos de razonamiento

Importante: los modelos o1/o3 responden diferente a los prompts. Algunas cosas que funcionan con GPT-4o no son necesarias o incluso pueden empeorar los resultados:

Lo que NO necesitas hacer con o1/o3

  • "Piensa paso a paso" - El modelo ya hace esto internamente
  • "Razona antes de responder" - Innecesario y puede confundir
  • Chain-of-thought explícito (aunque puedes pedírselo si quieres verlo)
  • Few-shot examples extensos para lógica simple

Lo que SÍ debes hacer con o1/o3

  • Dar todo el contexto relevante upfront - el modelo lo va a usar todo
  • Ser específico sobre el output esperado - formato, longitud, estilo
  • Describir los criterios de evaluación - qué hace que una respuesta sea "buena"
  • Incluir restricciones explícitas - qué no puede hacer, qué no puede asumir

Ejemplo de prompt optimizado para o1

Problema: tienes un sistema de base de datos con consultas SQL lentas y necesitas optimizarlas.

Prompt subóptimo:

Este SQL es lento, arreglalo:
SELECT * FROM orders JOIN customers ON orders.customer_id = customers.id WHERE orders.status = 'pending'

Prompt optimizado para o1:

Contexto:
- PostgreSQL 15, tabla orders con 2M filas, tabla customers con 500k filas
- Este query tarda 8 segundos, necesito menos de 500ms
- No puedo modificar el schema de la base de datos
- Puedo agregar índices
- La query se ejecuta 1000 veces por hora en producción
Query actual:
SELECT * FROM orders o
JOIN customers c ON o.customer_id = c.id  
WHERE o.status = 'pending'
ORDER BY o.created_at DESC;
Necesito:
1. Diagnóstico de por qué es lento con evidencia
2. Estrategia de optimización con justificación
3. Código SQL de los índices necesarios
4. Query optimizada final
5. Cómo verificar que la mejora funcionó (EXPLAIN ANALYZE)

El problema del "overthinking"

Un fenómeno real con los modelos de razonamiento: a veces piensan demasiado en problemas simples. Si preguntas "¿cuál es la capital de Argentina?", o1 dará la respuesta correcta pero habrá usado más tokens que GPT-4o sin ningún beneficio.

Regla práctica: si tu problema se puede resolver con GPT-4o en menos de 2 intentos, probablemente no necesitas o1/o3. Si tienes que re-intentar más de 2 veces o el resultado es crítico, cambia a o1/o3.

Casos de uso de razonamiento avanzado para negocios

Análisis financiero y de inversión

Tengo estos datos financieros de 3 empresas competidoras [datos].
Necesito:
1. Analizar la salud financiera relativa de cada una
2. Identificar qué empresa tiene mejor posición estratégica y por qué
3. Si fuera a invertir $50,000 USD en una sola, ¿en cuál y por qué?
4. ¿Qué información adicional cambiaría materialmente mi decisión?
Sé riguroso y muestra tu razonamiento para cada conclusión.

Auditoría de seguridad de código

Analiza este código Python buscando vulnerabilidades de seguridad.
Categoriza cada vulnerabilidad por: tipo (OWASP), severidad (1-10), 
explotabilidad, y fix recomendado con código corregido.
[código aquí]
Sé exhaustivo - prefiero falsos positivos a falsos negativos.

Planificación de proyectos complejos

Quiero lanzar un e-commerce en Argentina en 90 días con $10,000 USD.
Producto: [descripción del producto]
Objetivo: $5,000 USD de ventas mensuales al día 90
Necesito un plan donde:
- Cada semana tenga objetivos medibles
- Se identifiquen los 5 riesgos principales y sus mitigaciones
- Se calcule el capital de trabajo necesario mes a mes
- Se definan los criterios de "go/no-go" para continuar vs pivotar
Sé específico para la realidad del mercado argentino actual.

Diferencia entre o1 y o3-mini: guía práctica

Dimensióno1o3-mini (high)
Potencia de razonamientoMuy altaExtremadamente alta
VelocidadLenta (20-60s)Más rápido que o1
Costo (API)$15/$60 per M tokens$1.10/$4.40 per M tokens
Mejor paraBalance general de reasoningSTEM, código, matemáticas
Disponible enPlus, ProPlus, Pro

Consejo práctico: Para el 90% de casos de uso empresariales, o3-mini en modo "high" da resultados equivalentes a o1 a una fracción del costo de API. o1 completo reservarlo para análisis críticos donde cada detalle importa.

Ejercicio práctico: Problema de razonamiento multi-paso

Pon a o1 o o3-mini a prueba con este problema real:

Tengo una decisión de negocio compleja:
Mi empresa de consultoría factura $200,000 ARS mensuales con 3 clientes.
Un cliente me propone un contrato exclusivo de $500,000 ARS mensuales
por 12 meses, pero con cláusula de exclusividad que me impide trabajar
con competidores directos.
Datos adicionales:
- Mis otros 2 clientes son competidores del que me ofrece el contrato
- La exclusividad afectaría el 60% de mi cartera actual
- Tengo 2 empleados con sueldos de $80,000 ARS cada uno
- El contrato incluye una cláusula de terminación temprana de 3 meses
Necesito:
1. Análisis financiero completo (año 1 vs situación actual)
2. Análisis de riesgo (qué pasa si el cliente cancela a los 6 meses)
3. Consideraciones no financieras que podrían cambiar la decisión
4. Recomendación final con justificación

Compara la respuesta con la misma pregunta hecha a GPT-4o. Observa la profundidad del razonamiento.

Pon a prueba tu conocimiento
¿Por qué NO deberías escribir "piensa paso a paso" cuando usas o1 o o3-mini?
  • Porque esos modelos no pueden razonar paso a paso
  • Porque estos modelos ya hacen razonamiento extendido internamente de forma automática, por lo que la instrucción es redundante e innecesaria
  • Porque ralentiza demasiado la respuesta
  • Porque esos modelos lo interpretan como un error
Correcto: o1 y o3-mini ejecutan automáticamente cadenas de pensamiento internas. Pedirles que razonen paso a paso es redundante. Lo que sí ayuda es dar contexto completo y especificar claramente el output esperado.

Quiz Generado por IA

Evalua tu comprension de esta leccion con preguntas personalizadas.