Aprendizaje por refuerzo

Paradigma en el que un agente aprende a tomar decisiones por ensayo y error, recibiendo recompensas o penalizaciones según sus acciones. Busca la estrategia que maximiza la recompensa acumulada.

Paradigma en el que un agente aprende a tomar decisiones por ensayo y error, recibiendo recompensas o penalizaciones según sus acciones. Busca la estrategia que maximiza la recompensa acumulada.

Actualizado: 3 de junio de 2026.

Un agente observa un estado, actúa, recibe una recompensa y aprende qué acciones llevan a mejores resultados a largo plazo. Es el enfoque detrás de sistemas que dominan juegos o controlan robots.

Su papel en los LLM

El RLHF usa aprendizaje por refuerzo para alinear modelos con las preferencias humanas. Más recientemente, el aprendizaje por refuerzo entrena modelos de razonamiento para que mejoren resolviendo problemas paso a paso.

El reto

Diseñar la señal de recompensa es difícil: una recompensa mal definida puede llevar al agente a "hacer trampas" optimizando lo que no queríamos.