RLHF (Aprendizaje por refuerzo con retroalimentación humana)

Método para alinear un modelo de lenguaje con las preferencias de las personas: humanos puntúan respuestas, se entrena un modelo de recompensa con esas preferencias y se ajusta el LLM mediante aprendizaje por refuerzo.

Actualizado: 3 de junio de 2026.

Un modelo recién preentrenado es capaz pero indómito. El RLHF lo convierte en un asistente útil y educado mostrándole qué respuestas prefieren los evaluadores humanos y reforzando ese comportamiento.

Pasos

Recoger comparaciones humanas entre respuestas.
Entrenar un modelo de recompensa que prediga esas preferencias.
Optimizar el LLM con aprendizaje por refuerzo para maximizar la recompensa.

Por qué importa

Es una de las razones por las que ChatGPT pareció un salto frente a modelos anteriores: no era solo más grande, estaba mejor alineado con lo que la gente quería.