RLHF (Aprendizaje por refuerzo con retroalimentación humana)
Método para alinear un modelo de lenguaje con las preferencias de las personas: humanos puntúan respuestas, se entrena un modelo de recompensa con esas preferencias y se ajusta el LLM mediante aprendizaje por refuerzo.
Método para alinear un modelo de lenguaje con las preferencias de las personas: humanos puntúan respuestas, se entrena un modelo de recompensa con esas preferencias y se ajusta el LLM mediante aprendizaje por refuerzo.
Actualizado: 3 de junio de 2026.
Un modelo recién preentrenado es capaz pero indómito. El RLHF lo convierte en un asistente útil y educado mostrándole qué respuestas prefieren los evaluadores humanos y reforzando ese comportamiento.
Pasos
- Recoger comparaciones humanas entre respuestas.
- Entrenar un modelo de recompensa que prediga esas preferencias.
- Optimizar el LLM con aprendizaje por refuerzo para maximizar la recompensa.
Por qué importa
Es una de las razones por las que ChatGPT pareció un salto frente a modelos anteriores: no era solo más grande, estaba mejor alineado con lo que la gente quería.