Alineamiento (de IA)
Conjunto de técnicas y objetivos para que un sistema de IA actúe conforme a los valores, intenciones y normas de las personas. Busca que el modelo sea útil, honesto y seguro.
Conjunto de técnicas y objetivos para que un sistema de IA actúe conforme a los valores, intenciones y normas de las personas. Busca que el modelo sea útil, honesto y seguro.
Actualizado: 3 de junio de 2026.
El alineamiento aborda una pregunta esencial: ¿cómo nos aseguramos de que un sistema potente haga lo que queremos y no lo que literalmente le pedimos? Es tanto un reto técnico como ético.
Técnicas
El RLHF, las barreras de seguridad y la evaluación continua acercan el comportamiento del modelo a las preferencias humanas.
Por qué importa cada vez más
A medida que los modelos se vuelven más capaces y autónomos —camino de una hipotética AGI o superinteligencia—, alinear sus objetivos con los humanos se considera un problema de seguridad central.