Alineamiento (de IA)

Conjunto de técnicas y objetivos para que un sistema de IA actúe conforme a los valores, intenciones y normas de las personas. Busca que el modelo sea útil, honesto y seguro.

Conjunto de técnicas y objetivos para que un sistema de IA actúe conforme a los valores, intenciones y normas de las personas. Busca que el modelo sea útil, honesto y seguro.

Actualizado: 3 de junio de 2026.

El alineamiento aborda una pregunta esencial: ¿cómo nos aseguramos de que un sistema potente haga lo que queremos y no lo que literalmente le pedimos? Es tanto un reto técnico como ético.

Técnicas

El RLHF, las barreras de seguridad y la evaluación continua acercan el comportamiento del modelo a las preferencias humanas.

Por qué importa cada vez más

A medida que los modelos se vuelven más capaces y autónomos —camino de una hipotética AGI o superinteligencia—, alinear sus objetivos con los humanos se considera un problema de seguridad central.