Jailbreak (de modelos de IA)

Técnica para eludir las restricciones de seguridad de un modelo y conseguir que genere contenido que normalmente rechazaría. Pone a prueba la robustez del alineamiento.

Técnica para eludir las restricciones de seguridad de un modelo y conseguir que genere contenido que normalmente rechazaría. Pone a prueba la robustez del alineamiento.

Actualizado: 3 de junio de 2026.

Un jailbreak usa prompts ingeniosos —juegos de rol, codificaciones, hipótesis— para que el modelo sortee sus filtros y responda lo que tiene prohibido.

Diferencia con la inyección

La inyección de prompts introduce instrucciones desde datos externos; el jailbreak suele ser el propio usuario intentando saltarse las reglas.

Por qué importa

Revela límites del alineamiento y del RLHF. Los laboratorios refuerzan continuamente sus barreras de seguridad frente a nuevas técnicas.