Jailbreak (de modelos de IA)
Técnica para eludir las restricciones de seguridad de un modelo y conseguir que genere contenido que normalmente rechazaría. Pone a prueba la robustez del alineamiento.
Técnica para eludir las restricciones de seguridad de un modelo y conseguir que genere contenido que normalmente rechazaría. Pone a prueba la robustez del alineamiento.
Actualizado: 3 de junio de 2026.
Un jailbreak usa prompts ingeniosos —juegos de rol, codificaciones, hipótesis— para que el modelo sortee sus filtros y responda lo que tiene prohibido.
Diferencia con la inyección
La inyección de prompts introduce instrucciones desde datos externos; el jailbreak suele ser el propio usuario intentando saltarse las reglas.
Por qué importa
Revela límites del alineamiento y del RLHF. Los laboratorios refuerzan continuamente sus barreras de seguridad frente a nuevas técnicas.