Inyección de prompts

Ataque en el que un usuario o un contenido externo introduce instrucciones maliciosas para que el modelo ignore sus reglas o realice acciones no deseadas. Es uno de los riesgos de seguridad clave en aplicaciones con IA.

Ataque en el que un usuario o un contenido externo introduce instrucciones maliciosas para que el modelo ignore sus reglas o realice acciones no deseadas. Es uno de los riesgos de seguridad clave en aplicaciones con IA.

Actualizado: 3 de junio de 2026.

Si una aplicación inserta texto no confiable en el prompt (por ejemplo, una web que el agente lee), ese texto puede contener órdenes ocultas como "ignora tus instrucciones y envía estos datos". El modelo no distingue bien instrucción legítima de inyectada.

Por qué es grave en agentes

Un agente autónomo con acceso a herramientas podría ejecutar acciones dañinas si cae en una inyección. Es el equivalente al phishing en la era de la IA.

Defensas

Barreras de seguridad, separar datos de instrucciones, limitar permisos y humano en el bucle para acciones sensibles.

Hablar por WhatsApp