Texto a vídeo

Generación de clips de vídeo a partir de una descripción escrita. El modelo produce secuencias con movimiento y coherencia temporal a partir de un prompt.

Generación de clips de vídeo a partir de una descripción escrita. El modelo produce secuencias con movimiento y coherencia temporal a partir de un prompt.

Actualizado: 3 de junio de 2026.

El texto a vídeo extiende el texto a imagen al movimiento: describes una escena y el modelo genera un clip coherente. Es mucho más difícil, porque exige mantener consistencia entre fotogramas.

Estado del arte

Modelos como Sora producen clips cada vez más realistas, abriendo posibilidades para creadores y marketing.

Riesgos

Facilita deepfakes y desinformación, lo que refuerza la necesidad de marcas de agua de IA y verificación de procedencia.