Voz a texto (STT)

Tecnología que transcribe el habla en texto. Es la base del dictado, los subtítulos automáticos y los comandos de voz.

Tecnología que transcribe el habla en texto. Es la base del dictado, los subtítulos automáticos y los comandos de voz.

Actualizado: 3 de junio de 2026.

El STT es lo mismo que el reconocimiento de voz: convierte audio hablado en texto. Modelos como Whisper lo hacen en muchos idiomas y con ruido.

Aplicaciones

Subtítulos en directo, transcripción de reuniones, dictado y la entrada de voz de los asistentes virtuales.

Complemento

Junto al TTS (texto a voz), forma el ciclo completo de interacción hablada con una IA.