Voz a texto (STT)
Tecnología que transcribe el habla en texto. Es la base del dictado, los subtítulos automáticos y los comandos de voz.
Tecnología que transcribe el habla en texto. Es la base del dictado, los subtítulos automáticos y los comandos de voz.
Actualizado: 3 de junio de 2026.
El STT es lo mismo que el reconocimiento de voz: convierte audio hablado en texto. Modelos como Whisper lo hacen en muchos idiomas y con ruido.
Aplicaciones
Subtítulos en directo, transcripción de reuniones, dictado y la entrada de voz de los asistentes virtuales.
Complemento
Junto al TTS (texto a voz), forma el ciclo completo de interacción hablada con una IA.