Lección 24 de 27
Modo voz con ElevenLabs
El modo voz convierte a OpenClaw en un asistente de voz como Alexa o Siri, pero mucho mas inteligente. Usa ElevenLabs para generar voz natural y Whisper de OpenAI para transcribir tu voz a texto.
Como funciona
Hablas por el microfono, Whisper transcribe tu voz a texto, el texto se envia al LLM, la respuesta del LLM se convierte a voz con ElevenLabs, y escuchas la respuesta por los parlantes. Todo en tiempo casi real.
- 1
Crea una cuenta en ElevenLabs (elevenlabs.io)
- 2
Obtiene tu API key de ElevenLabs
- 3
Elige una voz de la biblioteca (o clona tu propia voz)
- 4
Configura en OpenClaw
- 5
Inicia el modo voz
- 6
Habla con tu agente
Configuracion del modo voz
Configuracion completa para habilitar voz.
# ~/.openclaw/config.yaml
voice:
enabled: true
# Sintesis de voz (texto a voz)
tts:
provider: elevenlabs
api_key: "xi_xxxxxxxxxxxx"
voice_id: "21m00Tcm4TlvDq8ikWAM" # Rachel (natural)
model: "eleven_multilingual_v2" # Soporta espanol
speed: 1.0
# Reconocimiento de voz (voz a texto)
stt:
provider: whisper
model: "whisper-1"
language: "es" # Espanol
# Activacion
wake_word: "oye claw" # Palabra de activacion
continuous: false # true = siempre escuchando
# Iniciar modo voz:
# openclaw voiceElevenLabs tiene voces que soportan espanol con el modelo eleven_multilingual_v2. La voz "Rachel" es una buena opcion por defecto. Tambien puedes clonar tu propia voz subiendo 1 minuto de audio.
Wake word vs Push-to-talk
Dos modos de activacion: wake_word (dices "oye claw" y empieza a escuchar, como Alexa) o push-to-talk (mantienes presionada una tecla mientras hablas). Wake word consume mas recursos porque siempre esta escuchando.
Costos del modo voz
| Servicio | Plan gratuito | Plan pago |
|---|---|---|
| ElevenLabs TTS | 10.000 caracteres/mes | Desde $5/mes |
| Whisper STT | Incluido con API OpenAI | $0.006/minuto |
| LLM (el de siempre) | Segun modelo | Segun modelo |
Activar modo voz
- 1.Obtener API key de ElevenLabs
- 2.Configurar TTS y STT
- 3.Iniciar modo voz
- 4.Probar con una pregunta hablada
openclaw config set voice.enabled true
openclaw config set voice.tts.api_key "xi_xxxx"
openclaw config set voice.stt.language "es"
openclaw voiceQue tecnologia usa OpenClaw para convertir tu voz a texto?
Puntos clave
- Modo voz usa ElevenLabs (TTS) y Whisper (STT)
- Soporta espanol con eleven_multilingual_v2
- Dos modos: wake word (siempre escuchando) o push-to-talk
- Costo adicional: ElevenLabs desde $5/mes + Whisper $0.006/min
- Iniciar con: openclaw voice
Quiz Generado por IA
Evalua tu comprension de esta leccion con preguntas personalizadas.