Cuando un cliente llama a un agente de voz de IA, ocurren 4 pasos en menos de 800 milisegundos. Este artículo explica cada uno y por qué AgenteUno consigue conversaciones naturales en español.
El pipeline de voz
Audio → STT (Speech-to-Text) → LLM (Cerebro) → TTS (Text-to-Speech) → Audio
Cada paso añade latencia. El objetivo es que el total sea inferior a 1 segundo para que la conversación se sienta natural.
Paso 1: Speech-to-Text (STT)
El STT convierte la voz del cliente en texto. Es el oído del agente.
Tecnologías utilizadas:
- Deepgram Nova-2: 200ms de latencia, excelente en español
- Whisper (OpenAI): Más preciso pero más lento (~500ms)
- Google Cloud STT: Bueno en multiidioma
Desafío en español: Los acentos regionales (México, Argentina, España) requieren modelos entrenados específicamente. Un STT genérico confunde "coger" con "comer" o "vale" con "bale".
AgenteUno usa modelos optimizados para español peninsular y latinoamericano con tasas de error inferiores al 5%.
Paso 2: LLM (el cerebro)
Una vez que tenemos el texto, el LLM decide qué responder. Aquí es donde vive la inteligencia del agente.
Lo que procesa:
- La transcripción del cliente
- El contexto completo de la conversación
- La base de conocimiento del negocio
- Las instrucciones del sistema (personalidad, restricciones)
Velocidad: Usamos modelos optimizados para baja latencia. El LLM genera la respuesta en ~200ms para frases cortas.
Paso 3: Text-to-Speech (TTS)
El TTS convierte la respuesta del LLM en audio. Es la voz del agente.
Lo que importa:
- Naturalidad: Que no suene a robot. Las voces modernas son casi indistinguibles de humanos
- Prosodia: Entonación, ritmo, pausas. El español tiene una prosodia muy marcada
- Streaming: El TTS empieza a hablar antes de que termine de generar toda la frase
Voces españolas de AgenteUno: 4 voces nativas (2 mujeres, 2 hombres) con acento neutro y variantes regionales.
Paso 4: Audio output
El audio generado se envía al cliente en tiempo real via WebRTC o telefonía PSTN. La calidad del codec y la red afectan a la experiencia final.
El papel de la latencia
| Latencia total | Experiencia |
|---|---|
| < 500ms | Imperceptible, como hablar con un humano |
| 500-800ms | Aceptable, ligera pausa |
| 800-1200ms | Notable, el cliente percibe que "piensa" |
| > 1200ms | Mala experiencia, el cliente cuelga |
AgenteUno optimiza cada paso para mantener la latencia total por debajo de 800ms.
Funcionalidades avanzadas
Interrupciones (barge-in)
El cliente puede interrumpir al agente en cualquier momento. El agente detecta que el cliente habla, para su respuesta y escucha.
Detección de sentimiento
El agente analiza el tono de voz para detectar frustración, urgencia o satisfacción y adapta su respuesta.
Transferencia a humano
Si el agente detecta una situación que requiere intervención humana, transfiere la llamada con un resumen de contexto.
¿Tu negocio todavía responde manualmente?
AgenteUno automatiza WhatsApp, voz, chat y más — configurado en minutos.
Pruébalo gratis →Pruébalo ahora
Automatiza la atención de tu negocio en minutos
Configura tu agente de IA para WhatsApp, voz, chat y más — sin código, sin esperas.