AgenteUno es una plataforma B2B SaaS que permite a cualquier negocio tener su propio agente de inteligencia artificial atendiendo clientes por chat web, WhatsApp, SMS, llamadas de voz, email, Instagram y Facebook Messenger, todo desde un solo panel. No necesitas conocimientos técnicos.

¿Para qué tipo de negocios funciona?

AgenteUno funciona para cualquier negocio de servicios: clínicas, restaurantes, peluquerías, inmobiliarias, hoteles, bufetes de abogados, centros de estética, comercios y más. Cada agente se personaliza con el conocimiento específico de tu negocio.

¿En qué idiomas funciona?

AgenteUno está diseñado para el mercado hispanohablante. Nuestros agentes entienden español nativo de España y Latinoamérica, con acentos regionales. También soportamos inglés para negocios bilingües.

¿Cuánto tarda la configuración?

Menos de 5 minutos. Solo tienes que crear tu cuenta, describir tu negocio, conectar tus canales (WhatsApp, teléfono, web) y tu agente estará listo. No necesitas conocimientos técnicos ni programación.

¿Cuánto cuesta AgenteUno?

Tenemos 4 planes: Básico (29€/mes, solo texto), Profesional (49€/mes, 600 min de voz), Negocio (99€/mes, 2.000 min de voz) y Empresa (199€/mes, 6.000 min de voz). Todos incluyen los 6 canales de texto. Voz desde el plan Profesional.

¿Puedo probarlo gratis?

Sí. Puedes empezar gratis con 50 conversaciones incluidas. No necesitas tarjeta de crédito. Así puedes comprobar el valor antes de comprometerte con un plan.

¿Qué pasa si supero los minutos de mi plan?

El servicio nunca se interrumpe. Si superas los minutos incluidos, se cobran automáticamente a 0,05€/min. Te avisamos al 80% y 100% del consumo.

¿Hay descuento anual?

Sí, con la facturación anual ahorras 2 meses. Es decir, pagas 10 meses en lugar de 12, con el mismo servicio completo.

Agentes de voz con IA: cómo funcionan y por qué suenan tan naturales

Cuando un cliente llama a un agente de voz de IA, ocurren 4 pasos en menos de 800 milisegundos. Este artículo explica cada uno y por qué AgenteUno consigue conversaciones naturales en español.

El pipeline de voz

Audio → STT (Speech-to-Text) → LLM (Cerebro) → TTS (Text-to-Speech) → Audio

Cada paso añade latencia. El objetivo es que el total sea inferior a 1 segundo para que la conversación se sienta natural.

Paso 1: Speech-to-Text (STT)

El STT convierte la voz del cliente en texto. Es el oído del agente.

Tecnologías utilizadas:

Deepgram Nova-2: 200ms de latencia, excelente en español
Whisper (OpenAI): Más preciso pero más lento (~500ms)
Google Cloud STT: Bueno en multiidioma

Desafío en español: Los acentos regionales (México, Argentina, España) requieren modelos entrenados específicamente. Un STT genérico confunde "coger" con "comer" o "vale" con "bale".

AgenteUno usa modelos optimizados para español peninsular y latinoamericano con tasas de error inferiores al 5%.

Paso 2: LLM (el cerebro)

Una vez que tenemos el texto, el LLM decide qué responder. Aquí es donde vive la inteligencia del agente.

Lo que procesa:

La transcripción del cliente
El contexto completo de la conversación
La base de conocimiento del negocio
Las instrucciones del sistema (personalidad, restricciones)

Velocidad: Usamos modelos optimizados para baja latencia. El LLM genera la respuesta en ~200ms para frases cortas.

Paso 3: Text-to-Speech (TTS)

El TTS convierte la respuesta del LLM en audio. Es la voz del agente.

Lo que importa:

Naturalidad: Que no suene a robot. Las voces modernas son casi indistinguibles de humanos
Prosodia: Entonación, ritmo, pausas. El español tiene una prosodia muy marcada
Streaming: El TTS empieza a hablar antes de que termine de generar toda la frase

Voces españolas de AgenteUno: 4 voces nativas (2 mujeres, 2 hombres) con acento neutro y variantes regionales.

Paso 4: Audio output

El audio generado se envía al cliente en tiempo real via WebRTC o telefonía PSTN. La calidad del codec y la red afectan a la experiencia final.

El papel de la latencia

Latencia total	Experiencia
< 500ms	Imperceptible, como hablar con un humano
500-800ms	Aceptable, ligera pausa
800-1200ms	Notable, el cliente percibe que "piensa"
> 1200ms	Mala experiencia, el cliente cuelga

AgenteUno optimiza cada paso para mantener la latencia total por debajo de 800ms.

Funcionalidades avanzadas

Interrupciones (barge-in)

El cliente puede interrumpir al agente en cualquier momento. El agente detecta que el cliente habla, para su respuesta y escucha.

Detección de sentimiento

El agente analiza el tono de voz para detectar frustración, urgencia o satisfacción y adapta su respuesta.

Transferencia a humano

Si el agente detecta una situación que requiere intervención humana, transfiere la llamada con un resumen de contexto.

Prueba un agente de voz →

Cuando un cliente llama a un agente de voz de IA, ocurren 4 pasos en menos de 800 milisegundos. Este artículo explica cada uno y por qué AgenteUno consigue conversaciones naturales en español.

El pipeline de voz

Audio → STT (Speech-to-Text) → LLM (Cerebro) → TTS (Text-to-Speech) → Audio

Cada paso añade latencia. El objetivo es que el total sea inferior a 1 segundo para que la conversación se sienta natural.

Paso 1: Speech-to-Text (STT)

El STT convierte la voz del cliente en texto. Es el oído del agente.

Tecnologías utilizadas:

Deepgram Nova-2: 200ms de latencia, excelente en español
Whisper (OpenAI): Más preciso pero más lento (~500ms)
Google Cloud STT: Bueno en multiidioma

Desafío en español: Los acentos regionales (México, Argentina, España) requieren modelos entrenados específicamente. Un STT genérico confunde "coger" con "comer" o "vale" con "bale".

AgenteUno usa modelos optimizados para español peninsular y latinoamericano con tasas de error inferiores al 5%.

Paso 2: LLM (el cerebro)

Una vez que tenemos el texto, el LLM decide qué responder. Aquí es donde vive la inteligencia del agente.

Lo que procesa:

La transcripción del cliente
El contexto completo de la conversación
La base de conocimiento del negocio
Las instrucciones del sistema (personalidad, restricciones)

Velocidad: Usamos modelos optimizados para baja latencia. El LLM genera la respuesta en ~200ms para frases cortas.

Paso 3: Text-to-Speech (TTS)

El TTS convierte la respuesta del LLM en audio. Es la voz del agente.

Lo que importa:

Naturalidad: Que no suene a robot. Las voces modernas son casi indistinguibles de humanos
Prosodia: Entonación, ritmo, pausas. El español tiene una prosodia muy marcada
Streaming: El TTS empieza a hablar antes de que termine de generar toda la frase

Voces españolas de AgenteUno: 4 voces nativas (2 mujeres, 2 hombres) con acento neutro y variantes regionales.

Paso 4: Audio output

El audio generado se envía al cliente en tiempo real via WebRTC o telefonía PSTN. La calidad del codec y la red afectan a la experiencia final.

El papel de la latencia

Latencia total	Experiencia
< 500ms	Imperceptible, como hablar con un humano
500-800ms	Aceptable, ligera pausa
800-1200ms	Notable, el cliente percibe que "piensa"
> 1200ms	Mala experiencia, el cliente cuelga

AgenteUno optimiza cada paso para mantener la latencia total por debajo de 800ms.

Funcionalidades avanzadas

Interrupciones (barge-in)

El cliente puede interrumpir al agente en cualquier momento. El agente detecta que el cliente habla, para su respuesta y escucha.

Detección de sentimiento

El agente analiza el tono de voz para detectar frustración, urgencia o satisfacción y adapta su respuesta.

Transferencia a humano

Si el agente detecta una situación que requiere intervención humana, transfiere la llamada con un resumen de contexto.

Prueba un agente de voz →

Agentes de voz con IA: cómo funcionan y por qué suenan tan naturales

El pipeline de voz

Paso 1: Speech-to-Text (STT)

Paso 2: LLM (el cerebro)

Paso 3: Text-to-Speech (TTS)

Paso 4: Audio output

El papel de la latencia

Funcionalidades avanzadas

Interrupciones (barge-in)

Detección de sentimiento

Transferencia a humano

Automatiza la atención de tu negocio en minutos

Agentes de voz con IA: cómo funcionan y por qué suenan tan naturales

El pipeline de voz

Paso 1: Speech-to-Text (STT)

Paso 2: LLM (el cerebro)

Paso 3: Text-to-Speech (TTS)

Paso 4: Audio output

El papel de la latencia

Funcionalidades avanzadas

Interrupciones (barge-in)

Detección de sentimiento

Transferencia a humano

Automatiza la atención de tu negocio en minutos