Cómo crear un bot de voz con Rasa y Cartesia: guía práctica para empresas de Latinoamérica
La inteligencia artificial conversacional ha evolucionado más allá de los chats de texto. Con la llegada de Rasa 3.11 y su capacidad nativa de procesamiento de voz en tiempo real, ahora es posible crear bots conversacionales por voz que ofrecen experiencias más naturales y fluidas. En este artículo, aprenderás cómo combinar Rasa con Deepgram (para reconocimiento de voz) y Cartesia (para síntesis de voz) y así construir un bot de voz listo para producción.


Por qué esta combinación tecnológica marca la diferencia
La integración de Rasa 3.11 con Cartesia representa un paso importante en el desarrollo de bots conversacionales por voz. Mientras que muchas soluciones tradicionales luchan con problemas de latencia y respuestas robóticas, Cartesia está optimizado específicamente para generar voz con una latencia ultra baja.
Gracias a sus modelos neuronales avanzados de texto a voz (TTS), Cartesia produce respuestas con entonación y matices emocionales similares al habla humana. Esto, sumado al procesamiento nativo de audio en Rasa, elimina la necesidad de software adicional y permite construir interfaces conversacionales ágiles, realistas y muy efectivas.
¿No tienes tiempo para leer? Aquí tienes el resumen del artículo en versión audio.
Ventajas de una integración nativa
Con Rasa 3.11, puedes gestionar interacciones por voz de forma directa y sin complicaciones técnicas:
- Procesamiento de audio en tiempo real sin middleware externo
- Manejo del contexto de conversación sin interrupciones
- Escalabilidad asegurada gracias al framework CALM (Conversational AI with Language Models)
- Fluidez en las respuestas, ideal para aplicaciones de atención al cliente o asistentes virtuales
Esta arquitectura te permite construir soluciones de voz más potentes sin necesidad de reinventar la rueda.
Cómo funciona la arquitectura técnica
El canal browser_audio de Rasa facilita el manejo del audio desde el navegador del usuario, enviando la voz en tiempo real a través del pipeline de servicios de voz integrados.
La arquitectura se basa en el framework CALM para gestionar los diálogos, manteniendo el contexto en todo momento. Esto permite respuestas rápidas, coherentes y sin perder el hilo, incluso cuando las interacciones son complejas.
Preparar el entorno de desarrollo
Antes de implementar la integración de voz, es importante contar con un entorno de desarrollo sólido. Este tutorial utiliza Python 3.10.10 y Rasa Pro 3.11.3.
Asegúrate de instalar correctamente los paquetes con uv, un gestor de dependencias rápido y moderno:
bash
uv venv
source .venv/bin/activate
uv pip install rasa-pro==3.11.3
Luego, añade tu licencia de Rasa Pro como variable de entorno:
bash
export RASA_PRO_LICENSE=TU_CLAVE_DE_LICENCIA
Puedes verificar la instalación con:
bash
rasa --version
Inicializar el bot en Rasa
Para comenzar, descarga un bot base con la plantilla CALM:
bash
rasa init --template tutorial
En este caso, trabajaremos con el contenido de demostración incluido en el tutorial. El enfoque está en habilitar la comunicación por voz.
Configurar los servicios de voz
Necesitarás dos servicios externos para habilitar el reconocimiento y la síntesis de voz:
- Deepgram: para el reconocimiento automático del habla (ASR)
- Cartesia: para la generación de voz natural (TTS)
Una vez que tengas tus claves de API de ambas plataformas, agrégalas a tu entorno:
bash
export DEEPGRAM_API_KEY=TU_CLAVE_DEEPGRAM
export CARTESIA_API_KEY=TU_CLAVE_CARTESIA
Si deseas explorar otras opciones, Rasa ofrece documentación sobre integraciones con servicios de voz alternativos.
Activar las capacidades de voz en tu bot
La configuración se realiza desde el archivo credentials.yml de Rasa. Aquí tienes un ejemplo básico:
yaml
browser_audio:
server_url: 0.0.0.0
asr:
name: deepgram
tts:
name: cartesia
Esta configuración permite que el canal browser_audio reciba voz en tiempo real, procese el reconocimiento con Deepgram y genere respuestas con Cartesia. Ambos servicios permiten personalizaciones adicionales como selección de idioma, estilo de voz y entonación.
Ejecutar y probar tu bot conversacional por voz
Una vez configurado todo, entrena y lanza tu bot con:
bash
rasa train
rasa inspect --voice
El inspector de Rasa te ofrece una interfaz donde puedes probar las interacciones por voz directamente desde el navegador, ideal para ajustes en desarrollo.
Próximos pasos y mejoras
Este tutorial te brinda una base sólida para empezar a crear experiencias conversacionales por voz. Desde aquí, puedes:
- Personalizar voces y respuestas según el contexto
- Añadir patrones de diálogo más complejos
- Optimizar la latencia y la calidad de las respuestas
- Implementar manejo avanzado de errores en interacciones por voz
La combinación de Rasa, Deepgram y Cartesia ofrece un entorno potente para construir asistentes virtuales por voz altamente efectivos y atractivos para tus usuarios.
No olvides revisar la documentación oficial de cada herramienta para mantenerte actualizado sobre nuevas funcionalidades y configuraciones avanzadas. Las posibilidades de integración son amplias y pueden adaptarse a múltiples industrias y casos de uso.
¿Quieres llevar experiencias conversacionales por voz a tu empresa?
En 2Brains trabajamos de la mano con RASA para acercar estas soluciones de IA conversacional al mercado latinoamericano. Nuestra experiencia nos permite implementar tecnologías como Rasa, Deepgram y Cartesia adaptadas al contexto y las necesidades de cada organización.
Si estás en México, Chile u otro país de la región, y buscas construir un bot conversacional por voz que realmente conecte con tus usuarios, llena nuestro formulario de contacto. Queremos ayudarte a dar el siguiente paso en la evolución de tus canales digitales.
