Publicado en Julio 8, 2025

Cómo crear un bot de voz con Rasa y Cartesia: guía práctica para empresas de Latinoamérica

La inteligencia artificial conversacional ha evolucionado más allá de los chats de texto. Con la llegada de Rasa 3.11 y su capacidad nativa de procesamiento de voz en tiempo real, ahora es posible crear bots conversacionales por voz que ofrecen experiencias más naturales y fluidas. En este artículo, aprenderás cómo combinar Rasa con Deepgram (para reconocimiento de voz) y Cartesia (para síntesis de voz) y así construir un bot de voz listo para producción.

Autor: Rasa

5 minutos de lectura

Por qué esta combinación tecnológica marca la diferencia

La integración de Rasa 3.11 con Cartesia representa un paso importante en el desarrollo de bots conversacionales por voz. Mientras que muchas soluciones tradicionales luchan con problemas de latencia y respuestas robóticas, Cartesia está optimizado específicamente para generar voz con una latencia ultra baja.

Gracias a sus modelos neuronales avanzados de texto a voz (TTS), Cartesia produce respuestas con entonación y matices emocionales similares al habla humana. Esto, sumado al procesamiento nativo de audio en Rasa, elimina la necesidad de software adicional y permite construir interfaces conversacionales ágiles, realistas y muy efectivas.

¿No tienes tiempo para leer? Aquí tienes el resumen del artículo en versión audio.

Ventajas de una integración nativa

Con Rasa 3.11, puedes gestionar interacciones por voz de forma directa y sin complicaciones técnicas:

Procesamiento de audio en tiempo real sin middleware externo

Manejo del contexto de conversación sin interrupciones

Escalabilidad asegurada gracias al framework CALM (Conversational AI with Language Models)

Fluidez en las respuestas, ideal para aplicaciones de atención al cliente o asistentes virtuales

Esta arquitectura te permite construir soluciones de voz más potentes sin necesidad de reinventar la rueda.

Cómo funciona la arquitectura técnica

El canal browser_audio de Rasa facilita el manejo del audio desde el navegador del usuario, enviando la voz en tiempo real a través del pipeline de servicios de voz integrados.

La arquitectura se basa en el framework CALM para gestionar los diálogos, manteniendo el contexto en todo momento. Esto permite respuestas rápidas, coherentes y sin perder el hilo, incluso cuando las interacciones son complejas.

Preparar el entorno de desarrollo

Antes de implementar la integración de voz, es importante contar con un entorno de desarrollo sólido. Este tutorial utiliza Python 3.10.10 y Rasa Pro 3.11.3.

Asegúrate de instalar correctamente los paquetes con uv, un gestor de dependencias rápido y moderno:

bash

uv venv

source .venv/bin/activate

uv pip install rasa-pro==3.11.3

Luego, añade tu licencia de Rasa Pro como variable de entorno:

bash

export RASA_PRO_LICENSE=TU_CLAVE_DE_LICENCIA

Puedes verificar la instalación con:

bash

rasa --version

Inicializar el bot en Rasa

Para comenzar, descarga un bot base con la plantilla CALM:

bash

rasa init --template tutorial

En este caso, trabajaremos con el contenido de demostración incluido en el tutorial. El enfoque está en habilitar la comunicación por voz.

Configurar los servicios de voz

Necesitarás dos servicios externos para habilitar el reconocimiento y la síntesis de voz:

Deepgram: para el reconocimiento automático del habla (ASR)

Cartesia: para la generación de voz natural (TTS)

Una vez que tengas tus claves de API de ambas plataformas, agrégalas a tu entorno:

bash

export DEEPGRAM_API_KEY=TU_CLAVE_DEEPGRAM

export CARTESIA_API_KEY=TU_CLAVE_CARTESIA

Si deseas explorar otras opciones, Rasa ofrece documentación sobre integraciones con servicios de voz alternativos.

Activar las capacidades de voz en tu bot

La configuración se realiza desde el archivo credentials.yml de Rasa. Aquí tienes un ejemplo básico:

yaml

browser_audio:

  server_url: 0.0.0.0

  asr:

    name: deepgram

  tts:

    name: cartesia

Esta configuración permite que el canal browser_audio reciba voz en tiempo real, procese el reconocimiento con Deepgram y genere respuestas con Cartesia. Ambos servicios permiten personalizaciones adicionales como selección de idioma, estilo de voz y entonación.

Ejecutar y probar tu bot conversacional por voz

Una vez configurado todo, entrena y lanza tu bot con:

bash

rasa train

rasa inspect --voice

El inspector de Rasa te ofrece una interfaz donde puedes probar las interacciones por voz directamente desde el navegador, ideal para ajustes en desarrollo.

Próximos pasos y mejoras

Este tutorial te brinda una base sólida para empezar a crear experiencias conversacionales por voz. Desde aquí, puedes:

Personalizar voces y respuestas según el contexto

Añadir patrones de diálogo más complejos

Optimizar la latencia y la calidad de las respuestas

Implementar manejo avanzado de errores en interacciones por voz

La combinación de Rasa, Deepgram y Cartesia ofrece un entorno potente para construir asistentes virtuales por voz altamente efectivos y atractivos para tus usuarios.

No olvides revisar la documentación oficial de cada herramienta para mantenerte actualizado sobre nuevas funcionalidades y configuraciones avanzadas. Las posibilidades de integración son amplias y pueden adaptarse a múltiples industrias y casos de uso.

¿Quieres llevar experiencias conversacionales por voz a tu empresa?

En 2Brains trabajamos de la mano con RASA para acercar estas soluciones de IA conversacional al mercado latinoamericano. Nuestra experiencia nos permite implementar tecnologías como Rasa, Deepgram y Cartesia adaptadas al contexto y las necesidades de cada organización.

Si estás en México, Chile u otro país de la región, y buscas construir un bot conversacional por voz que realmente conecte con tus usuarios, llena nuestro formulario de contacto. Queremos ayudarte a dar el siguiente paso en la evolución de tus canales digitales.

Revisa nuestra página de materiales para más contenido

También te podría interesar

Más artículos

Bases de la Inteligencia Artificial Generativa

6 Enero, 2026 | 11 minutos de lectura

2Brains y Builder.io: Nuevo Partnership para Acelerar Experiencias Digitales

26 Diciembre, 2025 | 4 minutos de lectura

Innovación Abierta: el Poder de co-crear más allá de los Límites

17 Diciembre, 2025 | 8 minutos de lectura

Más artículos

Bases de la Inteligencia Artificial Generativa

6 Enero, 2026 | 11 minutos de lectura

2Brains y Builder.io: Nuevo Partnership para Acelerar Experiencias Digitales

26 Diciembre, 2025 | 4 minutos de lectura

Innovación Abierta: el Poder de co-crear más allá de los Límites

17 Diciembre, 2025 | 8 minutos de lectura

Cómo crear un bot de voz con Rasa y Cartesia: guía práctica para empresas de Latinoamérica

Por qué esta combinación tecnológica marca la diferencia

Ventajas de una integración nativa

Cómo funciona la arquitectura técnica

Preparar el entorno de desarrollo

Inicializar el bot en Rasa

Configurar los servicios de voz

Activar las capacidades de voz en tu bot

Ejecutar y probar tu bot conversacional por voz

Próximos pasos y mejoras

¿Quieres llevar experiencias conversacionales por voz a tu empresa?

Inscríbete a nuestro Newsletter

También te podría interesar

Bases de la Inteligencia Artificial Generativa

2Brains y Builder.io: Nuevo Partnership para Acelerar Experiencias Digitales

Innovación Abierta: el Poder de co-crear más allá de los Límites

Bases de la Inteligencia Artificial Generativa

2Brains y Builder.io: Nuevo Partnership para Acelerar Experiencias Digitales

Innovación Abierta: el Poder de co-crear más allá de los Límites