Saltar al contenido

Cómo crear voces sintéticas: así son las herramientas de IA de texto a audio

Además de las distintas vertientes de herramientas de inteligencia artificial generativa, que nos permiten crear desde textos, imágenes o vídeos, también existe la posibilidad de producir audio. Son voces sintéticas capaces de emular el tono humano. Muchos de los servicios disponibles en estos momentos consiguen resultados prometedores, aunque a la hora de conseguir la naturalidad en un idioma en castellano, que tiene distintos matices y acentos, es posible que todavía le quede un tiempo. 

Aún así, los modelos que nos podemos encontrar por ahora nos pueden proporcionar archivos de audio para producir, por ejemplo, la voz en off de una acción de comunicación interna para tu compañía o preparar un vídeo corporativo en una presentación de un proyecto con un cliente. Son distintas formas para vincular las posibilidades que nos ofrecen las IA’s de texto a audio. 

En mi caso, puedo crear un vídeo formativo y explicativo en donde muestro algunas propuestas de un proyecto de “branded content”. De esta manera, le estamos dando un nivel de producción bastante alto con pocos recursos y ayudando a la comprensión de nuestra idea al cliente. Vamos a ver algunas alternativas que existen en la actualidad en el mercado. 

Para ello, lo que he hecho ha sido utilizar el mismo texto para todas ellas: 

“En Verbaliza encontrarás todos los recursos necesarios para poner en marcha tu proyecto con inteligencia artificial y conocerás la actualidad del sector. ¡Síguenos!”

De esta manera podemos comprobar los resultados y compararlos directamente, detectando los matices con los que se nos devuelve el archivo de audio, el acento, la sensibilidad. 

Una de las conclusiones a las que he llegado después de estar tiempo utilizando estos servicios es que, al menos por ahora, en castellano no se consigue replicar el alma humana. Cuando escuchamos a un locutor y a un actor de doblaje nos transmite sentimientos. El profesional es capaz de adaptarse al mensaje, de transmitirlo para crear una atmósfera adecuada y para utilizar sus recursos (silencios, paradas, alargamientos…), aunque he de decir que, para distintas actividades del mundo de la comunicación y el marketing, el uso de la IA generativa puede ser útil y eficiente. Estas son algunas de las alternativas más interesantes:

Elevenlabs: se trata de un modelo de lenguaje que permite generar audio a partir de un texto. Puedes elegir entre voces masculinas o femeninas para varios casos de uso. Cada uno tiene un tono y estilo distinto, con lo que si vas a utilizar el archivo para la narración de un spot puedes emplear una propuesta en particular. Hay un catálogo bastante amplio para narraciones, videojuegos, animación, audiobooks. Además de ello, puede clonar tu voz para utilizarlo como recursos a posteriori. Se puede afinar los silencios y algunos matices mediante la paleta de opciones así como por medio del “Prompt”. Por ejemplo, si añades después de una frase <break time=»1.0s» /> puedes hacer una parada que le confiera mayor sensibilidad. De igual manera, se le puede introducir algunas instrucciones para mejorar la pronunciación. 

DesignsAI: esta herramienta también permite realizar, entre otras cosas, voces en off, aunque su resultado es más enlatado. Tiene varias opciones, pero en lo que se refiere a creación de audio la función se llama “Speechmaker”. Ofrece la posibilidad de escoger distintos idiomas, entre ellos, el español. Así como voces diversas, tanto masculinas como femeninas, que se pueden adaptar a tus necesidades. Los resultados se guardan automáticamente y se pueden descargar en formato mp3 para su uso en campañas de marketing o comunicación. La versión gratuita está limitada a 500 caracteres al día. Pero suficiente para ir trabajando una propuesta. 

Lovo.ai: esta herramienta está bastante bien construida. Es intuitiva y fácil de utilizar. Permite crear también una voz sintética a partir de un archivo sonoro de tu propia voz. Además de ello ofrece la posibilidad de crear subtítulos para los vídeos de manera automática o crear un vídeo a partir de una descripción de texto. Cuenta con funciones de edición. La parte negativa es que no tiene soporte para sistemas operativos móviles. 

Voicify: esta es distinta a las demás. Incluye modelos preexistentes de voces famosas, como personas reales como Donald Trump o de animación como Peter Griffin (“Padre de familia”), Goku (“Dragon Ball”) y Bob Esponja. También puedes clonar tu voz fácilmente. Es un servicio de pago. 

Synthesys: en este caso, se cuenta con un catálogo múltiples de voces, entre ellas, el español. Entre otras opciones, el servicio da la posibilidad de crear avatares digitales a partir de una voz en off. Esto también es útil para producir una acción de comunicación interna para tus empleados. 

Voxbox: para usar este servicio es necesario descargar un software en el equipo informático. También dispone de una versión en forma de aplicación móvil, aunque no funciona correctamente. 

Getwoord: este servicio de pago permite crear audio fácilmente o crearlo a partir de una URL. Ofrece la posibilidad de introducir hasta 10.000 caracteres. Como aspecto diferencial, cuenta con una extensión para navegadores Chrome para que la conversión sea rápida. Otra función interesante es que puedes subir un documento en formato PDF o Doc para que lo narre. Esto es útil para crear audiolibros o formación. 

Altered Studio: esta alternativa me ha parecido bastante buena. Tiene muchas opciones y los resultados son bastantes naturales. Tiene una función interesante que consiste en que crea el audio en tiempo real, facilitando la producción audiovisual. Además, dispone de una capacidad para reducir el ruido de fondo y lograr resultados bastante profesionales. Al igual que otras se puede producir una voz sintética del propio usuario, aunque es conveniente leer con detenimiento los términos de uso. Su herramienta de edición también es bastante útil. 

Speechify: esta propuesta es de pago e incluye la posibilidad que una voz sintética de un famoso como el rapero americano Snoop Dogg “lea” un texto. Sus resultados son bastante naturales. Se puede ir modificando también la velocidad de lectura para que sea más lenta o rápida. Lo malo es que no puedes probarlo bien antes de realizar el pago. 

Murf: en este caso, ofrece incluso la posibilidad de modificar la voz si subes algún archivo de audio. Esto es útil para producir vídeos corporativos y obtener recursos sonoros para tu estrategia de contenidos. Tiene varias opciones para modificar la velocidad de lectura, la fuerza, añadir pausas o cambiar la pronunciación de la voz sintética escogida. 

Wellsaid: solo en inglés, pero dispone de herramientas interesantes para crear vídeos para tu empresa o, incluso, anuncios con un nivel de narración bastante bien conseguida. 

PlayHT: este servicio es bastante completo. La versión gratuita ofrece la posibilidad de convertir hasta 12.500 caracteres y crear una voz sintética a partir de tu propia voz, pero requiere de ceder datos personales. Esto es una práctica común en el mercado de las IA generativas, pero pone de manifiesto hasta dónde somos capaces de prestar gratuitamente nuestros datos personales.

Google Voice: el gigante de internet también cuenta con su propio servicio generativo de texto a audio, pero el modelo utilizado no consigue la naturalidad esperada. Recuerda a la voz empleada en su asistente de voz, aunque es una muestra de cómo está evolucionando el sector en los últimos tiempos. 

Resemble.ai: por ahora funciona bien en inglés. Es bastante completa. Incluye varias opciones como la posibilidad de crear audio a partir de un texto, clonar tu voz, convertir el audio automáticamente en tiempo real. Cuando subes un archivo de audio y lo procesas los resultados son bastante avanzados, eliminando posibles ruidos y mejorando la acústica. 


Ahora CHATGPT es mejor siendo gratuito: trucos para aprovecharlo

Te enseñamos a aplicar las capacidades de GPT 4o, el nuevo modelos de lenguaje de OpenAI que es grat…

Voces sensuales, la sumisión se quiere apoderar de la IA

A pesar de los esfuerzos, el desarrollo de los sistemas basados en inteligencia artificial continúan…

Scarlett Johansson, OpenAI y el problema de la IA

OpenAI retira una voz empleada para su nuevo modelo ChatGPT-4o por su parecido con la de la actriz S…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *