Saltar al contenido

Voice Engine, la IA de OpenAI que clona una voz con solo 15 segundos

La inteligencia artificial (IA) también puede ser utilizada para convertir texto en audio. Hay muchos ejemplos. En Verbaliza hemos analizado algunas de las propuestas que se pueden encontrar en el mercado en la actualidad. Los resultados, aunque todavía mejorables, pueden ser útiles para proyectos de marca, páginas personales y, sobre todo, para acciones de comunicación interna. Ahí es donde le veo un gran potencial. 

Aunque todavía tiene margen de mejora viendo los ejemplos, el modelo Voice Engine, creado por OpenAI, tiene bastante potencial. Sobre todo, por su sistema de clonación. El software, aún no disponible para los usuarios, puede generar un audio bastante natural a partir de una muestra de audio de solo 15 segundos. No está nada mal, aunque hay servicios que ya consiguen resultados similares. 

Lo que este modelo, según anuncia la compañía, es “imitar” la voz original del usuario hablante. Es decir, extrae las ondas y los parámetros desde un solo archivo intentando crear voces realistas. Si observamos los audios en español podemos comprobar que no son del todo naturales. Pero es un paso importante porque logra clonar audio a partir de una escasa información disponible. Voice Engine se ha utilizado para alimentar las voces predefinidas disponibles en la API de texto a voz, así como en ChatGPT Voice y Read Aloud.

En el proceso de exploración, OpenAI ha estado probando Voice Engine. Y estas pruebas han revelado aplicaciones bastante promtetedoras:

  1. Asistencia en la lectura: Voice Engine puede proporcionar ayuda de lectura a personas no lectoras y niños mediante voces naturales y emotivas que representan una amplia gama de hablantes. La empresa de tecnología educativa Age of Learning utiliza esta tecnología para generar contenido de voz en off predefinido.
  2. Traducción de contenido: Plataformas como HeyGen, especializadas en narración visual con avatares personalizados, emplean Voice Engine para traducir videos y podcasts. Esto permite que un hablante se exprese en varios idiomas y llegue a una audiencia global.
  3. Voces únicas para personas no verbales: Voice Engine ofrece voces no robóticas en muchos idiomas, lo que beneficia a personas no verbales. Los usuarios pueden elegir la voz que mejor los representa y mantener una coherencia vocal en varios idiomas.

A pesar de estas posibilidades, también debemos considerar las dudas y riesgos asociados con las voces sintéticas. Existe la preocupación de que esta tecnología pueda utilizarse para campañas de desinformación, donde voces falsas podrían propagar información errónea o manipulada. Por lo tanto, es crucial abordar responsablemente la implementación de estas voces y adaptarnos como sociedad a estas nuevas capacidades.


Ahora CHATGPT es mejor siendo gratuito: trucos para aprovecharlo

Te enseñamos a aplicar las capacidades de GPT 4o, el nuevo modelos de lenguaje de OpenAI que es grat…

Voces sensuales, la sumisión se quiere apoderar de la IA

A pesar de los esfuerzos, el desarrollo de los sistemas basados en inteligencia artificial continúan…

Scarlett Johansson, OpenAI y el problema de la IA

OpenAI retira una voz empleada para su nuevo modelo ChatGPT-4o por su parecido con la de la actriz S…

Etiquetas:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *