Microsoft presentó recientemente su último modelo de inteligencia artificial de texto a voz llamado VALL-E, que puede replicar la voz de una persona casi a la perfección. El modelo solo necesita un clip de audio de tres segundos para entrenar. Una vez que aprende una voz específica, puede sintetizar el audio de esa persona al tiempo que conserva el tono emocional del hablante y el entorno.
¿Como funciona?
La tecnología detrás de VALL-E es EnCodec, que Meta presentó en octubre de 2022. EnCodec permite a VALL-E producir códecs de audio discretos basados en señales acústicas y de texto. Esto difiere de los sistemas de texto a voz convencionales que normalmente sintetizan el habla modificando las formas de onda.
Meta también creó la biblioteca de audio LibriLight que el equipo usó para entrenar a VALL-E. Esta biblioteca contiene más de 7000 voces diferentes de las 60 000 horas de habla en inglés, en su mayoría tomadas de audiolibros de dominio público de LibriVox. Además, VALL-E también puede imitar el «ambiente acústico» del audio de muestra. Por ejemplo, puede simular las características acústicas y de frecuencia de una llamada telefónica en su salida sintética, haciéndola sonar como una llamada telefónica.
Sin embargo, según el artículo publicado por los investigadores, los resultados del modelo son mixtos, algunos suenan a máquina y otros son sorprendentemente realistas. Pero conserva el tono emocional de los samples originales, haciendo más aceptables los que funcionan.
El futuro potencial de Microsoft VALL-E
Incluso con sus limitaciones, VALL-E tiene un enorme potencial y se puede utilizar prácticamente en diversas industrias, como el entretenimiento, la educación e incluso en asistentes de voz. Sin embargo, el equipo reconoce el potencial de abuso, y el informe de investigación señala que los malos actores pueden usarlo para suplantar o hacerse pasar por otra persona sin su conocimiento.
Microsoft no ha anunciado planes para lanzar una versión pública de VALL-E, pero el trabajo de investigación menciona que es posible construir un modelo que pueda detectar el habla real a partir de un modelo generado por VALL-E. «Dado que VALL-E podría sintetizar el habla que conserva la identidad del hablante, podría conllevar riesgos potenciales en caso de mal uso del modelo, como la suplantación de identidad de voz o la suplantación», dijo Microsoft.