Investigadores de Corea del Sur proponen VITS2 un avance en los modelos de síntesis de voz de una sola etapa para una mayor naturalidad y eficiencia.

Investigadores de Corea del Sur proponen VITS2, un avance en la síntesis de voz, para mayor naturalidad y eficiencia.

El artículo presenta VITS2, un modelo de síntesis de texto a voz de una sola etapa que sintetiza un habla más natural al mejorar varios aspectos de los modelos anteriores. El modelo aborda problemas como la antinaturalidad intermitente, la eficiencia computacional y la dependencia de la conversión de fonemas. Los métodos propuestos mejoran la naturalidad, la similitud característica del habla en modelos de múltiples hablantes y la eficiencia de entrenamiento e inferencia.

La fuerte dependencia de la conversión de fonemas en trabajos anteriores se reduce significativamente, lo que permite un enfoque de una sola etapa completamente de extremo a extremo.

Métodos anteriores:

Sistemas de canalización de dos etapas: Estos sistemas dividían el proceso de generar formas de onda a partir de textos de entrada en dos etapas en cascada. La primera etapa producía representaciones de habla intermedias como mel-espectrogramas o características lingüísticas a partir de los textos de entrada. La segunda etapa generaba formas de onda sin procesar basadas en esas representaciones intermedias. Estos sistemas tenían limitaciones como la propagación de errores desde la primera etapa hasta la segunda, la dependencia de características definidas por humanos como el mel-espectrograma y la computación requerida para generar características intermedias.

Modelos de una sola etapa: Estudios recientes han explorado activamente modelos de una sola etapa que generan directamente formas de onda a partir de textos de entrada. Estos modelos no solo han superado a los sistemas de dos etapas, sino que también han demostrado la capacidad de generar habla de alta calidad prácticamente indistinguible del habla humana.

El artículo anterior “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech” de J. Kim, J. Kong y J. Son fue un trabajo previo significativo en el campo de la síntesis de texto a voz de una sola etapa. Este enfoque de una sola etapa anterior logró un gran éxito, pero tuvo varios problemas, incluyendo antinaturalidad intermitente, baja eficiencia del predictor de duración, formato de entrada complejo, similitud insuficiente del hablante en modelos de múltiples hablantes, entrenamiento lento y fuerte dependencia de la conversión de fonemas.

La principal contribución del presente artículo es abordar los problemas encontrados en el modelo de una sola etapa anterior, especialmente el mencionado en el exitoso modelo anterior, e introducir mejoras para lograr una mejor calidad y eficiencia en la síntesis de texto a voz.

La síntesis de voz basada en redes neuronales profundas ha experimentado avances significativos. El desafío radica en convertir un texto discontinuo en formas de onda continuas, asegurando un audio de habla de alta calidad. Las soluciones anteriores dividieron el proceso en dos etapas: producir representaciones de habla intermedias a partir de textos y luego generar formas de onda sin procesar basadas en esas representaciones. Los modelos de una sola etapa se han estudiado activamente y han superado a los sistemas de dos etapas. El artículo tiene como objetivo abordar los problemas encontrados en los modelos de una sola etapa anteriores.

El artículo describe mejoras en cuatro áreas: predicción de duración, autoencoder variacional aumentado con flujos de normalización, búsqueda de alineación y codificador de texto condicionado por el hablante. Se propone un predictor de duración estocástico, entrenado mediante aprendizaje adversarial. La Búsqueda Monótona de Alineación (MAS) se utiliza para la alineación, con modificaciones para mejorar la calidad. El modelo introduce un bloque transformador en los flujos de normalización para capturar dependencias a largo plazo. Se diseña un codificador de texto condicionado por el hablante para imitar mejor las diversas características del habla de cada hablante.

Se realizaron experimentos en el conjunto de datos de habla LJ y el conjunto de datos VCTK. El estudio utilizó secuencias de fonemas y textos normalizados como entradas del modelo. Las redes se entrenaron utilizando el optimizador AdamW, y el entrenamiento se realizó en GPU NVIDIA V100. Se realizaron pruebas de puntuación media de opinión (MOS) realizadas por la multitud para evaluar la naturalidad del habla sintetizada. El método propuesto mostró una mejora significativa en la calidad del habla sintetizada en comparación con modelos anteriores. Se realizaron estudios de ablación para verificar la validez de los métodos propuestos. Finalmente, los autores demostraron la validez de sus métodos propuestos a través de experimentos, evaluación de calidad y medición de velocidad de cálculo, pero señalaron que todavía existen diversos problemas en el campo de la síntesis de voz que deben abordarse, y esperan que su trabajo pueda ser la base de futuras investigaciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

Los sectores de animación, videojuegos y moda pueden beneficiarse del campo de vanguardia de la estimación expresiva ...

Inteligencia Artificial

¿Cómo podemos prever nuestra relación con la IA?

La interacción humana-AI en la etapa actual o post-AGI siempre es motivo de debate. Ya sea que estés en el lado negat...

Inteligencia Artificial

Pronóstico de Eventos Futuros Las Capacidades y Limitaciones de la IA y el Aprendizaje Automático

¿Alguna vez te has preguntado cómo los adivinos, astrólogos o nuestra conocida Baba Vanga solían predecir eventos fut...

Inteligencia Artificial

Reduciendo la huella de carbono en el entrenamiento de IA mediante la optimización

Investigadores de la Universidad de Michigan han creado un marco de optimización de código abierto llamado Zeus que a...

Inteligencia Artificial

NVIDIA DGX Cloud ahora disponible para impulsar el entrenamiento de IA generativa

NVIDIA DGX Cloud — que ofrece herramientas que pueden convertir casi cualquier empresa en una empresa de IA — ahora e...