Los investigadores entrenaron una red neuronal para mapear "huellas de voz" de un idioma a otro.
Escucha este clip de audio en español.
El nuevo sistema, denominado Translatotron, tiene tres componentes, todos los cuales analizan el espectrograma de audio del hablante, una instantánea visual de las frecuencias utilizadas cuando se reproduce el sonido, a menudo llamada huella de voz. El primer componente utiliza una red neuronal entrenada para mapear el espectrograma de audio en el idioma de entrada al espectrograma de audio en el idioma de salida. El segundo convierte el espectrograma en una onda de audio que se puede reproducir. El tercer componente puede entonces volver a colocar las características vocales del altavoz original en la salida de audio final.
![]() |
¿Sería esta tecnología el inicio del fin para los actores de doblaje? Imagen: Luis Posada |
Translatotron es actualmente una prueba de concepto. Durante las pruebas, los investigadores probaron el sistema solo con la traducción del español al inglés, que ya tenía muchos datos de entrenamiento cuidadosamente seleccionados. Pero las salidas de audio como el clip anterior demuestran el potencial de un sistema comercial más adelante en la línea. Puedes escuchar más de ellos aquí.
Fuente: https://www.technologyreview.com/s/613559/google-ai-language-translation/