Ingenieros Convierten Señales Cerebrales Directamente En Habla


Monitorean cerebro para traducir pensamientos

En un avance científico emocionante, los neuroingenieros de Columbia han creado un sistema que traduce el pensamiento en un discurso inteligible y reconocible. Al monitorear la actividad cerebral de alguien, la tecnología puede reconstruir las palabras que una persona escucha con una claridad sin precedentes. Este avance, que aprovecha el poder de los sintetizadores de voz y la inteligencia artificial, podría llevar a nuevas formas para que las computadoras se comuniquen directamente con el cerebro. También sienta las bases para ayudar a las personas que no pueden hablar, como las que viven con esclerosis lateral amiotrófica (ELA) o que se están recuperando de un derrame cerebral, recuperan su capacidad de comunicarse con el mundo exterior.

"Nuestras voces nos ayudan a conectarnos con nuestros amigos, familiares y con el mundo que nos rodea, por lo que perder el poder de la voz debido a una lesión o enfermedad es tan devastador", dijo Nima Mesgarani, Ph.D., investigadora y autora principal de la publicación en el Instituto de comportamiento mental cerebral Mortimer B. Zuckerman de la Universidad de Columbia. "Con el estudio de hoy, tenemos una forma potencial de restaurar ese poder. Hemos demostrado que, con la tecnología correcta, los pensamientos de estas personas pueden ser descifrados y entendidos por cualquier oyente".

Décadas de investigación han demostrado que cuando las personas hablan, o incluso se imaginan hablando, aparecen en su cerebro patrones reveladores de actividad. Un patrón de señales distinto (pero reconocible) también emerge cuando escuchamos a alguien hablar, o imaginamos escuchar. Los expertos, que intentan registrar y decodificar estos patrones, ven un futuro en el que los pensamientos no tienen que permanecer ocultos dentro del cerebro, sino que pueden traducirse a voz verbal a voluntad.

Pero lograr esta hazaña ha resultado ser un desafío. Los primeros esfuerzos para descodificar las señales cerebrales del Dr. Mesgarani y otros se centraron en modelos computacionales simples que analizaban espectrogramas, que son representaciones visuales de frecuencias de sonido.

Pero debido a que este enfoque no ha logrado producir nada que se parezca al habla inteligible, el equipo del Dr. Mesgarani recurrió a un vocoder, un algoritmo de computadora que puede sintetizar el habla después de recibir capacitación sobre grabaciones de personas que hablan.

"Esta es la misma tecnología utilizada por Amazon para Echo y Apple para Siri para dar respuestas verbales a nuestras preguntas", dijo el Dr. Mesgarani, quien también es profesor asociado de ingeniería eléctrica en la Escuela de Ingeniería y Ciencias Aplicadas de la Fundación Fu de Columbia.



Una representación de los primeros enfoques para reconstruir el habla, que utilizan modelos lineales y espectrogramas. Crédito: Nima Mesgarani / Instituto Zuckerman de Columbia

Para enseñar al vocoder a interpretar la actividad cerebral, el Dr. Mesgarani formó un equipo con Ashesh Dinesh Mehta, MD, Ph.D., neurocirujano del Instituto de Neurociencia de Northwell Health Physician Partners y coautor del artículo de hoy. El Dr. Mehta trata a pacientes con epilepsia, algunos de los cuales deben someterse a cirugías regulares.

"Trabajando con el Dr. Mehta, les pedimos a los pacientes con epilepsia que ya se sometieron a una cirugía cerebral que escucharan las oraciones pronunciadas por diferentes personas, mientras medíamos los patrones de actividad cerebral", dijo el Dr. Mesgarani. "Estos patrones neurales entrenaron al vocoder".

Luego, los investigadores les pidieron a esos mismos pacientes que escuchen a los oradores que recitan dígitos entre 0 y 9, mientras registran las señales cerebrales que luego podrían ejecutarse a través del vocoder. El sonido producido por el vocoder en respuesta a esas señales fue analizado y limpiado por redes neuronales, un tipo de inteligencia artificial que imita la estructura de las neuronas en el cerebro biológico.


El audio es una representación del nuevo enfoque del Dr. Mesgarani que utiliza un vocoder y una red neuronal profunda para reconstruir el habla. Crédito: Nima Mesgarani / Instituto Zuckerman de Columbia

El resultado final fue una voz de sonido robótico que recitaba una secuencia de números. Para probar la precisión de la grabación, el Dr. Mesgarani y su equipo encargaron a las personas que escucharan la grabación e informaran lo que escucharon.

"Encontramos que las personas podían entender y repetir los sonidos aproximadamente el 75% del tiempo, lo que está muy por encima y más allá de cualquier intento anterior", dijo el Dr. Mesgarani. La mejora en la inteligibilidad fue especialmente evidente al comparar las nuevas grabaciones con los intentos anteriores basados ​​en espectrogramas. "El sensible vocoder y las poderosas redes neuronales representaban los sonidos que los pacientes habían escuchado originalmente con sorprendente precisión".

El Dr. Mesgarani y su equipo planean probar las palabras y oraciones más complicadas a continuación, y quieren realizar las mismas pruebas en las señales cerebrales emitidas cuando una persona habla o se imagina hablar. En última instancia, esperan que su sistema pueda ser parte de un implante, similar a los que usan algunos pacientes con epilepsia, que traduce los pensamientos del portador directamente en palabras.

"En este escenario, si el usuario piensa 'Necesito un vaso de agua', nuestro sistema podría tomar las señales cerebrales generadas por ese pensamiento y convertirlas en un discurso verbal sintetizado", dijo el Dr. Mesgarani. "Esto sería un cambio de juego. Le daría a cualquier persona que haya perdido la capacidad de hablar, ya sea por una lesión o enfermedad, la oportunidad renovada de conectarse con el mundo que los rodea".

Este artículo se titula "Hacia la reconstrucción del habla inteligible desde la corteza auditiva humana".


Fuente: https://techxplore.com/news/2019-01-brain-speech.html


0/Post a Comment/Comments

Artículo Anterior Artículo Siguiente