Es Posible Extraer Audio De Una Imagen

se puede extraer audio de una imagen curiosciencia
Imagen de alda2 en Pixabay
 

Los investigadores han encontrado una manera de extraer audio de imágenes fijas y vídeos sin sonido después de que un profesor se inspirara para hacerlo en el programa de televisión de ciencia ficción Fringe.

En el programa de televisión, el FBI puede extraer sonido grabado de un panel de vidrio derretido. Den of Geek calificó la idea de "técnica pseudocientífica ridícula", lo que parece bastante justo. Sin embargo, Kevin Fu, profesor de ingeniería eléctrica e informática y ciencias de la computación en la Universidad Northeastern, vio la reseña y se propuso demostrar que extraer audio de imágenes y videos mudos, al menos, es posible.

"Imagínese que alguien está haciendo un video de TikTok y lo silencia y dobla música", dijo Fu en un comunicado de prensa. “¿Alguna vez has sentido curiosidad por saber lo que realmente están diciendo? ¿Fue "Sandía, sandía" o "Aquí está mi contraseña"? ¿Había alguien hablando detrás de ellos? De hecho, puedes captar lo que se dice fuera de cámara”.

Entonces, ¿cómo puede suceder esto? Las cámaras, si bien están destinadas a capturar información visual, también captan inadvertidamente información de audio. Prácticamente todos los teléfonos con cámara tienen tecnología de estabilización de imagen incorporada. Los resortes mantienen la lente de la cámara suspendida en un líquido, mientras que un electroimán empuja la lente de la cámara para reducir el movimiento de la cámara.

Si bien es una característica interesante, es la que permite la captura de audio. Cuando alguien o algo hace un ruido cerca de la lente de la cámara, los resortes vibran ligeramente y desvían la luz ligeramente. Según Fu, no se nota "a menos que lo estés buscando". Por sí solo, no le proporcionaría un audio útil. Sin embargo, otra característica de las cámaras de los teléfonos modernos ayuda a convertirlo en algo que valga la pena escuchar.

"La forma en que funcionan las cámaras hoy en día para reducir costos básicamente es que no escanean todos los píxeles de una imagen simultáneamente, sino que lo hacen una fila a la vez", explicó Fu. “[Eso sucede] cientos de miles de veces en una sola foto. Lo que esto significa básicamente es que puedes amplificar más de mil veces la información de frecuencia que puedes obtener, básicamente la granularidad del audio”.

Las cámaras, si bien están destinadas a capturar información visual, también captan inadvertidamente información de audio curiosciencia
Las cámaras, si bien están destinadas a capturar información visual, también captan inadvertidamente información de audio. Imagen de Fernando Aguirre Guzmán en Pixabay

Utilizando esta información, capturada como subproducto de cómo se toman las fotografías, es posible extraer un audio bastante amortiguado de prácticamente cualquier fotografía que contenga luz. Al aplicar un algoritmo de aprendizaje automático llamado Side Eye por parte del equipo, pueden obtener audio útil.

“Si quieres saber si dije sí o no, puedes entrenar [Side Eye] con las personas que dicen sí y no y luego observar los patrones y, con gran confianza, cuando obtenga una imagen, saber más tarde si alguien dijo sí o no. "

Al probar su sistema en 10 teléfonos inteligentes diferentes, el equipo de Fu descubrió que podía reconocer dígitos hablados con una precisión del 80,66 por ciento, identificar cuál de los 20 hablantes dijo las palabras con una precisión del 91,28 por ciento y adivinar el género de los hablantes con una precisión del 99,67 por ciento.

Por supuesto, esto podría ser una pesadilla de ciberseguridad, si las personas con intenciones nefastas pueden escuchar lo que se dice en imágenes fijas y videos en los que no se capturó (intencionalmente) ningún audio. El equipo intentó abordar soluciones, incluidos resortes más fuertes, lentes de bloqueo y aleatorización de la forma en que la persiana captura los píxeles.

Sin embargo, en última instancia, el equipo está más interesado en cómo se podría utilizar el audio extraído en casos legales.

"Tal vez haya una coartada y la admitan ante el tribunal y alguien quiera demostrar que alguien estuvo o no allí", dijo Fu. "Es posible que puedas utilizar esta técnica si tienes un vídeo autenticado con una marca de tiempo conocida para confirmar de una forma u otra. Si escuchas la voz de la persona, es muy probable que esté allí".


El estudio está publicado en el servidor de preimpresión arXiv y se presentó en el Simposio IEEE sobre Seguridad y Privacidad de 2023.

0/Post a Comment/Comments

Artículo Anterior Artículo Siguiente