Publicada

Los beneficios que trae consigo la inteligencia artificial son muchos, pero también trae consigo muchas implicaciones. Algunos creen que da más poder a los seres humanos, mientras que otros ya vaticinan un absoluto apocalipsis próximo. Ya hay quien promete usarla para escuchar conversaciones telefónicas.

Investigadores de ciencias de la computación de Penn State han lanzado un curioso estudio en el que demuestran cómo han podido 'traducir' las vibraciones producidas por el auricular de un teléfono moderno y convertirlas en una conversación en forma de voz, con un impresionante 60% de precisión.

El estudio, publicado en los portales de Arxiv y en la web de la Asociación de Maquinaria Computacional, ha aprovechado la tecnología de radar de ondas milimétricas usando enteramente la inteligencia artificial. Lo peor es que los hallazgos de los investigadores han demostrado que este sistema funciona a 3 metros de distancia.

Convertir vibraciones de teléfonos en voz

El estudio ha sido firmado por el estudiante de doctorado Suryoday Basak y su profesor asociado Mahanth Gowda. Según la propia web del Penn State, los hallazgos publicados en los Proceedings of WiSec 2025 revelan esta preocupante precisión del 60%.

El método no es especialmente complejo. Los investigadores aprovecharon una versión modificada y adaptada para el estudio del modelo de reconocimiento de voz de Whisper de OpenAI, y se valieron de sensores de radar de ondas milimétricas accesibles a nivel comercial.

Llamada de número oculto. Chema Flores Omicrono

El Penn State relata cómo el equipo adaptó los sensores (de nuevo, dispositivos fáciles de comprar y accesibles en el mercado online) y los conjuntó con redes inalámbricas y sistemas de detección de movimiento. Una investigación, por cierto, que cuenta con el beneplácito de la Fundación Nacional de Ciencias de Estados Unidos.

La idea era recoger las microvibraciones que realizan los altavoces de los smartphones que se usan para las llamadas, captando vibraciones de apenas siete micrómetros. También desarrollaron técnicas para aislar dichas vibraciones del ruido ambiental circundante.

Este conjunto de sensores y tecnología 5G pudo detectar estas vibraciones producidas por el auricular de un teléfono en conversaciones. El sistema, apodado como Wireless-Tap, puede detectar oraciones completas de hasta 10.000 palabras, siendo capaz de transcribir conversaciones íntegras.

Todo ello con un conjunto de dificultades difíciles de superar. Según el equipo de Basak y Gowda, el audio que podían extraer de estas vibraciones tenía relaciones señal-ruido extremadamente bajas, en niveles que se situaban por debajo de los 5 decibelios.

Llamada telefónica. @taylor_grote en Unsplash

No solo eso; ese audio contenía una información de frecuencia limitada. Los sistemas de reconocimiento estándar integran un umbral por el cual a partir de ciertos niveles pueden extraer dicha información; el sistema no conseguía alcanzar dicho umbral.

La técnica usada por el equipo del Penn State, la "adaptación de rango bajo", les permitió adaptar Whisper especializándolo en esta clase de datos de radar. Todo ello únicamente reentrenando el 1% de los parámetros del propio modelo.

Para compensar una falta de conjuntos de datos a gran escala (algo común en esta clase de campos emergentes de investigación), los investigadores generaron además datos de entrenamiento sintéticos de audio-radar.

En palabras de Basak, el objetivo era capturar las vibraciones que usualmente ignoramos "usando radares remotos", incorporando además "aprendizaje automático para ayudarnos a aprender lo que se está diciendo, usando pistas de contexto", y así transcribir conversaciones.

Llamada telefónica. @jim_reardan en Unsplash

El resultado fue brutal: una iniciativa que en 2022 tan solo podía identificar apenas 10 palabras ahora puede transcribir una conversación integral, usando únicamente estas vibraciones. Los expertos hablan de un rendimiento próximo al 60% en su tasa de precisión.

Por supuesto, las implicaciones que presenta este experimento para con la privacidad y la seguridad son tremendas, en el lado más negativo de la palabra. De hecho, sobre el papel, se podría llegar a usar incluso para crear herramientas de vigilancia estandarizadas.

Consciente de ello, Basak y su equipo equiparan a Wireless-Tap con los sistemas de lectura de labio, aunque con un ratio de éxito sustancialmente mayor. Mientras que los sistemas tradicionales solo alcanzan el 30 o el 40%, este llega al 60%.

El objetivo de toda esta investigación precisamente es comprobar si la explotación de estas herramientas puede dar lugar a herramientas que sean usadas por "actores maliciosos" para "espiar conversaciones telefónicas".

Montaje de una llamada de un hacker. N.C. Omicrono

El investigador lamenta que siempre y cuando se den ciertas condiciones, "es técnicamente factible". Tanto es así, que Basak espera que estos resultados abran los ojos a muchos en la opinión pública, haciendo que las personas "puedan ser más conscientes durante llamadas sensibles".

Si bien es cierto que la investigación se engloba en un momento de máxima tensión respecto a la privacidad y el potencial daño que puede causar la IA en esta materia, lo cierto es que es difícil pensar en un sistema automatizado invisible o compacto que permita algo así, al menos en este momento.