Montaje de un analista de datos

Montaje de un analista de datos C.F. / Gemini Omicrono

Tecnología

El valor de los datos personales en la era de la IA: por qué no deberíamos 'regalarlos' y para qué los quieren las tecnológicas

Diversos estudios señalan la facilidad con la que las empresas recaban más datos de los necesarios y los usan para entrenar a sus modelos.

Más información: Escándalo con ChatGPT: revelan conversaciones privadas filtradas y cuentas expuestas

Publicada

"Si el producto es gratis, el producto eres tú". Esta célebre frase se atribuye al artista Richard Serra, que la usó en 1973 en una videoinstalación que criticaba la manera en la que la televisión se había 'rendido' ante la publicidad. Su lectura actual es mucho más siniestra, rodeados como estamos de dispositivos tecnológicos que lo saben todo de nosotros, hasta el punto de adelantarse a nuestros deseos.

José María Álvarez-Pallete, economista y expresidente de Telefónica, lo dejó claro durante su intervención en el ciclo de conferencias 'La libertad en el siglo XXI' organizado por El Español y la Universidad Camilo José Cela. "Hoy en día hay casi 30.000 millones de dispositivos conectados a Internet. Esto sigue creciendo cada vez más y cada persona genera unos 84 gigas al día".

De hecho, los estudios más recientes revelan que esa cifra se queda incluso corta: nuestra actividad en redes sociales, búsquedas en Internet, las transacciones digitales y los dispositivos IoT (Internet de las Cosas) implica la generación de 1,7 MB de datos por segundo, lo que equivaldría a unos 146 GB cada 24 horas.

¿Valoramos suficientemente esos datos? Todo apunta a que no. Ya sea por pereza, por omisión o por malas prácticas de las tecnológicas (o una mezcla de los tres), los 'regalamos' alegremente sin recibir más compensación que poder utilizar servicios que van desde navegar por Internet o usar las redes sociales hasta ver los canales de la TDT. El problema es que detrás de esta cesión constante de nuestros datos se esconde un sistema opaco y con numerosos riesgos para la privacidad.

Es un problema que ha aumentado exponencialmente desde la llegada de la IA generativa, no sólo desde el punto de vista del usuario, que puede compartir sin saberlo datos personales muy sensibles, sino también desde el de las compañías, que usan esa misma tecnología para realizar perfiles cada vez más precisos y valiosos de nosotros y nuestros hábitos de consumo.

El mercado de los datos

"Hay un mercado secundario de nuestros datos y nosotros no sabemos lo que valen", señalaba el propio Álvarez-Pallete durante su conferencia. "Jamás toleraríamos que los carteros leyeran nuestras cartas, pero sin embargo toleramos que se lean nuestros emails. Y no es porque haya alguien leyendo cada uno de los emails, es porque hay una máquina entrenándose con el contenido de nuestros emails".

En otras palabras, estamos aceptando cookies, cambios en las condiciones de servicio y cláusulas abusvias por parte de las tecnológicas por encima de nuestras posibilidades... y sin ser conscientes de las consecuencias.

Mando a distancia de un televisor Smart TV

Mando a distancia de un televisor Smart TV Erik Mclean | Unsplash El Androide Libre

Anna Maria Mandalari, profesora del University College London e investigadora en el Imperial College, lleva años estudiando las implicaciones en materia de privacidad y la exposición de la información procedente de los dispositivos IoT (Internet de las Cosas). En sus investigaciones se ha centrado en aparatos como las Smart TV, pero muchas de las conclusiones son también aplicacbles a dispositivos aparentenmente 'inocentes' como termostatos, bombillas y hasta neveras.

“Los dispositivos del hogar envían de forma continuada metadatos de red, identificadores, patrones de uso y telemetría a fabricantes, plataformas cloud y terceros publicitarios, y una parte significativa de ese tráfico es 'no esencial': se puede bloquear sin romper el dispositivo”, explica Mandalari a EL ESPAÑOL-Omicrono.

Nevera Bespoke AI de Samsung

Nevera Bespoke AI de Samsung Jacinto Araque El Androide Libre

Así, señala la investigadora, el valor económico real para las tecnológicas está en cómo utilizan esos datos para obtener “perfiles de comportamiento, optimización de productos, entrenamiento de modelos de IA, posicionamiento en el mercado, ajuste fino de precios y de campañas”.

En el caso de las Smart TV con ACR (siglas en inglés de Reonocimiento Automático de Contenido), que son la mayoría de los que actualmente se pueden encontrar en el mercado, "envían datos sobre qué ve el usuario, patrones temporales y atributos del dispositivo, lo que permite a fabricantes y plataformas construir perfiles muy precisos de consumo audiovisual, que se utilizan para segmentación, acuerdos comerciales con proveedores de contenido y optimización de oferta y precios".

Así, "la mayoría de usuarios no sabe que cada cambio de canal o app genera tráfico perfilable", pero cada vez que hacen zapping, una o varias empresas reciben una gran cantidad de datos que permiten identificar patrones con una altísima precisión

El 'coladero' de las apps móviles

Ese flujo constante de datos personales de los usuarios a las compañías no se detiene cuando salimos de casa. En algunos casos, se multiplica. Y en eso tienen un papel protagonista los teléfonos móviles y el 97% de sus aplicaciones (al menos en Android), que recopilan y aprovechan muchos más datos de los que necesitan para funcionar y no cuentan con el nivel adecuado de transparencia.

Así lo afirma David Rodríguez Torrado, profesor de la ETSI de Telecomunicación de la Universidad Politécnica de Madrid (UPM) y uno de los impulsores de AutoGPDR, un repositorio online donde se puede comprobar el cumplimiento del Reglamento General de la Protección de Datos (RGPD) europeo por parte de las apps Android.

Los datos recopilados por las aplicaciones, en la mayoría de los casos, terminan en manos de un pequeño grupo de grandes empresas tecnológicas. Y eso, sin entrar en si los usos que hacen de ellos sean legítimos o abusvios, ya implica una serie de riesgos.

Mujeres consultando una app de citas

Mujeres consultando una app de citas Unplash Omicrono

“El primero es que cuanta más información acumulan, más precisos y completos pueden ser los perfiles que elaboran sobre cada persona, lo que les permite anticipar comportamientos, influir en decisiones o condicionar el acceso a determinados servicios o contenidos”.

La consecuencia más directa es “una gran asimetría de poder, porque los usuarios apenas tienen capacidad real de controlar qué se hace con sus datos ni de entender el alcance de las inferencias que pueden realizarse sobre ellos”.

El segundo riesgo, señala Rodríguez Torrado, es estructural. “Cuando solo unas pocas empresas concentran los principales flujos de datos globales, se refuerzan posiciones dominantes que dificultan la competencia y reducen la diversidad del ecosistema digital”. Eso convierte este flujo constante y masivo de datos en “un reto de soberanía digital y de supervisión”.

Los que entran a través de embudos, tan gigantescos como invisibles, en compañías como Google, Meta o Amazon, se utilizan en algunos casos para ofrecer un mejor servicio y mantener al usuario dentro de su propio ecosistema. Pero la tendencia que se lleva la palma en los últimos años es el uso de esos datos para alimentar la voracidad insaciable de los modelos de inteligencia artificial.

Entre las consecuencias positivas, eso se traduce en “mejorar la precisión de sus sistemas de recomendación, desarrollar nuevas funciones o incluso crear productos completamente nuevos basados en esos modelos”. Pero tiene efectos secundarios que pueden ser muy perjudiciales para los usuarios, como la fijación dinámica de precios, que partió de servicios de VTC y la venta de billetes de avión pero amenaza con llegar a todas partes, como las entradas de los conciertos.

Las compañías no se limitan a analizar datos básicos, recuerda el profesor de la UPM, “sino que combinan información procedente de muchas fuentes (ubicación, hábitos de consumo, redes sociales o dispositivos conectados) para inferir comportamientos, intereses e incluso rasgos emocionales”.

Eso supone que algunos de estos modelos sean capaces de “anticipar lo que como usuarios podríamos hacer o desear, haciendo que la segmentación sea mucho más precisa. El problema es que esa capacidad de predicción reduce nuestro control sobre nuestra propia información y amplía el riesgo de usos opacos o discriminatorios de los datos”.

Para muchos usuarios, la IA es esa consulta a ChatGPT para que te de una receta o divertirse con el descacharrante vídeo de animales compitiendo en los JJOO. Sin embargo, la misma tecnología que está detrás de esos avances está aumentando la capacidad de las empresas para obtener y procesar datos personales.

Logo de ChatGPT en la pantalla de un teléfono móvil.

Logo de ChatGPT en la pantalla de un teléfono móvil. Reuters

“En nuestra investigación", señala Mandalari, "mostramos cómo varias extensiones de IA para navegadores capturan la página completa, el historial de navegación, y en algunos casos incluso campos de formulario, incluyendo datos de salud, expedientes académicos o números de la seguridad social, y los envían a sus servidores y a terceros como Google Analytics”.

¿Qué podemos hacer?

Esta gigantesca bola de nieve de los datos, cada vez más y más grande, se suma a “la falta de conocimiento sobre privacidad y protección de datos”, denuncia Rodríguez Torrado. Y eso no sólo recae en el lado de las empresas, sino también en el del usuario. “Muchas veces no somos conscientes, y a veces no queremos serlo. Pero sobre todo, no nos damos cuenta de lo que se puede llegar a lograr saber de una persona sólo en base a sus datos personales”.

“Aunque la carga no debería recaer en el usuario”, recuerda Mandalari, hay medidas eficaces inspiradas en varias de sus investigaciones. Entre otras soluciones, recomienda segmentar la red doméstica, colocando los dispositivos IoT en una red separada, “para limitar el impacto de compromisos y reducir correlaciones con dispositivos personales”.

Otro de los pasos imprescindibles es configurar y revisar las opciones en cada dispositivo, como desactivar el ACR en la Smart TV, limitar la telemetría, la geolocalización y las mejoras de producto, auténticos 'caballos de Troya' de todo tipo de prácticas abusivas.

En un futuro, lo ideal sería utilizar gateways y filtros de tráfico, “soluciones inspiradas en nuestro trabajo que permiten identificar y bloquear tráfico no esencial, reduciendo la fuga de datos hacia terceros”. Aunque a día de hoy son solo prototipos, “el principio técnico está validado”.

Como consejo final a los usuarios, Torrado considera una buena práctica “evitar dar todo dato que no sea ‘obligatorio’”. Y sí, a veces resulta engorroso, o directamente ni nos fijamos, pero hay que tener especial atención con los datos biométricos (huella dactilar, rostro, etc). En esos casos, subraya el investigador, “deberíamos priorizar aquella opción que menos información nuestra aporte”.