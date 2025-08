La rapidísima proliferación de las inteligencias artificiales en España tiene un precio. Meta ya anunció que entrenaría sus IAs con contenido público, e incluso Microsoft justificó que cualquiera pudiera robar y copiar el contenido de Internet. Perplexity ya ha sido acusada de esto en un nuevo informe.

La firma detrás del famoso chatbot rival de ChatGPT ha sido acusada en varias ocasiones de hacer un proceso llamado scraping, consistente en rastrear y extraer de forma automática contenidos de Internet, independientemente de si estos los permiten o no.

La empresa Cloudflare ha presentado un demoledor estudio en el que acusan directamente a la startup de realizar este procedimiento incluso en páginas web protegidas, que bloquean el scraping de las IA, mediante rastreadores ocultos para evitar ser detectados.

Perplexity se oculta a la hora de robar contenido

El informe no deja lugar a la imaginación con su título: Perplexity utiliza rastreadores ocultos y no declarados para evadir las directivas de no rastreo de sitios web. En sus pruebas descubrieron que una vez Perplexity se encuentra con un bloqueo de red, oculta su identidad de rastreo para eludir los bloqueos.

Básicamente, cuando un servidor niega el acceso automatizado de sistemas de scraping e incluye reglas específicas para bloquear los rastreadores públicos de Perplexity, estos actúan de todos modos.

"Observamos que Perplexity utiliza no solo su agente de usuario declarado, sino también un navegador genérico diseñado para suplantar la identidad de Google Chrome en macOS cuando su rastreador declarado fue bloqueado", escriben en Cloudflare.

"Tanto sus rastreadores declarados como los no declarados intentaban acceder al contenido para realizar scraping, infringiendo las normas de rastreo web descritas en la RFC 9309". Parte de sus esfuerzos se basaban en rastreadores ocultos.

Aravind Srinivas, CEO y cofundador de Perplexity.

Dichos rastreadores usaban múltiples IP que "no figuraban en el rango oficial de IPs de Perplexity, y rotaba entre ellas en respuesta a la restrictiva política de robots.txt y al bloqueo de Cloudflare".

No solo eso; además de esta rotación, pudieron observar numerosas solicitudes provenientes de diferentes ASN "en un intento más de evadir los bloqueos de sitios web. Esta actividad se observó en decenas de miles de dominios", relata Cloudflare.

El titánico proveedor asegura haber recibido quejas de clientes que informaron de esta situación, alegando que pese a sus bloqueos para acabar con el scraping, Perplexity pudo acceder a dichos sitios.

Es aquí donde entra en juego el archivo robots.txt, un archivo de texto plano que se sitúa en el directorio raíz de un sitio web y que sirve para comunicarse con los bots rastreadores de los motores de búsqueda para indicarles qué partes del sitio pueden o no rastrear.

Pruebas de Cloudflare. Cloudflare Omicrono

Podríamos decir que este conjunto de directrices sirve como método para decirle a los motores de búsqueda qué partes de un sitio se pueden indexar o no. Este enumera las preferencias de un sitio web para determinar el comportamiento de estos bots.

Los clientes de Cloudlfare denuncian que Perplexity y sus rastreadores accedieron a su contenido pese a la creación de reglas WAF para restringir el acceso a sus bots y especificar claramente la negativa al scraping en el archivo robots.txt.

Respuesta de Perplexity. Cloudflare Omicrono

En sus pruebas, el proveedor creó dominios adquiridos recientemente y que no se habían hecho siquiera públicos, por lo que no estaban siquiera indexados en motores de búsqueda. Los ingenieros probaron a consultar al chatbot sobre estos dominios.

"Descubrimos que Perplexity seguía proporcionando información detallada sobre el contenido exacto alojado en cada uno de los dominios restringidos", aclara Cloudflare. "Habíamos tomado todas las precauciones necesarias para evitar que sus rastreadores pudieran recuperar esos datos".

Por si fuera poco, al ser preguntado por estos dominios en referencia al archivo robots.txt, Perplexity aseguró no tener un archivo "accesible" de este estilo. "Los intentos para acceder al archivo en la localización estándar [URL] muestran que está perdido o es inaccesible", respondió Perplexity.

La respuesta de Cloudflare ha sido eliminar a Perplexity de la lista de bots verificados, además de "añadir heurísticas a nuestras reglas gestionadas que bloquean este rastreo oculto".

De izquierda a derecha: Óscar Candiles, Chief B2C Officer de Telefónica España, y Aravind Srinivas, CEO y cofundador de Perplexity. Telefónica

Perplexity ya ha respondido esta vez en el medio The Verge, negando totalmente estas acusaciones. La startup de IA califica este informe como "truco publicitario" y detalla cómo, a su juicio, existen "malentendidos" en la información prestada por el proveedor.

No es la primera vez que la empresa gestionada por el CEO Aravind Srinivas se encuentra en una polémica así. En 2024, un grupo de medios de comunicación incluyendo a WIRED acusaron directamente a Perplexity de ignorar los protocolos de exclusión de bots.

En ese entonces, Srinivas achacó este hecho a un proveedor externo dedicado a este proceso de scraping, asegurando que se había producido "un malentendido básico" sobre el funcionamiento del rastreo web. Desde entonces, Perplexity ha negado todas las acusaciones de robo de contenido.