Fotomontaje inspirado en Cloudflare

Fotomontaje inspirado en Cloudflare Manuel Ramírez

Noticias y novedades

Cloudflare explica la caída que paralizó parte de internet y dejó fuera de servicio a ChatGPT, X, League of Legends y otros

Un día para recordar y que dejó un sabor de boca similar al de AWS de hace un mes, cuando sufrió una caída masiva, dejando paralizado a medio internet.

Más información: La web de ChatGPT vuelve a estar disponible en España tras la caída de Cloudflare que se ha sentido en todo el mundo

Publicada

ChatGPT en su versión web al igual que X (antes Twitter) o juegos multijugador online como League of Legends y otros muchos servicios simplemente no funcionaban. Hace unas horas Cloudflare ha publicado una explicación de lo sucedido.

Matthew Prince, cofundador y CEO de Cloudflare, publicó en el blog de la compañía los detalles sobre la causa de "su peor interrupción desde 2019" atribuyendo el problema a un fallo en el sistema de gestión de bots.

Este sistema se encarga de controlar qué rastreadores automatizados tienen permiso para escanear sitios web específicos que utilizan su CDN.

CDN son las siglas de Content Delivery Network, y es justamente el beneficio de usar Cloudflare gracias a un grupo de servidores interconectados y distribuidos geográficamente que trabajan juntos para entregar contenido de Internet de manera rápida y segura.

Si tienes una web en Brasil y quieres que un usuario en la otra punta del planeta la cargue igual de rápido que una persona en el país, Cloudflare se encarga de ofrecer esta experiencia.

Imagen de error de Cloudflare

Imagen de error de Cloudflare Cloudflare

Cloudflare, según The Verge, señaló el año pasado que cerca del 20 % de la web pasa por su red, la cual debería distribuir la carga para mantener los sitios web online ante picos de tráfico y ataques DDoS.

Lo único es que la caída de ayer desconectó a muchos de ellos, llevándose por delante a X e incluso la web de ChatGPT, a la que se conectan millones de usuarios para acceder al chatbot con IA de OpenAI.

Volumen de códigos de estado HTTP de error 5xx servidos por la red de Cloudflare

Volumen de códigos de estado HTTP de error 5xx servidos por la red de Cloudflare Cloudflare

Medio internet paralizado con un sabor a lo que sucedió con AWS hace justo un mes y que tuvo las mismas consecuencias, dejando a Fortnite e incluso Alexa de Amazon sin servicio, entre muchas otras plataformas, servicios y webs.

Lo peculiar de esta caída es que está relacionada con el sistema que se encarga de controlar qué rastreadores automatizados tienen permisos para escanear sitios web.

Y son justamente los que tienen como objetivo abordar problemas como el raspado de información por parte de rastreadores para entrenar a la IA generativa.

Es conocido que las compañías de IA utilizan todo tipo de técnicas para saltarse los "muros" que levantan los sitios web para impedir que extraigan el texto para entrenar a sus LLMs (Modelos de Lenguaje Grandes).

Que no se vuelva a repetir

Cloudflare anunció recientemente un sistema que utiliza la IA generativa para crear lo denominado como "AI Labyrinth", un nuevo enfoque de mitigación que emplea contenido generado por IA para ralentizar, confundir y malgastar los recursos de los rastreadores de IA y otros bots.

De todas formas, la compañía afirma que los problemas de ayer tuvieron que ver con los cambios en el sistema de permisos de la base de datos, y no con esta tecnología de AI generativa, ni con el DNS, ni lo que Cloudflare, en un principio, sospechó como un posible ciberataque.

La clave para la caída masiva de más servicios se debió a que las compañías que utilizaban las reglas de Cloudflare para bloquear ciertos bots arrojaron falsos positivos y cortaron el tráfico real, mientras que los clientes de Cloudflare que no usaban la puntuación de bots generada en sus reglas, se mantuvieron online.

Cloudflare tiene ya cuatro planes para que este problema no vuelva a ocurrir: reforzar la seguridad en la carga de archivos internos de configuración, implementar más interruptores de emergencia globales, evitar que los informes de error saturen los recursos y revisar los modos de fallo en todos los módulos de proxy centrales.