Desde Estados Unidos hacia todo el mundo, un problema en Amazon Web Services (AWS), más concretamente en su servicio DynamoDB, provocó ayer la caída de cientos de páginas web y herramientas populares. Estas van desde el videojuego Fortnite, hasta servicios de productividad como Trello, Dropbox o Zoom, pasando por aplicaciones bancarias como las de BBVA o Santander o la plataforma de inteligencia artificial Perplexity.
El impacto es de una gran magnitud debido a que AWS es el primer espada global de los servicios cloud. Los números así lo avalan, ya que en el segundo trimestre de este año copaba alrededor del 30% del mercado, según datos de diferentes consultoras, seguido de Microsoft Azure (20%) y Google Cloud (12%). Estas cifras dan cuenta del dominio que tienen estos tres grandes proveedores de servicios en la nube en el funcionamiento cotidiano de internet.
Y como derivada de todo lo anterior, alrededor de las 8:40 de la mañana del lunes en el horario peninsular, España también empezó a sufrir consecuencias visibles en el acceso tanto a estas plataformas de consumo masivo como corporativo. Un fenómeno que exportó las ralentizaciones severas y la indisponibilidad de servicios en sectores clave, según comenta Marc Isnert, analista de Penteo, a DISRUPTORES – EL ESPAÑOL.
La presencia del hiperescalar de la nube en el territorio nacional va en consonancia con el resto del globo. De hecho, aquí destaca por una gran apuesta: la inversión de 15.700 millones de euros para la expansión de la región cloud que inauguró en Aragón el pasado 2022. Con esto, pretende contribuir con unos 21.600 millones de euros al PIB local para 2033.
A ojos de Isnert, el suceso encierra una dura pero también valiosa lección: hay una "excesiva dependencia de terceros" y una falta de planificación sobre la resiliencia. “La nube es la herramienta, no el sustituto de la estrategia; la responsabilidad última de la continuidad del negocio recae sobre las empresas que contratan los servicios”.
Una historia de interdependencia
DISRUPTORES - EL ESPAÑOL se ha puesto en contacto con la filial local de AWS, que remite a la página web oficial que proporciona el estado a tiempo real de la caída y a las acciones que se están llevando a cabo para solucionar el problema. De hecho, sobre las 11 de la mañana ya publicó indicios de mejora para poco más tarde reportar una “recuperación en la mayoría de las prestaciones afectadas”.
El fallo inicial de DynamoDB provocó la inestabilidad de otros componentes fundamentales para el “control, identidad y monitorización de las plataformas empresariales”, como IAM, SQS, Lambda y EC2.
Se trata de un efecto cascada basado en el error de soluciones interdependientes que pone de nuevo sobre aviso la estrecha relación que las compañías tienen con los principales jugadores de nube.
“Hay una vulnerabilidad sobre la que pivota la estrategia de infraestructura digital de nuestro país”, dice el analista. Esta, prosigue, se ha podido medir durante el evento en dos dimensiones.
Por una parte, y en el corto plazo, en la productividad operacional y la pérdida de transacciones. Los sectores más afectados han sido el comercio electrónico y los servicios financieros con alta exposición digital. “La incapacidad para acceder a servicios web y a bases de datos y analítica normalmente se traduce en pérdida inmediata de ingresos por operaciones no realizadas y en un receso de la productividad laboral.
Echando un vistazo al medio plazo, la interrupción daña la percepción de fiabilidad de las empresas ante sus clientes. “En un mercado altamente competitivo, el coste de la desconfianza puede llegar a ser más alto que las consecuencias transaccionales de un día”.
Errores estructurales
“En su proceso de digitalización, las compañías han externalizado no solo la infraestructura, sino también la resiliencia”, asevera Isnert. “Han trasladado la complejidad pero no han mitigado el riesgo, y el incidente cuestiona un supuesto extendido y pone de relieve una composición estructural crítica”.
Para el experto, todavía existe el mito de la resiliencia automática en la nube. Pero, operar en múltiples regiones no garantiza continuidad si los servicios fundamentales se concentran en un único punto. Asimismo, se destapa la evidencia de que la concentración del riesgo en un hiperescalar provoca que cualquier fallo mayor se convierta en una vulnerabilidad de infraestructura.
“Este suceso debería servir de catalizador para que los CIOs replanteen su enfoque”, indica. En primer lugar, deberían desplegar y operar los servicios más críticos en múltiples zonas de disponibilidad o regiones geográficas e implementar una estrategia multinube real. “No se trata de tener dos proveedores para todo, sino de utilizar un segundo hiperescalar como plan de contingencia”.
Por último, han de identificar y aislar los servicios críticos de la dependencia del plano de control central utilizando herramientas de gestión de identidad y monitorización descentralizadas.
Una vez se recupere la normalidad por completo, concluye, las empresas deben evitar la reacción superficial de buscar otro proveedor: “Sustituir un hiperescalar por otro solo cambia de lugar el riesgo”.
