El pasado 20 de octubre, el mundo amaneció con miles de páginas web y aplicaciones de toda índole inaccesibles. Amazon Web Services (AWS), el mayor proveedor de servicios en la nube a escala global, había sufrido una caída generalizada que, durante varias horas, consiguió paralizar desde la venta de entradas para conciertos a operaciones bancarias, pasando por algunos videojuegos tan populares como Fortnite o herramientas de inteligencia artificial como Perplexity.
Este incidente, uno de los más graves en cuanto a sus implicaciones jamás registrados en el terreno de la nube pública, sigue pesando en la industria. Máxime cuando, en los días siguientes, algunos de los rivales de AWS también se sumaron a esta particular lista de caídas de servicio. Muchas voces no tardaron en dudar de la dependencia extrema que tenemos en terceros, especialmente de procesos críticos, como recogimos en DISRUPTORES - EL ESPAÑOL
Ahora, más de un mes después, este mismo medio ha podido sentarse con Sergio Loureiro, el vicepresidente global de Operaciones y Centros de Datos de AWS. O, en otras palabras, el máximo responsable de asegurar que sus servicios en la nube funcionan en todo momento y cumplen con la promesa dada a los clientes de una disponibilidad del 99,9999% al año.
“Tuvimos un incidente en nuestro servicio DynamoDB, un problema de DNS”, reconoce Loureiro. “En cuanto lo detectamos, en las dos horas siguientes ya habíamos resuelto la mayoría de los problemas para nuestros clientes”. Aun así, admite que la recuperación total tardó más tiempo: “Solucionarlo por completo llevó unas horas más”.
Todo ello ya era público: un error en la plataforma DynamoDB derivó en un problema masivo de resolución DNS en la región US-EAST-1 (localizada en Virginia, Estados Unidos) y, finalmente, dejó sin servicio a miles de aplicaciones durante horas. Eso se debió a que el fallo inicial de DynamoDB provocó la inestabilidad de otros componentes fundamentales para el “control, identidad y monitorización de las plataformas empresariales”, como IAM, SQS, Lambda y EC2.
En ese sentido, el directivo insiste en que la compañía actuó con absoluta transparencia: “Fuimos muy claros sobre la causa raíz. Explicamos exactamente qué pasó y qué estábamos haciendo para proteger a los clientes y protegernos a nosotros mismos de cara al futuro”. La metodología interna es estricta al respecto: “En 12 horas debemos tener un informe inicial que codifique todos los aprendizajes, y en 24 horas, la base de la causa raíz y de las acciones correctoras”.
A pesar del incidente -que afectó a la región “más grande que tenemos en el mundo”, como él mismo recalca una y otra vez-, Loureiro mantiene una convicción absoluta en los centros de datos que lidera: “Sigo creyendo que somos la nube con la mayor fiabilidad del planeta”.
Sergio Loureiro, vicepresidente global de Operaciones y Centros de Datos de AWS, tras su entrevista con DISRUPTORES - EL ESPAÑOL en Las Vegas.
Ante la pregunta de si la caída puede generar dudas a futuro en los clientes, Loureiro sale al ataque: “Sigo creyendo que la nube es la opción más fiable para lograr seis nueves de disponibilidad, persiguiendo la excelencia operativa. Nosotros podemos ofrecer una combinación única de sistemas, equipos, telemetría, políticas globales y formación humana”
La paranoia por norma
En cualquier caso, gestionar la enorme maquinaria que sostiene a AWS no es sencillo. A Sergio Loureiro (exdirectivo de Microsoft, Carrier Global y Pratt & Whitney) ya se le anticipa un carácter obsesivo por los detalles, incluso en la breve conversación que mantenemos con él durante el evento ReInvent de la firma en Las Vegas.
Tan evidente es este rasgo de personalidad que él mismo hace gala de ello: “Soy paranoico con el rendimiento operativo, y exijo paranoia a mi equipo”. En AWS, dice, el manera es anticipar, identificar y evitar fallos: “Intentamos entender qué puede fallar, detectar y prevenir, tener telemetría que permite adelantarnos antes de que ocurra algo”.
Esa combinación de ingeniería, automatización y talento humano es, para él, irrenunciable y la base para evitar futuras caídas como la vivida en octubre. “Tenemos uno de los mejores programas de formación en operaciones de la industria”, afirma a este medio. “Probamos a la gente constantemente, ejecutamos escenarios de fallo para que, si algo va mal, el equipo pueda recuperarlo rápido”.
Y, a modo de sentencia, resuelve el asunto sacando pecho de su trabajo y el de su equipo: “Los operadores de centros de datos tenemos un ADN especial. Trabajamos bajo presión, pero siempre pensando en el impacto al cliente y en la seguridad. Operamos de forma segura o no operamos”.
Un principio, concluye, que es innegociable: “Si hay cualquier riesgo, la gente tiene autoridad para parar. Prefiero que detengan la operación antes de actuar sin mitigarlo”. Una presión que se compensa con algo más hondo: “Tenemos el orgullo de formar parte de una transformación única en la historia de la humanidad”.
