Jesús Molina, Head of Partners de Dojo en España.

Jesús Molina, Head of Partners de Dojo en España.

Opinión la tribuna

Resiliencia tecnológica o cómo superar el próximo gran fallo IT

Jesús Molina
Publicada

El apagón informático mundial que tuvo lugar el 19 de julio de 2024 fue un recordatorio de la fragilidad que tiene que la infraestructura tecnológica sea la columna vertebral de la economía global. El origen fue un fallo masivo en dispositivos con sistema operativo Windows causado por una actualización defectuosa del software de ciberseguridad de CrowdStrike. El resultado, que durante varias horas la red de servicios básicos de medio mundo quedó paralizada.

Los servicios sanitarios se ralentizaron hasta niveles críticos siendo imposible acceder a las historias clínicas electrónicas, las plataformas de gestión de citas o las herramientas de diagnóstico dependientes de Internet. En el sector del retail se vieron afectadas otras funcionalidades como los seguimientos de inventarios, los pedidos online o las entregas de productos a domicilio.

Además, más de 39.000 vuelos experimentaron retrasos y más de 4.400 cancelaciones, según estima FlightAware. Unos datos que ponen en relieve el impacto colosal de esta incidencia y que pusieron sobre la mesa una verdad incómoda: un solo punto de fallo en la infraestructura global es capaz de generar un efecto dominó con consecuencias impredecibles.

La dependencia generalizada de la economía y la sociedad en programas informáticos, servicios en la nube y conectividad a Internet ha generado una concentración de riesgos sin precedentes. Vivimos un momento en el que las empresas con servicios anclados a proveedores externos pueden verse paralizadas si estos sufren una caída.

Frente a la extrema interconectividad del ecosistema digital, contar con una tecnología a prueba de caídas se ha convertido en una necesidad crítica para el tejido empresarial. Cada vez más compañías invierten capital en asegurar la estabilidad de su sistema IT. De acuerdo con MarketsandMarkets, a nivel mundial el negocio generado por la protección de infraestructuras críticas crecerá hasta los 162.000 millones de dólares para 2027. Un aumento del 13 % si se compara con los 143.000 millones de 2023.

No obstante, hay quien todavía subestima los riesgos de los fallos en la infraestructura, dejando sin atender sus vulnerabilidades. En este sentido, aunque las interrupciones del servicio de TI se pueden deber a infinidad de motivos, las causas más comunes son tres: problemas de hardware relacionados con nuevas instalaciones o con componentes que han llegado al final de su vida útil; problemas de software asociados a fallos producidos por archivos dañados, configuraciones erróneas o incompatibilidad entre programas o sistemas operativos; y errores humanos como los accidentes.

En cualquiera de estos casos, si algo quedó claro tras lo que ocurrió el verano pasado es que las organizaciones necesitan reforzar sus estrategias de resiliencia tecnológica con medidas concretas, reales y efectivas.

En primer lugar, identificando y eliminando los puntos de único fallo. Un aspecto en el que la diversificación de proveedores, tener sistemas de recuperación ante desastres y una estrategia de failover bien diseñada, son garantía para tener una alta disponibilidad del sistema. En un entorno multinube, ser capaz de migrar cargas de trabajo entre varias plataformas marca la diferencia entre mantener la operatividad o sufrir un parón total.

Una segunda prioridad es implementar procesos sólidos de gestión de cambios para reducir al mínimo la probabilidad y el alcance de incidentes. A este respecto, muchas de las interrupciones en el servicio están relacionadas con cambios en la infraestructura o en el software. Implantar procedimientos de prueba rigurosos, despliegues graduales y una monitorización avanzada puede reducir la probabilidad de errores críticos. El uso de la IA y el aprendizaje automático puede jugar un papel clave en la detección temprana de anomalías y la predicción de fallos antes de que se conviertan en incidentes mayores.

Asimismo, se debe profundizar la inversión en manuales de gestión de incidentes que trascienden los simples protocolos de respuesta. Contar con un equipo de TI entrenado en recuperación rápida, sistemas de escalamiento automático y planes de contingencia definidos es esencial para minimizar el impacto de cualquier interrupción. Los ataques cibernéticos, los fallos de software y los colapsos en la infraestructura son inevitables en un mundo digital interconectado. La diferencia entre una crisis manejable y un desastre empresarial pasa por tener una buena preparación.

En la actualidad, ya hay sectores que ya han demostrado que es posible operar con altos niveles de disponibilidad incluso con un colapso tecnológico global. En el mundo de los pagos, donde un segundo de inactividad en el proceso puede derivar en una transacción fallida, un cliente frustrado que abandona la compra y una oportunidad de negocio perdida, la conectividad no es opcional, sino un requisito imprescindible.

Por ello, las fintech que habían apostado por el uso de una arquitectura deslocalizada, con servidores en varios países y sistemas de failover robustos, fueron capaces de seguir operando cuando el resto del mundo encontraba dificultades. Como ocurrió con la caída de Windows en julio de 2024, pero también con las incidencias en el servicio de pagos que vivieron muchos negocios en el Black Friday de 2023.

Sin lugar a duda, el futuro de la estabilidad digital depende de la inversión en tecnología, la disciplina en la gestión de cambios y la capacidad de anticiparse a los riesgos. Seguirá habiendo interrupciones en el servicio, pero solo las organizaciones que desarrollen una infraestructura sólida y una mentalidad resiliente sobrevivirán a las incidencias de un mundo donde la continuidad operativa ya no es un lujo, sino una necesidad crítica.

***Jesús Molina es Head of Partners de Dojo en España.