¿Una llamada de atención para la gestión de riesgos de terceros?

Abordamos la inevitabilidad de las interrupciones informáticas y su impacto en la resistencia de las organizaciones. Comenzando con un estudio de caso sobre el reciente incidente CrowdStrike, exploraremos diversas interrupciones -desde errores humanos hasta ciberataques- y ofreceremos estrategias para reforzar la preparación de su organización.

Andy Fernandez

July 25, 2024

Navegando por las tormentas de las TI: Una serie sobre interrupciones y resistencia organizativa

En el panorama digital actual, la cuestión no es si se producirá una interrupción de TI, sino cuándo. Como hemos visto con el reciente incidente de CrowdStrike, incluso las plataformas globales pueden ser víctimas de interrupciones imprevistas. Ya sea por errores humanos, corrupciones o incluso ciberataques, esto seguirá ocurriendo.

Este artículo del blog es el primero de una serie esencial dedicada a explorar los riesgos de terceros en las diferentes tecnologías en las que confiamos cada uno de nosotros. Y lo que es más importante, nos centraremos en cómo las organizaciones pueden prepararse y protegerse frente a desafíos que van desde el simple error humano hasta los actores maliciosos.

A lo largo de esta serie, nos sumergiremos en varios tipos de incidentes, desde las brechas en la nube hasta los ataques de ransomware en la cadena de suministro. Nuestro objetivo es dotarle de los conocimientos y herramientas necesarios no sólo para capear estas perturbaciones, sino para emerger más fuerte y resistente.

El primer post analiza la reciente interrupción de CrowdStrike como un caso de estudio, utilizándolo como trampolín para discutir temas más amplios sobre el error humano, la gestión de riesgos de terceros y los pasos críticos que las organizaciones deben tomar para prepararse y responder a las interrupciones de TI. Exploramos las tácticas de reparación inmediata, la importancia de los sistemas locales resistentes y las estrategias para evaluar y mejorar su preparación en entornos de nube y SaaS.

Al embarcarnos juntos en este viaje, algunos buenos recordatorios. Con las TI, la preparación no consiste sólo en prevenir catástrofes, sino en crear la capacidad de recuperarse con más fuerza cuando inevitablemente ocurran. Empecemos por desentrañar el incidente de CrowdStrike y las valiosas lecciones que ofrece para organizaciones de todos los tamaños.

Explicación del incidente de CrowdStrike

Los clientes de CrowdStrike que estaban utilizando un sensor Falcon para Windows (versión 7.11 y superiores) experimentaron un fallo del sistema. Esto ocurrió después de que CrowdStrike lanzara una actualización de la configuración del sensor en los sistemas Windows y desencadenara un fallo del sistema y una pantalla azul de la muerte (BSOD) en los sistemas afectados. Esto tuvo un impacto significativo en los sistemas a nivel mundial afectando a las principales compañías aéreas, viajes, hostelería, hospitales, comercio electrónico, y mucho más. No se trató de un ciberataque criminal, sino de un simple error humano. Para una lectura rápida, uno de los muchos sobre el reciente apagón, Chris Evans en Architecting IT, compartió lo siguiente, "Comentario: Infraestructuras críticas y responsabilidad colectiva".

__wf_reserved_inherit

Imagen de la cita del CEO y fundador de HYCU Simon Taylor

Microsoft también ha publicado una guía de reparación para los clientes afectados, "Ayudando a nuestros clientes durante la interrupción de CrowdStrike."

"La mayor interrupción informática de la historia" causada por un error humano

El error humano es inevitable y afecta a todas las organizaciones. Lo que ocurre es que éste se ha producido en un servicio crítico de terceros con cobertura global a millones de ordenadores y sistemas. Sin embargo, este no es el primero ni el último apagón o incidente de terceros que afectará a organizaciones de todo el mundo. La lección aprendida aquí es que debe ser resistente ante cualquier fallo de terceros. He aquí tres pasos que toda organización debería dar:

Paso 1:Asegurar la remediación inmediata

CrowdStrike ya ha publicado una guía y vídeo de remediación para los usuarios remotos afectados por la BSOD. Microsoft también ha publicado una nueva Herramienta de recuperación con dos opciones de reparación para agilizar el proceso de reparación. Sin embargo, asegúrese de que sólo sigue la orientación y las instrucciones de reparación de CrowdStrike y Microsoft directamente, ya que ya estamos viendo cómo los ciberdelincuentes aprovechan este incidente y atacan directamente a los clientes de CrowdStrike.

Paso 2: Asegure la resiliencia de sus sistemas de producción en las instalaciones

La mayor parte de nuestra energía en la gestión de riesgos de terceros se ha centrado tanto en la nube pública y las aplicaciones SaaS que a menudo damos por sentados los servicios de nuestros centros de datos. Ya sea por una caída del sistema de terceros o por un ciberataque, toda organización que ejecute aplicaciones críticas en sus instalaciones debería implementar lo siguiente:

Soluciones de recuperación ante desastres con capacidad de conmutación por error a otras instalaciones o a la nube pública
Copias de seguridad completas con recuperación puntual o masiva que tenga en cuenta las aplicaciones. Esto significa la capacidad de restauración puntual y recuperación rápida.
Copias de seguridad inmutables que están separadas lógicamente para garantizar una copia externa segura y accesible en caso de corrupción masiva o ciberataque.
Pruebas periódicas de resiliencia de las conmutaciones por error y restauraciones a partir de soluciones de DR y copia de seguridad con protocolos documentados y libros de ejecución accesibles a varios miembros del equipo de TI.

Paso 3: Evalúe su resiliencia y preparación en caso de interrupción de terceros en SaaS y la nube

Su infraestructura en la nube y sus aplicaciones SaaS dependen completamente de terceros proveedores para prestar estos servicios, mantener la disponibilidad y proteger sus datos a nivel de sistema. Sin embargo, estos servicios también corren el riesgo de sufrir cortes, corrupciones y pérdidas de datos. Estas empresas proporcionan una disponibilidad y una seguridad sólidas, pero debido al error humano siempre existirá un riesgo de terceros que provoque tiempos de inactividad, pérdida de datos o corrupción.

Ya sea que los clientes de la nube experimenten un evento de pérdida de datos (ej. Un fondo de pensiones experimenta el borrado accidental de su cuenta por parte de un vendor) o que una empresa de ciberseguridad y sus inquilinos sufran un ataque a la cadena de suministro - Seguirá ocurriendo, incluso con las mejores soluciones.

Para prepararse en consecuencia, debe garantizar una correcta gestión de riesgos de terceros. La Unión Europea ha publicado la Ley de Resiliencia de las Operaciones Digitales (DORA) que pide explícitamente a las organizaciones que dispongan de un marco de gestión de riesgos de terceros para las TIC (por ejemplo, SaaS y aplicaciones en la nube). Este amplio marco destaca la necesidad de proteger sus aplicaciones de los riesgos de terceros. Algunos de los requisitos incluyen:

Descubrimiento continuo de activos
Políticas de copia de seguridad
Retención de datos fuera de las instalaciones
Pruebas de resistencia
Libros de ejecución y protocolos documentados para la continuidad del negocio y la respuesta ante incidentes

Vea este seminario web a petición sobre el cumplimiento de la DORA utilizando Atlassian Cloud como ejemplo. En él se destacan las responsabilidades del cliente frente a las del proveedor. Los principios tratados en este vídeo se aplican a todas sus aplicaciones en la nube y SaaS.

Conclusión: Esté preparado, sea resistente.

Los equipos de CrowdStrike y Microsoft están haciendo todo lo posible para remediar y garantizar que todas las organizaciones dispongan de las herramientas necesarias para volver al servicio ininterrumpido y lograr el máximo tiempo de actividad. Sin embargo, este escenario puede suceder y sucederá a muchos proveedores, desde la seguridad y la nube hasta sus aplicaciones empresariales.

La clave es comprender que esto SUCEDERÁ y que su organización ha tomado las medidas necesarias para proteger y recuperar sus datos cuando llegue el momento.