Un signal d'alarme pour la gestion des risques liés aux tiers ?

Nous abordons le caractère inévitable des pannes informatiques et leur impact sur la résilience des organisations. En commençant par une étude de cas sur l'incident récent de CrowdStrike, nous explorerons diverses perturbations - des erreurs humaines aux cyberattaques - et proposerons des stratégies pour renforcer la préparation de votre organisation.
Écrit par :
Andy Fernandez
Publié le :

Naviguer dans les tempêtes de l'informatique : Une série sur les pannes et la résilience organisationnelle

Dans le paysage numérique d'aujourd'hui, la question n'est pas de savoir si une panne informatique se produira, mais quand elle se produira. Comme nous l'avons vu avec le récent incident CrowdStrike, même les plateformes mondiales peuvent être victimes de perturbations imprévues. Que ce soit en raison d'une erreur humaine, d'une corruption ou même d'une cyberattaque, cela continuera à se produire.

Ce billet de blog est le premier d'une série essentielle consacrée à l'exploration des risques liés aux tiers dans les différentes technologies sur lesquelles chacun d'entre nous s'appuie. Plus important encore, nous nous concentrerons sur la façon dont les organisations peuvent se préparer et se protéger contre les défis qui vont de la simple erreur humaine aux acteurs malveillants.

Tout au long de cette série, nous nous plongerons dans divers types d'incidents, des brèches dans le cloud aux attaques de ransomware de la chaîne d'approvisionnement. Notre objectif est de vous fournir les connaissances et les outils nécessaires non seulement pour surmonter ces perturbations, mais aussi pour en ressortir plus fort et plus résilient.

Le premier article se penche sur la récente panne de CrowdStrike en tant qu'étude de cas, et l'utilise comme tremplin pour discuter de thèmes plus larges tels que l'erreur humaine, la gestion des risques liés aux tiers et les mesures essentielles que les organisations doivent prendre pour se préparer et répondre aux perturbations informatiques. Nous explorons les tactiques de remédiation immédiate, l'importance de la résilience des systèmes sur site et les stratégies d'évaluation et d'amélioration de votre préparation dans les environnements cloud et SaaS.

Alors que nous entreprenons ce voyage ensemble, voici quelques rappels utiles. En matière d'informatique, la préparation ne consiste pas seulement à prévenir les catastrophes - il s'agit de développer la capacité à rebondir plus fort lorsqu'elles se produisent inévitablement. Commençons par analyser l'incident CrowdStrike et les leçons précieuses qu'il offre aux organisations de toutes tailles.

Explication de l'incident CrowdStrike

Les clients de CrowdStrike qui utilisaient un capteur Falcon pour Windows (version 7.11 et supérieure) ont vu leur système se bloquer. Cela s'est produit après que CrowdStrike a publié une mise à jour de la configuration du capteur pour les systèmes Windows et a déclenché un crash du système et un écran bleu de la mort (BSOD) sur les systèmes impactés. L'impact sur les systèmes a été considérable à l'échelle mondiale et a touché les principales compagnies aériennes, les agences de voyage, l'hôtellerie, les hôpitaux, le commerce électronique et bien d'autres secteurs encore. Il ne s'agissait pas d'une cyberattaque criminelle, mais d'une simple erreur humaine. Pour une lecture rapide, l'un des nombreux intervenants sur la récente panne, Chris Evans chez Architecting IT, a partagé ce qui suit, "Commentaire : Infrastructures critiques et responsabilité collective."

__wf_reserved_inherit

Image de la citation du PDG et fondateur de HYCU Simon Taylor

Microsoft a également publié un guide de remédiation pour les clients concernés, "Helping Our Customers Through the CrowdStrike Outage."

La plus grande panne informatique de l'histoire est due à une erreur humaine

L'erreur humaine est inévitable et touche toutes les organisations. Il se trouve que cette panne a touché un service tiers essentiel qui couvre des millions d'ordinateurs et de systèmes à l'échelle mondiale. Cependant, ce n'est ni la première ni la dernière panne ou incident de tiers qui aura un impact sur les organisations à travers le monde. La leçon à en tirer est que vous devez faire preuve de résilience face à toute défaillance d'un tiers. Voici trois mesures que chaque organisation devrait prendre :

Étape 1:Assurer une remédiation immédiate

CrowdStrike a déjà publié un guide de remédiation et une vidéo pour les utilisateurs distants touchés par la BSOD. Microsoft a également publié un nouvel Outil de récupération avec deux options de réparation pour accélérer le processus de réparation. Cependant, veillez à ne suivre que les conseils et les instructions de remédiation de CrowdStrike et de Microsoft directement, car nous voyons déjà des cybercriminels capitaliser sur cet incident et cibler directement les clients de CrowdStrike.

Étape 2:Assurer la résilience de vos systèmes de production sur site

La plupart de nos efforts en matière de gestion des risques liés aux tiers se sont tellement concentrés sur les applications de cloud public et de SaaS que nous considérons souvent nos services de centre de données comme acquis. Qu'il s'agisse d'une panne de système tiers ou d'une cyberattaque, chaque organisation qui exploite des applications critiques sur site devrait mettre en œuvre les mesures suivantes :

  • Reprise après sinistre solutions avec la possibilité de basculer vers une autre installation ou vers le nuage public
  • Sauvegardes complètes avec récupération ponctuelle ou en bloc qui tient compte des applications. Cela signifie qu'il est possible de procéder à une restauration ponctuelle et à un rétablissement rapide.
  • Des sauvegardes immuables qui sont logiquement séparées pour garantir une copie hors site sûre et accessible en cas de corruption massive ou de cyberattaque.
  • Tests de résilience réguliers des basculements et des restaurations à partir de solutions de reprise après sinistre et de sauvegarde avec des protocoles documentés et des runbooks accessibles à plusieurs membres de l'équipe informatique.

Étape 3:Évaluer votre résilience et votre préparation en cas d'interruption par un tiers dans le SaaS et le Cloud

Votre infrastructure cloud et vos applications SaaS dépendent entièrement de fournisseurs tiers pour fournir ces services, maintenir la disponibilité et protéger vos données au niveau du système. Cependant, ces services sont également exposés à des risques de pannes, de corruptions et de pertes de données. Ces entreprises offrent une disponibilité et une sécurité solides, mais en raison d'une erreur humaine, il y aura toujours un risque de tierce partie entraînant un temps d'arrêt, une perte de données ou une corruption.

Que les clients du cloud subissent une perte de données (par exemple, une caisse de retraite voit son compte supprimé accidentellement par un vendeurr) ou qu'une entreprise de cybersécurité et ses locataires soient victimes d'une attaque de la chaîne d'approvisionnement - cela continuera à se produire, même avec les meilleures solutions du marché.

Pour vous préparer en conséquence, vous devez assurer la bonne gestion des risques liés aux tiers. L'Union européenne a publié la loi sur la résilience des opérations numériques (DORA) qui demande explicitement aux organisations de disposer d'un cadre de gestion des risques des tiers pour les TIC (par exemple, les applications SaaS et Cloud). Ce cadre détaillé souligne la nécessité de protéger vos applications contre les risques liés aux tiers. Voici quelques-unes des exigences :

  • Découverte continue des actifs
  • Politiques de sauvegarde
  • Rétention des données hors site
  • Tests de résilience
  • Protocoles et runbooks documentés pour la continuité des activités et la réponse aux incidents

Regardez ce webinaire à la demande sur la conformité DORA en utilisant Atlassian Cloud comme exemple. Cette vidéo met en évidence les responsabilités du client par rapport à celles du fournisseur. Les principes abordés dans cette vidéo s'appliquent à toutes vos applications cloud et SaaS.

Conclusion : Soyez prêts, soyez résilients.

Les équipes de CrowdStrike et de Microsoft font tout ce qu'elles peuvent pour remédier à la situation et s'assurer que toutes les organisations disposent des outils dont elles ont besoin pour revenir à un service ininterrompu et atteindre un temps de fonctionnement maximal. Cependant, ce scénario peut se produire et se produira pour de nombreux fournisseurs, de la sécurité et du cloud à vos applications d'entreprise.

L'essentiel est de comprendre que cela VA se produire et que votre organisation a pris les mesures nécessaires pour protéger et récupérer vos données le moment venu.

Il est essentiel de comprendre que cela va se produire et que votre organisation a pris les mesures nécessaires pour protéger et récupérer vos données le moment venu.

Directeur de la gestion des produits

Andy Fernandez est directeur de la gestion des produits chez HYCU, une société d'Atlassian Ventures. Toute la carrière d'Andy a été consacrée à la protection des données et à la reprise après sinistre pour les applications critiques. Après avoir occupé des postes liés aux produits et à la commercialisation chez Zerto et Veeam, Andy s'attache désormais à garantir que les entreprises protègent leurs applications SaaS et cloud critiques dans le cadre de l'ITSM et du DevOps. Lorsqu'il ne travaille pas sur la protection des données, Andy aime assister à des concerts, découvrir les restaurants locaux et aller à la plage.

Découvrez la première plateforme SaaS de protection des données

Essayez HYCU par vous-même et devenez un adepte.