Incident Réseau, 13 octobre 2021
13 Octobre - 18h00
Depuis des semaines, nous faisons face à une recrudescence d'attaques DDoS, que nous controns chaque jour.
Dans un souci d’amélioration de nos mécanismes de défense, nous n’avons eu de cesse de renforcer nos configurations pour continuer d'améliorer le niveau de protection offert à nos clients.
Un changement a été préparé et validé par notre Change Advisory Board (CAB) avec le bon Method of Procedures (MOP) et de revue par des pairs (annoncé le 2021-10-12 à 16:28 CET)
https://network.status-ovhcloud.com/incidents/rr9361xp0mh4
2021-10-13 09:05 CET - Le changement planifié est initié comme prévu dans une fenêtre de maintenance programmée (https://network.status-ovhcloud.com/incidents/rr9361xp0mh4)
2021-10-13 09:18 CET - Les actions de changement sont traitées comme prévu (isolation BGP, mises à jour de configurations)
2021-10-13 09:20 CET - Lors de la modification de configuration réseau, un problème est survenu : le routeur n'a pas interprété la commande correctement. L’objectif était de réguler la redistribution de BGP dans OSPF. Tout le traffic IPv6 était accessible.
2021-10-13 09:21 CET - L'équipe a détecté un problème sur le comportement du routeur et a lancé le processus d'escalade immédiatement
2021-10-13 09:25 CET - Début du processus de gestion de crise, en conformité avec nos procédures en place (le décalage avec la crise est dû à l’attente liée au temps de convergence du changement)
2021-10-13 09:30 CET - La procédure de rollback n'a pas fonctionné, nous avons donc pris la décision d'isoler physiquement l’équipement associé et avons déclenché l’assistance physique sur site
2021-10-13 09:45 CET - L’équipe DC rejoint la salle telecom afin de lancer le deuxième plan de contournement
2021-10-13 10:00 CET - Début des opérations du technicien DC dans la salle telecom (3h00 heure locale)
2021-10-13 10:02 CET - La première demande portait initialement sur le débranchement de l’équipement optique afin d’isoler la connectivité et de rétablir le service au plus vite
2021-10-13 10:10 CET - Nous prenons finalement la décision d'éteindre électriquement le routeur défectueux
2021-10-13 10:18 CET - L'appareil défectueux est arrêté (il faut deux minutes pour la convergence réseau)
2021-10-13 10:20 CET - Premiers services rétablis
2021-10-13 10:30 CET - Stabilisation de la connectivité afin de rétablir tous les services restants
2021-10-13 10:57 CET - Fin de la crise d'un point de vue technique
2021-10-13 10:30 CET - Actions en cours afin de finaliser et vérifier la stabilité de notre réseau et finaliser la restauration des services adjacents et non bloquants restants (Travaux tâches sera sur le suivi des actions)
OVHcloud opère un réseau global mondial qui couvre tous les continents. Afin d'assurer le meilleur accès possible à ses clients, ce réseau est entièrement maillé.
Par nature, ce maillage signifie que tous les routeurs participants au réseau sont reliés entre eux, directement ou indirectement, et échangent constamment des informations de routage.
Durant la panne, la table de routage Internet complète était annoncée dans l’IGP d’OVHcloud. L'afflux massif d'informations de routage sur l'IGP a conduit certains routeurs à ne pas se comporter de manière stable : Table OSPF étant pleine, cela a entrainé la surcharge de la RAM et du CPU. L'impact a porté sur le routage IPv4 uniquement et tout le trafic IPv6 était accessible.
Une boucle de convergence entre BGP et OSPF s’est produite rendant le routage IPv4 inopérant. Cela a entraîné une impossibilité de traiter correctement le trafic IPv4 sur l’ensemble de nos sites.
Nous avons très rapidement pu reprendre le contrôle sur la situation, en accédant à l’équipement défaillant et en l’isolant du réseau.
(Une fois le D2 hors ligne, le réseau re-converge, vidant les tables OSPF sur les périphériques et acheminant le trafic vers les passerelles nominales).
Nos actions immédiates sont de ré-évaluer notre procédure de changement sur ce type d’équipements (qui applique nativement la ligne de commande) et de renforcer par conséquence le processus de changement relatif.
Comme cet incident a eu un impact sur l’utilisation du protocole IPv4 par nos clients, nos équipes à travers le monde ont suivi la situation au plus près afin de les aider à rétablir leurs services et à les tenir informés.
Toutes les informations concernant nos opérations sont consultables sur notre plateforme dédiée : https://www.status-ovhcloud.com/
Nous vous prions de bien vouloir nous excuser pour la gêne occasionnée.
-----
13 Octobre - 11h30
Nous avons mené le matin du 13 octobre à 9H12 (CET/heure de Paris) des interventions sur un routeur de notre Datacentre de Vint Hill aux Etats Unis, ce qui a entraîné des perturbations sur l’ensemble de notre réseau. Ces interventions visaient à renforcer nos protections anti DDoS, attaques qui ont été particulièrement intenses ces dernières semaines.
Les équipes d'OVHcloud sont rapidement intervenues pour isoler l'équipement à 10h15. Les services ont été rétablis depuis cette intervention.
Nous menons actuellement une campagne de vérification auprès de nos clients pour confirmer le rétablissement de tous leurs services.
Nous présentons nos plus sincères excuses à l'ensemble de nos clients impactés et ferons preuve de la plus grande transparence sur les causes et les conséquences de cet incident.