Panne OVH : l’origine ? Une erreur humaine et un mauvais copier-coller !
Ce matin, l'hébergeur français OVH a connu une panne importante sur son infrastructure, notamment sur le routage IPv4, rendant inaccessibles des milliers de sites Internet, dont IT-Connect. En cause : une erreur humaine et un mauvais copier-coller.
Chez OVH, une opération de maintenance sur les routeurs était prévue ce matin, notamment pour augmenter la capacité d'OVH à traiter et absorber les attaques DDoS, de plus en plus nombreuse d'après Octave Klaba, le fondateur. Malheureusement, cette opération de maintenance s'est mal passée et c'est devenu un vrai cauchemar pour les équipes techniques.
À partir de 09h30 et jusqu'à environ 10h20, des milliers de sites étaient inaccessibles, y compris le site d'OVH en lui-même ainsi que les sites de l'hébergeur permettant de suivre les incidents.
Octave Klaba n'a pas tardé à s'exprimer par l'intermédiaire de son compte Twitter. Après avoir précisé qu'il s'agissait d'une erreur humaine, il a publié un second message pour être un peu plus précis : c'est un mauvais copier-coller qui est à l'origine de cette panne générale. En effet, une ligne de configuration qui devait être injectée sur une seule ligne s'est retrouvée sur deux lignes, ce qui n'a pas eu du tout le même effet !
En tout cas, c'est appréciable que le fondateur d'OVH prenne le temps d'expliquer précisément ce qui s'est passé, en toute transparence.
Pendant ce temps, Twitter s'est déchaîné comme d'habitude et certains n'ont pas hésité à préciser qu'il s'agissait du premier jour de travail chez OVH pour l'ancien employé de Facebook, en référence à l'énorme panne de la semaine dernière.
L'infogérance d'une infrastructure OVHcloud
Que ce soit pour un ou plusieurs serveurs VPS, des serveurs dédiés ou encore des instances, une infrastructure dans le Cloud, qu'elle soit chez OVHcloud ou ailleurs, doit être maintenue, sauvegardée et bénéficier de la supervision. En effet, la gestion d'une infrastructure dans le Cloud ne s'arrête pas à la mise en œuvre initiale de vos services et applications. Pour accomplir ces tâches, soit vous vous appuyez sur des ressources internes (un technicien, un administrateur système, etc.), soit vous sollicitez une entreprise spécialisée dans l'infogérance OVH.
Dans tous les cas, il conviendra d'assurer la maintenance applicative de cette infrastructure, ce qui implique l'installation des dernières mises à jour et notamment des correctifs de sécurité. A cela s'ajoute la supervision de l'infrastructure : on va surveiller l'activité de chaque serveur et des applications, notamment pour détecter un dysfonctionnement. S'il s'agit d'un serveur pour héberger un site Web, on s'assurera que le site Web est bien accessible. On surveillera aussi l'utilisation des ressources de la machine (processeur, mémoire RAM, stockage, charge du serveur, etc.) et l'état du matériel en lui-même grâce à un système de sondes logicielles. Ainsi, en cas de dysfonctionnement, on peut être alerté très rapidement et agir au plus vite.
L'incendie qui a impacté OVHcloud et les clients de l'hébergeur français en mars 2021 a également été une piqûre de rappel au sujet des sauvegardes. Certaines entreprises, n'ayant pas effectué la sauvegarde de leurs serveurs Cloud ont tout perdu. Effectivement, la sauvegarde dans le Cloud n'est pas systématique : que ce soit chez OVHcloud ou ailleurs, c'est une question d'options et d'offres. Ainsi, il convient d'effectuer des sauvegardes de l'ensemble de ses données stockées sur une infrastructure Cloud, au même titre qu'on le fait avec une infrastructure on-premise.
Lorsque vous sollicitez un prestataire pour assurer l'infogérance de vos serveurs chez OVHcloud, vous pouvez aussi bénéficier d'un support technique 24x7x365 associé à un système d'astreinte. C'est un plus pour les entreprises qui ont besoin d'une haute disponibilité sur leurs services.
Il faudra faire attention dorénavant avec nos copier/coller😊 lors de nos configs😁