Comment une erreur humaine a causé la chute de milliers de serveurs web

Certains services web d'Amazon ont cessé de fonctionner pendant plus de quatre heures il y a quelques jours, entraînant des milliers de sites avec eux. Contrairement à l'incident de 2011, un orage magnétique n'est pas en cause.

Laszlo Perelstein

03 Mars 2017, 16:01

Après enquête, le géant américain a mis le doigt sur la cause du problème.

Dans la matinée du 28 février, bon nombre de services web et sites internet ont cessé de fonctionner aux États-Unis. De la plateforme de communication collaborative Slack au site participatif Quora en passant par le site "Is It Down Right Now?" dont le but est de dire si d'autres sites sont pannes, la liste est longue. Il faudra plus de quatre heures pour que l'accès complet aux serveurs Amazon Simple Storage Service (S3), qui hébergent ces services, soient rétablis. Après enquête, le géant américain a mis le doigt sur la cause du problème : une faute de frappe dans une formule de code utilisée par un technicien.

"À 9h37 (18h37 heure de Paris, ndlr), un membre autorisé de l'équipe S3 utilisant une procédure standard a exécuté une commande destinée à supprimer un petit nombre de serveurs pour un des sous-systèmes S3 [...]. Malheureusement, une des entrées de la commande a été saisie incorrectement et une plus grand ensemble de serveurs que prévu a été supprimé", raconte Amazon dans un communiqué d'excuses publié sur son site.

S'ensuit la pénurie massive que l'on connaît, le service d'hébergement dans le cloud Amazon Web Services comptant plus d'un million d'utilisateurs, dont des entreprises parmi les plus importantes du secteur technologique (Adobe, Netflix, Comcast notamment). Mais la panne touche aussi des startups, notamment des spécialistes de l'Internet des objets dont le matériel connecté ne fonctionne plus.

Mmm. Can't turn some of my lights on at home cos @IFTTT is down. Welcome to the future!@internetofshit pic.twitter.com/CPw0rGaKR5
— Stuart Thomas (@stuartthomas) 28 février 2017

"Je ne peux pas allumer certaines de mes lumières à la maison parce que @IFTTT (If this then that, un service web qui permet d'automatiser certaines tâches, ndlr) est en panne."

I can't change my mouse sensitivity because @razer @razersynapse servers are down 🙄 cc @internetofshit
— Callum Mellor-Reed (@callummr) 28 février 2017

"Je ne peux pas changer la sensibilité de ma souris parque les serveurs de Raze sont en panne."

Un précédent en 2011

Consciente de son échec pour trouver rapidement une solution au problème, l'entreprise de Jeff Bezos indique dans son message d'excuses qu'elle va changer certaines procédures pour éviter qu'une telle mésaventure puisse se reproduire à l'avenir. Certaines mesures étaient pourtant déjà en place - le fractionnement des services en partitions plus petites, permettant un redémarrage rapide en cas d'incident - mais elles n'ont pas suffi, l'opération ayant pris nettement plus de temps qu'escompté.

Comme le rappelle le site spécialisé ArsTechnica, le dernier incident d'une telle ampleur remonte au 21 avril 2011. Bon nombre de services web et sites internet avaient cessé de fonctionner suite à une coupure de courant dans un centre à cause d'un orage magnétique. Il avait fallu attendre le 24 avril pour que l'intégralité du service remarche pour l'ensemble des utilisateurs. À l'époque, l'incident avait posé la question de la dépendance aux fournisseurs d'hébergement dans le cloud et à la façon dont sont gérés les systèmes. Et c'est encore la même question qui se pose aujourd'hui puisque la solution est mise en avant par les géants de l'informatique, Amazon et Microsoft en tête, qui misent énormément dessus pour faire croître leur chiffre d'affaires.

Sujets les + lus

Sujets les + commentés

Emploi : les vraies raisons des vagues de départs des salariés français

Affaire Abbé Pierre : « Ceux qui minimisent se trompent » (Christophe Robert, délégué général de la Fondation Abbé Pierre)

Les énergies renouvelables coûteront six fois plus cher que prévu à l'Etat en 2024

En France, les prix de marché de l’électricité resteront déterminés par ceux du gaz, affirme RTE

La chaîne C8 paye au prix fort ses dérapages et perd sa fréquence TNT

Commentaire 1

Un_passant à écrit le 04/03/2017 à 9:04

Signaler

L'avenir est au décentralisé synchronisé par blockchain. On ne pourra de toute façon jamais faire totalement l'impasse sur un stockage local.

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Internet

Comment une erreur humaine a causé la chute de milliers de serveurs web

Un précédent en 2011

Newsletter - Tech & Médias