Comment une erreur humaine a causé la chute de milliers de serveurs web

Certains services web d'Amazon ont cessé de fonctionner pendant plus de quatre heures il y a quelques jours, entraînant des milliers de sites avec eux. Contrairement à l'incident de 2011, un orage magnétique n'est pas en cause.
Laszlo Perelstein
Après enquête, le géant américain a mis le doigt sur la cause du problème.

Dans la matinée du 28 février, bon nombre de services web et sites internet ont cessé de fonctionner aux États-Unis. De la plateforme de communication collaborative Slack au site participatif Quora en passant par le site "Is It Down Right Now?" dont le but est de dire si d'autres sites sont pannes, la liste est longue. Il faudra plus de quatre heures pour que l'accès complet aux serveurs Amazon Simple Storage Service (S3), qui hébergent ces services, soient rétablis. Après enquête, le géant américain a mis le doigt sur la cause du problème : une faute de frappe dans une formule de code utilisée par un technicien.

"À 9h37 (18h37 heure de Paris, ndlr), un membre autorisé de l'équipe S3 utilisant une procédure standard a exécuté une commande destinée à supprimer un petit nombre de serveurs pour un des sous-systèmes S3 [...]. Malheureusement, une des entrées de la commande a été saisie incorrectement et une plus grand ensemble de serveurs que prévu a été supprimé", raconte Amazon dans un communiqué d'excuses publié sur son site.

S'ensuit la pénurie massive que l'on connaît, le service d'hébergement dans le cloud Amazon Web Services comptant plus d'un million d'utilisateurs, dont des entreprises parmi les plus importantes du secteur technologique (Adobe, Netflix, Comcast notamment). Mais la panne touche aussi des startups, notamment des spécialistes de l'Internet des objets dont le matériel connecté ne fonctionne plus.

 "Je ne peux pas allumer certaines de mes lumières à la maison parce que @IFTTT (If this then that, un service web qui permet d'automatiser certaines tâches, ndlr) est en panne."

"Je ne peux pas changer la sensibilité de ma souris parque les serveurs de Raze sont en panne."

Un précédent en 2011

Consciente de son échec pour trouver rapidement une solution au problème, l'entreprise de Jeff Bezos indique dans son message d'excuses qu'elle va changer certaines procédures pour éviter qu'une telle mésaventure puisse se reproduire à l'avenir. Certaines mesures étaient pourtant déjà en place - le fractionnement des services en partitions plus petites, permettant un redémarrage rapide en cas d'incident - mais elles n'ont pas suffi, l'opération ayant pris nettement plus de temps qu'escompté.

Comme le rappelle le site spécialisé ArsTechnica, le dernier incident d'une telle ampleur remonte au 21 avril 2011. Bon nombre de services web et sites internet avaient cessé de fonctionner suite à une coupure de courant dans un centre à cause d'un orage magnétique. Il avait fallu attendre le 24 avril pour que l'intégralité du service remarche pour l'ensemble des utilisateurs. À l'époque, l'incident avait posé la question de la dépendance aux fournisseurs d'hébergement dans le cloud et à la façon dont sont gérés les systèmes. Et c'est encore la même question qui se pose aujourd'hui puisque la solution est mise en avant par les géants de l'informatique, Amazon et Microsoft en tête, qui misent énormément dessus pour faire croître leur chiffre d'affaires.

Laszlo Perelstein

Sujets les + lus

|

Sujets les + commentés

Commentaire 1
à écrit le 04/03/2017 à 9:04
Signaler
L'avenir est au décentralisé synchronisé par blockchain. On ne pourra de toute façon jamais faire totalement l'impasse sur un stockage local.

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.