Bonjour,
Ci-après la communication que nous avons transmise hier soir par news
après la panne de l'après-midi.
Bonsoir,
Ce mercredi 6 juillet à 16:24 CEST, une coupure de courant à la sortie
de l’onduleur principal de la salle serveur a provoqué l’extinction des
équipements du CRI ainsi que de certaines machines des autres occupants
de la salle serveur. Cela a notamment eu pour conséquences de rendre
indisponibles l’intégralité des services hébergés par le CRI, dont nos
services d’authentification, Moodle, GitLab, l’intranet des assistants
et les salles machines pour une durée d’environ 2 heures.
Cette coupure est survenue lors d’une intervention par un prestataire
sur le tableau électrique de la salle serveur dans le cadre de
l’installation d’un système de climatisation additionnel. Cette
intervention ne devait pas impacter l’alimentation des baies mais nous
n’excluons pas la possibilité qu’une erreur de manipulation ait entraîné
la coupure.
Nous nous sommes rendus sur place afin de redémarrer les serveurs vers
16:40 CEST. L’intervention des roots CRI a été ralentie par un certain
nombre de problèmes comme la défaillance de la pile CMOS de certains
serveurs, causant la perte des paramètres de leur BIOS et nécessitant un
reparamétrage manuel de celui-ci. Un serveur a également subi une panne
au niveau de son contrôleur de disques, l’empêchant de démarrer. Après
une réinitialisation du contrôleur en débranchant sa batterie, la
machine était de nouveau en mesure de démarrer.
La plupart des services étaient de nouveau accessibles aux environs de
19:00 CEST. Les salles machines sont restées affectées jusqu’à 22:00
CEST suite à des problèmes au niveau de deux load balancers nécessaires
au démarrage et à l’authentification des postes ainsi qu’une corruption
de données au niveau du cache du resolveur DNS du PIE. Une coupure de
courant a également été observée en MidLab pendant la soirée, celle-ci
n’est pas liée au problème initial.
En nous excusant pour la gêne occasionnée,
--
Nicolas Froger
EPITA - CRI