Microsoft a imputé la panne du centre de données en Australie le 30 août, due au manque de personnel et à l’échec de l’automatisation, empêchant les utilisateurs d’accéder aux services Azure, Microsoft 365 et Power Platform pendant plus de 24 heures.
Dans un rapport d’analyse post-incident, Microsoft a déclaré que la panne était due à une baisse de puissance dans la région Est de l’Australie, qui à son tour “a mis hors ligne un sous-ensemble des unités de refroidissement dans un centre de données, dans l’une des zones de disponibilité”.
Les unités de refroidissement ne fonctionnant pas correctement, l’augmentation de la température a forcé un arrêt automatisé du centre de données afin de préserver la santé des données et de l’infrastructure, affectant les services de calcul, de réseau et de stockage.
Cependant, Microsoft a déclaré que les unités de refroidissement auraient pu être redémarrées manuellement, ce qui n’a pas été possible en raison du manque de personnel disponible au centre de données.
« En raison de la taille du campus du centre de données, les effectifs de l’équipe de nuit étaient insuffisants pour redémarrer les refroidisseurs à temps. Nous avons temporairement augmenté la taille de l’équipe de trois à sept, jusqu’à ce que les problèmes sous-jacents soient mieux compris et que des mesures d’atténuation appropriées puissent être mises en place », a écrit Microsoft dans le rapport.
En outre, la société a déclaré qu’elle travaillait sur d’autres réformes majeures, telles que l’amélioration de l’automatisation existante du centre de données afin d’améliorer le rétablissement des services en cas d’incident.
“Nous étudions des moyens d’améliorer l’automatisation existante pour être plus résiliente aux différents types d’événements de chute de tension”, a déclaré Microsoft, ajoutant qu’une évaluation était en cours pour garantir que les serveurs les plus chargés et leurs refroidisseurs correspondants redémarraient en premier.
Ces derniers mois, Microsoft a signalé plusieurs pannes, notamment l’indisponibilité des services M365. En juillet, une panne a mis hors service ses services OneDrive for Business et SharePoint Online.
En juin, les utilisateurs ont été confrontés à des problèmes avec Outlook Web, Teams, OneDrive Entreprise et SharePoint pendant plus de huit heures.
En mai, la société a annoncé que Les utilisateurs britanniques étaient confrontés à des problèmes pour accéder à certaines offres de services sous Microsoft 365. En avril, Microsoft a déclaré qu’il enquêtait sur un problème empêchant certains utilisateurs d’utiliser la fonctionnalité de recherche dans plusieurs services Microsoft 365. Outlook sur le Web, Exchange Online, SharePoint Online, Microsoft Teams et les clients de bureau Outlook figuraient parmi les services concernés.
Lors d’un autre incident en avril, les utilisateurs impossible d’accéder Applications Web Microsoft 365 et équipes.
Microsoft a également subi une panne mondiale en février et, une fois de plus, ses utilisateurs n’ont pas pu accéder aux e-mails et aux équipes. Il a subi une panne similaire en janvier.
Copyright © 2023 IDG Communications, Inc.