← Retour au blog

Vigilance canicule: datacenters, climatisation et risques électriques à surveiller

La canicule met les datacenters sous tension: refroidissement, alimentation électrique, consommation, redondance et supervision doivent être suivis de près.

Illustration d'une vigilance canicule appliquée aux datacenters, au refroidissement et à la supervision infrastructure

Les vagues de chaleur ne sont plus seulement un sujet de confort dans les bureaux. Elles deviennent un vrai sujet d’exploitation pour les infrastructures numériques.

Au moment où nous publions cet article, la France et une partie de l’Europe traversent une vague de chaleur intense. Des températures supérieures à 40 °C ont été relevées dans plusieurs zones, avec un pic annoncé à 44,3 °C à Pissos, dans les Landes, selon les informations relayées par The Guardian à partir des données Météo-France. Le même épisode met sous tension les transports, les réseaux électriques et certaines installations industrielles.

Pour les datacenters, ce contexte change la lecture du risque. Une salle informatique n’est pas seulement dépendante de serveurs, de baies et de liens réseau. Elle dépend aussi d’un environnement physique: refroidissement, alimentation électrique, groupes froids, onduleurs, distribution d’air, groupes électrogènes, maintenance sur site et capacité à tenir en mode dégradé.

Quand la température extérieure monte fortement, tout cet environnement travaille plus dur.

Pourquoi la canicule est un risque infrastructure

Un datacenter est conçu pour maintenir les équipements dans une plage thermique acceptable. En régime normal, cela paraît évident: la climatisation tourne, les sondes restent dans les seuils, les serveurs ventilent, les alimentations tiennent.

En canicule, la marge se réduit.

Les groupes froids doivent évacuer plus de chaleur vers un air extérieur déjà chaud. Les systèmes de ventilation tournent plus fort. Les équipements électriques chauffent davantage. Les batteries d’onduleurs peuvent vieillir plus vite ou voir leurs conditions d’exploitation se dégrader. Les techniciens interviennent dans des conditions plus difficiles. Et si la demande électrique augmente fortement sur toute une région, le risque ne reste plus limité à la salle informatique.

Le problème n’est donc pas seulement “est-ce que le datacenter a de la climatisation ?”. La vraie question est: combien de marge reste-t-il quand la climatisation, l’alimentation électrique et les serveurs sont tous sollicités en même temps ?

Des exemples récents montrent que le risque est réel

L’exemple le plus parlant reste l’été 2022 au Royaume-Uni. Pendant une vague de chaleur historique, des datacenters londoniens de Google Cloud et Oracle Cloud ont connu des incidents liés au refroidissement. Les impacts ne sont pas restés strictement locaux: des clients situés hors du Royaume-Uni ont aussi été touchés, parce qu’une région cloud peut porter des dépendances applicatives bien plus larges que sa géographie immédiate.

Ce point est important pour les PME et ETI: même si votre équipe n’exploite pas elle-même un datacenter, elle dépend souvent d’un. Serveur dédié, région cloud, hébergeur managé, sauvegarde distante, messagerie, SSO, monitoring externe: la chaîne de service est physique quelque part.

La vague de chaleur actuelle rappelle aussi que le sujet ne se limite pas aux serveurs. The Guardian rapporte des tensions sur l’électricité en Europe, une hausse de la demande liée à la climatisation, des prix de marché sous pression, et l’arrêt d’un réacteur nucléaire français à Golfech en raison d’une eau de refroidissement trop chaude. En Italie, des coupures ont aussi été signalées à Milan et Turin pendant l’épisode.

Pour une infrastructure critique, ce sont exactement les signaux à prendre au sérieux: chaleur, refroidissement, énergie et dépendances régionales se répondent.

Le refroidissement: premier point de fragilité visible

Quand la température monte, la climatisation devient le premier système critique.

Les risques typiques sont connus:

  • perte partielle d’un groupe froid;
  • saturation de la capacité de refroidissement;
  • défaut de circulation d’air dans une allée chaude ou froide;
  • filtres encrassés;
  • sonde mal placée ou non supervisée;
  • condensation ou hygrométrie hors seuil;
  • hausse de température localisée dans une baie dense;
  • ventilateurs serveurs qui tournent au maximum;
  • throttling CPU ou baisse de performance matérielle.

Le piège, c’est qu’un défaut de refroidissement n’apparaît pas toujours comme une panne franche. Il peut commencer par une dérive lente: quelques degrés de plus, des ventilateurs plus bruyants, des alimentations plus chaudes, une consommation qui grimpe, des erreurs disques intermittentes, puis des alertes matérielles plus fréquentes.

Une supervision sérieuse doit donc regarder les tendances, pas seulement les seuils rouges.

Le risque électrique: moins visible, souvent sous-estimé

La canicule augmente aussi le risque côté alimentation électrique.

Dans un datacenter, la chaîne électrique ne se limite pas à “le courant arrive”. Elle comprend les arrivées opérateur, tableaux électriques, UPS, batteries, PDU, alimentations serveurs, groupes électrogènes, carburant, refroidissement des groupes, procédures de bascule et contrats d’intervention.

Pendant une vague de chaleur, plusieurs phénomènes peuvent se cumuler:

  • hausse de la consommation liée au refroidissement;
  • hausse de la consommation IT si les services compensent une baisse de performance;
  • sollicitation accrue des UPS et batteries;
  • rendement dégradé de certains équipements;
  • risque de surcharge ou de déclenchement sur un maillon mal dimensionné;
  • tension régionale sur le réseau électrique;
  • intervention plus lente si plusieurs sites sont touchés simultanément.

Ce n’est pas une raison pour paniquer. C’est une raison pour vérifier les marges.

Une alimentation redondée n’est utile que si les deux voies sont réellement indépendantes, correctement dimensionnées, supervisées et testées. Deux alimentations branchées dans la même baie, sur le même chemin électrique ou dans la même salle chaude ne constituent pas une protection complète.

Surveiller les consommations de ressources pendant la chaleur

Un point est souvent oublié: un défaut de refroidissement peut aussi se voir dans les métriques applicatives et système.

Quand les serveurs chauffent, plusieurs comportements peuvent apparaître:

  • les ventilateurs accélèrent et consomment davantage;
  • les CPU peuvent réduire leur fréquence pour rester dans l’enveloppe thermique;
  • les traitements durent plus longtemps;
  • les files d’attente applicatives grossissent;
  • l’autoscaling peut créer plus d’instances pour absorber la même charge;
  • les bases de données peuvent répondre plus lentement;
  • les jobs de sauvegarde, d’indexation ou de calcul peuvent dépasser leur fenêtre habituelle.

Résultat: la consommation de ressources peut augmenter alors même que le trafic utilisateur ne change pas. Ce n’est pas toujours une hausse de business. Cela peut être un symptôme d’infrastructure.

Pendant une canicule, il faut donc croiser les métriques:

  • température des hôtes;
  • vitesse des ventilateurs;
  • erreurs matérielles;
  • fréquence CPU effective;
  • charge CPU et load average;
  • latence disque;
  • latence réseau;
  • consommation électrique;
  • temps de réponse applicatif;
  • saturation des files de jobs;
  • état des sauvegardes.

L’observabilité devient ici un outil de diagnostic physique, pas seulement applicatif.

Redondance: éviter le point de panne unique thermique

La redondance n’est pas seulement une question de nombre d’équipements. C’est une question de séparation des risques.

Un cluster peut avoir plusieurs nœuds, mais tous dans la même salle. Une application peut avoir plusieurs VM, mais toutes dans la même zone. Une sauvegarde peut être externalisée, mais stockée dans le même datacenter que la production. Une alimentation peut être double, mais dépendre d’un même tableau électrique.

En période de canicule, cette logique devient très concrète.

Il faut vérifier:

  • les services critiques sont-ils répartis sur plusieurs hôtes ?
  • les hôtes sont-ils dans des baies ou salles différentes quand c’est possible ?
  • les sauvegardes sont-elles hors du périmètre thermique principal ?
  • le PRA peut-il démarrer chez un autre provider ou dans une autre région ?
  • les sondes environnementales sont-elles réellement surveillées ?
  • les alertes datacenter sont-elles intégrées à l’astreinte ?
  • les seuils sont-ils adaptés à un épisode exceptionnel ?
  • les tests de bascule ont-ils déjà été réalisés ?

Une architecture haute disponibilité doit éviter le “tout redondé, mais au même endroit”. La chaleur est précisément le type d’événement qui révèle ces dépendances cachées.

Ce qu’une PME doit vérifier maintenant

Toutes les entreprises n’ont pas la main sur le datacenter. Mais elles peuvent tout de même agir.

Pour une PME, une ETI, un SaaS ou un e-commerce, les vérifications utiles sont très concrètes:

  1. Identifier les services réellement critiques.
  2. Vérifier où ils sont hébergés physiquement ou contractuellement.
  3. Demander les garanties de redondance au fournisseur si elles ne sont pas claires.
  4. Vérifier les sauvegardes et les derniers tests de restauration.
  5. Confirmer que le PRA n’est pas dépendant du même site.
  6. Revoir les seuils d’alerte sur température, charge et consommation.
  7. Surveiller les métriques de performance plus souvent pendant l’épisode.
  8. Reporter les maintenances non urgentes qui ajoutent du risque.
  9. Préparer les contacts d’escalade fournisseur.
  10. Documenter qui décide d’une bascule si la situation se dégrade.

Ce travail paraît basique. C’est pourtant souvent là que les incidents se jouent: pas dans l’absence totale de technologie, mais dans l’absence de procédure claire au mauvais moment.

Ce que nous regardons côté exploitation

Chez Forget About IT, la canicule est traitée comme un signal de vigilance infrastructure.

Sur les périmètres que nous exploitons, les points importants sont:

  • supervision renforcée des ressources système;
  • suivi des alertes matérielles;
  • vérification des sauvegardes récentes;
  • attention particulière aux métriques de consommation et de performance;
  • contrôle des dépendances datacenter et provider;
  • maintien d’une capacité de bascule documentée;
  • limitation des changements non essentiels pendant le pic;
  • communication claire avec les équipes concernées.

L’objectif n’est pas de déclencher un mode crise permanent. L’objectif est d’éviter qu’un incident environnemental devienne une panne applicative majeure faute de visibilité.

Canicule, datacenter et PRA: le lien direct

Un PRA n’est pas seulement utile après un incendie ou une cyberattaque. Il sert aussi quand le site principal devient temporairement trop risqué: refroidissement instable, alimentation tendue, incident datacenter, accès physique compliqué, dépendance fournisseur en dégradation.

Un bon PRA doit donc être décorrélé:

  • géographiquement;
  • électriquement;
  • réseau;
  • fournisseur quand le risque le justifie;
  • opérationnellement, avec des procédures et des accès indépendants.

La canicule est un bon test de lucidité. Si toute l’infrastructure, les sauvegardes, les accès d’administration et le plan de reprise dépendent du même site, la redondance est surtout théorique.

Nous avons détaillé ce sujet dans notre article sur le PRA informatique, RTO et RPO.

Conclusion

La vigilance canicule doit aussi être une vigilance infrastructure.

Les datacenters sont conçus pour fonctionner dans des conditions exigeantes, mais ils restent dépendants du refroidissement, de l’électricité, de la maintenance physique et de la qualité des procédures. Les épisodes récents montrent que même les grands acteurs cloud peuvent être touchés lorsque la chaleur dépasse les hypothèses habituelles.

Pour les entreprises, la réponse n’est pas de tout remettre en cause à chaque vague de chaleur. La réponse est plus simple: connaître ses dépendances, surveiller les bons signaux, garder de la marge, tester les sauvegardes, répartir les risques et préparer une vraie capacité de reprise.

Quand il fait 40 °C dehors, l’infrastructure ne doit pas seulement “tenir”. Elle doit rester observable, pilotable et récupérable.

Sources

FAQ: canicule et infrastructure

Pourquoi une canicule augmente-t-elle le risque pour un datacenter ?

Parce qu’elle réduit la marge de refroidissement, augmente la sollicitation des groupes froids, peut tendre le réseau électrique et rend les incidents en chaîne plus probables.

Quels indicateurs surveiller pendant une canicule ?

Il faut suivre les températures, l’hygrométrie, la consommation électrique, l’état des onduleurs, les groupes froids, les ventilateurs, les alertes matérielles, la charge CPU et les files d’attente applicatives.

La redondance suffit-elle à protéger une infrastructure ?

Non. La redondance doit être testée, supervisée et dimensionnée. Deux équipements redondants soumis à la même chaleur, à la même alimentation ou à la même salle peuvent tomber ensemble.

Que doit faire une PME pendant un épisode de canicule ?

Elle doit vérifier ses sauvegardes, son PRA, ses dépendances datacenter, ses seuils d’alerte, ses contacts d’escalade et sa capacité à basculer les services critiques si le site principal se dégrade.

Articles recommandés