La déferlante des données
Cet article est le 3e volet de Sciences du numérique et développement durable : des liens complexes.
Une journée dans le monde numérique, c’est 540 millions de SMS envoyés, 145 milliards d’e-mails échangés, 104 000 heures de vidéos mises en ligne sur Youtube, 4,5 milliards de recherches sur Google, 552 millions d’utilisateurs connectés à Facebook et 400 millions de tweets envoyés. C’est aussi 30 000 mégaoctets de données collectées par le Very Large Telescope (VLT) et 40 000 gigaoctets de données collectées par le grand collisionneur de hadrons (LHC) (voir « La déferlante des octets », Journal du CNRS, décembre 2012).
Ces volumes de données astronomiques sont générés à la fois par les utilisateurs d’Internet, mais aussi par les grands instruments de recherche scientifique et par les nombreux capteurs qui envahissent notre quotidien. Par exemple, les capteurs utilisés par l’avion Airbus A350 permettent de mesurer 600 000 paramètres en vol et génèrent ainsi jusqu’à 2 téraoctets de données par jour. Ces données nécessitent des capacités de stockage et de traitement croissantes pour pouvoir être exploitées, avec souvent des contraintes temporelles d’exploitation fortes.
Les centres de données
Le stockage et le traitement de ces données reposent en général sur des centres de données qui regroupent des dizaines de milliers de serveurs, de baies de stockage et d’équipements réseaux. On estime ainsi qu’en 2010, Google utilisait 900 000 serveurs répartis dans différents centres de données à travers le monde, nécessitant une puissance électrique moyenne de 260 millions de watts, soit l’équivalent de la consommation d’une ville française de 430 000 habitants.
Comment réduire cette consommation ? On peut commencer par réduire la consommation énergétique par équipement (serveur, équipement réseau, baie de stockage, etc.) en optimisant leur conception et leur utilisation pour améliorer leur efficacité énergétique. Les constructeurs, souvent sous la pression du législateur, mettent en œuvre des solutions technologiques pour diminuer une partie de l’empreinte environnementale de leurs produits. Ils s’investissent également dans l’élaboration de nouvelles normes. Par exemple, des efforts tangibles ont été enregistrés sur la consommation énergétique des équipements électroniques (norme EnergyStar pour les consommations réduites en modes veille et éteint des appareils, 80plus pour l’efficacité énergétique des alimentations électriques) et sur les restrictions d’emploi de produits dangereux (directives européennes RoHS, REACH).
Dans les centres de données, environ 10% des serveurs restent allumés mais inutilisés, selon une étude de 2010, réalisée dans 188 centres de données. Or la consommation énergétique des serveurs n’est pas proportionnelle à leur charge de travail. Ils consomment donc des quantités importantes d’énergie, même lorsqu’ils sont inutilisés mais allumés (de 40 à 80% de la consommation électrique maximale des serveurs à pleine charge). Il est ainsi primordial dans les années à venir que ces serveurs disposent de systèmes de mise en veille (mode plus économe en énergie) et de mécanismes de réveil à distance, pour pouvoir adapter les capacités de calcul à la demande du centre de données.
Cependant, la consommation des appareils électroniques en eux-mêmes n’est pas la seule responsable de cette facture électrique élevée. Une fraction importante de la consommation des centres de données provient des systèmes de climatisation nécessaires pour les refroidir. Pour agir sur cette part élevée de la consommation, plusieurs solutions peuvent être mise en œuvre : la conception d’appareils électroniques pouvant supporter des températures plus élevées, l’amélioration du refroidissement interne des serveurs, par exemple en utilisant des circuits à eau (water cooling) à la place des ventilateurs classiques ou encore l’utilisation de l’air extérieur lorsque le climat s’y prête (quasiment partout en France) pour refroidir les centres à moindre coût énergétique (free cooling). Par ailleurs, la réutilisation de cette chaleur excédentaire pour chauffer de l’eau sanitaire par exemple est un moyen de limiter le gaspillage énergétique, mais de tels systèmes sont rarement mis en œuvre.
Des indicateurs d’efficacité énergétique ont été définis pour caractériser les centres de données. Le plus répandu est le PUE (Power Usage Effectiveness) par le consortium GreenGrid. Il est déterminé par le ratio entre l’énergie totale consommée par le centre de données et la partie consommée uniquement par les équipements informatiques : serveurs, stockage et réseau. Cependant, cet indicateur a deux inconvénients majeurs : il ne tient pas compte de l’utilisation effective des ressources de calcul et de stockage et il ne considère pas l’origine de l’énergie consommée. Pour combler ces lacunes, d’autres indicateurs ont été proposés tels que le DCEM (Data Center Energie Management) qui prend notamment en compte l’utilisation d’énergies renouvelables et les énergies réutilisées (par exemple pour chauffer des bâtiments). Malgré leurs inconvénients, ces indicateurs ont permis une véritable prise de conscience de l’impact des centres de données sur l’environnement. Les grands constructeurs de centres de données n’hésitent plus à afficher leur PUE et font de sa diminution un argument commercial. Ainsi, Google montre que son PUE moyen est passé de 1,21 en 2009 à 1,12 en 2014. Le problème de cet indicateur, c’est qu’il peut être excellent en dépit d’une augmentation importante de la consommation électrique…
Le Cloud ou l’informatique virtualisée en nuage
Le Cloud est souvent présenté comme une solution améliorant globalement l’efficacité énergétique des centres de données. En effet, il permet l’accès via le réseau, à la demande et en libre-service, à des ressources informatiques virtualisées et mutualisées. Les entreprises accèdent ainsi à des ressources de calcul et de stockage quasi illimitées sans avoir à en assurer la gestion. Le Cloud favorise une mutualisation des ressources. D’une part, grâce à la virtualisation, il permet l’augmentation du taux d’utilisation des serveurs qui hébergent ainsi plusieurs serveurs virtuels. D’autre part, son modèle économique permet le partage de ressources informatiques externes aux utilisateurs. Cette mutualisation des serveurs personnels ou d’entreprises dont les fonctionnalités se retrouvent hébergées dans les grands centres de données crée des économies d’échelle. Par exemple, en 2009, Salesforce.com, un des pionniers du Cloud, hébergeait les serveurs de 54 000 compagnies et de leurs 1,5 millions d’employés avec uniquement 1 000 serveurs.
Différentes techniques permettent d’optimiser la consommation énergétique des Clouds, telles que la consolidation et l’extinction qui visent à agréger autant que possible les serveurs virtuels sur le plus petit nombre de serveurs réels et ainsi pouvoir mettre en veille les machines inutilisées. Ces algorithmes de consolidation s’appuient également sur des techniques de migration qui permettent de déplacer un serveur virtuel d’un serveur physique hôte à un autre, quasiment sans interruption de service. Cette fonctionnalité, apportée par la virtualisation, reste toutefois peu utilisée dans les centres de données car elle augmenterait les risques de défaillances matérielles et logicielles.
Malgré cette mutualisation des ressources dans les Clouds, à l’échelle mondiale, le nombre de centres de données a continué d’augmenter et leur consommation également. Ainsi, d’après un rapport de Greenpeace de 2010, si le Cloud était un pays, il serait le 5e consommateur mondial d’électricité, entre le Japon et l’Inde. Comment expliquer ce phénomène contre-intuitif ?
Ce paradoxe est connu sous le nom de paradoxe de Jevons, du nom de l’économiste britannique qui l’a formalisé en 1865 à propos du charbon. Il stipule qu’à mesure que l’on augmente l’efficacité avec laquelle une ressource est utilisée, la consommation globale de cette ressource peut augmenter au lieu de diminuer. Cet effet rebond entraîne donc une augmentation globale de l’énergie consommée par les Clouds, malgré une amélioration de leur efficacité énergétique.
Cette augmentation de l’énergie consommée par les Clouds est d’autant plus menaçante qu’elle est invisible à l’utilisateur final. En effet, la virtualisation des ressources de calcul et de stockage les rend « immatérielles » et plus lointaines, puisqu’on y accède désormais à travers Internet. Ceci a également des conséquences sur l’utilisation croissante des réseaux de télécommunications et sur leurs impacts sur le développement durable. Il est ainsi difficile d’avoir un ordre d’idée de l’électricité consommée par une recherche Google par exemple, qui est traitée dans un centre de données et effectue l’aller-retour par Internet depuis l’appareil de l’utilisateur. Enfin, la gratuité de ces services peut donner l’illusion d’un faible impact énergétique.
Les Smart Grids ou réseaux électriques intelligents
La déferlante de données provient également des divers objets connectés (Internet of things) qui envahissent progressivement notre quotidien. En effet, ces objets produisent des données périodiquement, données qui doivent être exploitées rapidement. Des capteurs de luminosité, de température et de présence sont par exemple utilisés pour réduire la consommation électrique liée au chauffage ou à l’éclairage dans un bâtiment. Des équipements de domotique centralisent ainsi le contrôle des différents sous-systèmes d’un bâtiment (énergie, éclairage, chauffage, ventilation, production d’eau chaude, etc.) pour permettre une meilleure maîtrise de la consommation globale.
Cette gestion de l’énergie peut être facilitée par des compteurs électriques intelligents et communicants qui peuvent, par exemple, contraindre certains appareils électriques (ordinateurs portables, véhicules électriques, etc.) à se recharger à des périodes propices : lorsque le réseau électrique est en période de faible utilisation ou lorsque l’on dispose d’énergie renouvelable.
Les réseaux de distribution d’électricité peuvent ainsi être optimisés. Ces nouveaux réseaux électriques intelligents (Smart Grids) s’appuient sur les sciences du numérique pour optimiser la production, la distribution et la consommation de l’électricité dans tout le réseau, allant des producteurs aux consommateurs. Ces réseaux électriques intelligents utilisent des capteurs répartis sur les réseaux (tels que les compteurs électriques intelligents) et reliés par un réseau informatique à un puissant système de traitement de données, pour prendre des décisions en temps réel de répartition et d’ajustement de la production et de la distribution. Ceci permet notamment de contrôler plus finement le réseau pour mieux ajuster la production et la distribution à la consommation et ainsi, minimiser les pertes en ligne et en stockage et favoriser l’utilisation d’énergies renouvelables et la production locale.
Cependant, toutes ces optimisations sont conditionnées par l’utilisation d’un système performant de traitement de données et de prise de décision en temps réel, système qui peut être hébergé dans un centre de données. Ce système pourra notamment utiliser des algorithmes d’optimisation et des techniques d’apprentissage automatique pour prévoir les évolutions à court terme de la consommation et de la production. Cette utilisation des sciences du numérique pourrait prochainement jouer un rôle majeur dans l’apparition de villes intelligentes et durables, tout en entraînant des besoins conséquents en appareils électroniques (capteurs notamment) et en centres de données. À ce jour, il n’est pas démontré que le gain global est positif, compte tenu des coûts énergétiques de fabrication, traitement de fin de vie des capteurs et autres dispositifs nécessaires. Les réseaux électriques intelligents illustrent bien, là encore, les rapports complexes entre les sciences et techniques de l’information et de la communication et le développement durable.
Après nous être intéressés aux composants électroniques et à leur cycle de vie dans un premier temps, puis aux centres de données et à la déferlante de données à laquelle ils font face, nous aborderons, dans un prochain article, les logiciels et les optimisations énergétiques possibles à leur niveau.
Newsletter
Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité
Niveau de lecture
Aidez-nous à évaluer le niveau de lecture de ce document.
Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !
Laurent Lefèvre
Chargé de recherche Inria, membre de l'équipe AVALON au sein du laboratoire de l'Informatique du Parallélisme (LIP, UMR 5668).