L’impact environnemental de l’IA : une étude de cas FR

Dans notre précédent article, « Les IA vont-elles consumer toute l’énergie du monde ? », nous avons examiné la relation entre l’augmentation de la puissance de traitement et l’augmentation de la demande en énergie, et ce que cela signifie pour l’intelligence artificielle (IA) d’un point de vue environnemental. Dans cet article, nous souhaitons éclairer davantage cette discussion avec une étude de cas du plus vaste grand modèle de langage (LLM) du monde, BLOOM.

Étude de cas sur l’impact environnemental : BLOOM

Estimer précisément l’impact environnemental du fonctionnement d’un LLM est loin d’être un exercice facile. Il faut d’abord comprendre qu’il existe un « cycle de vie du modèle » général. Pour résumer, le cycle de vie du modèle peut être pensé en trois phases¹ :

L’inférence : Il s’agit de la phase où un modèle donné est dit « opérationnel ». Si l’on prend le système de traduction machine de Google, par exemple, l’inférence a lieu quand le système fournit des traductions pour les utilisateurs. L’utilisation d’énergie pour toute requête unique est réduite, mais si le système global traite 100 milliards de mots par jour, l’utilisation d’énergie globale peut néanmoins être conséquente.

L’entraînement : Il s’agit de la phase où les paramètres d’un modèle ont été déterminés et le système est exposé à des données à partir desquelles il va pouvoir apprendre, de sorte que les résultats de la phase d’inférence sont jugés « exacts ». Dans certains cas, le gaz à effet de serre émis pour entraîner des modèles conséquents et innovants peut être comparé aux émissions d’une voiture pendant toute sa durée de vie.

Le développement de modèle : Il s’agit de la phase où les développeurs et les chercheurs cherchent à construire le modèle et vont expérimenter avec toutes sortes d’options différentes. Il est plus simple de mesurer l’impact de l’entraînement d’un modèle terminé qui est devenu public plutôt que de chercher à mesurer l’impact des processus de recherche et de développement, qui peuvent inclure de nombreux tests avant d’arriver au modèle fini que le public connaît.

Ainsi, l’étude de cas de BLOOM se concentre sur l’impact de l’entraînement du modèle.

BLOOM est entraîné sur 1,6 terabyte de données dans 46 langages naturels et 13 langages de programmation.

On peut noter qu’au moment de l’étude, Nvidia n’avait pas publié l’intensité carbone de cette puce spécifique, les chercheurs ont donc dû compiler des données à partir d’une configuration équivalente proche. C’est un détail important qu’il faut garder en tête, en cela qu’une représentation précise de l’impact carbone de l’entraînement d’un seul modèle nécessite beaucoup d’informations et que si certaines données ne sont pas publiées, de plus en plus d’estimations et d’approximations seront nécessaires (ce qui aura des conséquences sur les données finales).

Graphique 1 : Résumé des statistiques de l’entraînement du modèle BLOOM

Source : Luccioni et al. « Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model. » ARXIV.org. Présenté le 3 novembre 2022.

Si les traitements de données des IA sont en constante augmentation, cela signifie-t-il que les émissions de carbone sont également en constante augmentation²?

En prenant en compte tous les centres de données, réseaux de transmission de données et appareils liés, il est estimé que l’équivalent d’environ 700 millions de tonnes de dioxyde de carbone, soit à peu près 1,4 %, a été émis mondialement en 2020. Environ les deux tiers des émissions venaient d’une utilisation d’énergie opérationnelle. Même si 1,4 % n’est pas encore un nombre conséquent par rapport au total mondial, la croissance dans ce domaine peut être rapide.

Actuellement, il n’est pas possible de savoir exactement quelle part de ces 700 millions de tonnes provient directement de l’IA et de l’apprentissage machine. Une supposition possible, pour en arriver à ce chiffre, est que l’IA et le volume de travail de l’apprentissage machine avaient lieu presque exclusivement dans des centres de données à hyperéchelle. Ces centres de données spécifiques ont contribué d’environ 0,1 % à 0,2 % aux émissions de gaz à effet de serre.

Certaines des plus grandes entreprises du monde publient directement des statistiques pour montrer qu’elles ont une conscience écologique. Meta Platforms en est un bon exemple. Si nous prenons en compte ses activités spécifiques :

L’utilisation d’énergie globale du centre de données a augmenté de 40 % par an depuis 2016.

L’activité d’apprentissage globale de l’apprentissage machine a augmenté d’environ 150 % par an.

L’activité d’inférence globale a augmenté de 105 % par an.

Mais les empreintes d’émission de gaz à effet de serre globales de Meta Platform ont baissé de 90 % depuis 2016 en raison de ses acquisitions en énergie renouvelable.

Pour résumer, si les entreprises augmentaient simplement leur utilisation de calcul pour développer, entraîner et faire fonctionner les modèles, en augmentant ces activités en permanence, il serait logique de supposer que leurs émissions de gaz à effet de serre seraient en hausse constante. Cependant, les plus grandes entreprises du monde souhaitent être perçues comme « ayant une conscience environnementale », et achètent régulièrement des énergies renouvelables et même des crédits carbone. Cela rend la vision globale plus floue : il y a plus d’IA et elles peuvent utiliser de l’énergie plus intensément à certains égards, mais si de plus en plus d’énergie provient de sources renouvelables, alors l’impact environnemental pourrait ne pas augmenter au même taux.

Conclusion : un domaine fructueux pour une analyse continue

Une démarche intéressante pour de futures analyses sera d’évaluer l’impact des recherches internet avec l’IA générative par rapport au processus de recherche actuel, plus standard. Il est estimé que les empreintes carbone des recherches d’IA génératives pourraient être quatre ou cinq fois plus élevées, mais prendre seulement en compte ce point pourrait être trompeur. Par exemple, si les recherches avec l’IA générative économisent du temps ou réduisent le nombre de recherches globales, sur le long terme, des recherches avec IA générative efficaces pourraient être plus bénéfiques que préjudiciables³.

Tout comme nous apprenons actuellement comment et quand l’IA générative va aider les entreprises, nous en apprenons constamment plus sur ses impacts environnementaux.

Sources

¹ Source : Kaack et al. « Aligning artificial intelligence with climate change mitigation. » Nature Climate Change. Volume 12, juin 2022.

² Source : Kaack et al., Juin 2022.

³ Source : Saenko, Kate. « Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins. » The Conversation. 23 mai 2023.

Blogs associés

+ 4 points essentiels de la conférence sur l’AI d’EM Tech Digital

+ La fin du SaaSacre et l’essor de l’IA générative

+ Mettez la révolution de l’IA à profit avec WisdomTree