I carichi di lavoro dell'IA consumeranno tutta l'energia del mondo?
In fenomeni di una tale portata, quasi nulla rimane costante. Quando valutiamo una nuova tecnologia:
- non possiamo presumere che i tassi di adozione o di utilizzo rimarranno stabili: potrebbero diminuire o, perché no, crescere.
- Non possiamo dare per scontato che la tecnologia che provvede al nostro fabbisogno energetico rimarrà la stessa: potrebbero esserci dei progressi nell'efficienza o dei cambiamenti nel mix energetico nel suo complesso.
- Non possiamo presupporre che l'efficienza della specifica tecnologia che stiamo adottando rimarrà immutata; abbiamo assistito a numerosi esempi di settori in cui la versione iniziale di qualcosa è stata poi migliorata, nella tecnologia o nel software, riuscendo così a offrire maggiori capacità con un minore consumo di energia.
Dobbiamo anche riconoscere che la stessa intelligenza artificiale (IA) potrebbe suggerire miglioramenti nell'efficienza energetica di applicazioni specifiche, come il riscaldamento e il raffreddamento di un edificio. Pertanto, qualsiasi analisi relativa all'IA e all’utilizzo di energia deve riconoscere che l'unica costante sarà il cambiamento.
Impatto ambientale di alcuni modelli linguistici di grandi dimensioni selezionati (LLM)
Gli LLM godono di un'attenzione particolarmente intensa promossa dall'attuale entusiasmo per l'IA generativa. Quindi, è ragionevole valutare la quantità di emissioni di carbonio generate da alcuni di questi sistemi. L’AI Index Report, pubblicato nel 2023 dalla Stanford University, ha fornito alcuni dati, notando che fattori come il numero di parametri in un modello, il power usage effectiveness1 di un centro dati e l'intensità di carbonio della rete sono tutti elementi che giocano un ruolo importante.
Le Figure 1a e 1b forniscono maggiori dettagli per valutare l'intensità di anidride carbonica tra i diversi LLM:
- il risultato è determinato da diversi fattori: nella Figura 1a, si potrebbe cadere nella tentazione di guardare il "Numero di parametri" e prevedere che una cifra più elevata indichi necessariamente una quantità maggiore di emissioni. Vediamo che Gopher, con 280 miliardi di parametri, non ha registrato le maggiori emissioni di anidride carbonica equivalente x PUE; tale merito è andato a GPT-3.
- Sebbene non sia il modello più grande per numero di parametri, l’utilizzo di GPT-3 ha comportato l'intensità di carbonio della rete più alta tra i modelli mostrati, oltre a registrare i consumi più elevati. Si tratta indubbiamente di una ricetta per ottenere emissioni elevate, ma è illuminante perché ci costringe a riflettere non solo sul numero di parametri, ma anche sulla posizione del centro dati in cui si svolge la formazione, sull'intensità di carbonio della rete in cui si trova il centro dati e sul consumo energetico del modello.
- La Figura 1b è stata progettata per aiutare a valutare un'attività relativamente astratta (la formazione di un LLM) mettendola in relazione alle emissioni di carbonio derivanti da attività più concrete, come andare da New York a San Francisco in aereo. Aiuta a far capire, in proporzione, cosa significa che GPT-3 è associato a 502 tonnellate di emissioni di anidride carbonica equivalente.
Figura 1a: Impatto ambientale di modelli di apprendimento automatico selezionati, 2022
Fonte: Nestor Maslej, Loredana Fattorini, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Vanessa Parli, Yoav Shoham, Russell Wald, Jack Clark, and Raymond Perrault, “The AI Index 2023 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, aprile 2023.
La performance storica non è indicativa di quella futura e qualsiasi investimento può diminuire di valore.
Figura 1b: Emissioni di anidride carbonica equivalente (tonnellate) per modelli di apprendimento automatico selezionati ed esempi reali
Fonte: Nestor Maslej, Loredana Fattorini, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Vanessa Parli, Yoav Shoham, Russell Wald, Jack Clark, and Raymond Perrault, “The AI Index 2023 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, aprile 2023.
La performance storica non è indicativa di quella futura e qualsiasi investimento può diminuire di valore.
Valutare il consumo energetico di un LLM
Chi costruisce i vari LLM può manovrare molte leve per influenzare le diverse caratteristiche, come il consumo energetico. I ricercatori di Google hanno proposto una famiglia di modelli linguistici denominata GLaM (Generalist Language Model), che utilizza un "mixture of experts scarsamente attivato". Sebbene questo articolo non intende fornire un'analisi completa del funzionamento di questo tipo di approccio, notiamo che il più grande dei modelli GLaM ha 1.200 miliardi di parametri. Conoscendo esclusivamente questo dato, l'ipotesi è che tale modello consumerà più energia di tutti i modelli che abbiamo visto nelle Figure 1a e 1b2.
In realtà, il modello GLaM, con 1.200 miliardi di parametri, consuma solo un terzo dell'energia necessaria per formare GPT-3 e richiede solo la metà dei flops per le operazioni di inferenza. Per descrivere con parole semplici tale fenomeno, possiamo dire che, sebbene il modello abbia un totale di 1.200 miliardi di parametri, un determinato token di input nel modello GLaM ne attiva un massimo di 95 miliardi e non l’intero modello con tutti i suoi parametri. GPT-3, invece, attivava tutti i 175 miliardi di parametri per ogni token di input3. Emerge quindi che, nonostante le prestazioni dei modelli di IA si misurino tenendo conto di diverse dimensioni, in base a molti elementi il modello GLaM è in grado di superare anche GPT-34.
Conclusione
In definitiva possiamo dire che la progettazione dei modelli è importante e se coloro che la eseguono vogliono individuare modi per preservare le prestazioni utilizzando meno energia, possono fare leva su molte opzioni.
Fonti
1 Il power usage effectiveness (PUE) è utile per valutare l'efficienza energetica dei centri dati in modo uniforme. PUE = (quantità totale di energia utilizzata da un centro dati informatico) / (energia fornita alle apparecchiature informatiche). Un PUE più alto indica che il centro dati è meno efficiente.
2 Fonte: Du et al. “GLaM: Efficient Scaling of Language Models with Mixture-of-Experts.” ARXIV.org. 1o agosto 2022.
3 Fonte: Patterson, David; Gonzalez, Joseph; Hölzle, Urs; Le, Quoc Hung; Liang, Chen; Munguia, Lluis-Miquel; et al. (2022): The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink. TechRxiv. Preprint. https://doi.org/10.36227/techrxiv.19139645.v4
4 Fonte: Du et al, 1o agosto 2022..
Blog correlati
+ 4 insegnamenti dalla conferenza EmTech Digital sull'IA
+ La fine del massacro delle Saas e l’ascesa dell’IA generativa
+ Cogli la rivoluzione dell'IA con WisdomTree