Quand'è che i robot acquisiranno il "buon senso"?
![](https://www.wisdomtree.eu/-/media/eu-media-files/blog/refresh-images/technology/artificial-intelligence/ai.jpg?h=564&iar=0&w=1151&sc_lang=it-ch&hash=CD6F8E97F62EA1473F96A4F1DDD4CE43)
Il 2022 è stato un anno in cui si è parlato di diverse applicazioni dell'intelligenza artificiale che hanno migliorato costantemente diversi tipi di capacità:
- i grandi modelli linguistici, come dimostra il caso di GPT-31, si sono ampliati e hanno orientato le loro potenzialità verso un numero sempre maggiore di settori, come i linguaggi di programmazione informatica;
- DeepMind ha espanso ulteriormente il suo pacchetto AlphaFold, che ha pubblicato e reso gratuitamente disponibili ai ricercatori le previsioni sulla struttura di oltre 200 milioni di proteine2.
- c'è stata espansione persino nel cosiddetto "autoML"3 , con cui si indicano gli strumenti di apprendimento automatico low-code che potrebbero consentire l'accesso a tale apprendimento ad un maggior numero di persone prive di competenze in materia di informatica o di scienza dei dati4.
Tuttavia, anche se possiamo essere d'accordo sul fatto che stanno compiendo progressi, le macchine sono ancora principalmente utili nei compiti discreti e non avrebbero una grande flessibilità per reagire in tempi brevi ad un gran numero di situazioni diverse e mutevoli.
Un incrocio tra i grandi modelli linguistici e la robotica
In molti casi i grandi modelli linguistici sono interessanti per le loro caratteristiche emergenti. Questi modelli giganteschi possono avere centinaia di miliardi, se non migliaia di miliardi di parametri. Uno dei loro risultati potrebbe essere la produzione di testi scritti; un altro potrebbe essere qualcosa di simile all'autocompilazione nelle applicazioni di codifica.
Cosa succederebbe, però, se dicessimo a un robot una frase come "ho fame"?
In quanto esseri umani, se sentiamo qualcuno dire "ho fame", possiamo intuire abbastanza rapidamente molte cose diverse sulla base di ciò che ci circonda; a una certa ora della giornata, forse ci verrebbe l'idea di andare al ristorante, o forse prenderemmo lo smartphone per acquistare cibo da asporto o farcelo consegnare a domicilio. Oppure cominceremmo a preparare qualcosa da mangiare.
Un robot necessariamente non disporrebbe di questa "consapevolezza situazionale" se non fosse dettagliatamente programmato in anticipo. Siamo naturalmente inclini a pensare che i robot siano in grado di svolgere le loro funzioni specifiche e preimpostate entro i limiti di linee guida che riguardano compiti precisi. Forse penseremmo che un robot possa rispondere a una serie di istruzioni molto semplici, a patto di dirgli dove andare con determinate parole chiave e che cosa fare con ulteriori parole chiave.
"Ho fame": si presupporrebbe che sia impossibile eseguire un comando composto da due parole senza istruzioni più precise.
Il Pathways Language Model (PaLM) di Google: un primo passo verso interazioni più complesse tra esseri umani e robot
I ricercatori di Google hanno presentato un robot capace di rispondere, sia pure in un ambiente chiuso, alla frase "ho fame". Il robot è riuscito a localizzare il cibo, ad afferrarlo e poi a offrirlo all'essere umano5.
La capacità del robot di ricevere gli input linguistici e tradurli in azioni si basava sul modello PaLM di Google, un modello notevole perché prevede tra l'altro la capacità di spiegare, in un linguaggio naturale, il modo in cui il robot perviene a determinate conclusioni6.
Come spesso avviene, i risultati più dinamici tendono ad arrivare quando è possibile combinare diversi metodi di apprendimento per ottenere maggiori capacità. Naturalmente il PaLM non può comunicare di per sé automaticamente a un robot come afferrare fisicamente una tavoletta di cioccolato, per esempio. Sono i ricercatori a mostrare, tramite controllo remoto, come fare determinate cose. Il PaLM è stato utile perché ha permesso al robot di collegare queste azioni concrete che ha appreso con frasi relativamente astratte pronunciate da esseri umani, come "ho fame", che non contengono necessariamente alcun comando esplicito7.
I ricercatori di Google e di Everyday Robots hanno pubblicato un documento dal titolo ["Fa' come posso, non come dico: il linguaggio di base nelle potenzialità dei robot"]. Nella figura 1 vediamo il genio che si nasconde dietro un titolo come questo, perché è importante rendersi conto che i grandi modelli linguistici possono prendere il loro testo "ispiratore" dall'intera rete di Internet, cosa che non sarebbe per lo più applicabile a un robot in particolare in una particolare situazione. Il sistema deve "trovare l'intersezione" tra ciò che il modello linguistico indica che abbia senso fare e ciò che il robot stesso può effettivamente compiere nel mondo fisico. Ad esempio:
- modelli linguistici diversi potrebbero associare la pulizia di un liquido versato con tutti i vari tipi di pulizia: c'è il rischio che non siano capaci di utilizzare la loro immensa formazione per accorgersi che un aspirapolvere non è forse il mezzo migliore per rimuovere un liquido. Inoltre potrebbero limitarsi a esprimere il loro dispiacere per il fatto che il liquido sia stato versato;
- pensando all'intersezione che ha le maggiori possibilità di avere senso, se un robot in una determinata situazione può "trovare una spugna" e il grande modello linguistico indica che la risposta "trovare una spugna" potrebbe essere ragionevole, l'abbinamento di questi due concetti potrebbe indurre il robot a tentare almeno un'azione produttiva e correttiva per far fronte alla situazione del liquido versato.
Il modello "SayCan", pur essendo certamente imperfetto e non potendo sostituire la comprensione vera e propria, è un sistema interessante per mettere i robot in condizione di fare cose che potrebbero avere senso in una determinata situazione, senza essere direttamente programmati per rispondere a una frase in quella maniera precisa.
Figura 1: Rappresentazione illustrativa di come potrebbe funzionare "SayCan"
Fonte: Grafico tratto da Ahn et al. “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.” ARXIV. Inviato il 4 aprile 2022, ultimo aggiornamento il 16 agosto 2022.
In un certo senso, questa è la parte più entusiasmante di questo particolare filone di ricerca:
- i robot hanno tendenzialmente bisogno di comandi brevi e codificati. Di solito non possono comprendere altre istruzioni meno specifiche;
- i grandi modelli linguistici hanno dimostrato una capacità impressionante di reazione a diverse richieste, ma sempre in un contesto "esclusivamente digitale".
Se la forza dei robot nel mondo fisico si può abbinare alla capacità, almeno apparente, di comprendere il linguaggio naturale utilizzato da grandi modelli linguistici, c'è l'opportunità di una sinergia considerevole tra due elementi che, presi separatamente, rendono meno.
Conclusione: le aziende stanno promuovendo in svariati modi le capacità della robotica
Nell'ambito dell'intelligenza artificiale, è importante riconoscere la progressione critica che porta dal concetto alla ricerca, quindi alle innovazioni radicali e, solo in seguito, alla diffusione di massa e (auspicabilmente) alla redditività. In questo percorso, i robot che comprendono il linguaggio naturale astratto oggi potrebbero trovarsi molto distanti dall'attività del mercato di massa che produce ricavi.
Eppure vediamo delle aziende che si attivano per promuovere un utilizzo sempre maggiore della robotica. Amazon è spesso al centro dell'attenzione per le funzioni che potrebbe essere in grado di affidare ai robot nei suoi centri di distribuzione, ma ancor più recentemente ha annunciato l'intenzione di acquisire iRobot9, il produttore del sistema di aspirazione Roomba. Man mano che i progressi avanzano, i robot con una capacità sempre più avanzata avranno un ruolo importante nella società.
Nel contesto attuale, caratterizzato da crescenti pressioni salariali, le aziende esplorano sempre di più i vantaggi che i robot e l'automazione potrebbero apportare alle loro operazioni. È importante non sopravvalutare la situazione nel 2022 (ora come ora i robot non sono in grado di riprodurre del tutto i comportamenti umani), ma dovremmo aspettarci progressi significativi negli anni a venire.
Fonti
1 Generative Pre-trained Transformer 3
2 Fonte: Callaway, Ewen. “’The Entire Protein Universe’: AI Predicts Shape of Nearly Every Known Protein.” Nature. Volume 608. 4 agosto 2022.
3 Apprendimento automatico delle macchine
4 Fonte: Xu, Tammy. “Automated techniques could make it easier to develop AI.” MIT Technology Review. 5 agosto 2022.
5 Fonte: Knight, Will. “Google’s New Robot Learned to Take Orders by Scraping the Web.” WIRED. 16 agosto 2022.
6 Fonte: Knight, 16 agosto 2022.
7 Fonte: Knight, 16 agosto 2022.
8 Fonte: Ahn et al. “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.” ARXIV. Inviato il 4 aprile 2022, ultimo aggiornamento il 16 agosto.
9 Fonte: Hart, Connor. “Amazon Buying Roomba Maker iRobot for $1.7 Billion.” Wall Street Journal, 5 agosto 2022.