Wann werden Roboter „gesunden Menschenverstand“ erlangen?
Das Jahr 2022 war ein Jahr, in dem wir von verschiedenen Anwendungen der künstlichen Intelligenz gehört haben, die kontinuierlich verschiedene Arten von Fähigkeiten erweitern:
- Large-Language-Models (LLMs), wie z. B. GPT-31, sind größer geworden und haben ihre Fähigkeiten auf immer mehr Bereiche, wie z. B. Computerprogrammiersprachen, ausgerichtet.
- DeepMind hat sein AlphaFold-Toolkit weiter ausgebaut, indem es Vorhersagen über die Struktur von mehr als 200 Millionen Proteinen zeigt und diese Vorhersagen Forschern kostenlos zur Verfügung stellt2.
- Es gab sogar eine Ausweitung der so genannten „autoML“3 , die sich auf Low-Code-Tools für maschinelles Lernen bezieht, die mehr Menschen ohne datenwissenschaftliche oder computerwissenschaftliche Kenntnisse den Zugang zum maschinellen Lernen ermöglichen könnten4.
Aber selbst wenn wir uns darauf einigen können, dass es Fortschritte gibt, so sind Maschinen in erster Linie immer noch bei diskreten Aufgaben hilfreich und verfügen nicht über viel Flexibilität, um in kurzer Zeit auf viele verschiedene sich ändernde Situationen zu reagieren.
Schnittpunkt von Large-Language-Models und Robotik
Large-Language-Models sind in vielen Fällen aufgrund ihrer emergenten Eigenschaften interessant. Diese riesigen Modelle können Hunderte von Milliarden, wenn nicht Billionen von Parametern haben. Eine Ausgabe könnte ein geschriebener Text sein. Eine andere Möglichkeit wäre eine Art „Autovervollständigung“ in Codieranwendungen.
Aber was wäre, wenn Sie einem Roboter etwas sagen würden wie: „Ich habe Hunger“.
Wenn wir als Menschen jemanden sagen hören: „Ich habe Hunger“ können wir anhand unserer Umgebung sehr schnell viele verschiedene Dinge erkennen. Zu einer bestimmten Tageszeit denken wir vielleicht daran, in ein Restaurant zu gehen. Vielleicht holen wir das Smartphone heraus und denken über einen Imbiss oder eine Lieferung nach. Vielleicht beginnen wir mit der Zubereitung einer Mahlzeit.
Ein Roboter hätte nicht unbedingt ein solches „Situationsbewusstsein“, wenn er nicht im Voraus vollständig einprogrammiert wäre. Wir neigen natürlich dazu, uns Roboter so vorzustellen, dass sie ihre spezifischen, vorprogrammierten Funktionen innerhalb der Vorgaben präziser Aufgaben ausführen können. Vielleicht würden wir denken, dass ein Roboter auf eine Reihe von sehr einfachen Anweisungen reagieren könnte - indem wir ihm mit bestimmten Schlüsselwörtern sagen, wohin er gehen soll, was er mit bestimmten zusätzlichen Schlüsselwörtern tun soll.
"Ich habe Hunger" - ein Drei-Wort-Befehl ohne inhärente Anweisungen würde als unmöglich angesehen werden.
Das Pathways Language Model (PaLM) von Google - ein Anfang für komplexere Mensch/Roboter-Interaktionen
Wissenschaftler von Google konnten aufzeigen, dass ein Roboter in der Lage ist, auf die Aussage "Ich habe Hunger" zu reagieren, allerdings in einer geschlossenen Umgebung. Er war in der Lage, Nahrung zu finden, sie zu greifen und sie dem Menschen anzubieten5.
Das PaLM-Modell von Google war die Grundlage für die Fähigkeit des Roboters, Spracheingaben zu verarbeiten und in Handlungen umzusetzen. PaLM zeichnet sich dadurch aus, dass es die Möglichkeit bietet, in natürlicher Sprache zu erklären, wie es zu bestimmten Schlussfolgerungen kommt6.
Wie so oft werden die dynamischsten Ergebnisse erzielt, wenn verschiedene Lernmethoden miteinander kombiniert werden können, die zu größeren Fähigkeiten führen. Natürlich kann PaLM allein einem Roboter nicht automatisch mitteilen, wie er zum Beispiel eine Tafel Schokolade greifen soll. Die Wissenschaftler würden per Fernsteuerung demonstrieren, wie bestimmte Dinge zu tun sind. PaLM war hilfreich, damit der Roboter diese konkreten, erlernten Handlungen mit relativ abstrakten Aussagen von Menschen zu verbinden, wie z. B. „Ich habe Hunger“, die nicht unbedingt einen expliziten Befehl enthalten7.
Die Wissenschaftler von Google und Everyday Robots nannten ihr Papier „Do As I Can, Not As I Say: Grounding Language in Robotic Affordance's“ (Machen, was ich kann, nicht was ich sage: Sprache in robotischen Fähigkeiten verankern.)8. In Abbildung 1 sehen wir das Genie hinter einem solchen Titel, denn es ist wichtig zu erkennen, dass Large-Language-Models als „Inspirations-“ Texte aus dem gesamten Internet verwenden können, von denen die meisten nicht auf einen bestimmten Roboter in einer bestimmten Situation anwendbar wären. Das System muss die „Schnittmenge“ finden zwischen dem, was das Sprachmodell als sinnvoll anzeigt, und dem, was der Roboter selbst in der physischen Welt tatsächlich erreichen kann. Zum Beispiel:
- Unterschiedliche Sprachmodelle assoziieren das Aufwischen einer verschütteten Flüssigkeit möglicherweise mit allen möglichen Arten der Reinigung - sie sind vielleicht nicht in der Lage, ihr immenses Training zu nutzen, um zu erkennen, dass ein Staubsauger nicht die beste Art ist, eine Flüssigkeit aufzuwischen. Sie können auch einfach nur ihr Bedauern darüber ausdrücken, dass es zu einem Unglück gekommen ist.
- Wenn man an den Schnittpunkt denkt, der die größte Chance hat, einen Sinn zu ergeben, wenn ein Roboter in einer gegebenen Situation „einen Schwamm finden“ kann und das Large-Language-Model darauf hinweist, dass die Antwort "einen Schwamm finden" sinnvoll sein könnte, könnte die Verbindung dieser beiden Konzepte den Roboter dazu bringen, zumindest zu versuchen, eine produktive, korrigierende Maßnahme für die verschüttete Situation zu ergreifen.
Das „SayCan“-Modell ist zwar nicht perfekt und kein Ersatz für echtes Verstehen, aber ein interessanter Weg, um Roboter dazu zu bringen, Dinge zu tun, die in einer bestimmten Situation sinnvoll sein könnten, ohne direkt darauf programmiert zu sein, auf eine Aussage in genau dieser Weise zu reagieren.
Abbildung 1: Illustrative Darstellung der möglichen Funktionsweise von "SayCan"
Quelle: Grafik aus Ahn et al. “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.” (Machen, was ich kann, nicht was ich sage: Sprache in robotischen Fähigkeiten verankern.) ARXIV. Eingereicht am 4. April 2022, zuletzt geändert am 16. August 2022.
In gewissem Sinne ist dies der spannendste Teil dieser speziellen Forschungsrichtung:
- Roboter benötigen in der Regel kurze, fest kodierte Befehle. Das Verstehen von weniger spezifischen Anweisungen ist normalerweise nicht möglich.
- Large-Language-Models haben eindrucksvoll bewiesen, dass sie in der Lage sind, auf verschiedene Aufforderungen zu reagieren, allerdings immer nur in einer „digitalen“ Umgebung.
Wenn die Stärke von Robotern in der physischen Welt mit der - zumindest scheinbaren - Fähigkeit, natürliche Sprache zu verstehen, die von Large-Language-Models herrührt, kombiniert werden kann, besteht die Möglichkeit einer bemerkenswerten Synergie, die besser ist als jede für sich allein.
Schlussfolgerung: Unternehmen setzen auf vielfältige Weise auf Robotik-Fähigkeiten
Im Bereich der künstlichen Intelligenz ist es wichtig, die kritische Entwicklung vom Konzept über die Forschung bis hin zum Durchbruch und dann erst später die Nutzung auf dem Massenmarkt und (hoffentlich) die Rentabilität zu erkennen. Die Roboter, die heute abstrakte natürliche Sprache verstehen, könnten noch weit davon entfernt sein, auf dem Massenmarkt Einnahmen zu erzielen.
Dennoch sehen wir, dass Unternehmen Maßnahmen zum verstärkten Einsatz der Robotik ergreifen. Amazon steht oft im Mittelpunkt, wenn es um den Einsatz von Robotern in seinen Vertriebszentren geht, aber erst kürzlich hat das Unternehmen seine Absicht bekannt gegeben, iRobot9, den Hersteller des Staubsaugersystems Roomba, zu übernehmen. Roboter mit immer fortschrittlicheren Fähigkeiten werden eine Rolle in der Gesellschaft spielen, wenn wir uns weiter entwickeln.
In der heutigen Zeit, in der der Druck auf die Löhne zunimmt, erforschen die Unternehmen immer mehr, was Roboter und Automatisierung für ihre Betriebe bedeuten könnten. Es ist wichtig, nicht zu übertreiben, wo wir im Jahr 2022 stehen – Roboter sind zu diesem Zeitpunkt nicht in der Lage, vollständig menschliche Verhaltensweisen nachzuahmen -, aber wir sollten in den kommenden Jahren bemerkenswerte Fortschritte erwarten.
Quellen
1 Generative Pre-trained Transformer 3 (Generativ vortrainierter Transformator 3)
2 Quelle: Callaway, Ewen. “’The Entire Protein Universe’: AI Predicts Shape of Nearly Every Known Protein.” (Das gesamte Proteinuniversum: KI sagt die Form von fast jedem bekannten Protein voraus.) Nature. Band 608. 4. August 2022. Nature. Volume 608. 4 August 2022.
3 Automatisches maschinelles Lernen
4 Quelle: Xu, Tammy. “Automated techniques could make it easier to develop AI.” ("Automatisierte Techniken könnten die Entwicklung von KI erleichtern.") MIT Technology Review. 5. August 2022.
5 Quelle: Knight, Will. "Google's New Robot Learned to Take Orders by Scraping the Web." (Googles neuer Roboter hat durch Scraping des Internets gelernt, Bestellungen entgegenzunehmen.) WIRED. 16. August 2022.
6 Quelle: Knight, 16. August 2022.
7 Quelle: Knight, 16. August 2022.
8 Quelle: Ahn et al. "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances". (Machen, was ich kann, nicht was ich sage: Sprache in robotischen Fähigkeiten verankern.) ARXIV. Eingereicht am 4. April 2022, zuletzt überarbeitet am 16. August 2022.
9 Quelle: Hart, Connor. “Amazon Buying Roomba Maker iRobot for $1.7 Billion.” (Amazon kauft Roomba-Hersteller iRobot für 1,7 Mrd. USD) * Wall Street Journal, 5. August 2022