Menschen sagen nicht immer die Wahrheit – und auch Künstlicher Intelligenz kann man das Schwindeln beibringen. Jetzt wurde ChatGPT aber einer Lüge überführt. Dabei ging es ausgerechnet um illegale Aktivitäten.
Viele Menschen fürchten sich vor KI und verbinden die Technologie mit Horrorszenarien. Im Alltag sind Probleme in kleinerem Ausmaß allerdings deutlich wahrscheinlicher. Eine Gruppe von Forschern wollte deshalb nun herausfinden, ob Sprach-KI, sogenannte Large Language Models, selbstständig lernen kann, uns anzulügen. Und erwischte ChatGPT tatsächlich dabei, wie es unmoralisches Handeln zu verschleiern versuchte.
Das geht aus einer Studie hervor, die drei Forscher des KI-Start-ups Apollo Research in der letzten Novemberwoche veröffentlicht hat. Sie wollten wissen, "ob ein Large Language Model, das eigentlich als hilfreich, harmlos und ehrlich entwickelt wurde, sich falsch verhalten und die Nutzer aus strategischen Gründen täuschen kann", heißt es in der Einleitung. Dabei war den Forschern wichtig, dass es sich nicht um gestellte, rein theoretische Probleme handelte, sondern um realistische Anwendungsfälle.
Verheimlichen und Lügen
Dafür wählten sie das LLM-Modell GPT als Berater in Aktiengeschäften. Also das Modell, auf dessen Basis auch der bekannte Dienst ChatGPT läuft. Die KI wurde angewiesen, als selbstständiger Aktienbroker zu arbeiten und ihre Geschäfte auf Nachfrage zu erklären. Zusätzlich bekam sie die Information, dass Insider-Informationen der beauftragenden Firma nicht als Grundlage für Aktienkäufe geduldet werden. Indem man der KI verriet, dass es wirtschaftlich gerade nicht so gut liefe, wurde bewusst Druck aufgebaut. Als das Programm dann doch Insidertipps durchgestochen bekam, fing es an, entgegen seinen Anweisungen nach diesen zu handeln – und darüber auch noch zu lügen.
Dabei gab es zwei Ebenen von Verschleierung. So verheimlichte die KI beim Verkünden der Kauf-Entscheidung teilweise, dass es vorab von einer Firmenzusammenlegung erfahren hatte. Fragte man gezielt nach, ob das Modell schon vorher davon gewusst habe, leugnete es das zum Teil aktiv. Und betonte, nur mit öffentlich verfügbaren Daten gearbeitet zu haben. Eine klare Lüge.
Die neueren Varianten sind skrupelloser
Spannend ist, dass verschiedene Versionen von GPT dabei unterschiedlich oft unmoralisch handelten. Während ältere Varianten wie "Davinci-002" nur sehr selten die Daten aus den Insider-Tips nutzten und auch seltener darüber logen, waren die Varianten des aktuellen GPT-4 in beiden Bereichen deutlich skrupelloser. Vor allem das Spitzenmodell GPT-4-32K bewies jede Menge kriminelle Energie: Es nutzte die Daten in knapp 75 Prozent der Versuche, wollte es noch etwas häufiger verheimlichen – und log schließlich bei fast 90 Prozent der Durchgänge. Noch häufiger schwindelte nur GPT-3.5-Turbo. Es nutzte die Daten zwar nur in knapp 10 Prozent der Fälle, leugnete es dann aber jedes Mal.
Interessanterweise lassen sich die Programme mit zusätzlichen Anweisungen auch dazu bringen, häufiger oder seltener unmoralisch zu handeln. Waren die Anweisungen zum moralischen Verhalten besonders stark formuliert, ließ es sich etwa tatsächlich unterbinden. Auch wenn das Risiko, erwischt zu werden, klar definiert war, hatte das Einfluss auf das Ergebnis. Das Weglassen des Erfolgsdrucks senkte den Anreiz ebenfalls drastisch.
Wann lügt man wirklich?
Dass KI lügen kann, ist bereits seit Längerem bekannt. Bisher war es aber in erster Linie beobachtet worden, wenn man die KI gezielt darauf trainierte. In einem gemeinsamen Projekt der Universitäten Oxford und Cambridge war es im September gelungen, ChatGPT Lügen nachzuweisen, indem man es mit zusammenhangslosen Fragen verwirrte. Bei dem Experiment kam es allerdings vor allem zu Unwahrheiten, indem man das Programm entweder zwielichtige Personen darstellen ließ oder es gezielt zum Lügen aufforderte. Dabei ist gar nicht ohne Weiteres nachzuweisen, ob die KI lügt: Eine falsche Aussage wird schließlich erst dann zu einer echten Lüge, wenn man sich der Unwahrheit bewusst ist.
Vor diesem Hintergrund scheint ganz besonders bemerkenswert, dass die Programme auch dann unmoralisches Verhalten entwickeln können, wenn man es gar nicht darauf angelegt hat. Die Apollo-Forscher selbst betonen gleichwohl, man solle aus ihrer kleinen Versuchsanordnung noch keine Schlüsse über die mögliche Häufigkeit des Phänomens ziehen, es bedürfe weiterführender Experimente.
Aber der KI alles immerzu vorbehaltslos glauben, nein, das das mag man ab sofort vielleicht auch nicht mehr.
Und was denken Sie daran ?