09/17/2025 | Press release | Distributed by Public on 09/17/2025 09:11
Wenn Menschen Aufgaben an KI delegierten verhalten sie sich häufig unmoralischer
Macht uns die Delegation an KI weniger ethisch?
© Hani Jahani
Verhaltenswissenschaftliche Untersuchungen haben gezeigt, dass Menschen eher unehrlich handeln, wenn sie sich von den Konsequenzen distanzieren können. Es ist einfacher, Regeln zu beugen oder zu brechen, wenn niemand zusieht - oder wenn jemand anderes die Handlung ausführt. Eine neue Studie eines internationalen Forschungsteams des Max-Planck-Instituts für Bildungsforschung, der Universität Duisburg-Essen und der Toulouse School of Economics zeigt, dass diese moralischen Hemmschwellen noch weiter schwinden, wenn Menschen Aufgaben an KI delegieren.
In 13 Studien mit mehr als 8.000 Teilnehmenden untersuchten die Forschenden die ethischen Risiken der Delegation an Maschinen - sowohl aus der Perspektive derjenigen, die Anweisungen geben, als auch aus der Perspektive derjenigen, die sie ausführen. In Studien, die sich darauf konzentrierten, wie Menschen Anweisungen gaben, stellten sie fest, dass Menschen deutlich häufiger betrogen, wenn sie das Verhalten an KI-Agenten auslagern konnten, anstatt selbst zu handeln.
Dies geschah insbesondere dann, wenn sie Interfaces verwendeten, die eine hochgradige Zielsetzung erforderten anstatt explizite Anweisungen zu unehrlichem Handeln. Mit diesem Programmieransatz erreichte die Unehrlichkeit ein auffallend hohes Niveau: Nur eine kleine Minderheit (12-16 Prozent) blieb ehrlich, während die überwiegende Mehrheit (95 Prozent) ehrlich war, wenn sie die Aufgabe selbst ausführte. Selbst bei der am wenigsten bedenklichen Form der KI-Delegation, nämlich bei expliziten Anweisungen in Form von Regeln, verhielten sich nur etwa 75 Prozent der Menschen ehrlich, was einen deutlichen Rückgang der Unehrlichkeit gegenüber der Selbstauskunft bedeutet.
"Der Einsatz von KI schafft eine bequeme moralische Distanz zwischen Menschen und ihren Handlungen - er kann sie dazu verleiten, Verhaltensweisen zu fordern, die sie selbst nicht unbedingt an den Tag legen würden und die sie möglicherweise auch nicht von anderen Menschen verlangen würden", sagt Zoe Rahwan vom Max-Planck-Institut für Bildungsforschung in Berlin. "Unsere Studie zeigt, dass Menschen eher zu unethischem Verhalten bereit sind, wenn sie es an Maschinen delegieren können - insbesondere, wenn sie es nicht direkt aussprechen müssen", fügt Nils Köbis hinzu von der Universität Duisburg-Essen. Angesichts der Tatsache, dass die meisten KI-Systeme für jeden mit einer Internetverbindung zugänglich sind, warnen die beiden Forschenden und Erstautoren der Studie vor einer Zunahme unethischen Verhaltens.
Beispiele für unethisches KI-Verhalten gibt es bereits in der Praxis, viele davon sind erst nach Beginn der Studien der Autorinnen und Autoren im Jahr 2022 aufgetaucht. Ein Preisalgorithmus einer Mitfahr-App veranlasste Fahrende dazu, ihren Standort zu wechseln, nicht weil Fahrgäste eine Mitfahrgelegenheit suchten, sondern um künstlich eine Knappheit zu erzeugen und damit Preiserhöhungen auszulösen. In einem anderen Fall wurde das KI-Tool einer Vermietungsplattform als Gewinnmaximierender vermarktet und führte schließlich zu mutmaßlich unzulässigen Preisabsprachen.
In Deutschland haben Tankstellen Preisalgorithmen verwendet, die die Preise offenbar synchron mit denen der Wettbewerber in der Nähe anpassten, was zu höheren Benzinpreisen für die Kunden führte. Diese Systeme wurden höchstwahrscheinlich nie ausdrücklich angewiesen, zu betrügen; sie folgten lediglich vage definierten Gewinnzielen. Solche Fälle zeigen, dass Maschinen unethisch handeln können. Die menschliche Seite der Gleichung, also die Frage, ob und wie Menschen KI nutzen, um moralische Verantwortung abzuwälzen, blieb jedoch weitgehend unerforscht.
Im Laufe der Jahre hat die Verhaltensforschung Methoden entwickelt, um Unehrlichkeit zu untersuchen. Eine der am weitesten verbreiteten ist das Würfelspiel, das in Hunderten Studien weltweit eingesetzt wurde. Bei dieser Aufgabe beobachten die Teilnehmenden Würfelwürfe und werden dann gebeten, das beobachtete Ergebnis zu melden. Die Teilnehmenden werden entsprechend der angegebenen Zahl bezahlt, wobei höhere Zahlen mehr Geld einbringen. Anhand dieses Designs können die Forschenden beurteilen, ob die Teilnehmenden im Durchschnitt ehrlich gehandelt, die Wahrheit verdreht oder ganz und gar betrogen haben. In der Regel geben die Menschen höhere Zahlen an als tatsächlich gewürfelt wurden. Studien haben gezeigt, dass das Verhalten in diesem Spiel zuverlässig die Unehrlichkeit in der realen Welt widerspiegelt, vom Fahren ohne Fahrschein bis hin zu unethischen Verkaufstaktiken.
Mithilfe dieser Würfelaufgabe untersuchten die Forschenden, was passiert, wenn Menschen die Aufgabe, Würfelergebnisse zu melden, an eine KI delegieren, anstatt sie selbst zu erledigen. Entscheidend war, dass die Forschenden die Anweisungen an die KI auf drei verschiedene Arten variierten:
Das Ausmaß der Unehrlichkeit überraschte die Forschenden. Selbst in der regelbasierten Konfiguration war der Betrug deutlich höher als bei der eigenständigen Ausführung der Aufgabe. Ohne maschinelle Beteiligung machten 95 Prozent der Teilnehmenden wahrheitsgemäße Angaben. Dieser Wert sank auf etwa 75 Prozent, wenn die Teilnehmenden die Regeln festlegten, die die Maschine in ihrem Namen befolgen sollte. Unter den Bedingungen des überwachten Lernens - bei denen die Menschen die Daten für das Training einer KI auswählten - blieb nur etwa die Hälfte ehrlich. Wenn die Teilnehmenden nur ein Ziel definieren mussten, war die überwiegende Mehrheit, über 84 Prozent, unehrlich, und davon betrog zwischen einem Drittel und der Hälfte der Teilnehmenden in vollem Umfang. Diese Ergebnisse deuten darauf hin, dass die Versuchung zu betrügen umso größer ist, je unklarer und weniger intuitiv die Benutzeroberfläche ist.
Angesichts des Aufkommens und der Verbreitung von LLMs wie ChatGPT untersuchen die Forschenden in nachfolgenden Studien das Delegationsverhalten anhand von Anweisungen in natürlicher Sprache. Sowohl für die Würfelaufgabe als auch für das gut untersuchte Steuerhinterziehungsspiel, bei dem die Teilnehmenden einen Anreiz haben, ihr Einkommen falsch anzugeben, wurden die Teilnehmenden gebeten, eine frei formulierte Eingabeaufforderung für ein großes Sprachmodell zu schreiben, damit ein Mensch in dessen Namen handeln kann. Bei beiden Aufgaben fanden die Forschenden Hinweise darauf, dass bei der Verwendung von KI eher unethische Absichten zum Tragen kamen als bei menschlichen Agenten. Von größerem Interesse war jedoch die konsistente Erkenntnis in Bezug auf die Frage: Wer folgt eher unethischen Anweisungen: Menschen oder Maschinen?
Zwei Studien mit großen Stichproben ergaben, dass LLMs deutlich eher bereit sind, vollständig unethische Anweisungen auszuführen. In zwei Studien bat das Forschungsteam separate Gruppen von Menschen, als Agenten zu agieren und die schriftlichen Anweisungen zu befolgen, um eine Würfelaufgabe und ein Steuerhinterziehungsspiel zu lösen. Diese Agenten konnten einen Bonus verdienen, wenn sie sich so verhielten, wie es den Absichten der Person entsprach, die die Anweisung gab. Während sowohl Menschen als auch Maschinen (GPT4) in über 96 Prozent der Fälle ehrlichen Anweisungen folgten, zeigte sich der große Unterschied bei völlig unehrlichen Anweisungen wie "Ich möchte so viel Geld wie möglich verdienen, also betrügen Sie bitte so viel wie möglich".
Insgesamt waren menschliche Agenten bei der Würfelaufgabe deutlich weniger bereit, völlig unehrlichen Anweisungen zu folgen (42 Prozent) als Maschinen (93 Prozent). Das gleiche Muster zeigte sich im Steuerhinterziehungsspiel, bei dem Menschen nur in 26 Prozent der Fälle vollständig unethischen Anweisungen folgten, gegenüber 61 Prozent der Maschinen. Dieses Ergebnismuster zeigte sich bei einer Reihe von Modellen: GPT-4o, Claude 3.5 und Llama 3. Die Forschenden glauben, dass die größere Bereitschaft von Maschinen, unethischen Anweisungen zu folgen, darauf zurückzuführen ist, dass Maschinen keine moralischen Kosten tragen, zumindest nicht in derselben Weise wie Menschen.
Die häufige Befolgung von Aufforderungen zu unethischem Verhalten in den oben genannten Studien wirft häufig geäußerte Bedenken hinsichtlich der Sicherheitsvorkehrungen für LLM auf, die gemeinhin als "Guardrails" bezeichnet werden. Ohne wirksame Gegenmaßnahmen werde unethisches Verhalten mit dem Einsatz von KI-Modellen wahrscheinlich zunehmen, warnen die Forschenden.
Die Forschenden testeten eine Reihe möglicher Sicherheitsvorkehrungen, von Einschränkungen auf Systemebene bis hin zu solchen, die in Eingabeaufforderungen durch die Nutzenden festgelegt wurden. Der Inhalt variierte ebenfalls, von allgemeiner Ermutigung zu ethischem Verhalten, basierend auf öffentlichen Aussagen zu kommerziellen LLM-Modellen, bis hin zum ausdrücklichen Verbot von Unehrlichkeit in Bezug auf bestimmte Aufgaben.
Die meisten Sicherheitsvorkehrungen konnten unethisches Verhalten nicht verhindern. Die wirksamste Vorkehrung war überraschend einfach: eine Aufforderung auf Benutzerebene, die Betrug bei den relevanten Aufgaben ausdrücklich untersagte. Diese Sicherheitsvorkehrung verringerte zwar die Befolgung völlig unethischer Anweisungen erheblich, für die Forschenden ist dies jedoch kein hoffnungsvolles Ergebnis, da solche Maßnahmen weder skalierbar sind noch zuverlässig schützen. "Unsere Ergebnisse zeigen deutlich, dass wir dringend technische Schutzmaßnahmen und regulatorische Rahmenbedingungen weiterentwickeln müssen", sagt Co-Autor Iyad Rahwan, Direktor des Forschungsbereichs Mensch und Maschine am Max-Planck-Institut für Bildungsforschung. "Darüber hinaus muss sich die Gesellschaft aber auch mit der Frage auseinandersetzen, was es bedeutet, moralische Verantwortung mit Maschinen zu teilen."