Wissenschaftler erstellen „OpinionGPT“, um menschliche Vorurteile zu erforschen und es für öffentliche Tests zugänglich zu machen

Posted On: September 9, 2023

Ein Forscherteam der Humboldt-Universität zu Berlin hat ein Modell für künstliche Intelligenz (KI) entwickelt große Sprache, mit dem Unterschied, dass sie absichtlich geändert wurden, um Ergebnisse mit ausdrücklicher Voreingenommenheit zu erzielen.

Das Modell des Teams mit dem Namen OpinionGPT ist eine modifizierte Variante von Metas Llama 2, einem künstlichen Intelligenzsystem, das in seinen Fähigkeiten dem ChatGPT von OpenAI oder Claude 2 von Anthropic ähnelt.

Mithilfe eines Prozesses namens „Anweisungsbasiertes Tuning“ kann OpinionGPT auf Anfragen reagieren, als ob Sie ein Vertreter einer von 11 voreingenommenen Gruppen wären: Amerikaner, Deutscher, Lateinamerikaner, Nahost, ein Teenager, jemand über 30. , ein älterer Mensch, ein Mann, eine Frau, ein Liberaler oder ein Konservativer.

Ankündigung von „OpinionGPT: Ein sehr voreingenommenes GPT-Modell“! Probieren Sie es hier aus: https://t.co/5YJjHlcV4n
Um die Auswirkung von Verzerrungen auf Modellantworten zu untersuchen, stellten wir eine einfache Frage: Was würde passieren, wenn wir a anpassen würden? #GPT Modell nur mit Texten politisch rechter Personen?

[1/3]

—Alan Akbik (@alan_akbik) 8. September 2023

OpinionGPT wurde mit Daten verfeinert, die von „AskX“-Communitys, sogenannten Subreddits, auf Reddit abgeleitet wurden. Beispiele für diese Subreddits wären r/AskaWoman und r/AskAnAmerican.

Das Team begann mit der Suche nach Subreddits, die sich auf die 11 spezifischen Vorurteile beziehen, und extrahierte jeweils die 25.000 beliebtesten Beiträge. Anschließend wurden nur Beiträge beibehalten, die eine Mindestschwelle für positive Stimmen erreichten, kein eingebettetes Zitat enthielten und weniger als 80 Wörter umfassten.

Was übrig bleibt, scheint es, dass die Forscher a rückt näher ähnlich der konstitutionellen KI von Anthropic. Anstatt völlig neue Modelle zur Darstellung jeder Polarisationsbezeichnung zu erstellen, haben sie im Wesentlichen das einzelne 7-Milliarden-Parameter-Llama2-Modell mit separaten Befehlssätzen für jede erwartete Polarisation modifiziert.

Das Ergebnis, basierend auf Methodik, Architektur und Daten. beschrieben In der Forschungsarbeit des deutschen Teams scheint es sich um ein künstliches Intelligenzsystem zu handeln, das eher als Stereotypengenerator denn als Werkzeug zur Untersuchung von Vorurteilen in der realen Welt fungiert.

Aufgrund der Art der Daten, anhand derer das Modell verfeinert wurde, und der zweifelhaften Beziehung dieser Daten zu den Labels, die sie definieren, erstellt OpinionGPT nicht unbedingt einen Text, der mit einer messbaren Voreingenommenheit in der realen Welt übereinstimmt. Es generiert einfach Text, der den Trend Ihrer Daten widerspiegelt.

Die Forscher selbst erkennen einige der Einschränkungen an, die sich daraus für ihre Studie ergeben, und schreiben:

„Zum Beispiel sollten ‚Amerikaner‘-Antworten besser als ‚Amerikaner posten auf Reddit‘ oder sogar ‚Amerikaner posten auf diesem speziellen Subreddit‘ verstanden werden.“ Ebenso sollte „Deutsche“ als „Deutsche, die auf diesem speziellen Subreddit posten“ usw. verstanden werden.“

Diese Warnungen könnten weiter verfeinert werden, um zu sagen, dass die Beiträge beispielsweise von „Personen stammen, die behaupten, Amerikaner zu sein und auf diesem speziellen Subreddit posten“, da in dem Dokument nicht erwähnt wird, dass überprüft wird, ob es sich bei den Verfassern eines Beitrags insbesondere um Amerikaner handelt Tatsächlich sind sie repräsentativ für die voreingenommene oder demografische Gruppe, die sie zu sein behaupten.

Die Autoren geben weiter an, dass sie Modelle erforschen wollen, die demografische Merkmale (d. h. liberales Deutsch, konservatives Deutsch) besser abgrenzen.

Die von OpinionGPT bereitgestellten Ergebnisse scheinen zwischen der Darstellung nachweisbarer Vorurteile und der völligen Abweichung von der etablierten Norm zu schwanken, was es schwierig macht, seine Brauchbarkeit als Instrument zur Messung oder Aufdeckung tatsächlicher Vorurteile zu erkennen.

OpinionGPT-Antworttabelle. Quelle: Tabelle 2, Haller et al., 2023

Laut OpinionGPT neigen Lateinamerikaner, wie im Bild oben zu sehen ist, dazu, Basketball als ihren Lieblingssport zu betrachten.

Empirische Forschung jedoch zeigt an Es ist klar, dass Fußball und Baseball in ganz Lateinamerika die beliebtesten Sportarten sind, gemessen an der Zuschauerzahl und Beteiligung.

Aus derselben Tabelle geht auch hervor, dass OpinionGPT „Wasserball“ als Lieblingssport angibt, wenn es darum gebeten wird, „die Antwort eines Teenagers“ zu geben, eine Antwort, die statistisch gesehen vorkommt unwahrscheinlich Dies ist repräsentativ für die Mehrheit der jungen Menschen im Alter zwischen 13 und 19 Jahren weltweit.

Das Gleiche gilt für die Vorstellung, dass das Lieblingsessen des durchschnittlichen Amerikaners „Käse“ ist. Cointelegraph fand Dutzende Online-Umfragen, in denen behauptet wurde, dass Pizza und Burger die Lieblingsspeisen der Amerikaner seien, konnte jedoch keine einzige Umfrage oder Studie finden, in der behauptet wurde, dass das Hauptgericht der Amerikaner einfach Käse sei.

Obwohl OpinionGPT möglicherweise nicht für die Untersuchung tatsächlicher menschlicher Vorurteile geeignet ist, könnte es als Werkzeug zur Untersuchung der Stereotypen nützlich sein, die großen Dokumenten-Repositories wie einzelnen Subreddits oder KI-Trainingssätzen innewohnen.

Die Forscher Zur Verfügung gestellt o OpinionGPT online zum öffentlichen Testen. Laut der Website sollten sich potenzielle Nutzer jedoch darüber im Klaren sein, dass „die generierten Inhalte falsch, ungenau oder sogar obszön sein können“.

Mehr lesen: