Ehemalige Twitter-Mitarbeiterin bläst zum Großangriff auf ChatGPT
Hacker versuchen, ChatGPT und Co. aufs ethische Glatteis zu schicken
Bei aller Begeisterung über KI stellt sich auch immer die ethische Frage. Das war Aufgabe ihres Teams bei Twitter, das aber störte und dem Rotstift zum Opfer fiel. Nun hat Rumman Chowdhury Mitte August 2023 einen Großangriff organisiert, um mögliche Gefahren der KI auszuloten.
Ihr Name erinnert entfernt an die Chudnovsky-Brüder, die einen Algorithmus entwickelt haben, mit dem es Google gelungen ist, 2022 die Kreiszahl π bis auf 100 Billionen oder 10¹⁴ Stellen genau zu berechnen. Rumman Chowdhury, eine New Yorkerin mit Bengalischen Wurzel, nennt sich selbst ein Zahlenmensch. Als solches fiel es ihr politische Philosophie lange schwer, bis sie verstand, „dass sie mir beibringt, wie man denkt und nicht, was ich zu denken haben“, zitiert die Süddeutsche die KI-Expertin, die sich mit ihrem gerade erst gegründeten Unternehmen „Humane Intelligence“ für eine verantwortungsvolle, ethische künstliche Intelligenz stark macht und die Risiken von KI-Produkten prüft.
Auf ihren Master in Sozialwissenschaften hat sie einen Doktor in Philosophie gesetzt und unter anderem für den KI-Arm der großen internationalen IT-Unternehmensberatung Accenture gearbeitet und auch schon die Weltbank beraten. Denn wie kaum eine versteht sie den Brückenschlag zwischen Datenanalyse, Philosophie und Sozialwissenschaften. In der Rolle kam sie auch zu Twitter, wo das Team für Ethik, Transparenz und Rechenschaftspflicht im maschinellen Lernen (ML) leitete, bis „mein Team und ich letzten November alle gefeuert wurden“.
Der SZ-Artikel weidet sich etwas daran, dass Twitter-Chef Elon Musk die ethischen Frage persönlich nervig fand und den Befehl dazu erteilt habe, die missliebige Abteilung aufzulösen. In der sonst so kritischen englischsprachigen Washington Post wird Musk aber mit keinem Wort erwähnt. Der Artikel geht im Zusammenhang mit Twitter eher auf KI-Bias-Probleme bei Menschen im Rollstuhl oder unter einem Hijab ein.
Wie dem auch sei, durfte Chowdhury aufgrund ihrer jahrelangen Arbeit über die ethischen und sozialen Fragen von KI im Rahmen der Def Con AI Village von Howard die Aufgabe übernehmen, eine „Generativ Red Team Challenge“ zu organisieren. Bei der sind am Wochenende Mitte August 200 Notebooks aufgestellt und haben Tausende von Hackern 20 Stunden Zeit, um ChatGPT und sieben weitere hochentwickelte KI-Modelle buchstäblich hereinzulegen und ihre dunkle Seite beziehungsweise Gefahren offenzulegen.
KI-Unternehmen sagen: „Kommt und hackt uns“
Anders als vielleicht vermutet, sind unter den sieben anderen bekannte Namen wie Google Deepmind, Nvidia und Cohere. „Kommt und hackt uns“, twitterte laut SZ Coheres KI-Expertin Seraphina Goldfarb-Tarrant. Das heißt, die Unternehmen bezahlen dafür, dass ihre Systeme gehackt und geknackt werden, um Schwachstellen offenzulegen.
Und das ist ja irgendwie auch Aufgabe des deutschen Chaos Computer Clubs, der sich von einer echten „Chaostruppe“ zu einer ernstzunehmenden Schlagkraft für die Cybersicherheit gemausert hat und immer wieder mit neuen gutartigen Hacks auf sich aufmerksam macht.
Während es sonst bei solchen Hacks eher darum geht, technische Schwachstellen aufzuspüren, will das Red Team die Sprachmodelle mit Verhörtechniken und klugen Prompts aufs Glatteis legen und sie dazu bringen, verwerfliche Antworten zu geben. Wie die Aufgaben genau aussehen, das wollte Chowdhury vor dem auf KI angesetzte „Hackaton“ nicht verraten. Als Beispiel nennt die SZ aber, dass ein Chatbot sich weigert, eine Bauanleitung für eine Bombe herauszugeben, der Hacker die KI aber überredet, die Rolle einer Großmutter einzunehmen, die den Plan in Form eines Kochrezeptes an ihre Kinder weitergibt. Geht der Chatbot dem nach, ist die Schwachstelle offenkundig.
Die Washington Post nennt ein noch viel mehr alarmierendes Beispiel. Demzufolge haben KI-Modelle schon die Fähigkeit gezeigt, neue Biowaffen vorgeschlagen, was KI-Expert:innen veranlasst hat, vor entsprechenden Terrorangriffen durch sogenannte „Schurkenstaaten“ zu warnen.
Das Weiße Haus und andere US-Institutionen zeigten sich auch alarmiert. Aber während die Mitglieder des Repräsentantenhauses etwa noch über Wege nachdenken, die rasant fortschreitende künstliche Intelligenz zu kontrollieren und in vernünftige Bahnen zu lenken, sind die AI Player oft schon weiter, wie das Beispiel des unter anderem von Nvidia und Google unterstützten „Generalangriff“ auf ihre Systeme zeigen. Es geht Chowdhury auch nicht um Rache für ihren „Rauswurf“ bei Twitter. Sondern es ist ihr ein echtes Anliegen, KI „human“ zu machen. Dafür steht auch der Name ihrer Neugründung.