Laut einem Preprint, der Ende Dezember auf dem bioRxiv-Server veröffentlicht wurde, kann ein Chatbot mit künstlicher Intelligenz (KI) so überzeugende gefälschte Zusammenfassungen von Forschungsarbeiten schreiben, dass Wissenschaftler sie oft nicht erkennen können1. Forscher sind geteilter Meinung über die Implikationen für die Wissenschaft.
„Ich mache mir große Sorgen“, sagt Sandra Wachter, die an der Universität Oxford, Großbritannien, Technologie und Regulierung studiert und nicht an der Forschung beteiligt war. „Wenn wir jetzt in einer Situation sind, in der die Experten nicht feststellen können, was wahr ist oder nicht, verlieren wir den Mittelsmann, den wir dringend brauchen, um uns durch komplizierte Themen zu führen“, fügt sie hinzu.
Der Chatbot ChatGPT erstellt realistisch und intelligent klingender Text als Reaktion auf Benutzeraufforderungen. Es ist ein ‘großes Sprachmodell‘, ein System, das auf neuronalen Netzwerken basiert, die lernen, eine Aufgabe auszuführen, indem sie riesige Mengen von vorhandenem, von Menschen generierten Text verarbeiten. Das Softwareunternehmen OpenAI mit Sitz in San Francisco, Kalifornien, hat das Tool am 30. November veröffentlicht und kann kostenlos verwendet werden.
Seit seiner Veröffentlichung waren die Forscher Auseinandersetzung mit ethischen Fragen rund um seine Verwendung, da ein Großteil seiner Ausgabe schwer von von Menschen geschriebenem Text zu unterscheiden sein kann. Wissenschaftler haben einen Preprint veröffentlicht2 und ein Leitartikel3 geschrieben von ChatGPT. Jetzt hat eine Gruppe unter der Leitung von Catherine Gao von der Northwestern University in Chicago, Illinois, ChatGPT verwendet, um künstliche Zusammenfassungen von Forschungsarbeiten zu generieren, um zu testen, ob Wissenschaftler sie erkennen können.
Die Forscher baten den Chatbot, 50 medizinische Forschungsabstracts zu schreiben, basierend auf einer Auswahl, die in veröffentlicht wurde JAMA, Das New England Journal of Medicine, Das BMJ, Die Lanzette und Naturheilkunde. Sie verglichen diese dann mit den Original-Abstracts, indem sie sie durch einen Plagiatsdetektor und einen KI-Ausgangsdetektor laufen ließen, und sie baten eine Gruppe medizinischer Forscher, die fabrizierten Abstracts zu erkennen.
Unter dem Radar
Die von ChatGPT generierten Abstracts segelten durch die Plagiatsprüfung: Der Medianwert der Originalität betrug 100 %, was darauf hinweist, dass kein Plagiat entdeckt wurde. Der AI-Output-Detektor entdeckte 66 % der generierten Abstracts. Aber die menschlichen Gutachter schnitten nicht viel besser ab: Sie identifizierten nur 68 % der generierten Abstracts und 86 % der echten Abstracts korrekt. Sie identifizierten fälschlicherweise 32 % der generierten Abstracts als echt und 14 % der echten Abstracts als generiert.
„ChatGPT schreibt glaubwürdige wissenschaftliche Abstracts“, sagen Gao und Kollegen im Preprint. „Die Grenzen der ethischen und akzeptablen Verwendung großer Sprachmodelle zur Unterstützung des wissenschaftlichen Schreibens müssen noch bestimmt werden.“
Wachter sagt, wenn Wissenschaftler nicht feststellen können, ob die Forschung wahr ist, könnte dies „düstere Folgen“ haben. Es ist nicht nur problematisch für Forscher, die auf fehlerhafte Untersuchungswege gezogen werden könnten, weil die Forschung, die sie lesen, erfunden wurde, es gibt auch „Auswirkungen auf die Gesellschaft insgesamt, weil wissenschaftliche Forschung eine so große Rolle in unserer Gesellschaft spielt“. Zum Beispiel könnte es bedeuten, dass forschungsbasierte politische Entscheidungen falsch sind, fügt sie hinzu.
Aber Arvind Narayanan, Informatiker an der Princeton University in New Jersey, sagt: „Es ist unwahrscheinlich, dass irgendein ernsthafter Wissenschaftler ChatGPT verwenden wird, um Abstracts zu erstellen.“ Er fügt hinzu, dass es „irrelevant“ sei, ob generierte Abstracts erkannt werden können. „Die Frage ist, ob das Tool eine genaue und überzeugende Zusammenfassung generieren kann. Das ist nicht möglich, und daher ist der Vorteil der Verwendung von ChatGPT winzig und der Nachteil erheblich“, sagt er.
Irene Solaiman, die die gesellschaftlichen Auswirkungen von KI erforscht Gesicht umarmen, ein KI-Unternehmen mit Hauptsitzen in New York und Paris, hat Angst vor der Abhängigkeit von großen Sprachmodellen für wissenschaftliches Denken. „Diese Modelle werden anhand von Informationen aus der Vergangenheit trainiert, und sozialer und wissenschaftlicher Fortschritt kann oft dadurch entstehen, dass man anders als in der Vergangenheit denkt oder dafür offen ist, anders zu denken“, fügt sie hinzu.
Die Autoren schlagen vor, dass diejenigen, die wissenschaftliche Kommunikation wie Forschungsberichte und Konferenzberichte bewerten, Richtlinien einführen sollten, um die Verwendung von KI-generierten Texten auszumerzen. Wenn Institute sich dafür entscheiden, die Nutzung der Technologie in bestimmten Fällen zuzulassen, sollten sie klare Regeln für die Offenlegung festlegen. Anfang dieses Monats gab die Fortieth International Conference on Machine Learning, eine große KI-Konferenz, die im Juli in Honolulu, Hawaii, stattfinden wird, bekannt, dass sie von ChatGPT und anderen KI-Sprachwerkzeugen verfasste Papiere verboten hat.
Solaiman fügt hinzu, dass Zeitschriften in Bereichen, in denen gefälschte Informationen die Sicherheit der Menschen gefährden können, wie z. B. in der Medizin, möglicherweise einen strengeren Ansatz verfolgen müssen, um die Richtigkeit der Informationen zu überprüfen.
Narayanan sagt, dass sich die Lösungen für diese Probleme nicht auf den Chatbot selbst konzentrieren sollten, „sondern eher auf die perversen Anreize, die zu diesem Verhalten führen, wie Universitäten, die Einstellungs- und Beförderungsüberprüfungen durchführen, indem sie Arbeiten ohne Rücksicht auf ihre Qualität oder Wirkung zählen“.
Dieser Artikel wird mit Genehmigung reproduziert und wurde erstmals veröffentlicht am 12. Januar 2023.