Auf der Website Unendliche Konversationder deutsche Filmemacher Werner Herzog und der slowenische Philosoph Slavoj Žižek unterhalten sich öffentlich über alles Mögliche. Ihre Diskussion ist zum Teil überzeugend, weil diese Intellektuellen einen ausgeprägten Akzent haben, wenn sie Englisch sprechen, ganz zu schweigen von einer Tendenz zu exzentrischer Wortwahl. Aber sie haben noch etwas gemeinsam: Beide Stimmen sind es Deepfakesund der Text, den sie mit diesen markanten Akzenten sprechen, ist being von künstlicher Intelligenz generiert.
Ich habe dieses Gespräch als Warnung aufgebaut. Verbesserungen in dem, was genannt wird maschinelles Lernen haben Deepfakes – unglaublich realistische, aber gefälschte Bilder, Videos oder Sprache – zu einfach zu erstellen und ihre Qualität zu gut gemacht. Gleichzeitig kann die spracherzeugende KI schnell und kostengünstig große Textmengen produzieren. Zusammen können diese Technologien mehr tun, als eine endlose Konversation zu inszenieren. Sie haben die Fähigkeit, uns in einem zu ertränken Ozean der Desinformation.
Maschinelles Lernen, eine KI-Technik, die große Datenmengen verwendet, um einen Algorithmus zu „trainieren“, damit er sich verbessert, wenn er wiederholt eine bestimmte Aufgabe ausführt, befindet sich in einer Phase schnellen Wachstums. Dies bringt ganze Sektoren der Informationstechnologie auf ein neues Niveau, einschließlich der Sprachsynthese, Systeme, die Äußerungen erzeugen, die Menschen verstehen können. Als jemand, der sich für den Grenzraum zwischen Mensch und Maschine interessiert, fand ich das schon immer faszinierend. Als diese Fortschritte im maschinellen Lernen es ermöglichten, die Sprachsynthese- und Sprachklontechnologie in den letzten Jahren in riesigen Sprüngen zu verbessern – nach einer langen Geschichte kleiner, inkrementeller Verbesserungen –, nahm ich dies zur Kenntnis.
Infinite Conversation begann, als ich über eine stolperte beispielhaftes Sprachsyntheseprogramm genannt Coqui TTS. Viele Projekte im digitalen Bereich beginnen damit, eine zuvor unbekannte Softwarebibliothek oder ein Open-Source-Programm zu finden. Als ich dieses Toolkit entdeckte, begleitet von einer blühenden Community von Benutzern und reichlich Dokumentation, wusste ich, dass ich alle notwendigen Zutaten hatte, um eine berühmte Stimme zu klonen.
Als Liebhaber von Werner Herzogs Werk, Persönlichkeit und Weltanschauung haben mich seine Stimme und seine Art zu sprechen immer angezogen. Ich bin kaum allein, da die Popkultur Herzog zu einem buchstäblichen Zeichentrickfilm gemacht hat: Zu seinen Cameos und Kollaborationen gehören Die Simpsons, Rick und Morty und Pinguine von Madagaskar. Wenn es also darum ging, die Stimme von jemandem zum Herumbasteln auszuwählen, gab es keine bessere Option – zumal ich wusste, dass ich dieser Stimme stundenlang zuhören musste. Es ist fast unmöglich, seine trockene Sprache und seinen starken deutschen Akzent zu hören, die eine nicht zu überhörende Ernsthaftigkeit vermitteln.
Das Erstellen eines Trainingssets zum Klonen von Herzogs Stimme war der einfachste Teil des Prozesses. Zwischen seinen Interviews, Voice-Overs und Hörbüchern gibt es buchstäblich Hunderte von Stunden an Sprache, die für das Training eines maschinellen Lernmodells geerntet werden können – oder in meinem Fall für die Feinabstimmung eines bestehenden. Die Ausgabe eines maschinellen Lernalgorithmus verbessert sich im Allgemeinen in „Epochen“, bei denen es sich um Zyklen handelt, durch die das neuronale Netzwerk mit allen Trainingsdaten trainiert wird. Der Algorithmus kann dann die Ergebnisse am Ende jeder Epoche abtasten und dem Forscher Material zur Verfügung stellen, das er überprüfen kann, um zu bewerten, wie gut das Programm voranschreitet. Mit der synthetischen Stimme von Werner Herzog fühlte es sich an, als würde man das Modell mit jeder Epoche besser werden sehen, als wäre man Zeuge einer metaphorischen Geburt, bei der seine Stimme allmählich in der digitalen Welt zum Leben erweckt wurde.
Als ich eine zufriedenstellende Herzog-Stimme hatte, begann ich mit der Arbeit an einer zweiten Stimme und wählte intuitiv Slavoj Žižek. Wie Herzog hat Žižek einen interessanten, schrulligen Akzent, eine relevante Präsenz in der intellektuellen Sphäre und Verbindungen zur Welt des Kinos. Er hat auch einen gewissen populären Ruhm erlangt, teilweise dank seines polemischen Eifers und seiner manchmal kontroversen Ideen.
Zu diesem Zeitpunkt war ich mir immer noch nicht sicher, wie das endgültige Format meines Projekts aussehen würde – aber nachdem ich überrascht war, wie einfach und reibungslos der gesamte Prozess des Voice-Cloning war, wusste ich, dass dies eine Warnung für alle war wer würde darauf achten. Deepfakes sind zu gut und zu einfach zu machen geworden; erst in diesem Monat kündigte Microsoft eine neues Sprachsynthese-Tool namens VALL-E Forscher behaupten, dass es jede Stimme basierend auf nur drei Sekunden aufgezeichnetem Audio imitieren kann. Wir stehen kurz vor einer Vertrauenskrise, und darauf sind wir völlig unvorbereitet.
Um die Fähigkeit dieser Technologie zu betonen, große Mengen an Desinformation zu produzieren, entschied ich mich für die Idee einer endlosen Konversation. Ich brauchte nur ein großes Sprachmodell – fein abgestimmt auf Texte, die von jedem der beiden Teilnehmer geschrieben wurden – und ein einfaches Programm, um das Hin und Her des Gesprächs zu steuern, damit sich sein Fluss natürlich und glaubwürdig anfühlt.
In ihrem Kern sagen Sprachmodelle das nächste Wort in einer Folge voraus, wenn eine Reihe von Wörtern bereits vorhanden ist. Durch die Feinabstimmung eines Sprachmodells ist es möglich, den Stil und die Konzepte zu replizieren, über die eine bestimmte Person wahrscheinlich sprechen wird, vorausgesetzt, Sie haben reichlich Konversationsprotokolle für diese Person. Ich entschied mich für eines der führenden verfügbaren kommerziellen Sprachmodelle. Da dämmerte mir, dass es bereits möglich ist, einen gefälschten Dialog, einschließlich seiner synthetischen Sprachform, in kürzerer Zeit zu generieren, als es dauert, ihn anzuhören. Dies gab mir einen offensichtlichen Namen für das Projekt: Infinite Conversation. Nach ein paar Monaten Arbeit habe ich es letzten Oktober online gestellt. The Infinite Conversation wird ab dem 11. Februar auch im ausgestellt Fehlausrichtungsmuseum Kunstinstallation in San Francisco.
Als alle Teile zusammenpassten, staunte ich über etwas, das mir nicht eingefallen war, als ich mit dem Projekt begann. Wie ihre realen Persönlichkeiten unterhalten sich meine Chatbot-Versionen von Herzog und Žižek oft über Themen der Philosophie und Ästhetik. Aufgrund der esoterischen Natur dieser Themen kann der Zuhörer den gelegentlichen Unsinn, den das Modell erzeugt, vorübergehend ignorieren. AI Žižeks Blick auf Alfred Hitchcock zum Beispiel wechselt zwischen der Wahrnehmung des berühmten Regisseurs als Genie und als zynischer Manipulator; in einer anderen Ungereimtheit der echte Herzog hasst notorisch Hühner, aber sein KI-Nachahmer spricht manchmal mitfühlend über das Geflügel. Weil die eigentliche postmoderne Philosophie als durcheinander gelesen werden kann, ein Problem Žižek selbst bemerktkann der Mangel an Klarheit in der Unendlichen Konversation eher als tiefe Mehrdeutigkeit denn als unmögliche Widersprüche interpretiert werden.
Dies hat wahrscheinlich zum Gesamterfolg des Projekts beigetragen. Mehrere hundert Besucher der Infinite Conversation haben über eine Stunde lang zugehört, und in einigen Fällen haben die Leute viel länger zugeschaltet. Wie ich auf der Website erwähne, hoffe ich für die Besucher der Infinite Conversation, dass sie sich nicht zu ernsthaft mit dem beschäftigen, was von den Chatbots gesagt wird, sondern sich dieser Technologie und ihrer Folgen bewusst werden; Wenn dieses KI-generierte Geschwätz plausibel erscheint, stellen Sie sich die realistisch klingenden Reden vor, die verwendet werden könnten, um den Ruf von Politikern zu beschmutzen, Wirtschaftsführer zu betrügen oder einfach Menschen mit Fehlinformationen abzulenken, die wie von Menschen gemeldete Nachrichten klingen.
Aber es gibt eine helle Seite. Besucher von Infinite Conversation können sich einer wachsenden Zahl von Zuhörern anschließen, die berichten, dass sie die beruhigenden Stimmen von Werner Herzog und Slavoj Žižek als eine Form von weißem Rauschen zum Einschlafen nutzen. Das ist eine Verwendung dieser neuen Technologie, auf die ich mich einlassen kann.
Dies ist ein Meinungs- und Analyseartikel, und die vom Autor oder den Autoren geäußerten Ansichten stimmen nicht unbedingt mit denen von überein Wissenschaftlicher Amerikaner.