Wenn KI mit KI-Texten gefüttert wird – der digitale Rinderwahn
Was passiert, wenn KI nicht mehr mit frischen, menschgemachten Texten trainiert wird, sondern immer mehr mit Content, den andere KIs produziert haben? Klingt erst mal nach einem cleveren Spartrick, ist aber eine Katastrophe für alle.
Saturn verschlingt seine Kinder
Forscherinnen und Forscher von der Stanford University und Rice University haben herausgefunden, dass KI-Modelle eine Art „digitale Krankheit“ entwickeln können, wenn sie zu viele KI-generierte Texte als Trainingsmaterial bekommen. Sie nennen das Ganze Model Autophagy Disorder (MAD) (tlws. auch Habsburg AI oder digitaler Rinderwahnsinn) – übersetzt so etwas wie „selbstverzehrende Störung“.
Der Grund: KI-Modelle lernen aus Mustern und Wahrscheinlichkeiten. Wenn sie aber nur noch auf KI-Texte zurückgreifen, verstärken sich mehr und mehr dieselben Muster, Fehler und Eigenheiten. Die Vielfalt und die kleinen Unregelmäßigkeiten, die menschliche Texte so lebendig und authentisch machen, gehen abhanden.
Das Ergebnis: Die KI wird immer schlechter, produziert schludrige, ungenaue oder sinnlose Texte.
Model Autophagy Disorder (MAD)
Hat ein bisschen was von Rinderwahn …
Die Forscher ziehen eine ernste Analogie zum Rinderwahn (BSE): Ähnlich „frisst“ die KI ihre eigenen Texte, bis das System krank wird. Nur wird mit “krankem Content” das ganze Internet beeinflusst.
Das Internet ist mittlerweile voll mit KI-Texten. Blogs, Nachrichten, Social-Media-Posts – immer mehr Inhalte entstehen mithilfe von KI-Tools. Wenn zukünftige KI-Modelle nur noch auf solche Texte zurückgreifen, verschlechtert sich ihre Qualität. Das bedeutet weniger hilfreiche, weniger kreative und weniger glaubwürdige Inhalte für uns alle.
Um zu verstehen, warum das Füttern von KI mit KI-Texten problematisch ist, müssen wir uns anschauen, wie KI-Modelle lernen. Sie werden mit riesigen Datenmengen trainiert. Diese bestehen aus Texten, Bildern, Videos und anderen Inhalten, die meist aus dem Internet stammen. Die KI analysiert diese Daten, erkennt Muster und lernt, wie Sprache funktioniert.
Wenn diese Trainingsdaten vielfältig und „echt“ sind, lernt die KI, flexibel und kreativ zu sein. Doch wenn die Daten immer ähnlicher werden – etwa weil sie hauptsächlich aus KI-generierten Texten bestehen –, lernt die KI nur noch eine begrenzte Anzahl von Mustern. Sie wird quasi „betriebsblind“ und verliert die Fähigkeit, neue, originelle Inhalte zu erzeugen.
Die Folgen: haufenweise miese KI-Texte
Schon 2023 zeigten erste Studien, dass die Qualität von KI-generierten Texten abnimmt, wenn die Modelle zu stark auf KI-Daten zurückgreifen. Ein Beispiel: Die Programmierfähigkeiten von ChatGPT haben im Laufe des Jahres 2022 deutlich nachgelassen (vgl. Studie der Stanford University). Das liegt vermutlich daran, dass die Trainingsdaten zunehmend KI-generierte Codes enthalten, die Fehler oder schlechte Muster verstärken.
Das Problem ist also nicht nur theoretisch, sondern hat schon jetzt praktische Auswirkungen. Wenn KI-Modelle schlechter werden, leidet die Qualität der Inhalte im Internet – und damit auch unser digitales Leseerlebnis.
Warum Filter und digitale Wasserzeichen nicht helfen
Eine naheliegende Lösung wäre, KI-generierte Texte mit digitalen Wasserzeichen zu versehen oder Filter einzusetzen, die solche Inhalte erkennen. Leider sind diese Methoden bisher nicht zuverlässig genug.
Das bedeutet, dass KI-Unternehmen und Forscherinnen und Forscher es immer schwerer haben, reine, menschgemachte Daten zu sammeln. Die Gefahr steigt, dass KI-Modelle immer mehr auf KI-Daten (synthetische Daten) angewiesen sind – und damit in die „digitale Autophagie“ rutschen.
Was bedeutet das für die Zukunft der Künstlichen Intelligenz?
Die Forscherinnen und Forscher warnen, dass ohne genügend frische, menschgemachte Daten zukünftige KI-Modelle zwangsläufig an Qualität verlieren werden. Das könnte zu einer Abwärtsspirale führen: Schlechtere KI-Texte führen zu schlechteren Trainingsdaten, was wiederum zu noch schlechteren Modellen führt.
Das wäre fatal, denn KI wird in immer mehr Bereichen eingesetzt: von der Medizin über die Wissenschaft bis hin zur Medienproduktion. Wenn die KI-Qualität sinkt, leiden auch diese Bereiche – und wir alle bekommen weniger verlässliche und hilfreiche Informationen.
Was kann man dagegen tun?
Die Lösung ist eigentlich simpel, aber nicht unbedingt easy: Mehr echte, menschgemachte Inhalte! Menschen müssen weiterhin kreativ schreiben, forschen und kommunizieren – ohne KI-Hilfe. Nur so bleibt die Datenbasis vielfältig und hochwertig.
Außerdem könnten neue Geschäftsmodelle entstehen, bei denen Autorinnen und Autoren für ihre Texte bezahlt werden, damit KI-Modelle mit diesen Inhalten trainiert werden können.
Das wäre eine faire Win-win-Situation: Die KI bekommt frische Daten, und die Menschen verdienen Geld mit ihrer Kreativität. Bislang sieht es aber nicht danach aus, als würden Urheberrechte irgendwie honoriert werden, im Gegenteil, keiner der Big Player hat Skrupel, fremde Texte und Daten zu klauen.
KI-Betreiber haben ein großes Problem:
die Daten werden knapp
Die Entwicklungssprünge bei neuen Sprachmodellen werden kürzer, die Verbesserungen weniger dramatisch – und ein Hauptgrund dafür ist: Den KI-Firmen gehen die frischen, hochwertigen Daten aus.
Als OpenAI im Mai 2023 GPT-4 vorstellte, war das noch ein echter Knaller. Das Modell konnte komplexe Fragen beantworten, sauberen Programmiercode schreiben und mathematische Probleme lösen – alles auf einem neuen Level.
Doch das nächste Modell, das intern „Orion“ genannt wird, zeigt schon jetzt, dass der Fortschritt ins Stocken gerät. Laut Insiderberichten bringt es zwar viele kleine Verbesserungen, doch im Vergleich zu GPT-4 sind die Sprünge eher marginal. Sogar bei der Programmierung, einem der Paradefähigkeiten von GPT-4, ist Orion nicht spürbar besser – teilweise sogar etwas schlechter.
Nicht nur OpenAI kämpft mit diesem Phänomen. Auch andere große Player wie Google mit Gemini stoßen an eine „massive Wand des abnehmenden Ertrags“. Trotz mehr Training und größerer Modelle geht nicht mehr viel voran. Das Training erreicht ein Plateau.
Warum fehlen die Daten?
KI-Modelle brauchen Unmengen an Trainingsdaten – Texte, Bilder, Videos, die sie analysieren und aus denen sie lernen. Doch die klassischen Quellen sind praktisch erschöpft. Datensätze aus dem Internet, Fachpublikationen, Community-Plattformen und Archive sind weitgehend ausgereizt.
Zwar kommen täglich neue Inhalte hinzu, und einige Unternehmen kaufen sich Zugang zu exklusiven Archiven, doch das reicht nicht mehr aus, um große Fortschritte zu erzielen.
Fazit: Nix geht ohne den Menschen
KI ist ein mächtiges Werkzeug, aber sie kann nur so gut sein wie die Daten, mit denen sie gefüttert wird. Wenn wir zulassen, dass KI-Modelle sich nur noch selbst zitieren und replizieren, ist eine Abwärtsspirale garantiert. Gleichzeitig ist klar, dass hier politisch unbedingt nachgebessert werden muss, damit die Menschen hinter dem Content in Zukunft fair bezahlt werden.
Quellen
1) Michael Förtsch: Trainingsdaten werden knapp: Droht das Ende der rasanten KI-Fortschritte? (1E9 Community)
2) Nicht Kuhl: Wie KI-Modelle an "Rinderwahnsinn" zugrunde gehen können (Der Standard)
3) Studie: Self-Consuming Generative Models Go MAD (PDF online)