Wissenschaft & Technik

Roboter erschaffen Bilder und erzählen Witze. 5 Dinge, die Sie über Basismodelle und die KI der nächsten Generation wissen müssen

Wenn Sie Fotos einer avocadoförmigen Teekanne gesehen oder einen gut geschriebenen Artikel gelesen haben, der sich auf etwas seltsame Tangenten konzentriert, sind Sie möglicherweise einem neuen Trend in der künstlichen Intelligenz (KI) ausgesetzt.

Die maschinellen Lernsysteme namens DALL-E, GPT und PaLM gehen mit ihrer unglaublichen Fähigkeit, kreative Arbeit zu leisten, neue Wege.

Diese Systeme werden als “Grundlagenmodelle” bezeichnet und sind nicht alle Werbetricks und Partytricks. Wie funktioniert dieser neue Ansatz für KI? Und wird es das Ende der menschlichen Kreativität und der Beginn eines tiefen, falschen Albtraums sein?

1. Was sind Stiftungsmodelle?

Foundation-Modelle arbeiten, indem sie ein einziges riesiges System mit großen Mengen allgemeiner Daten trainieren und das System dann an neue Probleme anpassen. Frühere Modelle neigten dazu, für jedes neue Problem von vorne zu beginnen.

DALL-E 2 zum Beispiel wurde darauf trainiert, Bilder (z. B. ein Foto einer Haustierkatze) mit der Bildunterschrift („Mr. Fuzzyboots, die getigerte Katze entspannt sich in der Sonne“) abzugleichen, wobei Hunderte Millionen Beispiele gescannt wurden. Einmal trainiert, weiß dieses Modell, wie Katzen (und andere Dinge) auf Fotos aussehen.

Aber das Modell kann auch für viele andere interessante Aufgaben der künstlichen Intelligenz verwendet werden, wie z. B. das Erstellen neuer Bilder aus nur einer Bildunterschrift („Zeig mir einen Koala, der einen Basketball versenkt“) oder das Bearbeiten von Bildern basierend auf schriftlichen Anweisungen („Mach es so wie dieser Affe Steuern zahlen “).

2. Wie funktionieren sie?

Die Basismodelle arbeiten in “tiefen neuronalen Netzen”, die lose von der Funktionsweise des Gehirns inspiriert sind. Diese beinhalten ausgefeilte Mathematik und eine enorme Menge an Rechenleistung, werden aber in einer sehr komplexen Art des Musterabgleichs zusammengefasst.

Wenn man sich beispielsweise Millionen von Bildbeispielen ansieht, kann ein tiefes neuronales Netzwerk das Wort „Katze“ mit Pixelmustern in Verbindung bringen, die oft in Katzenbildern vorkommen – wie z. B. weiche, unscharfe, haarige Texturtropfen. Je mehr Beispiele das Modell sieht (je mehr Daten angezeigt werden) und je größer das Modell ist (je mehr “Schichten” oder “Tiefe” es hat), desto komplexer können diese Muster und Korrelationen sein.



Weiterlesen: Was ist ein neuronales Netz? Ein Informatiker erklärt


Fundamentale Modelle sind gewissermaßen lediglich eine Erweiterung des „Deep Learning“-Paradigmas, das die Forschung im Bereich der künstlichen Intelligenz in den letzten zehn Jahren dominiert hat. Sie zeigen jedoch ungeplante oder „auftauchende“ Verhaltensweisen, die sowohl überraschend als auch originell sein können.

Googles Sprachmodell PaLM scheint beispielsweise in der Lage zu sein, Erklärungen für komplexe Metaphern und Witze zu generieren. Dies geht über die einfache Nachahmung der Datentypen hinaus, für deren Verarbeitung er ursprünglich trainiert wurde.

Ein Benutzer, der mit dem PaLM-Sprachmodell interagiert, indem er Fragen eingibt.  Das KI-System antwortet, indem es Antworten zurücktippt.
Das PalM-Sprachmodell kann komplexe Fragestellungen beantworten.
Google-KI

3. Der Zugang ist eingeschränkt – im Moment

Das schiere Ausmaß dieser KI-Systeme ist schwer vorstellbar. PalM hat 540 Mrd Parameter, was bedeutet, dass selbst wenn jeder auf der Welt 50 Zahlen auswendig lernen könnte, wir nicht genug Speicherplatz hätten, um das Modell zu spielen.

Die Modelle sind so riesig, dass ihr Training riesige Mengen an Computern und anderen Ressourcen erfordert. Eine Schätzung bezifferte die Kosten für das Training des OpenAI GPT-3-Sprachmodells auf etwa 5 Millionen US-Dollar.



Weiterlesen: Können Roboter schreiben? Maschinelles Lernen liefert beeindruckende Ergebnisse, aber ein gewisser Zusammenbau ist noch erforderlich


Infolgedessen können es sich derzeit nur große Technologieunternehmen wie OpenAI, Google und Baidu leisten, Grundlagenmodelle zu erstellen. Diese Unternehmen schränken den Zugriff auf die Systeme ein, was wirtschaftlich ist.

Nutzungsbeschränkungen können uns einen gewissen Komfort bieten, dass diese Systeme in absehbarer Zeit nicht für böswillige Zwecke (z. B. das Erstellen gefälschter Nachrichten oder diffamierender Inhalte) verwendet werden. Das bedeutet aber auch, dass unabhängige Forscher diese Systeme nicht hinterfragen und die Ergebnisse offen und verantwortungsvoll teilen können. Daher kennen wir noch nicht die vollen Folgen ihres Einsatzes.

4. Was bedeuten diese Modelle für die „kreative“ Industrie?

Weitere Gründungsmodelle werden in den kommenden Jahren produziert. Kleinere Modelle werden bereits in Open-Source-Formaten veröffentlicht, Technologieunternehmen beginnen damit, mit der Lizenzierung und Kommerzialisierung dieser Tools zu experimentieren, und Forscher der künstlichen Intelligenz arbeiten hart daran, die Technologie effizienter und zugänglicher zu machen.

Die bemerkenswerte Kreativität von Modellen wie PaLM und DALL-E 2 zeigt, dass kreative Berufstätigkeiten früher als ursprünglich erwartet von dieser Technologie beeinflusst werden könnten.



Lesen Sie mehr: Künstliche Intelligenz könnte unsere Radiologen der Zukunft sein, inmitten einer Krise des Gesundheitspersonals


Die traditionelle Weisheit besagte immer, dass Roboter zunächst die Arbeit der „Arbeiter“ ersetzen würden. Die Arbeit mit einem “White Collar” sollte relativ sicher vor Automatisierung sein – insbesondere professionelle Arbeit, die Kreativität und Training erforderte.

Deep-Learning-Modelle künstlicher Intelligenz demonstrieren bereits übermenschliche Genauigkeit bei Aufgaben wie der Überprüfung von Röntgenbildern und der Erkennung von Makuladegeneration. Foundation-Modelle könnten bald billige, „gut genug“-Kreativität in Bereichen wie Werbung, Texterstellung, Stock-Bildern oder Grafikdesign bieten.

Die Zukunft der professionellen und kreativen Arbeit könnte etwas anders sein, als wir erwartet haben.

5. Was bedeutet das für Rechtsinformationen, Nachrichten und Medien?

Stiftungsmodelle werden zwangsläufig die Gesetzgebung in Bereichen wie geistiges Eigentum und Daten beeinflussen, da wir nicht davon ausgehen können, dass kreative Inhalte das Ergebnis menschlicher Aktivitäten sind.

Wir müssen uns auch der Herausforderung von Fehlinformationen und Fehlinformationen stellen, die durch diese Systeme erzeugt werden. Wir haben bereits große Probleme mit Fehlinformationen, wie wir bei der sich entfaltenden russischen Invasion in der Ukraine und dem aufkommenden Problem gefälschter Bilder und Videos sehen, aber grundlegende Modelle sind bereit, diese Herausforderungen zu bewältigen.



Lesen Sie mehr: Täglich werden 3,2 Milliarden Bilder und 720.000 Stunden Video online geteilt. Können Sie den Unterschied zwischen wahr und falsch erkennen?


Zeit zum Vorbereiten

Als Forscher, die sich mit den Auswirkungen der künstlichen Intelligenz auf die Gesellschaft befassen, glauben wir, dass Stiftungsmodelle enorme Veränderungen bewirken werden. Sie werden (vorerst) streng kontrolliert, sodass wir wahrscheinlich ein wenig Zeit haben, ihre Auswirkungen zu verstehen, bevor sie zu einem großen Problem werden.

Der Geist ist noch nicht aus der Flasche gekommen, aber die Basismodelle sind eine sehr große Flasche – und darin steckt ein sehr cleverer Geist.

About the author

m-admin

Leave a Comment