OpenAI hat ein neues Tool für künstliche Intelligenz vorgestellt, das Text in Bilder umwandelt – und die Ergebnisse sind erstaunlich.
Das System mit dem Namen DALL-E 2 ist der Nachfolger eines im vergangenen Jahr eingeführten Modells. Während sein Vorgänger einige beeindruckende Ergebnisse lieferte, ist die neue Version ein großes Upgrade.

DALL-E-2 fügt ein verbessertes Textverständnis, eine schnellere Bilderzeugung und eine viermal höhere Auflösung hinzu.
„Als wir uns DALL-E 2 näherten, konzentrierten wir uns auf die Verbesserung der Bildauflösungsqualität und der Latenz, anstatt ein größeres System zu schaffen“, sagte OpenAI-Forscher Aditya Ramesh gegenüber TNW.
Mit DALL · E 2 erstellte tierische Helikopter-Chimären: pic.twitter.com/5b8a9iq3k9
– Aditya Ramesh (@model_mechanic) 7. April 2022
Das neue Tool führt auch zwei zusätzliche Funktionen ein: das Zurücksetzen bestehender Bilder und eine Bearbeitungsfunktion namens Inpainting.
Beim Inpainting wird ein vorhandenes Bild bearbeitet, indem eine Beschriftung in natürlicher Sprache analysiert wird.
Es kann Elemente hinzufügen und entfernen, während die erwarteten Änderungen in Schatten, Reflexionen und Texturen integriert werden.

DALL · E 2 wurde in Bildpaaren und den dazugehörigen Bildunterschriften trainiert, die dem Modell die Beziehungen zwischen Bildern und Wörtern beibrachten.
Neue Bilder werden durch einen Prozess namens Diffusion erstellt.
Dies beginnt mit einem zufälligen Punktmuster. Das System wandelt dann das Muster nach und nach in ein Bild um, wenn es bestimmte Aspekte dieses Bildes erkennt.

Einige der Kreationen von DALL-E 2 sehen fast zu gut aus, um wahr zu sein. Forscher sagen jedoch, dass das System dazu neigt, visuell kohärente Bilder für die meisten Untertitel zu erstellen, die Menschen ausprobieren.
Die obigen Fotos eines Astronauten beispielsweise wurden von einem vom Modell produzierten Neunersatz bearbeitet. Prafulla Dhariwal, ein OpenAI-Forscher, sagte, die Ergebnisse seien im Allgemeinen konsistent:
Manchmal kann es hilfreich sein, das Muster in einer Rückkopplungsschleife zu wiederholen, indem Sie die Nachricht basierend auf der Interpretation der vorherigen ändern oder einen anderen Stil ausprobieren, z. B. „ein Ölgemälde“, „digitale Kunst“, „ein Foto“, „ ein Emoji” usw. Dies kann beim Erreichen eines gewünschten Stils oder einer gewünschten Ästhetik nützlich sein.

Die Einsatzmöglichkeiten von DALL-E 2 sind enorm.
Grafikdesigner, Anwendungsentwickler, Medien, Architekten, kommerzielle Illustratoren und Produktdesigner konnten das Tool für Inspiration, neue Kreationen und Bearbeitungen nutzen.
Gewerbliche Künstler können hinsichtlich ihrer zukünftigen Beschäftigungsaussichten nervös sein. Ramesh räumt ein, dass sich viele Jobs ändern könnten:
Wir haben künstliche Intelligenz als gutes Werkzeug für Menschen im kreativen Bereich gesehen. Als zum Beispiel Fotobearbeitungssoftware leistungsfähiger und zugänglicher wurde, ermöglichte es mehr Menschen, in den Bereich der Fotografie einzusteigen. In den letzten Jahren haben wir auch gesehen, wie Künstler KI nutzen, um neue Kunstwerke zu schaffen.
Es ist schwierig, die Zukunft vorherzusagen, aber wir wissen, dass künstliche Intelligenz ebenso wie Personal Computer Auswirkungen auf die Arbeitsplätze haben wird. Die Art vieler Arbeitsplätze wird sich ändern, Arbeitsplätze, die es vorher nie gegeben hat, werden geschaffen und andere können eliminiert werden.
Erstellt mit DALL · E 2 von @OpenAI
Prompt:
“Die Mona Lisa trinkt Wein mit Da Vinci.”// Auch wenn wir Maestro nicht sehen, ist die Komposition perfekt. Beachten Sie den horizontalen Flüssigkeitsstand im Glas.
Gemacht mit #DALLE // #DALLEmerz pic.twitter.com/wk8Kf6DKcd
– Merzmensch Kosmopol (@Merzmensch) 6. April 2022
Das System wurde noch nicht für die Öffentlichkeit freigegeben. Sam Altman, CEO von OpenAI, hofft, das Produkt noch in diesem Sommer auf den Markt zu bringen, aber die Forscher wollen zuerst die Risiken untersuchen.
Sie beabsichtigen, Schutzmaßnahmen einzubauen, die verhindern, dass das System eingerichtet wird irreführende und anderweitig schädliche Inhalte.
Darüber hinaus erbt DALL · E 2 verschiedene Verzerrungen aus seinen Trainingsdaten – und seine Ergebnisse verstärken manchmal soziale Stereotypen.
Die Gruppe hat bereits obszöne Inhalte aus Bildungsdaten entfernt und Gewalt, Hass und nicht jugendfreie Inhalte in ihrer Inhaltsrichtlinie verboten.
Wenn die Filter Bilder und Textnachrichten erkennen, die gegen die Regeln verstoßen, generiert das System keine Ausgaben. Automatisierte Überwachungssysteme und menschliche Systeme wurden ebenfalls als Schutzmaßnahmen gegen Missbrauch implementiert.
Altman glaubt, dass der Mechanismus von DALL-E die Art und Weise verändern könnte, wie wir mit Maschinen interagieren.
„Dies ist ein weiteres Beispiel dafür, was meiner Meinung nach ein neuer Trend bei Computerschnittstellen sein wird: Sie sagen, was Sie in natürlicher Sprache oder im Kontext wollen, und der Computer macht es“, sagte er in einem Blogbeitrag.
DALL-E kann auch unser Verständnis dafür verbessern, wie künstliche Intelligenz die Welt sieht. OpenAI hofft, dass dies ihnen hilft, Systeme zu schaffen, die der Menschheit zugute kommen – und sie nicht manipuliert, um Hass und Täuschung zu kultivieren.
Leave a Comment