Einen kurzen Text eingeben und Sekunden später gibt es ein Bild. Das geht mit der Open Source Software Stable Diffusion. Was dahinter steckt und wie Sie Bilder aus Texten erzeugen können, lesen Sie hier.
Jetzt ist es also so weit: Die Computer übernehmen unsere Vorstellungskraft. Aus ein paar Wörtern erschaffen sie magische Bilder. Was macht das mit der Kunst und was macht das mit uns? Doch damit Sie mitreden können, hier zunächst die Anleitung:
So erzeugen Sie Bilder aus Texten online
Dreamstudio.ai basiert auf Stable Diffusion. Stable Diffusion ist im August 2022 erschienen. Die Software ist Open Source und hat auch ein Modul, um andere Bilder mit in die Berechnungen einzubeziehen. Wenn Sie Stable Diffusion nur mal ausprobieren wollen, geht das am besten online (und – zumindest anfangs – kostenlos):
- Öffnen Sie https://beta.dreamstudio.ai/dream.
- Legen Sie einen Account an oder melden Sie sich mit Ihren Google- oder Discord-Konten an.
- Sie sollten dann im Editor sein. Falls nicht, klicken Sie einmal auf Dream.
- Im unteren Teil des Bildschirms finden Sie eine Eingabezeile. Tippen Sie hier ihre Bildidee ein.
- Nach einem Klick auf Dream dauert es ein paar Sekunden bis zum Ergebnis.
- Das Bild können Sie dann herunterladen.
Achtung: Mit jedem neu erzeugten Bild verbrauchen Sie Credits. Wie viele Sie noch haben erfahren Sie, indem Sie rechts oben im Fenster auf Ihr Profilbild klicken und Membership wählen. Für 10 Britische Pfund können Sie weitere Credits zukaufen.
Stable Diffusion läuft auf Ihrem Computer (wenn der die Power hat)
Ich habe versucht, die Software auf meinem Mac zu installieren und bin gescheitert. Beim Einrichten gab es immer wieder Probleme und Fehlermeldungen. Auch unter Windows habe ich das Programm nicht zum Laufen bekommen.
Ich habe Stable Diffusion mit Erfolg auf meinem Apple Studio M1 Max installiert. Dazu ist es notwendig, Homebrew zu installieren, dann Python zu aktualisieren und schließlich das Paket zu holen. Für den kompletten Prozess nach dieser englischsprachigen Anleitung für den M1 habe ich eine gute halbe Stunde gebraucht.
Danach konnte ich erste Bilder generieren. Hier meine Erfahrungen:
- Das Programm wird über diese Kommandozeilen-Befehle bedient.
- Die Qualität des Bildes hängt im Wesentlichen davon ab, wie ich das Prompt definiere, also welchen Beschreibungstext ich eingebe.
- Je nach Detailtiefe braucht ein Bild etwa 30 Sekunden.
- Es lohnt sich, von jedem Prompt mehrere Bilder errechnen zu lassen. 90 Prozent des Materials ist Ausschuss. (Setzen Sie dafür den Parameter –n_iter auf einen Wert größer als 1).
- Falls Rick Astley erscheint, geht der eingebaute Sicherheitsfilter von Stable Fusion davon aus, dass NFSW-Inhalte vorliegen. NSFW steht für „Not Safe for Work“ oder „Not Suitable for Work“. Der Algorithmus sieht dann zum Beispiel Hinweise auf Nacktheit. Mir ist das bei etlichen Bildern mit abstrakten oder Weltraum-Themen passiert.
- A propos menschliche Anatomie: Damit tut sich Stable Diffusion schwer. Schief im Gesicht sitzende Augen, Hände mit zu viel Fingern und ein extra Arm sind schnell ins Bild gerendert. Da braucht es einige Geduld und viele Rendering-Durchläufe, um zu einem guten Ergebnis zu kommen.
Unter Windows habe ich es ebenfalls mit Stable Diffusion probiert – allerdings war mein 2016er Dell Notebook trotz Nvidia-Grafikkarte mit 4 GByte Speicher nicht geeignet, um das Programm auszuführen. Schade.
Installationsanleitungen für Stable Diffusion
Wenn Sie es selbst probieren möchten, hier die Anleitungen zum Installieren von Stable Diffusion
Meine Empfehlung: Noch ein bissl zuwarten. Ich bin sicher, dass es schon bald für alle Systeme Programmpakete gibt, die sich einfach installieren lassen. Eine Beta-Version für Windows mit einer grafischen Benutzeroberfläche ist sogar schon da, läuft allerdings nur auf Nvidia-Grafikkarten.
Wer braucht das?
Ich sehe etliche Einsatzgebiete:
- In vielen Social Media Postings herrscht einfallsloses Einerlei. Ein gutes Bild aus dem Algorithmus kann der Aufmerksamkeit helfen.
- Präsentationen brauchen nicht immer dieselben öden Stock-Fotos.
- Aufmacherbilder in Blogposts bekommen von der algorithmischen Bilderzeugung einen neuen Schub.
- Die Generatoren können dekorative Alltagskunst erzeugen – schöne abstrakte Bilder für das Büro oder das Wohnzimmer.
- Ich freue mich speziell auf viele schicke Thumbnails für meine Youtube-Kanäle.
Ist das kreativ?
Ja, meiner Ansicht nach ist die Text-zu-Bild-Generierung ein kreatives Werkzeug. Aber es ist keine Malerei und auch kein Design. Wo also liegt die Kreativität?
Ich bin gut mit Worten, ich kann beschreiben. Beim Malen und Grafik-Design hapert es. Schade um die vielen schönen Bilder, die ich nicht zeichnen kann, schade um die verrückten Ideen. Zum Beispiel: „Wie hätte wohl Albrecht Dürers Notebook ausgesehen?“
Bittesehr, genau so:
Hier liegt das kreative Potenzial. Ich kann meine Vorstellungskraft befeuern mit Bildern, auf die ich im Leben nicht gekommen wäre. Die Kreativität liegt in der Beschreibung, in den Worten. Plötzlich kann ich mit Worten grafische Ideen erschaffen und meine Texte illustrieren.
Der Algorithmus hinter den Bildern ist ein kreatives Instrument. Wie wir es spielen, hängt von uns ab. Es hängt davon ab, wie wir die Welten beschreiben, die wir erschaffen wollen.
Wie oben schon erwähnt, liegt die größe Herausforderung im Formulieren der richtigen Anfrage. Nur die richtige Kombination bringt gute Ergebnisse. Ein guter Anfang, die Möglichkeiten zu erkunden, ist ein Prompt Builder. Oder einfach ausprobieren 🙂
Mich erinnert das ein wenig an Deep Thought, den allwissenden Computer aus Per Anhalter durch die Galaxis: Wir müssen nur die Frage richtig stellen, um das Ergebnis zu bekommen, das wir uns erhoffen.
Weiterführende Links zu vom Computer erzeugten Bildern
- Falls Sie mehr über den Algorithmus hinter Stable Diffusion erfahren wollen, schauen Sie auf Youtube dieses Video an.
- Netzpolitik.org sieht „den Anfang von etwas Großem„.
- Jörg Schieb sieht die künstlich generierten Bilder eher kritisch.
- Michael Stielder sagt auf Heise.de, dass die KI nicht alle Kreativen arbeitslos machen wird.
- Ein Video-Interview mit dem The Man behind Stable Diffusion.
Die hier gezeigten, generierten Bilder unterliegen der Public Domain Lizenz CCO 1.0.