Diffusionen


«Die Wirklichkeit entsteht aus miniaturisierten Zellen, Matrizen und Datenbänken, aus Kontrollmodellen ­– und kann auf dieser Basis unendlich oft reproduziert werden. Sie muss nicht mehr rational sein, misst sie sich doch nicht mehr an einer idealen oder negativen Instanz. Sie ist nichts anderes mehr als operativ. Im Grunde ist sie nicht einmal mehr wirklich die Wirklichkeit, weil sie von nichts Imaginärem mehr umgeben ist. Sie ist hyperreal, hervorgegangen aus einer ausstrahlenden Synthese kombinatorischer Modelle in einem Hyperraum ohne Atmosphäre.»

Seit letztem Jahr erfreuen sich – mit Stable Diffusion, Midjourney und Dall-E 2 – im Internet diverse Computerprogramme grosser Beliebtheit, die auf Basis einer Texteingabe raffinierte Bilder erzeugen. Diese Bilder sind detailreich, bestehen aus vermeintlich mühelos erzeugten komplexen Formen, Strukturen und Texturen. Die Arbeit mit derartigen Programmen kann sehr viel Spass machen, vor allem angesichts der überraschenden Kombinationen aus Bekanntem und Unbekanntem, welche die Software hervorbringt; man weiss nicht, wie das eigentlich genau vor sich geht; und die Ergebnisse entstehen einfach und unfassbar schnell.D In Bezug auf ihre Fähigkeit, eine vermeintliche oder mögliche Realität überzeugend en détail darzustellen, machen diese Programme nahezu monatlich Fortschritte. Sie prägen zumindest ein neues ästhetisches Empfinden – möglicherweise auch mehr.

Pictorial Turn

Im Hinblick auf Abonnentenzahlen und Seitenaufrufe haben Webmagazine die traditionellen Architekturzeitschriften überholt. ArchDaily verzeichnet stolz monatlich 285 Millionen Seitenaufrufe und 17,9 Millionen User, zudem 3,4 Millionen Fans auf Facebook und 4,2 Millionen Instagram-Follower. Derartige Zahlen konnten Printmagazine nicht einmal in ihrer Blütezeit vorweisen. Die erfolgreichsten Architekturzeitschriften hatten vielleicht 30'000–60'000 Abonnementinnen und Abonnenten – jedoch nie mehr. Und heute kann kaum noch eine mehr als 10'000 Abonnements verzeichnen. Diese neuen Webmagazine haben eine globale Reichweite – sowohl was ihre Inhalte als auch ihre Leserschaft betrifft. Ob nun Fotos oder Renderings, Bilder – digitale Bilder – sind heutzutage das dominante und bedeutendste Medium der Architekturvermittlung. Sie sind – in Bezug auf Detailliertheit, Schärfe, Texturen, das Einfangen von Wetter und Atmosphären – hochgradig ausgefeilt und unglaublich verführerisch. Und das ganz unabhängig davon, ob das jeweilige Projekt bereits realisiert wurde oder nicht.

Als Gegenreaktion auf die eigenartige Glätte eines Grossteils dieser Bilder feiert die Collage als Technik zur Vermittlung architektonischer Ideen ein unerwartetes Comeback. Bereits 2013 kuratierte Pedro Gadanho die Ausstellung Cut ’n’ Paste: From Architectural Assemblage to Collage City im Museum of Modern Art in New York. Seither ergiesst sich ein kontinuierlicher Strom an Ausstellungen, Publikationen und Symposien zum Thema Collage in der Architektur. Sam Jacob verkündete bereits ihre siegreiche Rückkehr.1

Laut Jacob bedeutet das Comeback der Collage eine Rückbesinnung auf das Zeichnen, nachdem dies der Architektenschaft von Renderingsoftware abgenommen worden war. Sie ist Teil eines Aufbegehrens gegen die von den neuen Technologien verursachte Entfremdung. «Die steigende Rechenleistung wurde genutzt, um gerenderte Bilder zu produzieren – glänzende Visionen von zu realisierenden Projekten, in der Regel mit blauem Himmel und üppigem Grün, bevölkert von Gruppen gestylter, grinsender Clip-Art-Figuren; mit auf Hochglanz polierten Gebäuden und einer Vielzahl von Lichtreflexen.»2 Das mag durchaus zutreffen, selbst wenn mit der Software, auf die sich Jacob hier bezieht, zunehmend auch erschütternde dystopische Fantasien und düstere Kommentare zu unserer gebauten Realität hervorgebracht werden; nicht zuletzt dient sie der Special-Effects-Industrie der Filmbranche. In diesem Bereich hat die Software ihren Ursprung. Anfang der 1990er Jahre fiel sie dann in den berühmten paperless studios der Columbia University Architekteninnen und Architekten in die Hände. Die damit erzeugten Fantasien können durchaus als zeitgenössisches Äquivalent zum Zeichnen und Malen betrachtet werden. Liam YoungsA filmische Architektur- und Stadtdystopien stellen in dieser Hinsicht eine Art Heimkehr des Mediums dar.

Die Collagetechnik wird in jüngster Zeit von zahlreichen italienischen Architektinnen und Architekten aufgegriffen, um ihre Vorstellungen von Architektur zu vermitteln. Die bekanntesten unter ihnen sind Carmelo Baglivo, Luca Galofaro und Beniamino Servino, diverse andere, etwa Davide Trabucco, treten in ihre Fussstapfen.3 Einer der Vorteile der Collage besteht darin, dass (Teile von) fotografische(n) Repräsentationen der Realität eingebracht werden können, einschliesslich Stile, Materialien und Texturen. Der grösste Vorteil ist jedoch, dass sich die Collage schnell verbreitet. Baglivo, Galofaro und Servino bringen zwar auch Bücher heraus, ihre Collagen posten sie aber in erster Linie auf Social-Media-Plattformen wie Facebook und Instagram, wo sie anscheinend besser aufgehoben sind. Sie nehmen häufig die Form von Memes an: ein schnell erstellter Mix grafischer Ideen wird so mit einfachen Texten kombiniert, dass er in bestimmten kulturellen Diskursen funktioniert. Im italienischen Kontext lässt sich beobachten, dass diverse Autorinnen und Autoren mittels Collagen miteinander kommunizieren. Der Text spielt dabei eine untergeordnete Rolle.

 

Diffusion

In diesem Kontext treten KI-Programme auf den Plan. Sie vermögen gleichermassen raffinierte digitale Bilder wie Fotografien und Renderings zu erzeugen und können Bilder sogar noch schneller produzieren, als es mittels Collagetechnik möglich wäre. Sie müssen lediglich einen Text eingeben und Stable Diffusion, Midjourney und Dall-E2 erledigen das für Sie. Das Bild erscheint in weniger als 60 Sekunden. Diese Bilder sind detailreich, weisen vermeintlich komplexe Formen, Strukturen, Stile und Texturen auf. Manifestationen der Natur – Haut, Haare und pflanzliche Strukturen – werden mühelos abgebildet. Das bedeutet jedoch nicht, dass sich derartige Software eignet, um eine existierende Realität abzubilden. Versucht man etwa ein Porträt einer realen Person oder Stadt zu erstellen, so funktioniert das nur bis zu einem gewissen Grad bei in den USA populären Beispielen – etwa Donald Trump oder Manhattan von der Brooklyn BridgeB aus gesehen –, und selbst dann ist das Ergebnis durchaus fehlerhaft. Bilder weniger berühmten Personen oder Szenen weisen manchmal nur eine marginale Ähnlichkeit mit dem Original auf. Hände und Text sind bekanntermassen problematisch, aber vor allem Midjourney verbessert sich sukzessive in Bezug auf realistische Darstellungen, greift diese Software doch auf die umfangreichsten Datensätze zurück.  

Selbst wenn wir von künstlicher Intelligenz sprechen, sollten wir bedenken, dass die aktuellen Text-zu-Bild- oder Diffusionsmodelle Formen «maschinellen Lernens» sind. Sie werden mit extrem grossen Datensätzen betitelter Bilder trainiert, wobei diese nicht in ihrer originalen Form zur Anwendung kommen. Es wird Rauschen hinzugefügt, wodurch die Originalbilder im Grunde zerstört werden. Anschliessend kann das Rauschen entfernt und das geforderte Bild im ausgewählten Material «erfasst» werden. Wenn wir ein realistisches Abbild von jemandem oder etwas suchen, ist Google Image Search nach wie vor die beste Lösung. Wir sind hier noch weit entfernt von Programmen wie ChatGPT, die – mit einigen Vorbehalten – Ergebnissen erzielen, die mit Google und Wikipedia zu konkurrieren vermögen in Bezug auf Argumentationsaufbau oder Gesprächsführung. Und dabei übertreffen sie ihre Vorgänger deutlich.  Gleichzeitig sollten wir diese KI-Programme nicht als Formen von Intelligenz verstehen, die etwas wirklich Neues und Unerwartetes hervorzubringen vermögen, sondern lediglich als zusätzliche Ordnungen bestehender Dinge. Nur ab und an geht etwas schief und es taucht zufällig etwas Unbekanntes auf. Man spricht dann davon, dass die Programme halluzinieren.

Bei der Arbeit mit Diffusionsmodellen versuchen viele zu ergründen, wie sich die Technologie letztlich doch steuern lässt. Das ist allerdings nicht so einfach. Im Mittelpunkt steht der Prompt: der Textinput, der die Sache in Bewegung setzt. Prompts tun aber mehr als das: Sie geben auch den Rahmen der Ergebnisse vor und können deren Inhalte und ihre Ästhetik bis zu einem gewissen Grad steuern. «Prompt-Ingenieure» sind Spezialisten darin, Ergebnisse zu erzielen, die den Erwartungen nahekommen oder diese sogar übertreffen. Websites wie PromptHero zeigen Beispiele und bieten Kurse zur Formulierung von Prompts an. Ziel ist, immer perfektere Ergebnisse zu bekommen – was auch immer Perfektion in diesem Fall bedeuten mag. Ein detailliertes, realistisch anmutendes Bild zu erhalten, dürfte bald möglich sein. Ein Bild zu erhalten, das dem, das man von Anfang an im Kopf hatte, nahekommt, wird hingegen möglicherweise ein Problem bleiben. Einer der amüsanteren Aspekte kann jedoch sein, wenn das Modell etwas Unerwartetes hervorbringt.

 

Lernen und Verlernen

Viele der Verzerrungen der Diffusionsmodelle werden durch das Lernmaterial bestimmt. Die Datensätze werden von Unternehmen wie der deutschen gemeinnützigen Organisation LAION und dem amerikanischen Webcrawler Common Crawl bereitgestellt. Letzterer archiviert 3 Milliarden Internetseiten pro Monat. Gemäss The Guardian «haben die Forschenden von LAION einen Teil der Common-Crawl-Daten genommen und alle Bilder mit einem ‹alt›-Tag, einer Zeile oder einem Text, der zur Beschreibung von Bildern auf Webseiten verwendet wird, herausgezogen. Nach dem Trimmen der Daten werden die Links zu den Originalbildern und der diese Bilder beschreibende Text in umfangreichen Sammlungen publiziert: LAION-5B, veröffentlicht im März 2022, umfasst mehr als fünf Milliarden Text-Bild-Paare. Diese Bilder sind ‹öffentlich› im weitesten Sinne: Jedes Bild, das jemals im Internet veröffentlicht wurde, kann in sie einfliessen, mit genau den seltsamen Effekten, die zu erwarten sind.»4

Der Schwerpunkt des Midjourney-Lernmaterials liegt nach wie vor eindeutig auf amerikanischen Beispielen; gefolgt von europäischen Beispielen und schliesslich solchen aus dem Rest der Welt. Das bestätigt die Voreingenommenheit der westlichen Gesellschaft und impliziert klare rassistische und geschlechtsspezifische Vorurteile. Soll eine weibliche Fachkraft oder eine farbige Person im Bild vorkommen, so muss man dies ausdrücklich im Prompt angeben. Darüber hinaus weisen alle Darstellungen massive Schwächen auf. Nicht umsonst gibt man als erste Anweisung «/imagine» in den Midjourney-Bot ein. Das erzeugt eine imaginäre, eine mögliche, eine proto-surrealistische Welt, deren Gesetze die eines Alfred Jarry (1873–1907) sind – «Pataphysik, eine Physik des jenseits der Metaphysik Möglichen». Es ist eine Welt ohne moralischen Impetus – abgesehen von den Vorurteilen und der Zensur, die von ihren Macherinnen und Machern ausgehen. Die Zensur spiegelt eine derzeit in den USA vorherrschende Moral wider: Gewalt ist legitim; jedes Wort, das auch nur vage auf Liebe hindeuten könnte, ist verboten, selbst wenn es um Namen geht. Und doch ist sie eine unerschöpfliche Quelle der Kreativität.   

Die resultierenden Bilder werden vorrangig im Internet kommuniziert und funktionieren ähnlich wie Memes in sozialen Netzwerken. Interessanterweise ist Midjourney sogar nur über eine soziale Plattform zugänglich, die ursprünglich für Onlinespiele entwickelt wurde: Discord. Alle Bilder, die mit Midjourney erstellt werden, erscheinen automatisch auch auf Discord. Sie können von der eigenen persönlichen Seite auf Midjourney.com für andere Zwecke heruntergeladen werden. Angesichts der Tatsache, dass sie selbst Teil der Datenbank werden, könnte dies besorgniserregende Auswirkungen haben – Stichwort: Meinungen in sozialen Medien, die zu Echokammern avancieren.

 

Augen, die nicht sehen

Die neue Text-zu-Bild-Software erhält nicht nur in Fachzeitschriften und an Universitäten, sondern auch in der Tagespresse enorme Aufmerksamkeit. Während dieser Text entsteht, vergeht kaum ein Tag ohne einen Presseartikel über KI. Es gibt vermutlich unzählige andere Varianten, wie künstliche Intelligenz unsere Welt verändert und verändern könnte; einige sind offensichtlich, andere erfolgen eher im Verborgenen. Es ist jedoch die starke visuelle Kraft von Stable Diffusion, Midjourney und Dall-E 2 und ihre einfache Zugänglichkeit und Nutzung, die sie für die Menschen so attraktiv macht. Die Architektenschaft gibt alles, um Vorreiterin in Bezug auf diese neuen Technologien zu sein, hatte ihr doch Le Corbusier (1887–1965) vor 100 Jahren vorgeworfen, sie habe «Augen, die nicht sehen». Der visuelle Aspekt ist dabei essenziell. Le Corbusier ging davon aus, dass die neuen Technologien vor allem die Art und Weise, wie Gebäude organisiert und gebaut werden, verändern werden – und damit auch ihr Aussehen. Viel später erst zwangen ihn diese neuen Technologien, auch die Organisation seines Büros zu verändern.5 Heute scheint genau das Gegenteil der Fall zu sein. Seit den 1990er Jahren hat die Digitalisierung der Architektur alle Bereiche der architektonischen Praxis umfassend verändert, auch wenn sich das nicht immer im Äusseren der Architektur widerspiegelt ­– davon ausgenommen sind jene Fälle, in denen die Architekten und Architektinnen die neuen Technologien bereits in der frühesten Phase des Entwurfsprozesses einsetzten. Wenngleich es gefeierte Ausnahmen gibt, so bremst jener der Bauindustrie inhärente Konservatismus nach wie vor die Realisierung solcher Projekte aus. Zudem bringt der Entwurf derartiger Projekte selbst für erfahrene Architekten immer noch eine Menge Arbeit mit sich. Das Etablierung einer Software, die von Anfang an hochwertige Bilder von architektonischen Entwürfen generiert, motiviert die Architektenschaft, sich mit den möglichen Auswirkungen der KI auf ihre Arbeit auseinanderzusetzen, um mit der Entwicklung Schritt zu halten.

Es müssen noch zahlreiche Probleme gelöst werden, um die seitens der Architektenschaft gewünschten Ergebnisse zu erzielen. Das betrifft insbesondere die Tatsache, dass sich Bilder bislang noch nicht mit Plänen und Schnitten verbinden lassen. Auch lassen sich KI-generierte Projekte noch nicht in konkrete Situationen übertragen.C Zweifellos gibt es dafür Lösungen. Die Befürchtung, dass die KI den Menschen die Arbeit wegnehmen und viele überflüssig machen wird, scheint sich in Luft aufgelöst zu haben.

 

Text-Prompts

Einer der faszinierendsten Aspekte der Text-zu-Bild-Software ist die neue Beziehung zwischen beiden Elementen. Ein Prompt ist ein kürzerer oder längerer Text. Er dient als Aufforderung zur Erzeugung eines Bildes, und nicht mehr als Beschreibung eines bereits vorhandenen Bildes. Ähnliche Phänomene gibt es in den Bereichen Illustration und Konzeptkunst. Natürlich müssen Illustrationen für einen wissenschaftlichen Text oder ein Handbuch möglichst präzise sein, bei einem Zeitungsartikel, einem Kinderbuch oder Comic ist der persönliche interpretative Freiraum der Kunstschaffenden jedoch deutlich grösser. Dies könnte einer der vielversprechendsten Bereiche für Text-zu-Bild-Software sein. Cartoons und Karikaturen, die eine bestimmte Situation überspitzen, stellen eine weitere Option dar.

In der Kunst wird dem visuellen Werk der Titel oder die Beschreibung in der Regel nachträglich hinzugefügt. Die Idee dahinter: Das visuelle Werk spricht für sich selbst – auch wenn das nicht immer der Fall ist. Ab Ende des 19. Jahrhunderts und vor allem im 20. Jahrhundert gewann der Titel – oder gar längere Texte, die sich auf das visuelle Werk beziehen – zunehmend an Bedeutung. In der Konzeptkunst wurde das komplexe Verhältnis von Bild und Text zu einem wiederkehrenden Thema. Das zeigt sich bereits im Werk von Marcel Duchamp (1887–1968). Dieser veränderte die Bedeutung von Alltagsgegenständen, indem er sie in einen Kunstkontext stellte und einen Titel hinzufügte, oft in Form eines Wortspiels. Duchamps Grüne Schachtel (1934) ist schon ambivalenter, enthält sie doch Notizen und Skizzen zu seinem Hauptwerk Die Braut von ihren Junggesellen nackt entblößt, sogar – auch Großes Glas genannt –, an welchem er zwischen 1915 und 1923 arbeitete. Einige der Notizen und Skizzen in Grüne Schachtel nehmen Teile des Werks Großes Glas vorweg, einige sind Faksimiles, andere beschreiben oder zeigen Teile dieses Werkes, die nie realisiert wurden, wieder andere beziehen sich auf weitere Werke und betten Großes Glas so in ein noch umfassenderes Universum ein. Die Kombination aus Großes Glas (das unvollendet blieb und versehentlich zerbrochen wurde) und Grüne Schachtel ergibt eine komplexe Ideenwelt, die verschiedenen Interpretationen offensteht. Duchamp sammelte seine Wortspiele aber auch als eigenständige Werke: Er veröffentlichte sie und nahm eine gesprochene Version davon auf, welche die Fantasie des Publikums auf eine andere Weise anregt. So unterschiedliche Künstler wie Joseph Kosuth, Robert Barry, Lawrence Weiner (1942–2021), Marcel Broothaers (1924–1976), Sol Lewitt (1928–2007) und Joseph Beuys (1921–1986) produzierten in den 1960er und 1970er Jahren Werke, die entweder nur aus Texten bestanden oder als Anleitung für andere dienten, um ein Werk zu realisieren – möglicherweise sogar in anderen Kontexten.  

In seinem Buch The Second Digital Turn erinnert uns Mario Carpo daran, dass die Aufzeichnung und Übertragung visueller Daten vor der Renaissance hauptsächlich verbal und nicht visuell erfolgte: «Bilder wurden mittels Worten beschrieben; geschriebene Worte wurden in Raum und Zeit weitergegeben, Bilder nicht». Und er beruft sich auf Isidor von Sevilla (560-636), der das antike Misstrauen gegenüber allen Formen visueller Kommunikation verkörperte und erklärte: «Bilder sind immer trügerisch, niemals zuverlässig, und niemals wahrheitsgetreu».6 Viele der Probleme werden wahrscheinlich gelöst, wenn Carpo recht behält mit seiner Aussage, dass «der rasante Fortschritt der zeitgenössischen digitalen Technologien von verbalen zu visuellen und räumlichen Medien im Laufe der letzten dreissig Jahre […] auf merkwürdige Weise die gesamte Entwicklung der westlichen Kulturtechnologien in einer teleskopischen Zeitlinie nach[vollzieht]».7

Ich stelle fest, dass ich manche Leute glauben machen kann, die Ergebnisse meiner Experimente, die ich auf Facebook oder Instagram poste, seien Fotos. Es gibt zum Beispiel diese eine Serie, bei der ich Midjourney veranlasst habe, junge Versionen berühmter Architektinnen und Architektenen zu erzeugen ­– mit Attributen, die halbwegs an gewisse bekannte Narrative anknüpfen, die mit ihrer Person verbunden sind. Die meisten wissen natürlich nicht, wie diese Menschen aussahen, als sie jung waren. Trotzdem akzeptieren viele den Vorschlag von Midjourney. Meistens lassen sich nur vage Andeutungen der realen Person in den Bildern ausmachen – so viele oder wenige man eben brauchte, liesse man ein aktuelles oder zeitloses Porträt anfertigen. Der einzige Unterschied: Das Porträt wird eher akzeptiert, wenn die Person in fotorealistischer Weise «jung» dargestellt wird, sahen die meisten Menschen doch jung anders aus. Umgekehrt stelle ich fest, dass die Leute anfangen, echte Fotos anzuzweifeln, wenn ich sie nach Midjourney-Bildern poste. Das ist verständlich, wurden doch viele von ihnen vor Veröffentlichung oder Druck in Photoshop bearbeitet. Das nimmt einige der ästhetischen Abweichungen von Midjourney vorweg und hat uns darauf vorbereitet, diese zu akzeptieren. 

Die Akzeptanz basiert weitgehend auf der Geschwindigkeit und Oberflächlichkeit dieser Medien, auf den Beschreibungstexten und nicht zuletzt darauf, was Menschen sehen oder als wahr akzeptieren wollen. Die Rolle der Beschreibungen ist hierbei essenziell: Sie werden nicht nachträglich hinzugefügt, sondern sind der Ursprung der Bilder. Insofern fordern sie uns auch heraus, die Bilder als Realisierungen dieser Textaufforderung zu sehen. Gleichzeitig macht Midjourney deutlich, dass sich nicht alles als Text verstehen lässt und dass die sprachliche Zusammenfassung einer Realität oder Idee immer eine Vereinfachung darstellt. Die Bilder sind deutlich informationsreicher als die Prompts.

 

Guilty Pleasures

Die Irreführung und Unzuverlässigkeit von Midjourney-Bildern sind dem Wesen der Diffusionsmodelle inhärent. Sie nähren sich vom Internet und befüttern es zugleich in einem inzestuösen Prozess. Ein Fall von Simulacra and Simulations, wie Jean Baudrillard (1929–2007) sagen würde. Bereits 1994 schrieb er: «heutzutage bezieht sich Abstraktion nicht mehr auf die Landkarte, den Doppelgänger, den Spiegel oder das Konzept. Simulation bezieht sich nicht mehr auf ein Territorium, ein referenzielles Wesen oder eine Substanz. Es geht um die modellhafte Erzeugung von etwas Realem ohne Ursprung oder Realität: etwas Hyperreales».8 Im Falle der Text-zu-Bild-Software mag das erzeugte Bild Millionen oder gar Milliarden von Ursprüngen haben, doch sind diese alle unscharf und dekonstruiert. Baudrillard definiert die Phasen, die ein Bild sukzessive durchläuft folgendermassen: erstens ist es Reflex einer tiefer liegenden Realität; zweitens wird das Bild maskiert und denaturiert; drittens maskiert und denaturiert es eine tiefer liegenden Realität; viertens maskiert es die Abwesenheit einer tiefer liegenden Realität; und schliesslich folgt jene Phase, in der das Bild keinerlei Bezug mehr zu irgendeiner Realität hat, zu seinem eigenen reinen Simulakrum geworden ist. Das ist offensichtlich jene Phase, in der wir mittlerweile angelangt sind.9

Der weitaus grösste Teil der von den neuen KI-Programmen erzeugten Bilder lässt sich klar den Kategorien Fantasy, Science-Fiction und Horror zuordnen, samt den dazugehörigen schaurig-schönen psychedelischen Farben. Bereiche also, die sich traditionell durch eine Melange aus übertriebenem Realismus, historischen Bezügen und blankem Unsinn auszeichnen. Roland Barthes (1915–1918) schrieb in seinem Text über die Marsmenschen, dass die «ganze Psychose auf dem Mythos des Selben, das heißt des Doppelgängers» gründet.10 Dem wird Midjourney mehr als gerecht. Seine Stärke, der unglaubliche Detail- und Texturenreichtum, wird aber auch zur Schwäche. Die generierten Bilder avancieren gerade durch den Überfluss an Klischees, Details, Texturen und Stimmungen unweigerlich zum Kitsch. Und gemäss Umberto Eco (1932-2016) ist Kitsch «die ideale Nahrung für ein träges Publikum, das Zugang zu Schönheit haben und sie genießen möchte, ohne sich allzu sehr anstrengen zu müssen.»11

Heisst das, Midjourney ist im Grunde nutzlos? Ganz im Gegenteil! Wir stehen erst am Anfang, wenngleich wir uns – wie der Name besagt – im Mittelteil der Reise befinden. Und diese Reise ist gleichermassen faszinierend und gefährlich. Anstatt Marsmenschen zu entwerfen, können wir diese Welt bestenfalls selbst als Marsmenschen betreten; wie einen fremden Planeten, auf dem wir vollkommen arglos versuchen, zurechtzukommen. Ich gehe davon aus, dass vielen, die gerne mit Midjourney arbeiten, bewusst ist, dass es sich hierbei um eine hyperreale Welt der Simulakren handelt; und dass ein Grossteil des Produzierten Kitsch ist. Sie betrachten diesen Spass als «guilty pleasure», mit anderen Worten: als eine Form von Camp.

Camp bezeichnet gemäss Susan Sontag (1933–2004) einen Stil, der sich durch Ironie, Theatralik und Übertreibung, durch die Liebe zum Unnatürlichen, Künstlichen und Artifiziellen auszeichnet. Sie argumentiert, Camp sei eine Sichtweise auf die Dinge, die über blossen Stil oder Geschmack hinausgehe und der ein gewisses Mass an Ästhetik und Frivolität innewohne. Sie stellt darüber hinaus fest, Camp sei eng mit dem Konzept des «schlechten Geschmacks» verbunden und umfasse oftmals auch eine Wertschätzung für Dinge, die gemeinhin als gewöhnlich oder vulgär gelten. Tatsächlich könnten viele der Beispiele, die Sontag in ihrem berühmten Camp-Essay anführt, Midjourney-Favoriten sein. Unter Version 3 vereinten die Ergebnisse häufig eine Art impressionistischen Malstil aus der Zeit um 1900 mit einer Vorliebe für jugendstilähnliche Formen. Sontag bezeichnet den Jugendstil als typischsten und ausgereiftesten Camp-Stil. «Jugendstilobjekte verwandeln typischerweise eine Sache in etwas anderes: Beleuchtungskörper in Form von blühenden Pflanzen, das Wohnzimmer ist geradezu eine Grotte.D Ein bemerkenswertes Beispiel: die Ende der 1890er Jahre von Hector Guimard entworfenen Eingänge der Pariser Metro in Form von gusseisernen Orchideentrieben.»12 Sontag schreibt, dass Camp oft am wirkungsvollsten ist, wenn es sich Elemente der Low Culture aneignet und sie in etwas verwandelt, das gleichermassen lächerlich wie erhaben ist. Zumeist ist es genau das, was Diffusionsmodelle tun. Sontag sieht Camp auch als eine Art kulturelle Produktion, die sowohl zelebriert als auch kritisiert; eine Art und Weise, die Absurdität und den Exzess des modernen Lebens anzunehmen und darin zu schwelgen, während gleichzeitig das ihnen zugrundeliegende Künstliche und Artifizielle entlarvt wird.

Die enorme Kraft von Text-zu-Bild-Modellen wird das ästhetische Empfinden in den Bereichen Architektur und Design vermutlich verändern. Und vielleicht gelingt es uns eines Tages, mit dieser verwirrenden neuen KI-gestützten Software zu entwerfen – und sie so in die Realität zurückprojizieren. Immerhin war Anfang der 1990er Jahre auch noch nicht absehbar, dass eine Special-Effects-Software wie Maya, die seinerzeit nur auf extrem teuren Silicon-Graphics-Maschinen lief, einmal routinemässig zum Einsatz kommen würde. Und diese Entwicklung beschleunigt sich. «Es ist nicht mehr die Strasse, die die Zukunft der Mode bestimmt;E die Trends entstehen heute im Internet», schrieb Dean Kissick im Modemagazin i-D. Das Gleiche wird für Architektur, Design und wahrscheinlich die gesamte visuelle Kultur gelten.13

Dieser Essay wurde für das Buch Diffusions in Architecture: Artificial Intelligence and Image Generators von Matias del Campo (Hg.) geschrieben. Das Buch erscheint im Herbst 2023 beim Verlag John Wiley & Sons, London. Autor und Verlag haben freundlicherweise diese Vorpublikation gestattet.

Diffusionen

27.7.2023


«Die Wirklichkeit entsteht aus miniaturisierten Zellen, Matrizen und Datenbänken, aus Kontrollmodellen ­– und kann auf dieser Basis unendlich oft reproduziert werden. Sie muss nicht mehr rational sein, misst sie sich doch nicht mehr an einer idealen oder negativen Instanz. Sie ist nichts anderes mehr als operativ. Im Grunde ist sie nicht einmal mehr wirklich die Wirklichkeit, weil sie von nichts Imaginärem mehr umgeben ist. Sie ist hyperreal, hervorgegangen aus einer ausstrahlenden Synthese kombinatorischer Modelle in einem Hyperraum ohne Atmosphäre.»

Jean Baudrillard, 1981

1 Sam Jacob, «Architecture Enters the Age of Post-Digital Drawing», in: Metropolis (16.07.2017).

2 Ebd.

Planet City

Sisyphus

Seit letztem Jahr erfreuen sich – mit Stable Diffusion, Midjourney und Dall-E 2 – im Internet diverse Computerprogramme grosser Beliebtheit, die auf Basis einer Texteingabe raffinierte Bilder erzeugen. Diese Bilder sind detailreich, bestehen aus vermeintlich mühelos erzeugten komplexen Formen, Strukturen und Texturen. Die Arbeit mit derartigen Programmen kann sehr viel Spass machen, vor allem angesichts der überraschenden Kombinationen aus Bekanntem und Unbekanntem, welche die Software hervorbringt; man weiss nicht, wie das eigentlich genau vor sich geht; und die Ergebnisse entstehen einfach und unfassbar schnell. In Bezug auf ihre Fähigkeit, eine vermeintliche oder mögliche Realität überzeugend en détail darzustellen, machen diese Programme nahezu monatlich Fortschritte. Sie prägen zumindest ein neues ästhetisches Empfinden – möglicherweise auch mehr.

Pictorial Turn

Im Hinblick auf Abonnentenzahlen und Seitenaufrufe haben Webmagazine die traditionellen Architekturzeitschriften überholt. ArchDaily verzeichnet stolz monatlich 285 Millionen Seitenaufrufe und 17,9 Millionen User, zudem 3,4 Millionen Fans auf Facebook und 4,2 Millionen Instagram-Follower. Derartige Zahlen konnten Printmagazine nicht einmal in ihrer Blütezeit vorweisen. Die erfolgreichsten Architekturzeitschriften hatten vielleicht 30'000–60'000 Abonnementinnen und Abonnenten – jedoch nie mehr. Und heute kann kaum noch eine mehr als 10'000 Abonnements verzeichnen. Diese neuen Webmagazine haben eine globale Reichweite – sowohl was ihre Inhalte als auch ihre Leserschaft betrifft. Ob nun Fotos oder Renderings, Bilder – digitale Bilder – sind heutzutage das dominante und bedeutendste Medium der Architekturvermittlung. Sie sind – in Bezug auf Detailliertheit, Schärfe, Texturen, das Einfangen von Wetter und Atmosphären – hochgradig ausgefeilt und unglaublich verführerisch. Und das ganz unabhängig davon, ob das jeweilige Projekt bereits realisiert wurde oder nicht.

Als Gegenreaktion auf die eigenartige Glätte eines Grossteils dieser Bilder feiert die Collage als Technik zur Vermittlung architektonischer Ideen ein unerwartetes Comeback. Bereits 2013 kuratierte Pedro Gadanho die Ausstellung Cut ’n’ Paste: From Architectural Assemblage to Collage City im Museum of Modern Art in New York. Seither ergiesst sich ein kontinuierlicher Strom an Ausstellungen, Publikationen und Symposien zum Thema Collage in der Architektur. Sam Jacob verkündete bereits ihre siegreiche Rückkehr.1

Laut Jacob bedeutet das Comeback der Collage eine Rückbesinnung auf das Zeichnen, nachdem dies der Architektenschaft von Renderingsoftware abgenommen worden war. Sie ist Teil eines Aufbegehrens gegen die von den neuen Technologien verursachte Entfremdung. «Die steigende Rechenleistung wurde genutzt, um gerenderte Bilder zu produzieren – glänzende Visionen von zu realisierenden Projekten, in der Regel mit blauem Himmel und üppigem Grün, bevölkert von Gruppen gestylter, grinsender Clip-Art-Figuren; mit auf Hochglanz polierten Gebäuden und einer Vielzahl von Lichtreflexen.»2 Das mag durchaus zutreffen, selbst wenn mit der Software, auf die sich Jacob hier bezieht, zunehmend auch erschütternde dystopische Fantasien und düstere Kommentare zu unserer gebauten Realität hervorgebracht werden; nicht zuletzt dient sie der Special-Effects-Industrie der Filmbranche. In diesem Bereich hat die Software ihren Ursprung. Anfang der 1990er Jahre fiel sie dann in den berühmten paperless studios der Columbia University Architekteninnen und Architekten in die Hände. Die damit erzeugten Fantasien können durchaus als zeitgenössisches Äquivalent zum Zeichnen und Malen betrachtet werden. Liam Youngs filmische Architektur- und Stadtdystopien stellen in dieser Hinsicht eine Art Heimkehr des Mediums dar.

Tempio Moderno – © Baglivo
Albergo per pellegrini – © Baglivo
Curzio Malaparte, Villa Malaparte, 1937-1943, Capri VS Carolyn Davidson, Nike Swoosh, 1971 – © Davide Trabucco
Spanish Riviera, Castalla VS Le Corbusier, Maison Dom-Ino, 1914/1915 – © Davide Trabucco
Ridolfian-Hollywoodian. Architettura e controarchitettura – © Beniamino Servino
Sironiana con  gasometro – © Beniamino Servino
Stazione spaziale – © Luca Galofaro
Life on Mars – © Luca Galofaro
01 | 09
Tempio Moderno – © Baglivo

3 Vgl. Ferrando, Lootsma, Trakulyingcharoen: Italian Collage. Siracusa 2020.

4 James Bridle: «The stupidity of AI», in: The Guardian (17.03.2023).

5 Vgl. Karen Michels, Der Sinn der Unordnung. Arbeitsformen im Atelier Le Corbusier, Braunschweig/Wiesbaden 1989.

6 Mario Carpo: The Second Digital Turn. Design Beyond Intelligence. Cambridge/London 2017, S. 102–103.

7 Ebd.

Brooklyn Bridge

House for a family of four

Die Collagetechnik wird in jüngster Zeit von zahlreichen italienischen Architektinnen und Architekten aufgegriffen, um ihre Vorstellungen von Architektur zu vermitteln. Die bekanntesten unter ihnen sind Carmelo Baglivo, Luca Galofaro und Beniamino Servino, diverse andere, etwa Davide Trabucco, treten in ihre Fussstapfen.3 Einer der Vorteile der Collage besteht darin, dass (Teile von) fotografische(n) Repräsentationen der Realität eingebracht werden können, einschliesslich Stile, Materialien und Texturen. Der grösste Vorteil ist jedoch, dass sich die Collage schnell verbreitet. Baglivo, Galofaro und Servino bringen zwar auch Bücher heraus, ihre Collagen posten sie aber in erster Linie auf Social-Media-Plattformen wie Facebook und Instagram, wo sie anscheinend besser aufgehoben sind. Sie nehmen häufig die Form von Memes an: ein schnell erstellter Mix grafischer Ideen wird so mit einfachen Texten kombiniert, dass er in bestimmten kulturellen Diskursen funktioniert. Im italienischen Kontext lässt sich beobachten, dass diverse Autorinnen und Autoren mittels Collagen miteinander kommunizieren. Der Text spielt dabei eine untergeordnete Rolle.

 

Diffusion

In diesem Kontext treten KI-Programme auf den Plan. Sie vermögen gleichermassen raffinierte digitale Bilder wie Fotografien und Renderings zu erzeugen und können Bilder sogar noch schneller produzieren, als es mittels Collagetechnik möglich wäre. Sie müssen lediglich einen Text eingeben und Stable Diffusion, Midjourney und Dall-E2 erledigen das für Sie. Das Bild erscheint in weniger als 60 Sekunden. Diese Bilder sind detailreich, weisen vermeintlich komplexe Formen, Strukturen, Stile und Texturen auf. Manifestationen der Natur – Haut, Haare und pflanzliche Strukturen – werden mühelos abgebildet. Das bedeutet jedoch nicht, dass sich derartige Software eignet, um eine existierende Realität abzubilden. Versucht man etwa ein Porträt einer realen Person oder Stadt zu erstellen, so funktioniert das nur bis zu einem gewissen Grad bei in den USA populären Beispielen – etwa Donald Trump oder Manhattan von der Brooklyn Bridge aus gesehen –, und selbst dann ist das Ergebnis durchaus fehlerhaft. Bilder weniger berühmten Personen oder Szenen weisen manchmal nur eine marginale Ähnlichkeit mit dem Original auf. Hände und Text sind bekanntermassen problematisch, aber vor allem Midjourney verbessert sich sukzessive in Bezug auf realistische Darstellungen, greift diese Software doch auf die umfangreichsten Datensätze zurück.  

Selbst wenn wir von künstlicher Intelligenz sprechen, sollten wir bedenken, dass die aktuellen Text-zu-Bild- oder Diffusionsmodelle Formen «maschinellen Lernens» sind. Sie werden mit extrem grossen Datensätzen betitelter Bilder trainiert, wobei diese nicht in ihrer originalen Form zur Anwendung kommen. Es wird Rauschen hinzugefügt, wodurch die Originalbilder im Grunde zerstört werden. Anschliessend kann das Rauschen entfernt und das geforderte Bild im ausgewählten Material «erfasst» werden. Wenn wir ein realistisches Abbild von jemandem oder etwas suchen, ist Google Image Search nach wie vor die beste Lösung. Wir sind hier noch weit entfernt von Programmen wie ChatGPT, die – mit einigen Vorbehalten – Ergebnissen erzielen, die mit Google und Wikipedia zu konkurrieren vermögen in Bezug auf Argumentationsaufbau oder Gesprächsführung. Und dabei übertreffen sie ihre Vorgänger deutlich.  Gleichzeitig sollten wir diese KI-Programme nicht als Formen von Intelligenz verstehen, die etwas wirklich Neues und Unerwartetes hervorzubringen vermögen, sondern lediglich als zusätzliche Ordnungen bestehender Dinge. Nur ab und an geht etwas schief und es taucht zufällig etwas Unbekanntes auf. Man spricht dann davon, dass die Programme halluzinieren.

Bei der Arbeit mit Diffusionsmodellen versuchen viele zu ergründen, wie sich die Technologie letztlich doch steuern lässt. Das ist allerdings nicht so einfach. Im Mittelpunkt steht der Prompt: der Textinput, der die Sache in Bewegung setzt. Prompts tun aber mehr als das: Sie geben auch den Rahmen der Ergebnisse vor und können deren Inhalte und ihre Ästhetik bis zu einem gewissen Grad steuern. «Prompt-Ingenieure» sind Spezialisten darin, Ergebnisse zu erzielen, die den Erwartungen nahekommen oder diese sogar übertreffen. Websites wie PromptHero zeigen Beispiele und bieten Kurse zur Formulierung von Prompts an. Ziel ist, immer perfektere Ergebnisse zu bekommen – was auch immer Perfektion in diesem Fall bedeuten mag. Ein detailliertes, realistisch anmutendes Bild zu erhalten, dürfte bald möglich sein. Ein Bild zu erhalten, das dem, das man von Anfang an im Kopf hatte, nahekommt, wird hingegen möglicherweise ein Problem bleiben. Einer der amüsanteren Aspekte kann jedoch sein, wenn das Modell etwas Unerwartetes hervorbringt.

 

Lernen und Verlernen

Viele der Verzerrungen der Diffusionsmodelle werden durch das Lernmaterial bestimmt. Die Datensätze werden von Unternehmen wie der deutschen gemeinnützigen Organisation LAION und dem amerikanischen Webcrawler Common Crawl bereitgestellt. Letzterer archiviert 3 Milliarden Internetseiten pro Monat. Gemäss The Guardian «haben die Forschenden von LAION einen Teil der Common-Crawl-Daten genommen und alle Bilder mit einem ‹alt›-Tag, einer Zeile oder einem Text, der zur Beschreibung von Bildern auf Webseiten verwendet wird, herausgezogen. Nach dem Trimmen der Daten werden die Links zu den Originalbildern und der diese Bilder beschreibende Text in umfangreichen Sammlungen publiziert: LAION-5B, veröffentlicht im März 2022, umfasst mehr als fünf Milliarden Text-Bild-Paare. Diese Bilder sind ‹öffentlich› im weitesten Sinne: Jedes Bild, das jemals im Internet veröffentlicht wurde, kann in sie einfliessen, mit genau den seltsamen Effekten, die zu erwarten sind.»4

Der Schwerpunkt des Midjourney-Lernmaterials liegt nach wie vor eindeutig auf amerikanischen Beispielen; gefolgt von europäischen Beispielen und schliesslich solchen aus dem Rest der Welt. Das bestätigt die Voreingenommenheit der westlichen Gesellschaft und impliziert klare rassistische und geschlechtsspezifische Vorurteile. Soll eine weibliche Fachkraft oder eine farbige Person im Bild vorkommen, so muss man dies ausdrücklich im Prompt angeben. Darüber hinaus weisen alle Darstellungen massive Schwächen auf. Nicht umsonst gibt man als erste Anweisung «/imagine» in den Midjourney-Bot ein. Das erzeugt eine imaginäre, eine mögliche, eine proto-surrealistische Welt, deren Gesetze die eines Alfred Jarry (1873–1907) sind – «Pataphysik, eine Physik des jenseits der Metaphysik Möglichen». Es ist eine Welt ohne moralischen Impetus – abgesehen von den Vorurteilen und der Zensur, die von ihren Macherinnen und Machern ausgehen. Die Zensur spiegelt eine derzeit in den USA vorherrschende Moral wider: Gewalt ist legitim; jedes Wort, das auch nur vage auf Liebe hindeuten könnte, ist verboten, selbst wenn es um Namen geht. Und doch ist sie eine unerschöpfliche Quelle der Kreativität.   

Die resultierenden Bilder werden vorrangig im Internet kommuniziert und funktionieren ähnlich wie Memes in sozialen Netzwerken. Interessanterweise ist Midjourney sogar nur über eine soziale Plattform zugänglich, die ursprünglich für Onlinespiele entwickelt wurde: Discord. Alle Bilder, die mit Midjourney erstellt werden, erscheinen automatisch auch auf Discord. Sie können von der eigenen persönlichen Seite auf Midjourney.com für andere Zwecke heruntergeladen werden. Angesichts der Tatsache, dass sie selbst Teil der Datenbank werden, könnte dies besorgniserregende Auswirkungen haben – Stichwort: Meinungen in sozialen Medien, die zu Echokammern avancieren.

 

Augen, die nicht sehen

Die neue Text-zu-Bild-Software erhält nicht nur in Fachzeitschriften und an Universitäten, sondern auch in der Tagespresse enorme Aufmerksamkeit. Während dieser Text entsteht, vergeht kaum ein Tag ohne einen Presseartikel über KI. Es gibt vermutlich unzählige andere Varianten, wie künstliche Intelligenz unsere Welt verändert und verändern könnte; einige sind offensichtlich, andere erfolgen eher im Verborgenen. Es ist jedoch die starke visuelle Kraft von Stable Diffusion, Midjourney und Dall-E 2 und ihre einfache Zugänglichkeit und Nutzung, die sie für die Menschen so attraktiv macht. Die Architektenschaft gibt alles, um Vorreiterin in Bezug auf diese neuen Technologien zu sein, hatte ihr doch Le Corbusier (1887–1965) vor 100 Jahren vorgeworfen, sie habe «Augen, die nicht sehen». Der visuelle Aspekt ist dabei essenziell. Le Corbusier ging davon aus, dass die neuen Technologien vor allem die Art und Weise, wie Gebäude organisiert und gebaut werden, verändern werden – und damit auch ihr Aussehen. Viel später erst zwangen ihn diese neuen Technologien, auch die Organisation seines Büros zu verändern.5 Heute scheint genau das Gegenteil der Fall zu sein. Seit den 1990er Jahren hat die Digitalisierung der Architektur alle Bereiche der architektonischen Praxis umfassend verändert, auch wenn sich das nicht immer im Äusseren der Architektur widerspiegelt ­– davon ausgenommen sind jene Fälle, in denen die Architekten und Architektinnen die neuen Technologien bereits in der frühesten Phase des Entwurfsprozesses einsetzten. Wenngleich es gefeierte Ausnahmen gibt, so bremst jener der Bauindustrie inhärente Konservatismus nach wie vor die Realisierung solcher Projekte aus. Zudem bringt der Entwurf derartiger Projekte selbst für erfahrene Architekten immer noch eine Menge Arbeit mit sich. Das Etablierung einer Software, die von Anfang an hochwertige Bilder von architektonischen Entwürfen generiert, motiviert die Architektenschaft, sich mit den möglichen Auswirkungen der KI auf ihre Arbeit auseinanderzusetzen, um mit der Entwicklung Schritt zu halten.

Es müssen noch zahlreiche Probleme gelöst werden, um die seitens der Architektenschaft gewünschten Ergebnisse zu erzielen. Das betrifft insbesondere die Tatsache, dass sich Bilder bislang noch nicht mit Plänen und Schnitten verbinden lassen. Auch lassen sich KI-generierte Projekte noch nicht in konkrete Situationen übertragen. Zweifellos gibt es dafür Lösungen. Die Befürchtung, dass die KI den Menschen die Arbeit wegnehmen und viele überflüssig machen wird, scheint sich in Luft aufgelöst zu haben.

 

Text-Prompts

Einer der faszinierendsten Aspekte der Text-zu-Bild-Software ist die neue Beziehung zwischen beiden Elementen. Ein Prompt ist ein kürzerer oder längerer Text. Er dient als Aufforderung zur Erzeugung eines Bildes, und nicht mehr als Beschreibung eines bereits vorhandenen Bildes. Ähnliche Phänomene gibt es in den Bereichen Illustration und Konzeptkunst. Natürlich müssen Illustrationen für einen wissenschaftlichen Text oder ein Handbuch möglichst präzise sein, bei einem Zeitungsartikel, einem Kinderbuch oder Comic ist der persönliche interpretative Freiraum der Kunstschaffenden jedoch deutlich grösser. Dies könnte einer der vielversprechendsten Bereiche für Text-zu-Bild-Software sein. Cartoons und Karikaturen, die eine bestimmte Situation überspitzen, stellen eine weitere Option dar.

In der Kunst wird dem visuellen Werk der Titel oder die Beschreibung in der Regel nachträglich hinzugefügt. Die Idee dahinter: Das visuelle Werk spricht für sich selbst – auch wenn das nicht immer der Fall ist. Ab Ende des 19. Jahrhunderts und vor allem im 20. Jahrhundert gewann der Titel – oder gar längere Texte, die sich auf das visuelle Werk beziehen – zunehmend an Bedeutung. In der Konzeptkunst wurde das komplexe Verhältnis von Bild und Text zu einem wiederkehrenden Thema. Das zeigt sich bereits im Werk von Marcel Duchamp (1887–1968). Dieser veränderte die Bedeutung von Alltagsgegenständen, indem er sie in einen Kunstkontext stellte und einen Titel hinzufügte, oft in Form eines Wortspiels. Duchamps Grüne Schachtel (1934) ist schon ambivalenter, enthält sie doch Notizen und Skizzen zu seinem Hauptwerk Die Braut von ihren Junggesellen nackt entblößt, sogar – auch Großes Glas genannt –, an welchem er zwischen 1915 und 1923 arbeitete. Einige der Notizen und Skizzen in Grüne Schachtel nehmen Teile des Werks Großes Glas vorweg, einige sind Faksimiles, andere beschreiben oder zeigen Teile dieses Werkes, die nie realisiert wurden, wieder andere beziehen sich auf weitere Werke und betten Großes Glas so in ein noch umfassenderes Universum ein. Die Kombination aus Großes Glas (das unvollendet blieb und versehentlich zerbrochen wurde) und Grüne Schachtel ergibt eine komplexe Ideenwelt, die verschiedenen Interpretationen offensteht. Duchamp sammelte seine Wortspiele aber auch als eigenständige Werke: Er veröffentlichte sie und nahm eine gesprochene Version davon auf, welche die Fantasie des Publikums auf eine andere Weise anregt. So unterschiedliche Künstler wie Joseph Kosuth, Robert Barry, Lawrence Weiner (1942–2021), Marcel Broothaers (1924–1976), Sol Lewitt (1928–2007) und Joseph Beuys (1921–1986) produzierten in den 1960er und 1970er Jahren Werke, die entweder nur aus Texten bestanden oder als Anleitung für andere dienten, um ein Werk zu realisieren – möglicherweise sogar in anderen Kontexten.  

In seinem Buch The Second Digital Turn erinnert uns Mario Carpo daran, dass die Aufzeichnung und Übertragung visueller Daten vor der Renaissance hauptsächlich verbal und nicht visuell erfolgte: «Bilder wurden mittels Worten beschrieben; geschriebene Worte wurden in Raum und Zeit weitergegeben, Bilder nicht». Und er beruft sich auf Isidor von Sevilla (560-636), der das antike Misstrauen gegenüber allen Formen visueller Kommunikation verkörperte und erklärte: «Bilder sind immer trügerisch, niemals zuverlässig, und niemals wahrheitsgetreu».6 Viele der Probleme werden wahrscheinlich gelöst, wenn Carpo recht behält mit seiner Aussage, dass «der rasante Fortschritt der zeitgenössischen digitalen Technologien von verbalen zu visuellen und räumlichen Medien im Laufe der letzten dreissig Jahre […] auf merkwürdige Weise die gesamte Entwicklung der westlichen Kulturtechnologien in einer teleskopischen Zeitlinie nach[vollzieht]».7

«Young Zaha Hadid as a diva», Midjourney – © Bart Lootsma
«Young Mies van der Rohe smoking a cigar», Midjourney – © Bart Lootsma
«Young Louis Kahn on the floor of a restroom in Penn Station», Midjourney – © Bart Lootsma
«Young Rem behind a movie camera», Midjourney – © Bart Lootsma
«Young Bjarke Ingels Reading Comics», Midjourney – © Bart Lootsma
«Frank Gehry as a punk», Midjourney – © Bart Lootsma
«Young Philip Johnson in a uniform», Midjourney – © Bart Lootsma
01 | 08
«Young Zaha Hadid as a diva», Midjourney – © Bart Lootsma

8 Jean Baudrillard: Simulacra and Simulations. Ann Arbor (Michigan) 1994, S. 1.

9 Ebd., S. 6.

10 Roland Barthes, «Marsmenschen», in: ders. Mythen des Alltags, Berlin 2010, S. 53–55, hier: S. 55

11 Umberto Eco: «Die Struktur des schlechten Geschmacks», in: ders.: Im Labyrinth der Vernunft, Texte über Kunst und Zeichen. Leipzig 1990, S. 246.

12 Susan Sontag, «Notes on Camp», in: Against Interpretation and other essays, New York 1966, S. 279.

13 Dean Kissick: «Didn’t I see you on the cover of i-D?», in: i-D, Nr. 326, 2013.

Camp

Dean Kissick

Ich stelle fest, dass ich manche Leute glauben machen kann, die Ergebnisse meiner Experimente, die ich auf Facebook oder Instagram poste, seien Fotos. Es gibt zum Beispiel diese eine Serie, bei der ich Midjourney veranlasst habe, junge Versionen berühmter Architektinnen und Architektenen zu erzeugen ­– mit Attributen, die halbwegs an gewisse bekannte Narrative anknüpfen, die mit ihrer Person verbunden sind. Die meisten wissen natürlich nicht, wie diese Menschen aussahen, als sie jung waren. Trotzdem akzeptieren viele den Vorschlag von Midjourney. Meistens lassen sich nur vage Andeutungen der realen Person in den Bildern ausmachen – so viele oder wenige man eben brauchte, liesse man ein aktuelles oder zeitloses Porträt anfertigen. Der einzige Unterschied: Das Porträt wird eher akzeptiert, wenn die Person in fotorealistischer Weise «jung» dargestellt wird, sahen die meisten Menschen doch jung anders aus. Umgekehrt stelle ich fest, dass die Leute anfangen, echte Fotos anzuzweifeln, wenn ich sie nach Midjourney-Bildern poste. Das ist verständlich, wurden doch viele von ihnen vor Veröffentlichung oder Druck in Photoshop bearbeitet. Das nimmt einige der ästhetischen Abweichungen von Midjourney vorweg und hat uns darauf vorbereitet, diese zu akzeptieren. 

Die Akzeptanz basiert weitgehend auf der Geschwindigkeit und Oberflächlichkeit dieser Medien, auf den Beschreibungstexten und nicht zuletzt darauf, was Menschen sehen oder als wahr akzeptieren wollen. Die Rolle der Beschreibungen ist hierbei essenziell: Sie werden nicht nachträglich hinzugefügt, sondern sind der Ursprung der Bilder. Insofern fordern sie uns auch heraus, die Bilder als Realisierungen dieser Textaufforderung zu sehen. Gleichzeitig macht Midjourney deutlich, dass sich nicht alles als Text verstehen lässt und dass die sprachliche Zusammenfassung einer Realität oder Idee immer eine Vereinfachung darstellt. Die Bilder sind deutlich informationsreicher als die Prompts.

 

Guilty Pleasures

Die Irreführung und Unzuverlässigkeit von Midjourney-Bildern sind dem Wesen der Diffusionsmodelle inhärent. Sie nähren sich vom Internet und befüttern es zugleich in einem inzestuösen Prozess. Ein Fall von Simulacra and Simulations, wie Jean Baudrillard (1929–2007) sagen würde. Bereits 1994 schrieb er: «heutzutage bezieht sich Abstraktion nicht mehr auf die Landkarte, den Doppelgänger, den Spiegel oder das Konzept. Simulation bezieht sich nicht mehr auf ein Territorium, ein referenzielles Wesen oder eine Substanz. Es geht um die modellhafte Erzeugung von etwas Realem ohne Ursprung oder Realität: etwas Hyperreales».8 Im Falle der Text-zu-Bild-Software mag das erzeugte Bild Millionen oder gar Milliarden von Ursprüngen haben, doch sind diese alle unscharf und dekonstruiert. Baudrillard definiert die Phasen, die ein Bild sukzessive durchläuft folgendermassen: erstens ist es Reflex einer tiefer liegenden Realität; zweitens wird das Bild maskiert und denaturiert; drittens maskiert und denaturiert es eine tiefer liegenden Realität; viertens maskiert es die Abwesenheit einer tiefer liegenden Realität; und schliesslich folgt jene Phase, in der das Bild keinerlei Bezug mehr zu irgendeiner Realität hat, zu seinem eigenen reinen Simulakrum geworden ist. Das ist offensichtlich jene Phase, in der wir mittlerweile angelangt sind.9

Der weitaus grösste Teil der von den neuen KI-Programmen erzeugten Bilder lässt sich klar den Kategorien Fantasy, Science-Fiction und Horror zuordnen, samt den dazugehörigen schaurig-schönen psychedelischen Farben. Bereiche also, die sich traditionell durch eine Melange aus übertriebenem Realismus, historischen Bezügen und blankem Unsinn auszeichnen. Roland Barthes (1915–1918) schrieb in seinem Text über die Marsmenschen, dass die «ganze Psychose auf dem Mythos des Selben, das heißt des Doppelgängers» gründet.10 Dem wird Midjourney mehr als gerecht. Seine Stärke, der unglaubliche Detail- und Texturenreichtum, wird aber auch zur Schwäche. Die generierten Bilder avancieren gerade durch den Überfluss an Klischees, Details, Texturen und Stimmungen unweigerlich zum Kitsch. Und gemäss Umberto Eco (1932-2016) ist Kitsch «die ideale Nahrung für ein träges Publikum, das Zugang zu Schönheit haben und sie genießen möchte, ohne sich allzu sehr anstrengen zu müssen.»11

Heisst das, Midjourney ist im Grunde nutzlos? Ganz im Gegenteil! Wir stehen erst am Anfang, wenngleich wir uns – wie der Name besagt – im Mittelteil der Reise befinden. Und diese Reise ist gleichermassen faszinierend und gefährlich. Anstatt Marsmenschen zu entwerfen, können wir diese Welt bestenfalls selbst als Marsmenschen betreten; wie einen fremden Planeten, auf dem wir vollkommen arglos versuchen, zurechtzukommen. Ich gehe davon aus, dass vielen, die gerne mit Midjourney arbeiten, bewusst ist, dass es sich hierbei um eine hyperreale Welt der Simulakren handelt; und dass ein Grossteil des Produzierten Kitsch ist. Sie betrachten diesen Spass als «guilty pleasure», mit anderen Worten: als eine Form von Camp.

Camp bezeichnet gemäss Susan Sontag (1933–2004) einen Stil, der sich durch Ironie, Theatralik und Übertreibung, durch die Liebe zum Unnatürlichen, Künstlichen und Artifiziellen auszeichnet. Sie argumentiert, Camp sei eine Sichtweise auf die Dinge, die über blossen Stil oder Geschmack hinausgehe und der ein gewisses Mass an Ästhetik und Frivolität innewohne. Sie stellt darüber hinaus fest, Camp sei eng mit dem Konzept des «schlechten Geschmacks» verbunden und umfasse oftmals auch eine Wertschätzung für Dinge, die gemeinhin als gewöhnlich oder vulgär gelten. Tatsächlich könnten viele der Beispiele, die Sontag in ihrem berühmten Camp-Essay anführt, Midjourney-Favoriten sein. Unter Version 3 vereinten die Ergebnisse häufig eine Art impressionistischen Malstil aus der Zeit um 1900 mit einer Vorliebe für jugendstilähnliche Formen. Sontag bezeichnet den Jugendstil als typischsten und ausgereiftesten Camp-Stil. «Jugendstilobjekte verwandeln typischerweise eine Sache in etwas anderes: Beleuchtungskörper in Form von blühenden Pflanzen, das Wohnzimmer ist geradezu eine Grotte. Ein bemerkenswertes Beispiel: die Ende der 1890er Jahre von Hector Guimard entworfenen Eingänge der Pariser Metro in Form von gusseisernen Orchideentrieben.»12 Sontag schreibt, dass Camp oft am wirkungsvollsten ist, wenn es sich Elemente der Low Culture aneignet und sie in etwas verwandelt, das gleichermassen lächerlich wie erhaben ist. Zumeist ist es genau das, was Diffusionsmodelle tun. Sontag sieht Camp auch als eine Art kulturelle Produktion, die sowohl zelebriert als auch kritisiert; eine Art und Weise, die Absurdität und den Exzess des modernen Lebens anzunehmen und darin zu schwelgen, während gleichzeitig das ihnen zugrundeliegende Künstliche und Artifizielle entlarvt wird.

Die enorme Kraft von Text-zu-Bild-Modellen wird das ästhetische Empfinden in den Bereichen Architektur und Design vermutlich verändern. Und vielleicht gelingt es uns eines Tages, mit dieser verwirrenden neuen KI-gestützten Software zu entwerfen – und sie so in die Realität zurückprojizieren. Immerhin war Anfang der 1990er Jahre auch noch nicht absehbar, dass eine Special-Effects-Software wie Maya, die seinerzeit nur auf extrem teuren Silicon-Graphics-Maschinen lief, einmal routinemässig zum Einsatz kommen würde. Und diese Entwicklung beschleunigt sich. «Es ist nicht mehr die Strasse, die die Zukunft der Mode bestimmt; die Trends entstehen heute im Internet», schrieb Dean Kissick im Modemagazin i-D. Das Gleiche wird für Architektur, Design und wahrscheinlich die gesamte visuelle Kultur gelten.13

Dieser Essay wurde für das Buch Diffusions in Architecture: Artificial Intelligence and Image Generators von Matias del Campo (Hg.) geschrieben. Das Buch erscheint im Herbst 2023 beim Verlag John Wiley & Sons, London. Autor und Verlag haben freundlicherweise diese Vorpublikation gestattet.

Daidalos dankt:
Sponsor werden
Artikel 24/04
25.4.2024Tibor Joanelly

Folge der Leiter!

Kazuo Shinoharas Urban Turn lässt dessen Bauten zu Stadtlandschaften werden, in denen sich mit der Bewegung und Wahrnehmung auch die Wirkung von Raum und Zeit überblenden. lesen
24/04
Folge der Leiter! II
Artikel 24/03
22.3.2024Tibor Joanelly

Folge der Leiter!

In seinen Überlegungen zu Kazuo Shinohara begegnet Tibor Joanelly neben Paul Cézanne auch der Dritten Person im Werk des japanischen Meisters. lesen
24/03
Folge der Leiter! I
Artikel 24/02
23.2.2024Dieter Geissbühler

Absehbare Vergänglichkeit

Hinter der Fassade der Mall of Switzerland wittert Dieter Geissbühler die Ästhetik der Ruine. Diese erstickt jedoch in gestalterischer Belanglosigkeit. lesen
24/02
Absehbare Vergänglichkeit
Artikel 24/01
18.1.2024Ana Catarina Silva

Housing. Not flats

Architect Philipp Esch spoke to Ana Catarina Silva about undetermined spaces, architecture as a process and beauty as the most enduring measure of sustainability. lesen
24/01
Housing. Not flats
Artikel 23/11
14.12.2023Jorge Melguizo

Medellín

Once the most dangerous city in the world, Medellín became a model for urban change. Its architecture is the image of what is even more important. lesen
23/11
Medellín
Artikel 23/10
27.10.2023Savatore Dellaria

The Southgate Myth

Built and demolished within less than thirty years, Stirling's Southgate Estate stands for what it was planned for and against which it had to fail: Britain's neoliberalism. lesen
23/10
The Southgate Myth
Artikel 23/09
26.9.2023Randa A. Mahmoud

Lost in Gourna

Hassan Fathy was brilliant and visionary, but an early project was strongly rejected by its residents. Randa A. Mahmoud studied Gourna to get behind the paradox of Egypt's Great Architect. lesen
23/09
Lost in Gourna
Artikel 23/08
29.8.2023Grisi Ganzer

Pandoras Boxen

Grisi Ganzers Erlebnisbericht über die Kollaboration im Deutschen Pavillon der Architekturbiennale schildert Eindrücke und Erfahrungen rund um den Bau einer Bar für das Kulturzentrum Pandora. lesen
23/08
Pandoras Boxen
Artikel 23/07
27.7.2023Bart Lootsma

Diffusionen

Textbasiert generiert KI realitische Bilder mit diffusem Urspung. Unperfekt und ergebnisoffen irritieren diese unser ästhetisches Empfinden und verändern die gesamte visuelle Kultur. lesen
23/07
Diffusionen
Artikel 23/06
28.6.2023Denis Andernach

Andernach's Häuser

Frei von Zwängen zeichnet Denis Andernach seine Häuser als pure Architekturen in menschenleere Landschaften. Elementare Formen vereint er dabei mit erdachten Nutzungen. lesen
23/06
Andernach's Häuser
Artikel 23/05
24.5.2023Pedro Gadanho

Learning from Hippie Modernism

An environmental avant-garde grew out of the resistance against the post-war society of the late 1960s. While their efforts were derided as esoteric, time has come to learn from their approaches. lesen
23/05
Hippie Modernism
Artikel 23/04
27.4.2023Giacomo Pala

Pineapple Modernity

The intersection of globalization and modernity: the pineapple and the emergence of a new architectural paradigm since the 18th century. lesen
23/04
Pineapple Modernity
Artikel 23/03
29.3.2023Claudia Kromrei

Case come noi

Eine Insel, drei Schriftsteller und drei Häuser, in denen sie lebten, liebten und arbeiteten. In Capris Idylle entfalten die Bauten die Persönlichkeit ihrer Erbauer und inszenieren deren Selbstverliebtheit. … lesen
23/03
Case come noi
Artikel 23/02
23.2.2023Bahar Avanoğlu

[Un]built

Separating "unbuilt" architecture from the one "not built", Raimund Abraham's oeuvre is a vital reminder of architecture as a work of memory and desire and as an independent art of building the [Un]built. lesen
23/02
[Un]built
Artikel 23/01
18.1.2023Wolfgang Bachmann

Neuland

Eine Exkursion in eine unbekannte Gegend: In seinem Reisebericht über die Lausitz erzählt Wolfgang Bachmann von Kulissen der DDR, ihrer westlastigen Aufarbeitung - und barocker Prächtigkeit. lesen
23/01
Neuland
Artikel 22/07
23.11.2022Bettina Köhler

Liebe du Arsch!

Kann man Häuser wegwerfen? Kann man Ignoranz, Gier und Resignation überwinden? Hilft Liebe? Bettina Köhler bejaht diese Fragen und spürt der Schönheit als Hüterin der Dauerhaftigkeit nach. lesen
22/07
Liebe du Arsch!
Artikel 22/06
19.10.2022Fala

Fala meets Siza

Fala and Álvaro Siza are bound by origins but separated by age. In a personal encounter, the 89-year-old Pritzker Prize winner talks about that which is still reflected in Fala's own work today. lesen
22/06
Fala meets Siza
Artikel 22/05
22.9.2022Anna Beeke

Trailer Treasures

Within mobile home parks, Anna Beeke encounters a clear desire for individualized place. In her photographs she shows how prefabricated units are the same, but different. lesen
22/05
Trailer Treasures
Artikel 22/04
20.8.2022Mario Rinke

Offene Meta-Landschaften

Mario Rinke plädiert für Tragwerke, die nicht für eine Nutzung, sondern aus dem Ort heraus erdacht werden. In diesen Meta-Landschaften können sich Architekturen episodenhaft ereignen. lesen
22/04
Offene Meta-Landschaften
Artikel 22/03
1.7.2022Virginia de Diego
caption

Reductio ad absurdum

Through deliberate destruction a former bunker can be preserved. Its relevance is created out ouf its absurdity. lesen
22/03
Reductio ad absurdum
Artikel 22/02
1.7.2022Jerome BeckerMatthias Moroder

The balance of chaos and structure

In conversation with Jerome Becker and Matthias Moroder, Marc Leschelier emphasises his aversion to functionalism and stresses the importance of architecture as a form of expression. lesen
22/02
Chaos and Structure
Artikel 22/01
1.7.2022Gerrit Confurius
Teatro di Marcello, Rom, Giovanni Battista Piranesi (1720-1778), ca. 1757

Permanenz als Prinzip

Gerrit Confurius erinnert sich an das Ende der gedruckten Ausgabe von Daidalos und empfiehlt das Prinzip der Permanenz als Strategie auch für die zukünftigen Aufgaben der Architektur. lesen
22/01
Permanenz als Prinzip
Verpasse keine Artikel dank unserem Newsletter.
#