Artificiell Intelligens

Nu kan AI göra konst

Malcolm Alencar

1997 slog datorn Deep Blue schackvärldsmästaren Gary Kasparov. AI:n Alphafold 2 beräknar sedan 2020 proteinveckning med omänsklig precision. För de flesta känns det nog inte så konstigt att datorer överträffar människor inom beräkningar. Däremot har konst varit en utmaning. Sökmotorer har kunnat söka efter bilder utifrån ett givet antal sökord, men försök till att generera bilder har gett klumpiga resultat. Åtminstone fram till den 6:e april i år, då OpenAI avtäckte DALL·E 2.

DALL·E 2 är ett neuralt nätverk tränat på hundratals miljoner bilder, döpt efter en sammanslagning av “Wall-E” och “Salvador Dalí”. Genom att ta in över 3,5 miljarder parametrar kan AI:n generera en helt ny bild. Det som särskiljer DALL·E 2 från andra bildgeneratorer är förmågan att skapa bilder utifrån en instruktion i form av en textbeskrivning.  Nedan följer bilder genererade av DALL·E 2 med tillhörande prompts (textbeskrivningar). Dessa demonstrerar en kapacitet att generera bilder med komplexa koncept som djup och refraktion, med bred variation. 

Instruktion: “Vibrant portrait painting of Salvador Dali with a robotic half face”. Bild: OpenAI

Instruktion: “A plant with a lightbulb inside” samt “A lightbulb with a plant inside”. Bild: OpenAI

Trots att AI:n inte tränats på bilder av lampor med växter inuti kan den kombinera konceptet för en lampa och en växt och på så sätt generera enligt instruktionen. Teknologin bygger på en så kallad diffusionsmodell och utan att dyka ned allt för djupt i matematiken kan modellen sammanfattas i 3 steg. Först genereras en slumpmässig bild av brus. Därefter börjar AI:n stegvis justera bruset till en bild, endast 64×64 pixlar. Slutligen höjs upplösningen genom så kallad up-sampling till 1024×1024 pixlar.

DALL·E 2 rullas nu stegvis ut till konsumenter i ett Early Access som sedan den 23:e juni har drygt 30 000 deltagare. 

Som med all ny teknologi finns det begränsningar och förbättringsområden. Då AI:n utgår från ett dataset hämtat ur den verkliga världen finns alltid en risk att olika stereotyper och tendenser följer med när nya bilder genereras. Det kan handla om att vissa grupper är överrepresenterade i vissa kontexter, eller att AI:n inte alltid klarar av att generera enligt instruktion. Även tekniska hinder som stavning i bild är en kvarstående utmaning. Utifrån instruktionen “A sign that says deep learning” lyckas DALL·E 2 mycket riktigt producera en skylt, men texten är, som ni ser, felaktig.

Bild: OpenAI

Trots den imponerande kapacitet som AI:n uppvisar är projektet endast är några år ungt. Utveckling av föregångaren DALL·E började först under 2018 och vidareutvecklingen till dagens version tog bara ett år. ​​Därtill släppte Googles filial Deepmind i slutet av naj sin egen AI, Imagen, som även den genererar bilder utifrån textinstruktioner. Utvecklingen inom artificiell intelligens mynnar ut i en rad revolutionerande verktyg och användningsområden, inom allt från självkörande bilar till proteinveckning. OpenAI:s DALL·E 2 är om något en signal på just hur fort den utvecklingen går.

Källor som användes i den här artikeln

Aaronson, Scott; Davis, Ernest; Marcus, Gary, “A very preliminary analysis of DALL-E 2”, Cornell University, https://arxiv.org/abs/2204.13807

Chen, Mark; Goh, Gabriel; Gray, Scott; Pavlov, Mikhail; Radford, Alec; Ramesh, Aditya; Sutskever, Ilya; Voss, Chelsea, “Zero-Shot Text-to-Image Generation”, Cornell University, https://arxiv.org/abs/2102.12092

Chen, Mark; Chu, Casey; Dhariwal, Prafulla; Nichol, Alex; Ramesh, Aditya, “Hierarchical Text-Conditional Image Generation with CLIP Latents”, https://cdn.openai.com/papers/dall-e-2.pdf