GPT Image 2 - AI-billedgenerering på et helt nyt niveau

OpenAI har udgivet GPT Image 2, og det er ikke en inkrementel opdatering. Modellen scorer 1.512 ELO på Chatbot Arenas leaderboard for billedgenerering - 242 point foran nummer to. Arena kalder det det største gab mellem nummer et og to nogensinde registreret.

Ikke bare en ny DALL-E

GPT Image 2 er ikke en iteration på DALL-E-arkitekturen. Det er en fundamentalt anderledes model - internt kaldet "Spud" - bygget som en native multimodal mixture-of-experts model.

Hvor DALL-E og Stable Diffusion bruger diffusion til at generere billeder, er GPT Image 2 autoregressiv. Den genererer billeder token for token, ligesom en sprogmodel genererer tekst. Det betyder at modellen kan ræsonnere over hvad du beder om, før den begynder at tegne.

I praksis resulterer det i billeder der mere præcist afspejler prompten - særligt ved komplekse instruktioner med flere elementer. Modellen kører et reasoning-trin inden generering, og det trin kan inkludere web-søgning hvis det er relevant for konteksten.

Hastigheden er også et spring. Under 3 sekunder for et 1024x1024 billede - tre til fire gange hurtigere end forgængeren. Og opløsningen går op til 4K (4096x4096) for situationer der kræver det. Der er to tilstande: Instant Mode til hurtige generationer og Thinking Mode med reasoning og web-søgning.

Arena-tallene

Chatbot Arena er den mest brugte uafhængige benchmark for AI-modeller, baseret på blindtests hvor brugere vælger det bedste resultat uden at vide hvilken model der har lavet det. GPT Image 2 topper ikke bare - den dominerer.

Søjlediagram der viser Arena ELO-scores for billedgenereringsmodeller april 2026

Modellen er nummer et i alle tre hovedkategorier: text-to-image, single-image editing og multi-image editing. Den er også nummer et i alle syv underkategorier.

De største spring er i tekst-rendering (+316 ELO), cartoon og anime (+296) og portrætter (+296). Det er ikke marginale forbedringer - det er kategorispring der ændrer hvad modellen er brugbar til.

Tekst i billeder - fra fiasko til over 99%

Tekst-rendering har historisk været AI-billedgenereringens akilleshæl. Bogstaver der mangler, spejlvendt tekst, nonsens-tegn - det var normen. GPT Image 2 lander over 99% nøjagtighed, op fra 90-95% i tidligere modeller.

Det virker på tværs af skrifttyper - latinsk, kinesisk, japansk, koreansk, hindi og bengali. Det åbner for anvendelser der tidligere krævede manuel efterbehandling: restaurantmenuer, infografikker, præsentationsslides, manga med korrekte talebobler, UI-mockups med rigtige labels.

For designere og marketingteams fjerner det et helt lag af postproduktion. Tekst-overlay var noget man altid gjorde manuelt bagefter. Nu kan det være en del af selve genereringen.

Eksempel på GPT Image 2 output der viser modellens evne til at kombinere fotorealisme, tekst-rendering og kompleks komposition i et enkelt billede

Redigering og multi-image kontekst

GPT Image 2 er ikke kun en text-to-image model - det er et redigeringsværktøj. Naturligt sprog styrer redigeringerne: "skift jakken til blå", "fjern personen i baggrunden", "gør billedet mere varmt".

Maskebaseret redigering giver præcis kontrol over hvilke områder der ændres. Inpainting og outpainting fungerer via mask-billeder, hvilket gør det muligt at udvide eller udfylde specifikke dele af et billede.

Multi-image kontekst er den måske mest interessante funktion for professionelt brug. Man kan give modellen flere billeder som referencer - et til stil, et til komposition, et til ansigtsreference - og den syntetiserer et nyt billede der kombinerer elementerne. Det erstatter et workflow der tidligere krævede specialiserede style transfer-værktøjer og betydelig manuel indsats. Billedgenerering er i det hele taget ved at blive en integreret del af AI-assistenter - som vi tidligere har beskrevet i artiklen om Claudes nye billedværktøjer via MCP-connectors.

Konkurrenterne er ikke væk - men de er bag

Markedet for AI-billedgenerering er stadig konkurrencepræget, og forskellige modeller har forskellige styrker.

Midjourney V8 - stadig bedst til ren æstetik. Det maleriske og filmiske look er uovertruffet, den er fem gange hurtigere og leverer nativt 2K. Men alt får et "malet" udtryk, og tekst-rendering og redigering halter.
Flux 2 Max - stærkest på ren fotorealisme med DSLR-kvalitet. Svag på tekst i billeder.
Gemini 3.1 Flash - billigst og hurtigst (1-3 sekunder), nummer to på Arena. Men 242 ELO-point er et substantielt gab.
Ideogram 2.0 - var go-to modellen til marketingtekst i billeder. GPT Image 2 overgår den nu på det punkt.

Valget afhænger af use casen. Til ren æstetik og kunstnerisk udtryk er Midjourney stadig relevant. Til alt der involverer tekst, redigering eller komplekse prompts er GPT Image 2 nu standarden.

Hvad det betyder for danske virksomheder

Det her fjerner specialiserede trin fra design-workflows. Separat software til tekst-layout i billeder - nu valgfrit. Manuel maskering i Photoshop - nu valgfrit. Separate style transfer-værktøjer - nu valgfrit.

GPT Image 2 er tilgængelig for alle ChatGPT-brugere og via API. Priserne er steget i forhold til forgængeren - fra 0,006 USD for lav kvalitet til cirka 0,21 USD for høj kvalitet og op til 0,41 USD for 4K. Det er omkring 60% dyrere end GPT Image 1 på grund af reasoning-trinnet, men stadig en brøkdel af hvad manuel produktion koster.

Spørgsmålet er ikke om modellen er bedre - tallene er entydige. Spørgsmålet er hvilke dele af jeres nuværende billedworkflow der nu er overflødige. For virksomheder der arbejder med visuel kommunikation, marketing eller produktbilleder er dette et reelt skift i hvad der er muligt uden specialiserede designværktøjer.

At forstå hvilke AI-værktøjer der kan erstatte manuelle workflows er en del af en bredere AI-strategi. Det er præcis den slags vurdering der hører til AI rådgivning - ikke bare at kende værktøjerne, men at vide hvor de giver reel værdi i netop din organisation.

Kilde: OpenAI