Indtil nu har multimodale AI-systemer fungeret som et sammensat hold af specialister: én model transskriberer lyd, en anden analyserer video, en tredje genererer tekst. Resultaterne bliver stykket sammen bagefter. Det virker - men det er langsomt, klodset og mister kontekst undervejs.
Alibabas Qwen-team har netop præsenteret en anden tilgang. Qwen 3.5 Omni er bygget fra bunden som én samlet model der behandler tekst, billeder, lyd og video i samme pipeline. Ingen mellemled, ingen konvertering, ingen ventetid mellem modaliteterne.
Én model, fire modaliteter
Kernen i Qwen 3.5 Omni er en arkitektur kaldet Thinker-Talker, hvor forståelse og generering er adskilt i to moduler der arbejder sammen. Det lyder teknisk, men effekten er konkret: modellen kan lytte til en samtale, se på en skærm, læse et dokument og svare i realtid - alt sammen uden at skifte mellem separate systemer.
Specifikationerne er bemærkelsesværdige:
- 256.000 tokens kontekstvindue
- Op til 10 timers lyd kan behandles i én session
- Op til 4 millioner videoframes
- Talegenkendelse på 113 sprog og dialekter
- Talegenerering på 36 sprog
Modellen er trænet på over 100 millioner timers audio-visuelle data - et datasæt der er markant større end konkurrenternes.
Tre varianter til forskellige behov
Qwen 3.5 Omni kommer i tre størrelser:
- Plus - flagskibsversionen til komplekse opgaver hvor præcision betyder mest
- Flash - en balance mellem hastighed og kapacitet til de fleste produktionsscenarier
- Light - en effektiv version til hurtige svar og begrænsede ressourcer
Alle tre deler den samme kontekstlængde på 256k tokens, men varierer i beregningskrav og responstid. Det gør det muligt at vælge den rette model til opgaven i stedet for at betale for kapacitet man ikke bruger.

Resultater der udfordrer Google og OpenAI
Alibaba hævder at Qwen 3.5 Omni Plus har opnået state-of-the-art på 215 datasæt og benchmarks. I direkte sammenligning med Googles Gemini 3.1 Pro klarer modellen sig bedre på lydforståelse, ræsonnement, genkendelse, oversættelse og dialog.
Et praktisk eksempel illustrerer forskellen: i en test hvor både Qwen og ChatGPT 5.4 skulle analysere en YouTube-video, færdiggjorde Qwen opgaven på omkring ét minut med native processering. ChatGPT brugte ni minutter, fordi den skulle håndtere video, transskription og OCR som separate trin.
På stemmestabilitet på tværs af 20 sprog slår modellen desuden ElevenLabs, GPT-Audio og Minimax - de tre primære aktører inden for syntetisk tale.
Stemmekloning og naturlig dialog
To funktioner skiller sig ud for virksomheder der arbejder med kundeservice, indholdsproduktion eller tilgængelighed:
Den første er stemmekloning. Brugere kan uploade en stemmeprøve, og modellen genererer svar i samme stemme. Det er kun tilgængeligt via API lige nu, og det sætter Qwen i direkte konkurrence med specialiserede aktører som ElevenLabs.
Den anden er semantisk afbrydelse. Modellen kan skelne mellem en samtalemarkør som "mh-hmm" og en reel afbrydelse. Det lyder trivielt, men det er præcis den slags detaljer der afgør om en stemmebaseret AI føles naturlig eller frustrerende at tale med.
Dertil kommer en teknik kaldet ARIA, der justerer rytmen mellem tekst og tale dynamisk, så tal og usædvanlige ord ikke bliver udtalt forkert eller hakket.
En ny kapacitet: kode fra video
Det mest bemærkelsesværdige fund i Qwen-teamets tests er en kapacitet der ikke var planlagt. Modellen kan generere fungerende kode baseret udelukkende på at se en video og lytte til talte instruktioner - uden en eneste tekstprompt.
I et eksempel blev en håndtegnet skitse holdt op foran kameraet, og modellen producerede en fungerende React-side. Det er ikke et produktiveringsklart workflow endnu, men det peger på hvor multimodale modeller er på vej hen: systemer der forstår intention på tværs af medier lige så flydende som mennesker gør.
Hvad betyder det for danske virksomheder?
Qwen 3.5 Omni er ikke bare endnu en sprogmodel. Den repræsenterer et skifte hvor lyd og video ikke længere er andenrangs modaliteter i AI-systemer.
For danske virksomheder åbner det tre konkrete muligheder:
- Kundeservice på dansk i realtid - 36 sprog til talegenerering betyder at dansk er med på listen, og responstiderne er lave nok til at drive egentlig dialog frem for ventetid
- Mødeanalyse og dokumentation - 10 timers lyd i én session dækker en hel arbejdsdag af møder, interviews eller undervisning
- Videobaseret træning og support - modellen kan forstå hvad der foregår på en skærmoptagelse og give svar baseret på visuel kontekst, ikke kun transskriberet tekst
Der er dog forbehold. Qwen er udviklet af Alibaba, og det rejser spørgsmål om datalokation, EU-compliance og langsigtet stabilitet for europæiske virksomheder. Som med alle nye modeller bør produktiv brug begynde med ikke-følsomme use cases, mens governance-rammerne bliver afklaret.
Men den underliggende retning er tydelig: fremtidens AI-systemer behandler ikke verden som tekst med lyd og billeder som tilføjelser. De behandler verden som verden.


