I april 2026 analyserede et forskerhold fra Carnegie Mellon University samtlige 75.800 peer reviews indsendt til ICLR, en af verdens største AI-konferencer. Resultatet var opsigtsvækkende: 21 procent af alle reviews var fuldt ud genereret af en sprogmodel. Flere end halvdelen viste tegn på AI-brug. Reviewere citerede artikler der ikke eksisterer, opfandt DOI-numre og fremsatte krav om statistiske analyser der ikke passede til de pågældende papers. Forskere begyndte at trække deres artikler tilbage, fordi de ikke stolede på den feedback de modtog.
Skandalen afslørede ikke at AI er ubrugelig i akademisk arbejde. Den afslørede at AI uden struktur, uden verifikation og uden menneskeligt tilsyn producerer noget der ligner videnskab, men ikke er det. Spørgsmålet er ikke om AI skal bruges i forskning. Det spørgsmål er allerede besvaret af de tusindvis af forskere der bruger sprogmodeller dagligt. Spørgsmålet er hvordan.
Fra enkeltværktøj til pipeline
For to år siden bestod AI-assisteret forskning af at stille spørgsmål til en chatbot og håbe på et brugbart svar. Det er ikke længere status quo. Feltet er rykket mod multi-agent-systemer, hvor flere specialiserede AI-agenter samarbejder om afgrænsede dele af forskningsprocessen.
Google Research udgav i april 2026 to dedikerede værktøjer: PaperVizAgent, et fem-agent-system der genererer publikationsklare figurer ud fra akademisk tekst, og ScholarPeer, et multi-agent peer review-framework der følger en seniorsforskers arbejdsgang med domænehistorik, adversarial auditering og teknisk verifikation. Sideløbende lancerede Google PaperOrchestra, et fem-agent-system der omsætter ustruktureret forarbejde til færdige LaTeX-manuskripter.
FutureHouse, et non-profit grundlagt med fokus på videnskabelig AI, har siden maj 2025 gjort fire specialiserede agenter frit tilgængelige: Crow til litteratursøgning, Falcon til dybdegående reviews, Owl til at identificere om et eksperiment allerede er udført, og Phoenix til planlægning af kemieksperimenter. I november 2025 spinede FutureHouse den kommercielle del ud som Edison Scientific med en seed-runde på 70 millioner dollars.
Midt i den udvikling dukker et open source-projekt op på GitHub: Academic Research Skills for Claude Code. Det er ikke et enkeltstående værktøj, men en komplet skill-suite med fire moduler og 39 agenter der dækker hele den akademiske pipeline fra forskningsspørgsmål til publikationsklart manuskript.
Ti trin fra spørgsmål til manuskript
Suiten er bygget op omkring fire moduler der tilsammen dækker ti trin.
Det starter med Deep Research-modulet og dets 13 agenter. Her formuleres forskningsspørgsmålet, litteraturen kortlægges systematisk, og et fundament af verificerede kilder bygges op. Modulet har syv driftstilstande, fra hurtig faktakontrol til fuld systematisk review.
Derefter overtager Academic Paper-modulet med 12 agenter, der producerer et manuskriptudkast. Det inkluderer stilkalibrering baseret på forskerens tidligere arbejde, så outputtet ikke lyder som en generisk sprogmodel.
Mellem trin 2 og 3 ligger det første integritets-checkpoint - trin 2.5. Det er en blokerende gate med en syv-punkts tjekliste der adresserer kendte AI-fejltilstande: hallucinerede resultater, opdigtede citationer og metodologiske genveje. Man kan ikke springe den over. Systemet stopper, verificerer og kræver udbedring før processen kan fortsætte.
Herefter gennemgår Academic Paper Reviewer-modulet manuskriptet med 7 agenter der simulerer en fuld peer review, inklusive en Editor-in-Chief, tre uafhængige reviewere og en Devil's Advocate. Trin 3' er en re-review-validering, og trin 4 håndterer revisionen baseret på den feedback der er kommet.
Før publikation i trin 5 kommer det andet obligatoriske integritets-checkpoint - trin 4.5. En afsluttende verifikation der sikrer at revisioner ikke har introduceret nye problemer. Trin 6 genererer et procesresumé med fuld sporbarhed.
Hele suiten installeres på under 30 sekunder via Claude Codes plugin-markedsplads og koster estimeret 30-40 kroner per gennemkørsel for et 15.000-ords paper.
Kontrol er ikke et ekstra lag - det er fundamentet
ICLR-skandalen demonstrerede præcis hvad der sker når AI bruges til akademisk bedømmelse uden struktur. Reviewere - eller rettere de sprogmodeller de uddelegerede arbejdet til - opfandt citationer med plausible titler, fiktive DOI-numre og tilskrivninger til anerkendte institutioner. Problemet var ikke at AI blev brugt. Problemet var at ingen kontrollerede outputtet.
Academic Research Skills-suiten er designet med den modsatte præmis: kontrol er ikke noget man lægger oven på en færdig pipeline. Det er selve fundamentet.
Tre specifikke mekanismer er værd at fremhæve:
- Concession Threshold Protocol - Devil's Advocate-agenten scorer modsvar på en skala fra 1 til 5 før den reagerer. Kun en score på 4 eller derover tillader en indrømmelse. Scoringer på 3 eller lavere udløser en genfremsættelse af den kritiske position. Det forhindrer den sycophancy-adfærd, hvor en AI-agent hurtigt giver efter for brugerens argumenter.
- Intent Detection Layer - Hver tredje tur klassificerer en Socratic Mentor-agent brugerens mål som enten udforskende eller målrettet. I udforskende tilstand deaktiveres for tidlig opsummering, så forskeren ikke skubbes mod en konklusion hun ikke selv har nået.
- Dialogue Health Indicator - Hver femte tur kører en tavs selvvurdering der overvåger mønstre som vedvarende enighed og konfliktundvigelse. Hvis systemet opdager at det er for medgørligt, injicerer det automatisk udfordrende spørgsmål.
Forskning i automationsbias - publiceret i Springer Nature i 2025 og ved Stanford Law School i marts 2026 - viser at mennesker har en stærk tendens til at nikke ja til AI-output uden reel gennemgang, særligt når systemer præsenterer resultater med høj sikkerhed. Det fænomen, ofte kaldet rubber-stamping, er en af de største risici ved AI i forskning. Integritets-gates der ikke kan springes over og anti-sycophancy-mekanismer der aktivt modvirker ukritisk accept er et konkret svar på den risiko. Ikke et perfekt svar, men et der anerkender problemet i selve arkitekturen.
Danmark og den akademiske AI-bølge
Danmark fører EU i AI-adoption. 42 procent af danske virksomheder bruger AI-teknologier ifølge de seneste EU-tal, og 48,4 procent af befolkningen bruger generative AI-værktøjer - markant over EU-gennemsnittet på 32,7 procent.
I januar 2026 udgav Børne- og Undervisningsministeriet en AI-miniguide målrettet uddannelsesinstitutioner. Guiden dækker databeskyttelse, ophavsret, gennemsigtighed og ansvarlig brug af generativ AI i undervisning, eksamener og administration. Fra 2026 må gymnasieelever bruge AI-værktøjer i mundtlige engelskeksamener som del af et pilotprojekt.
Den nationale AI-strategi har afsat 200 millioner euro til forskning og udvikling med fokus på sundhed, uddannelse og bæredygtighed. Et offentligt-privat partnerskab med Nvidia, indgået i 2024, skal opbygge et nationalt center for AI-innovation med en GPU-accelereret supercomputer.
Men der er et hul. Danmark har retningslinjer for AI i grundskole og gymnasium. Danmark har en national strategi for AI i erhvervslivet. Hvad Danmark ikke har endnu er et klart rammeværk for hvordan AI skal bruges i akademisk forskning. Universiteterne navigerer individuelt, og der er ingen fælles standard for hvornår AI-assisteret forskning er acceptabel, hvordan den skal dokumenteres, eller hvilke kontrolmekanismer der skal være på plads.
Det er præcis det vacuum som værktøjer som Academic Research Skills udfylder - ikke med regulering, men med teknisk infrastruktur der gør struktureret AI-brug til standardindstillingen i stedet for undtagelsen.
Hvad betyder det for danske forskningsinstitutioner
Claude Codes skills-økosystem vokser hurtigt. Der er i dag over 4.200 tilgængelige skills og plugins på tværs af markedspladserne, og akademisk forskning er et af de områder der tiltrækker mest udvikling. Det er ikke længere et spørgsmål om et enkelt chatbot-vindue. Det er modulære pipelines med specialiserede agenter, integritets-verifikation og sporbarhed.
For danske universiteter og forskningsinstitutioner er der tre konkrete overvejelser.
Den første er politisk. Institutioner bør formulere klare retningslinjer for AI-assisteret forskning - ikke forbud, men rammer. Hvornår skal AI-brug deklareres? Hvilke kontrolmekanismer er et minimum? Hvad er grænsen mellem assisteret og genereret? ICLR-skandalen viste at fraværet af retningslinjer ikke fører til mindre AI-brug. Det fører til skjult AI-brug uden kontrol.
Den anden er praktisk. Værktøjer som denne skill-suite, Googles ScholarPeer og FutureHouses agenter er frit tilgængelige. Forskere bruger dem allerede. Spørgsmålet er om institutionerne forholder sig aktivt til hvilke værktøjer der opfylder minimumskrav til verificerbarhed, eller om de overlader det til den enkelte forsker at finde ud af det selv.
Den tredje handler om kompetencer. AI i forskning er ikke et it-spørgsmål. Det er et videnskabeligt spørgsmål. Forskere skal forstå hvad en integritetsgate gør, hvorfor anti-sycophancy-mekanismer eksisterer, og hvornår de selv skal gribe ind. Det kræver efteruddannelse der ikke handler om prompt engineering, men om at bevare videnskabelig dømmekraft i en verden hvor AI kan producere noget der ligner solid forskning på en eftermiddag.
Open source-suiten på GitHub er ikke svaret på alle disse spørgsmål. Men den er et eksempel på at strukturen kan bygges ind i værktøjet, i stedet for at blive et efterkrav der aldrig bliver implementeret. Og det er et langt bedre udgangspunkt end det ICLR-reviewerne havde.


