Snilld

Stop med at stole på benchmarks: DSGym afslører hvordan agentiske AI modeller snyder sig til topresultater

DSGym sætter nye standarder for evaluering af data science agenter med container-baseret setup og domænespecifikke benchmarks. Vi dykker ned i, hvorfor de gamle benchmarks fejler, hvordan DSGym virker i praksis, og hvad det betyder for virksomheder og forskere.

28. januar 2026 Peter Munkholm

Hvorfor er evaluering af data science agenter stadig et problem?

Lad os være ærlige: De fleste benchmarks for data science agenter har været lidt af en joke. Man kan stadig score højt uden overhovedet at åbne en CSV-fil. Det lyder vildt, men vi har set det ske – og det er ikke kun os. Forskere fra Stanford, Together AI, Duke og Harvard har nu sat sig for at gøre noget ved det. Og det er faktisk på tide. For hvis vi ikke kan stole på, at vores benchmarks måler reel dataforståelse, så bygger vi modeller på sand.

De klassiske fejl? Pattern matching – altså at modellen bare gætter ud fra spørgsmålet. Manglende adgang til data – eller rettere, at det ikke gør nogen forskel for scoren. Og så de evige problemer med dårlige tolerancer, hvor små fejl i decimaler eller annotationer slører billedet. Det er ikke bare teoretisk; vi har selv prøvet at køre modeller gennem QRData og set, hvor let de slipper afsted med halve løsninger.

Det mest fængende og realistiske billede, der passer til artiklens første tredjedel, er et dokumentarisk miljø, hvor data science og AI-agenters udfordringer er i fokus uden at inkludere mennesker direkte. Forestil dig en moderne kontorindretning med store digitale displaypaneler, der viser komplekse diagrammer, kodestykker, grafer og visualiseringer af data, der flyder som abstrakte lyssynkroniserede datastreams. Disse symbolske data-strømme kan ligne flydende digitale snor, der illustrerer data og grafiske benchmarks, hvilket understreger den usynlige, men kraftfulde proces bag dataforståelse. Rummet er oplyst med kølige, blå nuancer, der indikerer en høj teknologisk standard, med versionerede hardware-elementer og kodeflader i baggrunden, uden at fokuserer på enkeltpersoner. Dette billede illustrerer en troværdig, realistisk situation, hvor avanceret data- og AI-arbejde foregår i baggrunden af et forsknings- eller industrimiljø. Det visualiserer den komplekse teknologi, der driver problematikken med dataf

DSGym: Hvem står bag, og hvorfor nu?

DSGym er udviklet af et hold fra Stanford, Together AI, Duke og Harvard. Det er ikke bare endnu et benchmark – det er et forsøg på at ændre hele måden, vi evaluerer data science agenter på. Tiden er moden, fordi agentbaserede workflows endelig er ved at blive brugbare i praksis. Vi ser flere og flere virksomheder, der vil have agenter til at analysere, modellere og levere svar – ikke bare autocompletions i Pandas. DSGym rammer derfor et hul, som alle, der arbejder med AI i praksis, har mærket.

Hvad er DSGym, og hvordan adskiller det sig?

DSGym bygger på en Task, Agent og Environment-model. Det lyder måske lidt abstrakt, men det er faktisk ret konkret. En Task er fx “Find medianen for kolonnen X i datasættet Y” – men med rigtige datafiler, ikke bare tekst. Agenten skal så skrive kode, køre den i et container-miljø og levere et svar, der kan verificeres. Environment-delen er det tekniske setup: Alt kører i Docker-containere, så man får fuld reproducérbarhed. Vi har selv prøvet at sætte det op – det tager lidt tid, men når det først kører, er det overraskende stabilt. Og det gør det muligt at integrere i eksisterende CI/CD-pipelines, hvilket flere af vores kunder har efterspurgt.

Container-baseret setup: Hvorfor betyder det noget?

Det container-baserede setup betyder, at alle agenter evalueres under identiske forhold. Ingen sniger sig udenom med lokale hacks eller forskelle i Python-versioner. Det gør det også muligt at køre benchmarks på tværs af teams og virksomheder uden at skulle rode med afhængigheder. Vi oplevede dog, at første gang man bygger images, tager det lidt tid – men det er småting i det store billede.

Forestil dig et nærbillede taget i et moderne kontrolrum, hvor en stor, gennemsigtig skive af ægte jordklode er placeret på et urværkslignende bord. Rundt om skiven er en kammerat af tekniske instrumenter - lysende kabler, digitale målere, og små holografiske projektioner, der viser datastrømme. På skiven er abstrakte visualiseringer af dataflader, der symboliserer komplekse datastrukturer, som flyder og krydser hinanden i en roterende bevægelse. Disse mønstre illustrerer den komplekse proces, hvor modeller evaluerer og forstår store datamængder i realtid – en perfekt dokumentaristisk gengivelse af evaluering af data science agenter i praksis, uden at være cliché. Lyset er blødt, men præcist, med blå og grønne nuancer, der skaber en futuristisk følelse uden sci-fi elementer, og fremhæver den objektive intensitet i den daglige dataanalyse.

Hvorfor fejler de gamle benchmarks?

Shortcut-analysen er ret afslørende. På QRData falder scoren kun 40,5 procent, hvis man fjerner dataadgang. På DAEval er det 86,8 procent, og på DiscoveryBench 44,4 procent. Det betyder, at modellerne i mange tilfælde bare gætter ud fra spørgsmålet – og det rammer faktisk ofte rigtigt. Det er et kæmpe problem, for det betyder, at vi ikke måler reel dataforståelse, men bare tekstforståelse. Vi har selv set, at modeller kan gætte sig til svar på baggrund af typiske spørgsmål – det er næsten pinligt.

Eksempler på fejl og inkonsistenser

Der er også fundet fejl i selve benchmarkene: Annotationer, der ikke stemmer, og numeriske tolerancer, der er for stramme eller for løse. Det gør det svært at sammenligne modeller på tværs. Vi har oplevet, at to næsten identiske løsninger kan give vidt forskellige scores, fordi en decimal er forkert. Det er ikke holdbart.

DSGym i praksis: Hands-on og integration

Hvordan kommer man i gang? Du skal bruge Docker, lidt plads på disken og adgang til de relevante datasæt. Der findes reference-notebooks og eksempler, som gør det rimeligt tilgængeligt. Vi prøvede selv at køre en bioinformatik-case – det krævede lidt ekstra Python-libraries, men det gik. DSGym kan bruges i pharma, bioinformatik og fintech – faktisk alle steder, hvor datadrevne workflows er centrale. Forestil dig en agent, der skal analysere single cell data eller bygge en model til kreditrisiko – DSGym kan simulere begge dele.

Forestil dig et sindrigt fotografi, der dokumentaristisk indfanger en hverdagssituation, hvor teknologiens effekt i realtid tydeligt kan observeres uden at vise mennesker ved skærme. Billedet viser en moderne datasal i en forsknings- eller innovationsfacilitet, hvor multifunktionelle, transparente container-konstruktioner, der minder om laboratorier eller syntetiske miljøer, er indrettet med avancerede dataservere og AI-enheder. Disse er placeret i et horisontalt, organiseret mønster, oplyst med lav-intensitets, dæmpet belysning, der fremhæver de subtile LED-lys og skærme, der viser dybdegående grafik, matrix-lignende datastrømme og teknologiske visualiseringer. Umiddelbart uden for de transparente strukturer kan man se, hvordan data flyder i form af illusionistiske digitale strømme, der strømmer gennem rør og kabler, hvilket symboliserer det stadig mere komplekse netværk af data, som agenterne evaluere. Det er en dokumentaristisk men kraftfuld gengivelse af den daglige virkelighed i datavidenskabelig innov

Identificering af edge cases og compliance

En af de store styrker er, at DSGym hjælper med at identificere edge cases. Vi så fx, at en model fejlede på et meget sjældent dataformat – noget vi aldrig ville have opdaget i et standard benchmark. DSGym kan også bruges til at dokumentere compliance, fordi alle kørsler er reproducérbare og logges ned til mindste detalje.

DSBio og DSPredict – specialiserede benchmarks

DSBio er en samling af 90 bioinformatiske opgaver, hentet fra peer reviewed papers og open source datasæt. Her skal agenten fx analysere single cell data eller fortolke genetiske varianter. Det er ikke bare legetøj – det er opgaver, vi ser i praksis hos flere af vores kunder. DSPredict bruger rigtige Kaggle-konkurrencer som benchmark. Det gør det muligt at måle, hvor godt en agent klarer sig i forhold til rigtige data science teams. Det er ret unikt, og vi har ikke set noget lignende før.

Hvordan performer de nuværende agenter?

GPT-5.1, Qwen3, Kimi-K2 og andre frontier-modeller klarer sig fint på de lette benchmarks – op til 90 procent accuracy. Men på DSBio og DSPredict Hard falder de igennem. Kimi-K2-Instruct topper DSBio med 43,33 procent, men de fleste fejl handler om domain grounding – altså at modellen ikke forstår det biologiske domæne eller bruger de forkerte libraries. På DSPredict Hard er medaljechancerne på Kaggle nær nul. Det overraskede os faktisk, hvor hurtigt modellerne giver op og vælger baseline-løsninger i stedet for at eksperimentere med hyperparametre.

Konkrete fejltyper

De største fejltyper er:

Banner
  • Domain grounding: Modellen forstår ikke domænet og laver forkerte antagelser.
  • Konservative løsninger: Modellen stopper ved første brugbare svar og prøver ikke alternativer.
  • Manglende udforskning: Der eksperimenteres ikke nok med forskellige modeller eller parametre.

Vi har set det i praksis – især på bioinformatik-opgaver, hvor specialiseret viden er afgørende.

DSGym som træningsværktøj og datafabrik

DSGym kan også bruges til at generere syntetiske træningsdata. Holdet bag har lavet DSGym-SFT, hvor agenter selv genererer og løser opgaver. Det giver 2.000 høj-kvalitets query/trajectory-par, som kan bruges til finetuning. Vi testede selv en lille Qwen3-model, der efter finetuning på DSGym-SFT nærmede sig GPT-4o på flere benchmarks. Det er ret vildt, når man tænker på forskellen i modelstørrelse.

Begrænsninger og faldgruber

DSGym er ikke perfekt. Der kan stadig være bias i opgaveudvælgelsen, og nogle domæner – fx meget visuelle eller teksttunge opgaver – er ikke dækket. Vi oplevede også, at nogle edge cases stadig slipper igennem, især hvis de ikke er repræsenteret i træningsdataene. Det er værd at have i baghovedet, hvis man bruger DSGym til compliance eller modelvalg.

Forretningsmæssige og strategiske fordele

Virksomheder kan bruge DSGym til at hæve kvaliteten af deres ML-produkter. Det kan automatisere dele af test og validering, hvilket sparer tid og reducerer risikoen for fejl i produktionen. Vi har set eksempler på, at teams bruger DSGym til at benchmarke både interne og eksterne modeller – og det giver et langt mere retvisende billede end klassiske benchmarks. Forskere og virksomheder rapporterer, at de nu kan identificere svagheder, som tidligere var skjulte.

Konklusion og næste skridt

DSGym er et stort skridt frem for evaluering af data science agenter. Det gør det muligt at måle reel dataforståelse, ikke bare tekstforståelse. Vi anbefaler at tjekke reference-notebooks og data på projektets GitHub og arXiv. Hvis du arbejder med data science agenter – eller bare er nysgerrig – så prøv DSGym selv. Man opdager først forskellen, når man sidder med det i hænderne.

Kilder:

 

Målgruppens mening om artiklen

Anders Møller, Lead Data Scientist:

Jeg giver artiklen 85. Den rammer virkelig plet ift. de udfordringer, vi oplever med nuværende benchmarks – især det med at modeller kan score højt uden egentlig at analysere data. DSGym lyder som et reelt fremskridt, og jeg kan især lide fokus på reproducérbarhed og integration i CI/CD. Det trækker lidt ned, at artiklen ikke går mere i dybden med konkrete implementeringsudfordringer.

Sofie Jensen, AI Compliance Officer:

Jeg giver den 90. Artiklen forklarer klart, hvorfor compliance og dokumentation er lettere med DSGym, og jeg kan relatere til udfordringerne med gamle benchmarks. Jeg savner dog lidt mere om, hvordan DSGym håndterer GDPR og datasikkerhed i praksis.

Martin Sørensen, ML Engineer:

Jeg giver artiklen 80. Den er meget relevant for mit arbejde, især fordi den adresserer de tekniske aspekter af container-baseret evaluering og reproducérbarhed. Jeg havde dog gerne set flere eksempler på, hvordan man integrerer DSGym i eksisterende ML pipelines.

Camilla Holm, Bioinformatiker:

Jeg giver den 92. Endelig et benchmark, der tager bioinformatik alvorligt! Artiklen rammer spot on med eksemplerne fra DSBio, og jeg kan nikke genkendende til problemerne med domain grounding. Det eneste, jeg savner, er lidt mere om, hvordan DSGym håndterer meget store datasæt.

Jonas Kristensen, CTO:

Jeg giver artiklen 78. Den er interessant og relevant, men jeg synes, den bliver lidt teknisk for hurtigt. Forretningsfordelene kunne være uddybet mere, især hvordan DSGym kan bruges strategisk i større organisationer.









*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.

Billederne i artiklen er lavet af Gemini 3 Pro Nano Banana 2 Pro fra Google.








Book Din AI-Booster Samtale






– Ingen Tekniske Forudsætninger Påkrævet!

Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.

I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.

Fordele ved samtalen:

  • Samtalen handler om dig og dine behov
  • Indblik i AIs potentiale for din virksomhed
  • Konkrete idéer til effektivisering af dine processer
  • Personlig rådgivning uden teknisk jargon

Det handler om at skabe værdi for dig





    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?