OpenAI og Google DeepMind har i 2025 opnået det, der svarer til guldmedalje-niveau på opgaver fra International Math Olympiad (IMO) – men ikke i selve den officielle konkurrence. I stedet blev deres AI-systemer testet parallelt på de samme opgaver, og resultaterne har udløst både teknisk begejstring og en offentlig debat om, hvad “guld” egentlig betyder, når det handler om AI.
AI på niveau med verdens skarpeste unge matematikere – men uden officiel deltagelse
Både OpenAI og Google DeepMind har ladet deres nyeste AI-modeller tackle de seks udfordrende IMO-opgaver, som hvert år stilles til verdens bedste gymnasieelever. Ifølge selskabernes egne udmeldinger kunne begge AI-systemer svare korrekt på fem ud af seks opgaver – hvilket normalt ville give en guldmedalje, hvis de havde været menneskelige deltagere. Men modsat tidligere år, hvor AI krævede, at opgaverne blev oversat til maskinlæsning, kunne modellerne i år læse og forstå opgaverne i naturligt sprog. En markant teknologisk bedrift, der peger på, hvor langt feltet er kommet på kort tid.
Det er dog vigtigt at slå fast: AI-systemerne deltog ikke i selve den officielle IMO-konkurrence, og resultaterne er derfor uofficielle. Testen foregik i et parallelt forløb, og ingen af AI-modellerne blev vurderet som en del af den egentlige konkurrence mellem unge fra hele verden. Dette har flere eksperter og medier understreget – herunder TechCrunch, der vurderer, at resultaterne stadig er et gennembrud, men ikke en officiel sejr.

Forskellige grader af validering skaber debat om legitimitet
En væsentlig del af diskussionen handler om, hvordan de to selskaber validerede deres resultater. Google DeepMind valgte at vente med offentliggørelsen, til IMO’s officielle dommere havde vurderet deres system efter IMO’s egen pointskala og retningslinjer. OpenAI lod i stedet tre tidligere IMO-medaljevindere gennemgå og bedømme deres besvarelser, hvilket gav hurtigere offentliggørelse – men ikke den samme officielle status. Ifølge TechCrunch var der tale om et parallelt uofficielt testforløb, hvor OpenAI ikke var klar over, at IMO organiserede en lignende test med Google DeepMind. IMO’s ledelse har ikke kommenteret sagen offentligt, på trods af forespørgsler fra pressen.
Google DeepMind har åbent kritiseret OpenAI for at annoncere resultaterne, før den officielle validering var på plads. De har blandt andet peget på, at kun IMOs egne dommere kan afgøre, om en besvarelse lever op til guldkravene. OpenAI fastholder, at deres eksterne dommere var kvalificerede, og at der har været dialog med IMO undervejs. Kontroversen understreger, hvor afgørende gennemsigtighed og troværdighed er, også når det gælder benchmarking af AI-systemer.
Tekniske landvindinger – men stadig med menneskelig hjælp i kulissen
En ofte overset detalje er graden af menneskelig involvering. Selvom AI-modellerne løste opgaver på naturligt sprog, peger flere eksperter – og TechCrunch – på, at der stadig kan have været behov for teknisk tilpasning eller prompt engineering. Det er altså ikke hele vejen en “sort boks”, hvor AI’en selvstændigt leverer svaret. For danske virksomheder og specialister, der arbejder med AI, er det en væsentlig pointe: Automatisering af kompliceret viden kræver stadig menneskelig kontrol og kvalitetssikring, især i opgaver uden et entydigt facit.
Desuden viser erfaringerne fra IMO, at AI-modeller har deres største styrke på opgaver med klare mål og stringente regler. På mere åbne eller konteksttunge opgaver – som komplekse forretningsudfordringer – kan systemerne stadig komme til kort. Derfor bør virksomheder balancere entusiasmen for AI’s fremskridt med en sund portion skepsis og omhyggelig afprøvning.
AI-benchmarks: Konkurrence, tillid og talentjagt
IMO-resultaterne har stor signalværdi i AI-miljøet, ikke mindst fordi mange af de stærkeste AI-forskere har en baggrund i konkurrence-matematik. At AI nu kan matche guldniveauet i IMO, trækker både opmærksomhed og talenter til feltet. Samtidig demonstrerer debatten, hvor vigtigt det er at have klare, gennemsigtige og uafhængige benchmarks – både for at sikre konkurrence på lige vilkår og for at skabe troværdighed over for marked og offentlighed.
OpenAI og Google DeepMind er næsten lige stærke på målfeltet, og forskellen ligger nu i marginaler og metodevalg. For virksomheder, der investerer i AI, betyder det, at man ikke kun skal se på resultaterne, men også på, hvordan og af hvem de er blevet valideret. En pæn score på papiret er kun lige så god som testens kvalitet.

Hvad er International Math Olympiad – og hvordan blev AI testet?
International Math Olympiad (IMO) er verdens ældste og mest prestigefyldte matematikkonkurrence for gymnasieelever. Deltagerne får seks ekstremt udfordrende opgaver over to dage, og kun en lille procentdel opnår guldmedalje. De AI-systemer, der blev testet i år, fik stillet de samme opgaver som de unge deltagere, men løste dem i et lukket og parallelt forløb. Google DeepMind ventede på officiel IMO-evaluering, mens OpenAI brugte uafhængige tidligere medaljevindere som dommere. Ingen AI blev officielt anerkendt som deltager i konkurrencen.
Faktatjek og kildevurdering
TechCrunch er hovedkilden til nyheden, og redaktionen har interviewet både OpenAIs og Google DeepMinds forskere. TechCrunch vurderer, at Google DeepMind gik mest “officielt” til værks, men understreger, at begge selskaber har opnået markante resultater. Coin World er også nævnt i debatten, men de væsentligste og mest troværdige oplysninger stammer fra TechCrunch, som er veldokumenteret og bredt anerkendt i AI-branchen. Påstanden om at IMO ikke har kommenteret sagen offentligt, er verificeret via TechCrunch’s dækning.
Relevans for danske virksomheder: Gennemsigtighed og ekstern validering er nøglen
For Snillds målgruppe – danske ledere, beslutningstagere og AI-specialister – er der tre centrale pointer at tage med:
- AI-systemer kan nu håndtere meget komplekse og ustrukturerede opgaver, hvilket åbner nye forretningsmuligheder – men kræver grundig test og kvalitetssikring.
- Validering og gennemsigtighed i test og benchmarks er afgørende for at skabe tillid både internt og eksternt.
- Uafhængige testmiljøer eller officielle benchmarks bør være krav ved valg af AI-løsninger og samarbejdspartnere.
Snillds erfaring: Når resultater og processer skal være til at stole på
Hos Snilld ser vi det som afgørende, at virksomheder ikke kun fokuserer på AI’s resultater, men også på, hvordan de opnås og valideres. Vi hjælper danske organisationer med at designe evalueringsforløb, hvor både teknik, proces og kultur bliver inddraget. Erfaringerne fra IMO og TechCrunchs rapportering viser, at høj gennemsigtighed og uafhængige dommere er nøglen til at skabe tillid og reel forretningsværdi. Det gælder ikke kun i matematik – men i alle brancher, hvor AI skal gøre en forskel.
AI’s muligheder og begrænsninger: Kritisk sparring anbefales
Gennembruddet i IMO viser potentialet for AI i avanceret rådgivning, analyse og automatisering af komplekse processer. Men AI er ikke et mirakelmiddel: Især i opgaver uden entydige svar skal AI-løsninger altid kobles med menneskelig ekspertise. Vores erfaring er, at virksomheder, der stiller krav om dokumentation og åbenhed – både fra leverandører og egne teams – står stærkere i konkurrencen, også når markedet sætter tempoet op.
Næste store udvikling forventes, når OpenAI lancerer GPT-5, og kapløbet om de skarpeste modeller spidser yderligere til. Men uanset hvilke selskaber, der topper scoringslisten, bør målet for danske virksomheder være klart: Kræv dokumentation, ekstern validering og gennemsigtig proces – det er nøglen til at gøre AI til reel forretningsværdi, ikke bare show.
Kilder:
*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.
Billederne i artiklen er lavet af Fluxx Schnell fra Black Forest Labs.
Book Din AI-Booster Samtale
– Ingen Tekniske Forudsætninger Påkrævet!
Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.
I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.
Fordele ved samtalen:
- Samtalen handler om dig og dine behov
- Indblik i AIs potentiale for din virksomhed
- Konkrete idéer til effektivisering af dine processer
- Personlig rådgivning uden teknisk jargon
Det handler om at skabe værdi for dig