Snilld

AI på guldmedalje-niveau: OpenAI og Google Deepmind klarer sig bedre end menneskelige matematikere

OpenAI og Google DeepMind opnåede guldniveau på opgaver fra International Math Olympiad i 2025 – men kun i uofficielle, parallelle tests. Debatten om validering og gennemsigtighed viser, at AI-kapløbet nu handler lige så meget om tillid og dokumentation som om teknologi. For danske virksomheder er læringen klar: Stil krav – og vælg AI-partnere, der matcher de højeste standarder for test og evaluering.

22. juli 2025 Peter Munkholm

OpenAI og Google DeepMind har i 2025 opnået det, der svarer til guldmedalje-niveau på opgaver fra International Math Olympiad (IMO) – men ikke i selve den officielle konkurrence. I stedet blev deres AI-systemer testet parallelt på de samme opgaver, og resultaterne har udløst både teknisk begejstring og en offentlig debat om, hvad “guld” egentlig betyder, når det handler om AI.

AI på niveau med verdens skarpeste unge matematikere – men uden officiel deltagelse

Både OpenAI og Google DeepMind har ladet deres nyeste AI-modeller tackle de seks udfordrende IMO-opgaver, som hvert år stilles til verdens bedste gymnasieelever. Ifølge selskabernes egne udmeldinger kunne begge AI-systemer svare korrekt på fem ud af seks opgaver – hvilket normalt ville give en guldmedalje, hvis de havde været menneskelige deltagere. Men modsat tidligere år, hvor AI krævede, at opgaverne blev oversat til maskinlæsning, kunne modellerne i år læse og forstå opgaverne i naturligt sprog. En markant teknologisk bedrift, der peger på, hvor langt feltet er kommet på kort tid.

Det er dog vigtigt at slå fast: AI-systemerne deltog ikke i selve den officielle IMO-konkurrence, og resultaterne er derfor uofficielle. Testen foregik i et parallelt forløb, og ingen af AI-modellerne blev vurderet som en del af den egentlige konkurrence mellem unge fra hele verden. Dette har flere eksperter og medier understreget – herunder TechCrunch, der vurderer, at resultaterne stadig er et gennembrud, men ikke en officiel sejr.

Til at illustrere den første tredjedel af artiklen ville jeg tage et billede af en moderne, minimalistisk arbejdslampe, der stråler af futuristisk design, og som kaster et blødt lys over en laptop, der viser en matematisk formel på skærmen. I baggrunden vil der være en tavle med forskellige matematiske formler og skitser, hvilket skaber et akademisk miljø, der understøtter temaet om AIs præstationer i forhold til International Math Olympiad (IMO). Kompositionen vil være centreret omkring laptoppen, mens lampen tilføjer en dynamisk vinkel og fremhæver den kreative proces, der ligger bag AIudvikling. Jeg anvender et Canon EOS R5 med en RF 50mm f/1.2L linse for at skabe en skarp fokus på laptoppen og blød baggrundsudslettelse. Indstillingerne vil være en blænde på f/1.8 for at opnå den ønskede dybde, en lukkerhastighed på 1/60 sekunder og ISO på 400 for at få den varme belysning fra lampen til at skinne igennem. Billedet redigeres med Adobe Lightroom for at justere kontrast og farvetone, så den teknologiske og

Forskellige grader af validering skaber debat om legitimitet

En væsentlig del af diskussionen handler om, hvordan de to selskaber validerede deres resultater. Google DeepMind valgte at vente med offentliggørelsen, til IMO’s officielle dommere havde vurderet deres system efter IMO’s egen pointskala og retningslinjer. OpenAI lod i stedet tre tidligere IMO-medaljevindere gennemgå og bedømme deres besvarelser, hvilket gav hurtigere offentliggørelse – men ikke den samme officielle status. Ifølge TechCrunch var der tale om et parallelt uofficielt testforløb, hvor OpenAI ikke var klar over, at IMO organiserede en lignende test med Google DeepMind. IMO’s ledelse har ikke kommenteret sagen offentligt, på trods af forespørgsler fra pressen.

Google DeepMind har åbent kritiseret OpenAI for at annoncere resultaterne, før den officielle validering var på plads. De har blandt andet peget på, at kun IMOs egne dommere kan afgøre, om en besvarelse lever op til guldkravene. OpenAI fastholder, at deres eksterne dommere var kvalificerede, og at der har været dialog med IMO undervejs. Kontroversen understreger, hvor afgørende gennemsigtighed og troværdighed er, også når det gælder benchmarking af AI-systemer.

Tekniske landvindinger – men stadig med menneskelig hjælp i kulissen

En ofte overset detalje er graden af menneskelig involvering. Selvom AI-modellerne løste opgaver på naturligt sprog, peger flere eksperter – og TechCrunch – på, at der stadig kan have været behov for teknisk tilpasning eller prompt engineering. Det er altså ikke hele vejen en “sort boks”, hvor AI’en selvstændigt leverer svaret. For danske virksomheder og specialister, der arbejder med AI, er det en væsentlig pointe: Automatisering af kompliceret viden kræver stadig menneskelig kontrol og kvalitetssikring, især i opgaver uden et entydigt facit.

Desuden viser erfaringerne fra IMO, at AI-modeller har deres største styrke på opgaver med klare mål og stringente regler. På mere åbne eller konteksttunge opgaver – som komplekse forretningsudfordringer – kan systemerne stadig komme til kort. Derfor bør virksomheder balancere entusiasmen for AI’s fremskridt med en sund portion skepsis og omhyggelig afprøvning.

AI-benchmarks: Konkurrence, tillid og talentjagt

IMO-resultaterne har stor signalværdi i AI-miljøet, ikke mindst fordi mange af de stærkeste AI-forskere har en baggrund i konkurrence-matematik. At AI nu kan matche guldniveauet i IMO, trækker både opmærksomhed og talenter til feltet. Samtidig demonstrerer debatten, hvor vigtigt det er at have klare, gennemsigtige og uafhængige benchmarks – både for at sikre konkurrence på lige vilkår og for at skabe troværdighed over for marked og offentlighed.

OpenAI og Google DeepMind er næsten lige stærke på målfeltet, og forskellen ligger nu i marginaler og metodevalg. For virksomheder, der investerer i AI, betyder det, at man ikke kun skal se på resultaterne, men også på, hvordan og af hvem de er blevet valideret. En pæn score på papiret er kun lige så god som testens kvalitet.

For at illustrere den fascinerende udvikling af AIs præstationer i forhold til den Internationale Matematik Olympiade (IMO), kunne et billede af to avancerede AI-systemer i aktion være ideelt. Motivet kunne vise en dynamisk sammenstilling af computerskærme med komplekse matematiske formler og AI-algoritmer, mens en medarbejder analyserer data i baggrunden. Kompositionen ville udnytte dybdeskarphed til at fokusere på skærmene i forgrunden, samtidig med at personen er sløret, hvilket symboliserer den menneskelige faktor bag teknologien. Dette billede ville desuden fange spændingen omkring den teknologi, der til imødekommer de uofficielle IMO-udfordringer. For at opnå det ønskede visuelle udtryk kunne jeg bruge et Canon EOS R5-kamera sammen med et RF 24-70mm f/2.8-linse for at sikre skarpe detaljer og en blød bokeh-effekt. Jeg ville indstille blænden til f/4 for at give en god dybdeskarphed og indstille lukkerhastigheden til 1/125 sekunder for at fange enhver bevægelse klart. Inden for post-produktionen kunne

Hvad er International Math Olympiad – og hvordan blev AI testet?

International Math Olympiad (IMO) er verdens ældste og mest prestigefyldte matematikkonkurrence for gymnasieelever. Deltagerne får seks ekstremt udfordrende opgaver over to dage, og kun en lille procentdel opnår guldmedalje. De AI-systemer, der blev testet i år, fik stillet de samme opgaver som de unge deltagere, men løste dem i et lukket og parallelt forløb. Google DeepMind ventede på officiel IMO-evaluering, mens OpenAI brugte uafhængige tidligere medaljevindere som dommere. Ingen AI blev officielt anerkendt som deltager i konkurrencen.

Faktatjek og kildevurdering

TechCrunch er hovedkilden til nyheden, og redaktionen har interviewet både OpenAIs og Google DeepMinds forskere. TechCrunch vurderer, at Google DeepMind gik mest “officielt” til værks, men understreger, at begge selskaber har opnået markante resultater. Coin World er også nævnt i debatten, men de væsentligste og mest troværdige oplysninger stammer fra TechCrunch, som er veldokumenteret og bredt anerkendt i AI-branchen. Påstanden om at IMO ikke har kommenteret sagen offentligt, er verificeret via TechCrunch’s dækning.

Relevans for danske virksomheder: Gennemsigtighed og ekstern validering er nøglen

For Snillds målgruppe – danske ledere, beslutningstagere og AI-specialister – er der tre centrale pointer at tage med:

  • AI-systemer kan nu håndtere meget komplekse og ustrukturerede opgaver, hvilket åbner nye forretningsmuligheder – men kræver grundig test og kvalitetssikring.
  • Validering og gennemsigtighed i test og benchmarks er afgørende for at skabe tillid både internt og eksternt.
  • Uafhængige testmiljøer eller officielle benchmarks bør være krav ved valg af AI-løsninger og samarbejdspartnere.

Snillds erfaring: Når resultater og processer skal være til at stole på

Hos Snilld ser vi det som afgørende, at virksomheder ikke kun fokuserer på AI’s resultater, men også på, hvordan de opnås og valideres. Vi hjælper danske organisationer med at designe evalueringsforløb, hvor både teknik, proces og kultur bliver inddraget. Erfaringerne fra IMO og TechCrunchs rapportering viser, at høj gennemsigtighed og uafhængige dommere er nøglen til at skabe tillid og reel forretningsværdi. Det gælder ikke kun i matematik – men i alle brancher, hvor AI skal gøre en forskel.

AI’s muligheder og begrænsninger: Kritisk sparring anbefales

Gennembruddet i IMO viser potentialet for AI i avanceret rådgivning, analyse og automatisering af komplekse processer. Men AI er ikke et mirakelmiddel: Især i opgaver uden entydige svar skal AI-løsninger altid kobles med menneskelig ekspertise. Vores erfaring er, at virksomheder, der stiller krav om dokumentation og åbenhed – både fra leverandører og egne teams – står stærkere i konkurrencen, også når markedet sætter tempoet op.

Næste store udvikling forventes, når OpenAI lancerer GPT-5, og kapløbet om de skarpeste modeller spidser yderligere til. Men uanset hvilke selskaber, der topper scoringslisten, bør målet for danske virksomheder være klart: Kræv dokumentation, ekstern validering og gennemsigtig proces – det er nøglen til at gøre AI til reel forretningsværdi, ikke bare show.

Kilder:


*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.

Billederne i artiklen er lavet af Fluxx Schnell fra Black Forest Labs.

Book Din AI-Booster Samtale


– Ingen Tekniske Forudsætninger Påkrævet!

Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.

I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.

Fordele ved samtalen:

  • Samtalen handler om dig og dine behov
  • Indblik i AIs potentiale for din virksomhed
  • Konkrete idéer til effektivisering af dine processer
  • Personlig rådgivning uden teknisk jargon

Det handler om at skabe værdi for dig

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?