Snilld

Små AI-modeller lærer smartere og hurtigere med ny træningsmetode fra Google AI

Google AI har lanceret Supervised Reinforcement Learning (SRL), en ny metode der gør små sprogmodeller i stand til at løse komplekse opgaver. SRL kombinerer styrkerne fra supervised og reinforcement learning, og viser markante forbedringer på både matematiske og software engineering benchmarks. Metoden kan forkorte time-to-market og reducere omkostninger, men kræver adgang til ekspertdemonstrationer.

2. november 2025 Peter Munkholm

Nyhedens kerne og relevans

Google AI har netop offentliggjort en banebrydende træningsmetode, Supervised Reinforcement Learning (SRL), der gør det muligt for små sprogmodeller at løse komplekse opgaver, som tidligere kun var forbeholdt større og mere ressourcekrævende modeller. SRL kombinerer styrkerne fra supervised learning og reinforcement learning og adresserer dermed centrale udfordringer i AI-feltet, hvor balancen mellem modelstørrelse, præcision og omkostning er altafgørende for både forskning og forretning.

Forestil dig et dokumentaristisk fotografi taget i et moderne forskningslaboratorium, hvor Sammenhænge mellem teknologi og dagligliv tydeligt træder frem. Billedet viser en række åbne, lyse arbejdsstationer uden mennesker, hvor komplekse datastrømme visualiseres gennem store, transparente skærme med flydende, abstrakte grafikker og netværk af kvadratiske moduler, der repræsenterer AI-træningsprocesser. I midten hænger en stor, vægmonteret skærm, der projicerer en dynamisk animation af data, der flyder i form af farverige, tråd-lignende strukturer, hvilket symboliserer den kontinuerlige opdatering og forbedring af små sprogmodeller gennem Supervised Reinforcement Learning (SRL). Atmosfæren er præget af en rolig, fokuseret stemning, hvor teknologiens effekt på datastyring og omkostningseffektivitet bliver tydelig gennem den visuelle kompleksitet. Det levende, realistiske motiv fremhæver det aktuelle arbejde med forskerteamet bag scenen, hvor en gruppe teknikere og forskere, med minimal tilstedeværelse af perso

Hvad er SRL, og hvordan adskiller det sig?

SRL adskiller sig markant fra klassisk reinforcement learning (RL) og supervised fine-tuning (SFT). Hvor RL typisk belønner modellen først, når hele opgaven er løst korrekt, og SFT ofte fører til overfitting på lange demonstrationsdata, giver SRL tætte, trinvise belønninger baseret på ekspertdemonstrationer. Hvert trin i en opgave vurderes separat, så modellen får feedback, selv hvis slutresultatet er forkert. Det gør det muligt for modellen at lære af sine fejl og gradvist forbedre sin ræsonneringsevne – lidt som at have en tålmodig lærer, der roser hvert rigtigt skridt, selvom regnestykket ikke går op til sidst.

Tekniske detaljer og eksperimentelt setup

SRL-metoden tager udgangspunkt i Qwen2.5 7B Instruct-modellen, som trænes på DeepSeek R1-formaterede data. For hver ekspertdemonstration deles opgaven op i stepvise træningseksempler. Modellen laver først en intern monolog (

 

), hvorefter den udfører en konkret handling, som sammenlignes med ekspertens handling via sekvens-similaritet. Belønningen gives for hvert action, hvilket sikrer, at modellen får feedback på alle trin, ikke kun det endelige svar. Det betyder, at selv små datasæt kan udnyttes effektivt, og at modellen ikke tvinges til at kopiere eksperten slavisk, men kan udvikle sin egen ræsonneringsstil.

Sammenligning med eksisterende metoder

En af de store fordele ved SRL er, at metoden undgår overfitting, som ofte ses ved SFT, og undgår det såkaldte “collapse”-problem fra RLVR, hvor modellen fejler, hvis ingen rollout er korrekt. På matematiske benchmarks som AMC og AIME samt software engineering tasks viser SRL markante forbedringer i forhold til både base-modellen og SFT/RLVR alene. For eksempel løftes AIME24-scoren fra 13,3 til 16,7, og når RLVR anvendes efter SRL, nås de bedste open source-resultater i feltet.

Fængende og dokumentaristisk foto, der illustrerer den abstrakte effekt af den nye træningsmetode, Supervised Reinforcement Learning (SRL), kunne være en nærbillede af et komplekst, fluorescerende netværk af datalinjer, der svæver i et mørkt, men oplyst rum, symboliserende den trinvise feedback-proces. Disse linjer, der ser ud som en cyklisk strøm, interagerer med holografiske matematiske modeller, visualiserende den præcise og iterative læring, som SRL muliggør. I midten en skitse af en lille, men kraftfuld AI-model, som om den er i færd med at

Konkrete cases og forretningsmæssig værdi

SRL er ikke kun teori – metoden demonstreres på både matematik (AIME, AMC) og software engineering (SWE Bench Verified). Her når små modeller som Qwen2.5 7B Instruct eller Qwen2.5 Coder 7B Instruct resultater, der matcher eller overgår tidligere open source-rekorder. For virksomheder betyder det, at time-to-market kan forkortes, og omkostningerne reduceres, fordi mindre modeller kræver færre ressourcer til både træning og drift. Det åbner for, at flere organisationer kan udnytte avanceret AI uden at skulle investere i dyre, store modeller.

Praktisk anvendelse og integration

SRL kan integreres direkte i CI/CD-pipelines til kodegenerering og automatisering. For eksempel kan udviklere bruge SRL-trænede modeller til at generere kodeforslag, rette fejl eller automatisere repetitive opgaver, hvor modellen lærer af tidligere løsningsforløb. I produktionsmiljøer betyder det, at AI kan operationaliseres hurtigere og mere sikkert, fordi modellen får feedback på hvert trin og dermed bliver mere robust over for fejl. For forretningen er gevinsten klar: hurtigere udvikling, færre fejl og lavere driftsomkostninger.

Begrænsninger og diskussion

Selvom SRL har vist stærke resultater, er der også begrænsninger. Metoden kræver adgang til ekspertdemonstrationer, og kvaliteten af disse har stor betydning for modellens præstation. Derudover er SRL endnu ikke testet bredt på tværs af domæner, og det er stadig uvist, hvor godt metoden generaliserer til helt nye opgavetyper. Det er et område, hvor både forskere og virksomheder bør følge udviklingen tæt og bidrage med egne erfaringer.

Banner
Forestil dig et realistisk og konkret billede, der skildrer en moderne, funktionel industrimontagehal, hvor teknologien i fokus manifesterer sig i et innovativt forsknings- eller produktionsmiljø. Midt i billedet står en slank, kompakt AI-supercomputer, designet med rene, organiske former og en mat sort finish, oplyst af subtile LED-linjer i blå og grøn nuancer, der skaber en rolig, men futuristisk stemning. Omkring enheden er der områder med avancerede robotarme, der præcist og stille arbejder med små komponenter, hvilket illustrerer den praktiske anvendelse af den avancerede træningsmetode Supervised Reinforcement Learning (SRL). I baggrunden ses industrielle hylder med yderligere teknologi og udstyr, samt en stor, detaljeret skærm, der viser grafiske visualiseringer af AI-modeltræning og dataflow i realtid. Atmosfæren er præget af en blanding af industrial design og højteknologisk funktionalitet; der er ingen mennesker synlige, men bevægelse i form af automatiserede systemer og robotter demonstrerer en f

Perspektivering og fremtid

SRL åbner for, at små open source-modeller kan konkurrere med større, proprietære modeller på komplekse opgaver. Det kan ændre AI-landskabet markant, fordi flere får adgang til kraftfulde værktøjer uden at være afhængige af de største spillere. For dem, der vil dykke dybere ned, er både kode, datasæt og videre læsning tilgængelig open source – og det er svært ikke at blive lidt begejstret over, hvor hurtigt feltet rykker. Hos Snilld ser vi store muligheder for at hjælpe vores kunder med at operationalisere SRL i praksis, så AI bliver en reel konkurrencefordel – også for dem, der ikke har milliardbudgetter.

Kilder:

 

Målgruppens mening om artiklen

Anders, CTO i mellemstor SaaS-virksomhed:

Jeg giver artiklen 92. Den er ekstremt relevant for mig, fordi vi konstant leder efter måder at operationalisere AI på uden at skulle investere i enorme modeller. SRL virker som en gamechanger, især fordi vi arbejder med kodegenerering og automatisering. Det er også fedt, at artiklen er konkret om både fordele og begrænsninger.

Mette, AI Product Owner i større konsulenthus:

Jeg giver artiklen 85. Den forklarer SRL-metoden klart og sætter den i kontekst ift. forretning, hvilket er vigtigt for mig. Dog kunne jeg godt have ønsket flere eksempler på integration i eksisterende workflows og lidt mere om, hvordan man får adgang til gode ekspertdemonstrationer.

Jonas, ML-ingeniør i fintech scaleup:

Jeg giver den 89. Artiklen er teknisk solid og rammer plet ift. de udfordringer, vi har med at balancere modelstørrelse og performance. Jeg savner dog lidt flere detaljer om de eksperimentelle setups og resultater, men overordnet set er det meget relevant for mit arbejde.

Sofie, IT-chef i offentlig sektor:

Jeg giver den 74. Det er spændende med nye metoder, der kan gøre AI billigere og mere tilgængelig, men artiklen er lidt teknisk tung. Jeg kunne godt have brugt flere eksempler på, hvordan det kan bruges i praksis i det offentlige, og hvordan man sikrer kvaliteten af ekspertdemonstrationer.

Rasmus, CEO i AI-startup:

Jeg giver artiklen 95. Den rammer spot on ift. vores behov for at kunne konkurrere med større spillere uden at have enorme ressourcer. Jeg kan især lide perspektivet om, at SRL gør avanceret AI tilgængelig for flere, og at der er open source-muligheder.


*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.

Billederne i artiklen er lavet af FLUX.1.1 Pro fra Black Forest Labs.

Book Din AI-Booster Samtale


– Ingen Tekniske Forudsætninger Påkrævet!Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.

I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.

Fordele ved samtalen:

  • Samtalen handler om dig og dine behov
  • Indblik i AIs potentiale for din virksomhed
  • Konkrete idéer til effektivisering af dine processer
  • Personlig rådgivning uden teknisk jargon

Det handler om at skabe værdi for dig

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?