Snilld

Google lancerer MTP drafters til Gemma 4

Ifølge Google og MarkTechPost kan Multi‑Token Prediction for Gemma 4 give op til 3x hurtigere inference uden tab af kvalitet. Mekanismen bygger på speculative decoding med en hurtig drafter og en større verificeringsmodel. Uafhængige benchmarks er ikke fremlagt i kilderne, og “op til” skal læses som producentoplysning.

7. maj 2026 Peter Munkholm

Google har lanceret Multi‑Token Prediction drafters til Gemma 4. Ifølge MarkTechPost og Googles kommunikation kan MTP give op til tre gange hurtigere inference uden at forringe outputkvalitet eller ræsonnering. MarkTechPost skriver også, at dette nævnes i forlængelse af, at Gemma 4 har passeret 60 millioner downloads. Vi forholder os her til kildernes formuleringer, og “op til” er nøgleordet.

Baggrunden er velkendt i omtalen: inference er ofte flaskehalsen for store sprogmodeller. MarkTechPost beskriver, at klassisk, autoregressiv generering producerer ét token ad gangen og kræver gentagne flyt af store vægtmatricer fra hukommelse til compute. Det gør processen memory‑båndbredde‑begrænset snarere end compute‑begrænset og skaber ventetid, hvor beregningen står og venter på data.

Hvad MTP og speculative decoding går ud på

Ifølge MarkTechPost bygger MTP til Gemma 4 på speculative decoding. En lille, hurtig drafter kobles på en større targetmodel. Drafteren foreslår flere næste tokens i en kort sekvens, hvorefter den større model verificerer forslaget. Når verificeringen er enig, kan flere tokens godkendes på én gang, hvilket reducerer antallet af dyre gennemløb i den store model.

Det grundlæggende princip findes i den generelle litteratur om speculative decoding, herunder OpenAIs offentlige note og Medusa‑arbejdet fra 2023. I begge beskrives en pipeline, hvor en hurtig model foreslår, og en tungere model verificerer. Vi henviser her til litteraturen som generel metodebeskrivelse, mens MarkTechPost dækker den konkrete anvendelse for Gemma 4.

Banner
Makro-billede af matte token-diske ved siden af en GPU‑køleprofil — viser tokens som konkrete enheder og antyder inferens-hardware

Hvorfor det adresserer flaskehalse

Som MarkTechPost beskriver, bruger en klassisk autoregressiv model samme arbejde på lette og svære tokens, fordi der ikke er en mekanisme til at springe over det trivielt forudsigelige. Ved at godkende flere lette tokens i ét verificeringstrin kan MTP reducere antallet af sekventielle kald til den store model. Det er netop de sekventielle kald, der rammer memory‑båndbredden igen og igen, ifølge kilden.

Pointen er ikke, at selve modellen ændres fundamentalt, men at genereringen udnytter en hurtig “udkastsfase” og kun bruger den tunge model til at bekræfte udkastet. Ifølge kilderne ligger gevinsten i potentialet for lavere samlet svartid, når udkast ofte verificeres uden ændringer.

Hvad Google og omtalen specifikt lover

MarkTechPost og Googles kommunikation formulerer løftet som “op til 3x” hurtigere inference for Gemma 4 og “uden kvalitetstab”. Påstanden om “uden kvalitetstab” er begrundet ved, at den store model verificerer tokens, inden de leveres. Dermed skal output i princippet svare til, hvad den store model ville have produceret ved almindelig ét‑token‑ad‑gangen kørsel.

Kilderne præsenterer ikke en detaljeret offentlig testprotokol eller brede, uafhængige benchmarks på tværs af opgavetyper. Det ændrer ikke ved, at kommunikationen siger “op til 3x” og “uden kvalitetstab”, men det sætter en ramme for, hvordan tallene bør læses som producentoplysninger.

Hvordan pipelinen beskrives

Som forklaret i MarkTechPost fungerer pipelinen sådan: en let drafter genererer en kort sekvens af kandidattokens hurtigt. Den større model kontrollerer derefter sekvensen og accepterer den, hvis den stemmer med egen fordeling. Reduceres antallet af verificeringstrin, opnås hastighedsgevinster, fordi færre fulde gennemløb i den store model er nødvendige.

I den generelle litteratur om speculative decoding beskrives samme overordnede mønster: hurtig forudsigelse efterfulgt af verifikation i en tungere model. Vi anfører disse kilder som baggrund for metodens princip, mens selve MTP for Gemma 4 er dokumenteret i MarkTechPost og Googles omtale.

Banner
Hænder på proces: en ingeniør placerer en kort token-sekvens foran en 'drafter' mens en større 'verifier' drejer sig på plads

Hvad der er dokumenteret, og hvad der ikke er

Følgende punkter fremgår eksplicit af kilderne: Google lancerer MTP drafters til Gemma 4; teknikken bygger på speculative decoding med en hurtig drafter og en større verificeringsmodel; der kommunikeres “op til 3x hurtigere” uden tab af kvalitet; flaskehalse ved autoregressiv, ét‑token‑ad‑gangen generering forbindes med memory‑båndbredde. Disse udsagn kan spores til MarkTechPost og til den Google‑kommunikation, der refereres.

Visuelt før/efter: enkel tokens række versus grupperede tokens passere under en verifikationsbue — illustrerer skiftet fra én-token til multi-token godkendelse

Derimod fremgår der ikke her en fuld testprotokol, detaljerede tolerancegrænser for “lossless” på tværs af datasæt eller brede, uafhængige benchmarks, der dækker mange typer opgaver. Hvor ofte “op til 3x” realiseres, er derfor ikke dokumenteret i de angivne kilder.

Konsekvenser udledt af kilderne

Når flere tokens kan bekræftes på én gang, falder antallet af sekventielle verificeringstrin i den store model. Ifølge MarkTechPost er det netop de gentagne, sekventielle kald, der gør inference memory‑båndbredde‑begrænset og dermed langsom. Heraf følger, at samlet svartid kan reduceres i situationer, hvor drafterens sekvenser ofte verificeres.

MarkTechPost formulerer løftet som “op til 3x” uden forringet kvalitet. Det efterlader plads til variation på tværs af opgaver. Kilderne giver ikke et datasæt‑for‑datasæt overblik eller detaljerede sammenligninger, og derfor bør tallene læses i den sammenhæng, de præsenteres i.

Placering i det bredere landskab

Speculative decoding er kendt fra åben dokumentation, blandt andet OpenAIs note og Medusa‑rammeværket fra 2023. Nyheden her er, at Google introducerer MTP drafters til Gemma 4 og kommunikerer en væsentlig hastighedsgevinst uden tab af kvalitet, ifølge MarkTechPost og Google. MarkTechPost nævner i samme forbindelse, at Gemma 4 har passeret 60 millioner downloads; det er kildens oplysning og ikke en uafhængig verificering i denne gennemgang.

Samlet peger kilderne på, at MTP anvender en kendt metode i en konkret implementering til Gemma 4, hvor målet er at mindske en dokumenteret memory‑båndbredde‑flaskehals ved at samle verifikationen af flere tokens i færre trin. Hvor stor effekten er i praksis, afhænger af, hvor ofte udkast godkendes af den store model, hvilket ikke er kvantificeret i kilderne her.

Kilder

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?