Google har lanceret Multi‑Token Prediction drafters til Gemma 4. Ifølge MarkTechPost og Googles kommunikation kan MTP give op til tre gange hurtigere inference uden at forringe outputkvalitet eller ræsonnering. MarkTechPost skriver også, at dette nævnes i forlængelse af, at Gemma 4 har passeret 60 millioner downloads. Vi forholder os her til kildernes formuleringer, og “op til” er nøgleordet.
Baggrunden er velkendt i omtalen: inference er ofte flaskehalsen for store sprogmodeller. MarkTechPost beskriver, at klassisk, autoregressiv generering producerer ét token ad gangen og kræver gentagne flyt af store vægtmatricer fra hukommelse til compute. Det gør processen memory‑båndbredde‑begrænset snarere end compute‑begrænset og skaber ventetid, hvor beregningen står og venter på data.
Hvad MTP og speculative decoding går ud på
Ifølge MarkTechPost bygger MTP til Gemma 4 på speculative decoding. En lille, hurtig drafter kobles på en større targetmodel. Drafteren foreslår flere næste tokens i en kort sekvens, hvorefter den større model verificerer forslaget. Når verificeringen er enig, kan flere tokens godkendes på én gang, hvilket reducerer antallet af dyre gennemløb i den store model.
Det grundlæggende princip findes i den generelle litteratur om speculative decoding, herunder OpenAIs offentlige note og Medusa‑arbejdet fra 2023. I begge beskrives en pipeline, hvor en hurtig model foreslår, og en tungere model verificerer. Vi henviser her til litteraturen som generel metodebeskrivelse, mens MarkTechPost dækker den konkrete anvendelse for Gemma 4.


Hvorfor det adresserer flaskehalse
Som MarkTechPost beskriver, bruger en klassisk autoregressiv model samme arbejde på lette og svære tokens, fordi der ikke er en mekanisme til at springe over det trivielt forudsigelige. Ved at godkende flere lette tokens i ét verificeringstrin kan MTP reducere antallet af sekventielle kald til den store model. Det er netop de sekventielle kald, der rammer memory‑båndbredden igen og igen, ifølge kilden.
Pointen er ikke, at selve modellen ændres fundamentalt, men at genereringen udnytter en hurtig “udkastsfase” og kun bruger den tunge model til at bekræfte udkastet. Ifølge kilderne ligger gevinsten i potentialet for lavere samlet svartid, når udkast ofte verificeres uden ændringer.
Hvad Google og omtalen specifikt lover
MarkTechPost og Googles kommunikation formulerer løftet som “op til 3x” hurtigere inference for Gemma 4 og “uden kvalitetstab”. Påstanden om “uden kvalitetstab” er begrundet ved, at den store model verificerer tokens, inden de leveres. Dermed skal output i princippet svare til, hvad den store model ville have produceret ved almindelig ét‑token‑ad‑gangen kørsel.
Kilderne præsenterer ikke en detaljeret offentlig testprotokol eller brede, uafhængige benchmarks på tværs af opgavetyper. Det ændrer ikke ved, at kommunikationen siger “op til 3x” og “uden kvalitetstab”, men det sætter en ramme for, hvordan tallene bør læses som producentoplysninger.
Hvordan pipelinen beskrives
Som forklaret i MarkTechPost fungerer pipelinen sådan: en let drafter genererer en kort sekvens af kandidattokens hurtigt. Den større model kontrollerer derefter sekvensen og accepterer den, hvis den stemmer med egen fordeling. Reduceres antallet af verificeringstrin, opnås hastighedsgevinster, fordi færre fulde gennemløb i den store model er nødvendige.
I den generelle litteratur om speculative decoding beskrives samme overordnede mønster: hurtig forudsigelse efterfulgt af verifikation i en tungere model. Vi anfører disse kilder som baggrund for metodens princip, mens selve MTP for Gemma 4 er dokumenteret i MarkTechPost og Googles omtale.


Hvad der er dokumenteret, og hvad der ikke er
Følgende punkter fremgår eksplicit af kilderne: Google lancerer MTP drafters til Gemma 4; teknikken bygger på speculative decoding med en hurtig drafter og en større verificeringsmodel; der kommunikeres “op til 3x hurtigere” uden tab af kvalitet; flaskehalse ved autoregressiv, ét‑token‑ad‑gangen generering forbindes med memory‑båndbredde. Disse udsagn kan spores til MarkTechPost og til den Google‑kommunikation, der refereres.

Derimod fremgår der ikke her en fuld testprotokol, detaljerede tolerancegrænser for “lossless” på tværs af datasæt eller brede, uafhængige benchmarks, der dækker mange typer opgaver. Hvor ofte “op til 3x” realiseres, er derfor ikke dokumenteret i de angivne kilder.
Konsekvenser udledt af kilderne
Når flere tokens kan bekræftes på én gang, falder antallet af sekventielle verificeringstrin i den store model. Ifølge MarkTechPost er det netop de gentagne, sekventielle kald, der gør inference memory‑båndbredde‑begrænset og dermed langsom. Heraf følger, at samlet svartid kan reduceres i situationer, hvor drafterens sekvenser ofte verificeres.
MarkTechPost formulerer løftet som “op til 3x” uden forringet kvalitet. Det efterlader plads til variation på tværs af opgaver. Kilderne giver ikke et datasæt‑for‑datasæt overblik eller detaljerede sammenligninger, og derfor bør tallene læses i den sammenhæng, de præsenteres i.
Placering i det bredere landskab
Speculative decoding er kendt fra åben dokumentation, blandt andet OpenAIs note og Medusa‑rammeværket fra 2023. Nyheden her er, at Google introducerer MTP drafters til Gemma 4 og kommunikerer en væsentlig hastighedsgevinst uden tab af kvalitet, ifølge MarkTechPost og Google. MarkTechPost nævner i samme forbindelse, at Gemma 4 har passeret 60 millioner downloads; det er kildens oplysning og ikke en uafhængig verificering i denne gennemgang.
Samlet peger kilderne på, at MTP anvender en kendt metode i en konkret implementering til Gemma 4, hvor målet er at mindske en dokumenteret memory‑båndbredde‑flaskehals ved at samle verifikationen af flere tokens i færre trin. Hvor stor effekten er i praksis, afhænger af, hvor ofte udkast godkendes af den store model, hvilket ikke er kvantificeret i kilderne her.