Snilld

IndexCache kan gøre lange AI-kontekster markant hurtigere

En ny optimering fra Tsinghua University og Z.ai lover op til 1,82 gange hurtigere starttid ved 200.000 tokens i modeller med DeepSeek Sparse Attention. Det er smalt, ja, men for virksomheder med tunge dokumentflows og lange AI-samtaler er det præcis den slags forbedring, der kan mærkes i drift, svartid og regning.

28. marts 2026 Peter Munkholm

Arbejder man med lange kontekster i AI, er der én ting, der hurtigt bliver meget konkret: ventetid. Derfor er det værd at bemærke, at forskere fra Tsinghua University og Z.ai ifølge VentureBeat har udviklet en optimering kaldet IndexCache, som i modeller med DeepSeek Sparse Attention kan skære op til 75 procent af redundant beregning væk.

De mest opsigtsvækkende tal er også ret håndfaste. Ved en kontekstlængde på 200.000 tokens rapporteres op til 1,82 gange hurtigere time-to-first-token og 1,48 gange højere generation throughput. I en produktionsopsætning er det ikke bare pynt. Det er forskellen på, om brugeren oplever systemet som responsivt, eller som endnu en AI-løsning med god vilje og dårlig tålmodighed.

Begrænsningen skal dog med fra start. Resultaterne gælder ikke hele LLM-markedet. De gælder modeller, der bruger DeepSeek Sparse Attention, også kaldet DSA, som ifølge den primære kilde bruges i nyere DeepSeek- og GLM-modeller. Kører man noget andet, er det her først og fremmest interessant som retning, ikke som en funktion, man bare kan slå til.

Hvorfor det betyder noget i praksis

Long-context AI ser tit pænt ud i præsentationer. I drift er det mere et spørgsmål om at få modellen gennem store tekstmængder uden at svartiden kollapser undervejs. Kontrakter, supporttråde, interne wiki-sider, revisionsspor og lange mailsager er sjældent korte nok til at være bekvemme.

Problemet er velkendt. Almindelig self-attention i store sprogmodeller vokser kvadratisk med sekvenslængden. Når konteksten bliver længere, stiger regnearbejdet derfor meget hurtigt. Det mærkes især i prefill-fasen, hvor modellen først skal sluge hele prompten, før den overhovedet kan begynde at svare.

Banner

Det er også derfor, latency så ofte bliver det usexede punkt, der vælter ellers fine AI-løsninger. Det er ikke nødvendigvis modellen, der fejler. Den er bare langsom nok til, at brugeroplevelsen falder fra hinanden.

Tekniker i et serverrum ved rackservere til AI-inference.

Den korte tekniske forklaring

Sparse attention er i sin enkleste form et forsøg på at undgå, at hver token skal kigge på alt, der kom før. I stedet vælges kun et relevant udsnit af tidligere tokens. Ifølge den primære kilde er det netop idéen: hver query skal ikke nødvendigvis forholde sig til hele historikken, kun til det mest relevante.

DeepSeek Sparse Attention blev ifølge samme kilde først introduceret i DeepSeek-V3.2. Arkitekturen bruger et let indexer-modul ved hvert lag til at score tidligere tokens og udvælge en lille delmængde, som den tunge core attention så arbejder videre med. Fordelen er, at den dyre del af attention-beregningen reduceres fra kvadratisk til lineær, mens outputkvaliteten ifølge kilden bevares.

Men det løser ikke alt. Forskerne peger på, at selve indexer-leddet stadig har kvadratisk kompleksitet ved hvert lag. Ved lange kontekster bliver det derfor en flaskehals i sig selv. Det er den del, IndexCache går efter.

Det oversete flaskehalsproblem

Det interessante ved IndexCache er, at den ikke prøver at opfinde en ny attention-mekanisme. Den går efter noget mere jordnært: at fjerne gentaget arbejde. Ifølge VentureBeat bygger teknikken på en observation om, at de vigtige tokenvalg i DSA-modeller ser ud til at være relativt stabile på tværs af nærliggende transformerlag.

Kilden beskriver, at tilstødende lag i empiriske tests delte mellem 70 og 100 procent af de udvalgte tokens. Hvis det holder, er pointen ret enkel: der er ingen stor dyd i at beregne næsten det samme igen og igen ved hvert lag.

Selve mekanikken beskrives sådan, at nogle lag er fulde lag, hvor indexeren stadig kører og cacher de valgte indeks. Andre lag springer indexering over og genbruger de cachede indeks fra nærmeste foregående fulde lag. Dermed undgår modellen en stor del af det gentagne indexer-arbejde under inference. Der er ikke nok uafhængige detaljer i materialet til at beskrive implementeringen mere præcist uden at begynde at fylde hullerne ud selv.

Hvad tallene siger og hvad de ikke siger

De rapporterede gevinster er altså op til 1,82 gange hurtigere time-to-first-token og 1,48 gange hurtigere generation throughput ved 200.000 tokens. Samtidig siger kilden, at op til 75 procent af redundant beregning kan fjernes. Det er stærke tal, især fordi de rammer noget virksomheder faktisk mærker: hvor længe der går, før første token kommer ud, og hvor hurtigt modellen derefter arbejder videre.

Banner

Der er også en produktionsvinkel. Ifølge den primære kilde er teknikken vist i foreløbige tests på GLM-5 med 744 milliarder parametre. Det gør historien mere relevant end et rent laboratorieforsøg på en lille model.

Men de stærkeste performance-tal hviler primært på den samme kildelinje, og der er ikke i materialet brede, uafhængige reproduktioner på tværs af hardwaremiljøer, promptmønstre og deployment-setup. Det gør resultaterne lovende, men ikke endeligt dokumenterede i bred forstand.

To specialister drøfter AI-performance og optimering i et mødelokale.
Medarbejder arbejder med store dokumentmængder og lange AI-kontekster på flere skærme.

Hvem kan bruge det

Den direkte relevans er ret afgrænset, men ikke lille. Hvis ens modelstack bygger på DeepSeek Sparse Attention, herunder ifølge kilden nyere DeepSeek- og GLM-familier, er IndexCache potentielt meget relevant. Har man lange dokumentflows, søgetunge assistenter eller agentforløb med mange trin, rammer forbedringen et sted, der ofte gør ondt i praksis.

Kører man andre arkitekturer, er historien mere indirekte. Man kan ikke uden videre regne med samme gevinst. Men nyheden peger stadig på noget vigtigt: en stor del af den reelle AI-værdi ligger i inference-optimering og systemarkitektur, ikke nødvendigvis i endnu en større model.

Skeptikerens bedste indvending

Den oplagte indvending er, at 1,82 gange hurtigere på ét benchmark ved 200.000 tokens ikke automatisk bliver til samme gevinst i alle workloads. Det er et fair punkt. Nogle workloads har kortere prompts. Andre er begrænset af noget andet end attention. Og i nogle miljøer flytter flaskehalsen sig bare videre til næste led i kæden.

Derfor bør tallet læses som et stærkt signal, ikke som en universel garanti. Hvis prompts sjældent er meget lange, eller hvis løsningen allerede er stramt optimeret med batching, caching og fornuftig orkestrering, kan den målte gevinst i praksis være mindre. Måske væsentligt mindre. Og bruger man ikke DSA-baserede modeller, er gevinsten som sagt ikke direkte overførbar.

Det jordnære takeaway

Den praktiske konklusion er enkel. Arbejder man med lange kontekster og bruger modeller med DeepSeek Sparse Attention, er IndexCache værd at følge tæt og teste hurtigt i eget miljø. Ikke på mavefornemmelse, men med målinger af latency, throughput, omkostning pr. forespørgsel og modelkompatibilitet.

Bruger man ikke den type modeller, er nyheden stadig nyttig, bare på en anden måde. Den minder om noget ret basalt: de største forbedringer i AI kommer ofte fra infrastrukturen omkring modellen, ikke fra de flotteste demoer. IndexCache er smalt, men på den nyttige måde. Ikke en mirakelkur, bare en konkret optimering af et konkret problem.

Kilder

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?