Arbejder man med lange kontekster i AI, er der én ting, der hurtigt bliver meget konkret: ventetid. Derfor er det værd at bemærke, at forskere fra Tsinghua University og Z.ai ifølge VentureBeat har udviklet en optimering kaldet IndexCache, som i modeller med DeepSeek Sparse Attention kan skære op til 75 procent af redundant beregning væk.
De mest opsigtsvækkende tal er også ret håndfaste. Ved en kontekstlængde på 200.000 tokens rapporteres op til 1,82 gange hurtigere time-to-first-token og 1,48 gange højere generation throughput. I en produktionsopsætning er det ikke bare pynt. Det er forskellen på, om brugeren oplever systemet som responsivt, eller som endnu en AI-løsning med god vilje og dårlig tålmodighed.
Begrænsningen skal dog med fra start. Resultaterne gælder ikke hele LLM-markedet. De gælder modeller, der bruger DeepSeek Sparse Attention, også kaldet DSA, som ifølge den primære kilde bruges i nyere DeepSeek- og GLM-modeller. Kører man noget andet, er det her først og fremmest interessant som retning, ikke som en funktion, man bare kan slå til.
Hvorfor det betyder noget i praksis
Long-context AI ser tit pænt ud i præsentationer. I drift er det mere et spørgsmål om at få modellen gennem store tekstmængder uden at svartiden kollapser undervejs. Kontrakter, supporttråde, interne wiki-sider, revisionsspor og lange mailsager er sjældent korte nok til at være bekvemme.
Problemet er velkendt. Almindelig self-attention i store sprogmodeller vokser kvadratisk med sekvenslængden. Når konteksten bliver længere, stiger regnearbejdet derfor meget hurtigt. Det mærkes især i prefill-fasen, hvor modellen først skal sluge hele prompten, før den overhovedet kan begynde at svare.

Det er også derfor, latency så ofte bliver det usexede punkt, der vælter ellers fine AI-løsninger. Det er ikke nødvendigvis modellen, der fejler. Den er bare langsom nok til, at brugeroplevelsen falder fra hinanden.

Den korte tekniske forklaring
Sparse attention er i sin enkleste form et forsøg på at undgå, at hver token skal kigge på alt, der kom før. I stedet vælges kun et relevant udsnit af tidligere tokens. Ifølge den primære kilde er det netop idéen: hver query skal ikke nødvendigvis forholde sig til hele historikken, kun til det mest relevante.
DeepSeek Sparse Attention blev ifølge samme kilde først introduceret i DeepSeek-V3.2. Arkitekturen bruger et let indexer-modul ved hvert lag til at score tidligere tokens og udvælge en lille delmængde, som den tunge core attention så arbejder videre med. Fordelen er, at den dyre del af attention-beregningen reduceres fra kvadratisk til lineær, mens outputkvaliteten ifølge kilden bevares.
Men det løser ikke alt. Forskerne peger på, at selve indexer-leddet stadig har kvadratisk kompleksitet ved hvert lag. Ved lange kontekster bliver det derfor en flaskehals i sig selv. Det er den del, IndexCache går efter.
Det oversete flaskehalsproblem
Det interessante ved IndexCache er, at den ikke prøver at opfinde en ny attention-mekanisme. Den går efter noget mere jordnært: at fjerne gentaget arbejde. Ifølge VentureBeat bygger teknikken på en observation om, at de vigtige tokenvalg i DSA-modeller ser ud til at være relativt stabile på tværs af nærliggende transformerlag.
Kilden beskriver, at tilstødende lag i empiriske tests delte mellem 70 og 100 procent af de udvalgte tokens. Hvis det holder, er pointen ret enkel: der er ingen stor dyd i at beregne næsten det samme igen og igen ved hvert lag.
Selve mekanikken beskrives sådan, at nogle lag er fulde lag, hvor indexeren stadig kører og cacher de valgte indeks. Andre lag springer indexering over og genbruger de cachede indeks fra nærmeste foregående fulde lag. Dermed undgår modellen en stor del af det gentagne indexer-arbejde under inference. Der er ikke nok uafhængige detaljer i materialet til at beskrive implementeringen mere præcist uden at begynde at fylde hullerne ud selv.
Hvad tallene siger og hvad de ikke siger
De rapporterede gevinster er altså op til 1,82 gange hurtigere time-to-first-token og 1,48 gange hurtigere generation throughput ved 200.000 tokens. Samtidig siger kilden, at op til 75 procent af redundant beregning kan fjernes. Det er stærke tal, især fordi de rammer noget virksomheder faktisk mærker: hvor længe der går, før første token kommer ud, og hvor hurtigt modellen derefter arbejder videre.

Der er også en produktionsvinkel. Ifølge den primære kilde er teknikken vist i foreløbige tests på GLM-5 med 744 milliarder parametre. Det gør historien mere relevant end et rent laboratorieforsøg på en lille model.
Men de stærkeste performance-tal hviler primært på den samme kildelinje, og der er ikke i materialet brede, uafhængige reproduktioner på tværs af hardwaremiljøer, promptmønstre og deployment-setup. Det gør resultaterne lovende, men ikke endeligt dokumenterede i bred forstand.


Hvem kan bruge det
Den direkte relevans er ret afgrænset, men ikke lille. Hvis ens modelstack bygger på DeepSeek Sparse Attention, herunder ifølge kilden nyere DeepSeek- og GLM-familier, er IndexCache potentielt meget relevant. Har man lange dokumentflows, søgetunge assistenter eller agentforløb med mange trin, rammer forbedringen et sted, der ofte gør ondt i praksis.
Kører man andre arkitekturer, er historien mere indirekte. Man kan ikke uden videre regne med samme gevinst. Men nyheden peger stadig på noget vigtigt: en stor del af den reelle AI-værdi ligger i inference-optimering og systemarkitektur, ikke nødvendigvis i endnu en større model.
Skeptikerens bedste indvending
Den oplagte indvending er, at 1,82 gange hurtigere på ét benchmark ved 200.000 tokens ikke automatisk bliver til samme gevinst i alle workloads. Det er et fair punkt. Nogle workloads har kortere prompts. Andre er begrænset af noget andet end attention. Og i nogle miljøer flytter flaskehalsen sig bare videre til næste led i kæden.
Derfor bør tallet læses som et stærkt signal, ikke som en universel garanti. Hvis prompts sjældent er meget lange, eller hvis løsningen allerede er stramt optimeret med batching, caching og fornuftig orkestrering, kan den målte gevinst i praksis være mindre. Måske væsentligt mindre. Og bruger man ikke DSA-baserede modeller, er gevinsten som sagt ikke direkte overførbar.
Det jordnære takeaway
Den praktiske konklusion er enkel. Arbejder man med lange kontekster og bruger modeller med DeepSeek Sparse Attention, er IndexCache værd at følge tæt og teste hurtigt i eget miljø. Ikke på mavefornemmelse, men med målinger af latency, throughput, omkostning pr. forespørgsel og modelkompatibilitet.
Bruger man ikke den type modeller, er nyheden stadig nyttig, bare på en anden måde. Den minder om noget ret basalt: de største forbedringer i AI kommer ofte fra infrastrukturen omkring modellen, ikke fra de flotteste demoer. IndexCache er smalt, men på den nyttige måde. Ikke en mirakelkur, bare en konkret optimering af et konkret problem.