Snilld

Fra RTX-pc til DGX Spark: Nu bliver lokal AI et driftsvalg

Google Gemma 4 bliver præsenteret som en ny lokal vej til agentisk AI på NVIDIA-hardware, fra Jetson Orin Nano til GeForce RTX og DGX Spark. Det interessante er ikke bare endnu en modelserie, men at åbne, mindre modeller med function calling og multimodale input kan flytte regnestykket for virksomheder, der er trætte af at betale per prompt og per handling.

3. april 2026 Peter Munkholm

Google Gemma 4 ligner ved første blik bare endnu en modelnyhed. Det er den ikke helt. Ifølge MarkTechPost bliver Gemma 4-familien nu positioneret som en lokal, åben og relativt letkørt vej til agentisk AI på NVIDIA-hardware, fra Jetson Orin Nano over GeForce RTX-desktops til DGX Spark. Den egentlige historie er mere jordnær: økonomien er ved at flytte sig.

For mange virksomheder er problemet ikke længere, om AI kan noget smart. Det kan den. Problemet er regningen, når assistenter og automatiserede workflows skal køre hele dagen, reagere hurtigt og kalde værktøjer igen og igen. Hver prompt, hver handling, hver ekstra omgang tekst bliver til løbende API-forbrug, og på et tidspunkt begynder token-regnskabet at ligne noget, økonomiafdelingen ikke længere gider smile af.

Det er token tax, folk er trætte af

MarkTechPost kalder det direkte en token tax. Altså den løbende afgift ved at sende arbejde ud i skyen, token for token, handling for handling. Kilden går langt og skriver, at lokal brug af Gemma 4 er svaret på at eliminere API-omkostninger helt. Den del kræver lige en præcisering, for drift bliver ikke gratis, bare fordi regningen ikke længere kommer fra en modeludbyder.

Det, der faktisk forsvinder, er den løbende cloud- og API-udgift pr. kald. Men hardware skal købes. Modeller skal kvantiseres og tilpasses. Noget skal overvåges, patches og passes. Det er ikke et argument imod lokal AI. Det er bare virkeligheden.

En kraftig AI-workstation med synligt grafikkort i et kontormiljø.

Gemma 4 er interessant, fordi den er bygget til flere lag

Ifølge hovedkilden består Gemma 4-familien af varianterne E2B, E4B, 26B og 31B. Beskrivelsen er, at modellerne er små, hurtige og omni-capable, bygget til effektiv lokal eksekvering på tværs af mange slags enheder, og optimeret i samarbejde med NVIDIA. Det gør en forskel, fordi lokal AI ofte falder på det kedelige spørgsmål: Kan det her faktisk køre stabilt på den hardware, folk allerede har eller realistisk kan købe?

Der er i grove træk to spor. E2B og E4B bliver fremstillet som de ultraeffektive edge-modeller til lav latenstid og offline-brug, især på mindre enheder som Jetson Orin Nano. 26B og 31B ligger i den tungere ende og er målrettet mere krævende ræsonnering, kodearbejde og agentiske opgaver på RTX-GPUer, workstations og DGX Spark.

Banner

Oversat til almindeligt virksomhedssprog er pointen ret enkel. Skal du have noget tæt på sensorer, maskiner, lokale skærme eller en supportfunktion, der bare skal svare hurtigt uden internetafhængighed, så giver de små modeller mening. Skal du have en assistent, der kan jonglere værktøjer, kode, dokumenter og mere komplekse opgaver, så er de større modeller mere relevante. Ikke magi. Bare arkitektur.

Agentisk AI er den egentlige nyhed

Det mest interessante ved Gemma 4 er efter min mening ikke modelstørrelserne. Det er, at kilden beskriver native function calling og interleavede multimodale input som en central del af pakken. På dansk: modellerne kan bruge værktøjer struktureret, og de kan håndtere tekst og billeder blandet i samme prompt. Det lyder teknisk, men konsekvensen er meget praktisk.

En lokal assistent kan i princippet få et skærmbillede, lidt tekst fra en medarbejder, et dokumentuddrag og derefter kalde et internt system eller en funktion for at gøre noget. Ikke bare skrive et svar. Gøre noget. Det er dér, vi går fra chatbot til agent. Og dér begynder latenstid, pris pr. handling og datanærhed at betyde mere end modelbenchmarks på et leaderboard.

OpenClaw viser retningen, ikke hele beviset

MarkTechPost bruger OpenClaw som eksempel på personaliserede, altid tændte AI-assistenter oven på lokal agentisk AI. Det er en fin fortællekrog, så længe man ikke læsser for meget oven på den. Kilden dokumenterer, at OpenClaw nævnes som den type assistent, der bliver mere realistisk, når modellen kan køre lokalt på NVIDIA-hardware uden en cloudregning for hvert eneste lille trin.

Det interessante er selve mønsteret. Altid tændte assistenter har indtil nu haft et indbygget problem, fordi hver lille baggrundsopgave kunne udløse løbende omkostninger og ekstra ventetid. Hvis en assistent skal holde øje med dokumenter, forstå billeder, kalde funktioner og reagere løbende, bliver cloudmodellen hurtigt dyr eller i hvert fald svær at budgettere med. Lokal kørsel gør ikke problemet væk, men den gør det mere forudsigeligt.

Og ja, der er også en privatlivsvinkel. Ikke den store, luftige etiske debat. Bare helt praktisk: Nogle virksomheder vil helst ikke sende skærmbilleder, interne dokumenter eller driftsdata ud af huset, hvis de kan undgå det. Især når opgaven faktisk kan løses tættere på data.

En lille edge-enhed tæt på udstyr i et teknisk miljø, som illustrerer lokal AI ved datakilden.

NVIDIA-delen er ikke pynt

Kilden lægger stor vægt på, at Gemma 4 er optimeret i samarbejde med NVIDIA, og at modellerne skalerer fra Jetson Orin Nano til GeForce RTX og DGX Spark. Det er vigtigt, fordi lokal AI sjældent bliver en reel driftsmodel uden hardware, der kan levere nok throughput. Agentiske workflows er ikke bare en enkelt prompt og et svar. De er mange små trin, ofte med værktøjskald og multimodale input oveni.

MarkTechPost skriver også om højere inferensydelse på en RTX 5090 sammenlignet med en M3 Ultra desktop i llama.cpp. Den slags enkeltmålinger skal man altid læse med lidt skepsis, for testopsætning betyder meget, og vi har ikke en uafhængig benchmarkkæde i materialet her. Men den overordnede pointe holder stadig: GPU-acceleration er afgørende, hvis lokal AI skal være hurtig nok til tung, vedvarende brug.

Banner

Regningen flytter sig bare

Her bliver historien for alvor interessant for danske virksomheder. For når nogen siger, at lokal AI eliminerer API-omkostninger, hører mange det som gratis drift. Det er forkert. Mere præcist forsvinder de variable cloudkald, mens omkostningerne flytter over i hardware, opsætning, strøm, vedligeholdelse, overvågning, sikkerhed, governance og bemanding.

Det er den vigtigste nuance i hele historien. For hvis man driver AI tættere på egne data, får man ofte lavere latenstid, mere kontrol og en mere stabil økonomi over tid. Men kun hvis løsningen er rigtigt skruet sammen. Vælg forkert modelstørrelse, forkert kvantisering eller for svag hardware, og så får man en lokal løsning, der er billig på papiret og irriterende i drift.

Det samme gælder governance. Hvem må agenten kalde hvilke funktioner. Hvordan logger man handlinger. Hvordan opdager man fejl, hallucinationer eller skæve svar i et system, der faktisk må gøre noget og ikke bare foreslå noget. Lokal AI er ikke bare en fil på en GPU og så hjem til aftensmad.

Der er en bredere bevægelse bag

Selv om MarkTechPost er den primære kilde og formulerer sig offensivt, står historien ikke helt alene. En anden MarkTechPost-artikel om lokal fine-tuning med NVIDIA og Unsloth beskriver samme overordnede skifte væk fra total afhængighed af store generelle cloudmodeller og hen mod lokal, mere specialiseret AI. Det er ikke dokumentation for Gemma 4-specifikationer, og det skal det heller ikke være. Men som temperaturmåling på markedet giver det mening.

Man kan mærke, at branchen er ved at ændre fokus. For et år eller to siden handlede næsten alt om den største model i skyen. Nu handler en voksende del af samtalen om, hvilke opgaver der faktisk bør køre lokalt, hybridt eller tættere på brugeren. Det er mindre glamourøst. Til gengæld mere anvendeligt.

Det, der overrasker mindst, er faktisk hvor hurtigt RTX-økosystemet er blevet en del af den samtale. Mange virksomheder har allerede maskiner, workstations eller udviklingsmiljøer, hvor den slags kan afprøves uden at bygge et helt nyt datacenter. Ikke alt. Men nok til at det går fra sideprojekt til noget, driftsfolk og it-chefer begynder at tage alvorligt.

To specialister gennemgår AI-drift og multimodale workflows på store skærme i et møderum.

Hvad danske virksomheder bør tage med herfra

Hvis man sidder i en dansk virksomhed og overvejer lokal agentisk AI, er den fornuftige reaktion ikke at købe den største GPU og håbe på det bedste. Start med en use case, hvor prisen pr. handling, svartid eller datanærhed faktisk gør ondt i dag. Dokumentarbejde, intern support, udviklerflows, måske billedforståelse i en lokal proces. Noget konkret.

Derefter skal man vælge hardwarelag og model efter opgaven, ikke omvendt. Små edge-modeller som E2B og E4B giver mening, hvis opgaven er snæver, latenstiden skal være lav, og løsningen skal kunne leve tæt på kanten. De større 26B- og 31B-varianter er mere oplagte, hvis opgaven kræver tungere agentarbejde, værktøjskald og mere kompleks ræsonnering på RTX eller DGX Spark.

Så skal man måle. Ikke bare synes. Mål latenstid, gennemløb, fejlrate, samlet driftspris og hvor meget menneskelig oprydning løsningen kræver bagefter. Først dér finder man ud af, om lokal eller hybrid arkitektur giver mening i praksis.

Kilder

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?