Snilld

Apple bryder on-device hukommelsesmuren med AFM 3

Apple flytter vægtene for en 20 mia. parameter on-device model fra DRAM til flash og router eksperter per prompt. Det kan ændre, hvordan danske virksomheder designer hybrid AI mellem enhed og cloud – men der er åbne spørgsmål om latenstid, slid på flash og governance.

10. juni 2026 Peter Munkholm

På WWDC26 udfordrede Apple den hidtidige tommelfingerregel i on-device AI: at hele modellen skal ligge i RAM. Med tredje generation af Apple Foundation Models, AFM 3, flytter Apple vægtsættet for en 20-milliarder-parameters model til flash og laster kun de nødvendige eksperter i RAM per prompt. Det er et arkitekturskifte, ikke en finpudsning.

I praksis har enterprise-arkitekter måttet vælge mellem kraftige, skybaserede modeller med værktøjsbrug og reasoning – eller små on-device modeller med lav latenstid og bedre privatliv, men lavere kapacitet. Apples budskab er: loftet på enheden kan hæves uden at sprænge RAM-budgettet.

DRAM som mur

On-device modeller er historisk blevet presset ned i størrelser, der kan være i enhedens DRAM. VentureBeat beskriver problemet klart: når hele vægtsættet skal ligge i RAM, når man hurtigt grænsen, længe før serverklassens modeller. Det matcher vores erfaringer: 3–7B parametre i praksis, ofte kvantiseret, fordi større sæt koster på batteri, termik og opstartstid.

RAM er hurtig; flash er langsom – og meget større. Den afvejning har holdt on-device småt. Det er præcis den knude, Apple forsøger at løsne.

Makrofoto af en teknikeres hands‑only der holder en unlabeled NAND‑chip ved et værksted: tegn på slitage og materialitet, symboliserer bekymring om write‑endurance.

Hvad Apple gør

AFM 3 er en familie på fem modeller, ifølge Apple og VentureBeat: to på enheden og tre på servere i Apples Private Cloud Compute. Den mest markante er AFM 3 Core Advanced, en 20B-parameter model, hvor vægtene ligger i flash frem for DRAM. Apple kalder tilgangen Instruction-Following Pruning (IFP). Flash er lageret; DRAM er arbejdsfladen.

Modellen ruter ikke som en klassisk Mixture of Experts, der skifter eksperter for hvert token – det ville kræve konstant vægt-swap mellem flash og RAM i inferenshastighed. I stedet vælges eksperter én gang per prompt, de indlæses, og derefter genereres alle tokens med den konfiguration. VentureBeat citerer Awni Hannun for netop den forskel.

Sådan virker det i praksis

En lille router-model vurderer prompten og udpeger et sæt eksperter til opgaven. De hentes fra flash til DRAM sammen med fælleslag, hvorefter generationen kører. Den aktive parameter-mængde ligger typisk omkring 1–4 milliarder afhængigt af opgaven; resten bliver i flash.

Eksperter skiftes ikke løbende, fordi NAND→DRAM-båndbredde og latenser ikke kan følge token-for-token. Derfor prompt-baseret routing. Konsekvensen: første token kan være dyrere ved cold load, mens efterfølgende tokens går hurtigere, hvis de samme eksperter genbruges. Cache-hit-raten i RAM bliver derfor central – også for batteriet.

Banner

Server når det er svært

Apple holder samtidig en skyvej åben. De tre servermodeller kører i Private Cloud Compute – på Nvidia-GPU’er i Google Cloud, ifølge Apple og VentureBeat. Privatlivsdiskursen er tydelig, men de tunge workloads afvikles i Googles datacentre under Apples kontrolflade.

For enterprise betyder det adgang til stærkere reasoning og værktøjsbrug i skyen, uden at data forlader PCC-kapslen. Til gengæld følger leverandørkæde, aftaler og dokumentationskrav – især i det offentlige, hvor man skal kunne vise, hvor inferens kørte, og hvem der havde fysisk adgang til hvad.

Hands‑only: tekniker i servicevogn placerer et magnetisk peg på en statusstribe — et fysisk warm‑up ritual der symboliserer forudindlæsning af eksperter for at undgå cold loads.

Hvad det betyder for arkitekter

For danske arkitekter er dette en ny justerskrue. On-device kan bære større opgaver: lokal dokumentsammenfatning, semantisk søgning i offline kundedata, billetassistent i field-apps – og enkle agent-trin med lokale værktøjer. Ikke alt, men mere end før.

Latenstid først: forvent hurtige svar, når de rigtige eksperter allerede er varme i RAM. Cold loads koster. Planlæg derfor warm-up, forudindlæsning af ekspertsæt til de hyppigste opgaver, eller små forprompter, der guider routeren. Vi har set effekten i en feltapp hos en dansk kunde, hvor offline var afgørende: en lille bootstrap-procedure gjorde forskellen. Det er en workaround – men den virker.

Privatliv og governance

On-device beskytter data, medmindre man bevidst offloader. Kobles servermodeller på via Private Cloud Compute, starter governance-arbejdet: hvad logges hvor, hvordan revideres det, og kan routing-beslutninger dokumenteres per forespørgsel. Her er et hul: dokumentationen beskriver ikke tydeligt, hvornår enhedsforespørgsler skifter til sky, eller hvordan det eksponeres til udviklere.

For offentlige og regulerede organisationer kræver det synlige kontroller: en “no-offload”-tilstand i kritiske flows, eller revisionslog, der bekræfter lokal inferens og viser, hvad der eventuelt blev overført. Test det under realistisk belastning – ikke kun i demoer.

Omkostninger og TCO

Mindre cloud-trafik kan sænke driftsudgifter, men kompleksitet flytter til klienten: flere kodeveje, RAM-budgettering, I\/O-optimering, OTA-strategi for modelopdateringer samt test af varm\/kold-mønstre. Det koster tid – og måske hardware, hvis ældre enheder er begrænsede på flash-hastighed.

Lav en TCO over 12–36 måneder. Hvor ofte opdateres vægte? Hvor meget skrives til flash? Slid på NAND er en reel faktor, og Apple deler ikke konkrete write-endurance-tal i denne kontekst. Læg et konservativt budget og mål i pilot.

Nærbillede af en slidt magnet‑note ved et dispatchpanel: tegn på drift, rutine og behov for målbare pilotdata.

Hardware og OS-krav

Det er ikke plug-and-play. Prompt-routing kræver hurtig og stabil I\/O fra flash til RAM, hvilket forudsætter OS-integration og ofte driveroptimering til Apples silicon. Her har Apple en fordel. Spørgsmålet er, hvor meget tredjepartsapps kan bruge direkte, og hvad der kræver Apple-godkendelse eller specifikke SDK-rammer.

Dokumentationen beskriver arkitekturen, men ikke adgangslag, latency-SLA’er eller termiske budgetter i lange sessioner. Marco Abis peger også på manglende metrikker for energi, båndbredde og varme – netop de nøgletal, der afgør produktionsegnethed på device. Det er stadig åbent.

Drift i hverdagen

Når vægtene bor i flash, opstår nye driftsvalg: hvilke ekspertsæt caches i RAM, hvor længe, og hvornår de tømmes. Hurtige kontekstskift mellem opgaver med meget forskellige eksperter kan give UI-hak, hvis styringen er forkert.

Banner

I en dansk feltapp betød offline-krav, at batteri pludselig blev en produktbeslutning. Vi brugte kvantisering og distillation for at holde mest muligt lokalt, men savnede en klog prompt-router. Med AFM 3-tilgangen giver det mening at genbesøge designet – uden at love mirakler.

Migration og hybrid

Start smalt, hvis I vil prøve arkitekturen: én use case som dokumentklassificering eller en fokuseret chatassistent med kort kontekst. Mål latenstid ved cold og hot loads, og mål batteri over 24 timer. Log cache-hit-rater for eksperter, hvis Apple eksponerer det – ellers afled tal via latenstid og energiforbrug.

Næste trin er hybrid: lad en controller på enheden afgøre lokalt vs. sky efter tre parametre – datafølsomhed, latenstid, kompleksitet. En regel kan være: “Fagtermer og tabeludtræk køres lokalt; flertrins-reasoning med tool calls sendes til AFM 3 Cloud Pro.” Læg en økonomitærskel på serverkald, så månedsslutten ikke overrasker.

Modelops på kanten

Edge kræver disciplin. 4-bit kvantisering af udvalgte eksperter kan være forskellen mellem hot cache og konstant udskiftning. Distillation hjælper med at holde størrelsen nede til standardopgaver. Overvej en lokal LRU-cache af ekspertsæt baseret på teamets hyppigste prompts i arbejdstiden. Sæt telemetry på – ikke indhold, men timings for load, generate, evict.

OTA-strategi er nødvendig. Segmentér vægte, så hyppige opdateringer ikke skriver hele pakken. Planlæg vedligeholdsvinduer, især på ældre enheder. Test wear-leveling. Apple oplyser ikke den praktiske skriveomkostning ved hyppige ekspertopdateringer – mål det i pilot.

Begrænsninger og huller

Der mangler feltdata på NAND→DRAM-latenser i realistiske apps, og der er ingen klar metode til at forudsige eller inspicere routerens valg og eventuel offload til sky i logs. Vi mangler også indsigt i, hvor deterministisk ekspertvalget er under belastning for identiske prompts.

Det efterlader åbne spørgsmål efter en stor annoncering. Apple lover flere tekniske rapporter; indtil da bør enterprise-arkitekter validere i egne miljøer – med målinger, ikke slides.

Konkurrence og marked

Google har presset på on-device via NNAPI og Gemini Nano. NVIDIAs kant-stack står stærkt i industri og robotik, men telefoner er Apples hjemmebane. Hvis AFM 3 virker i praksis, rykker det forventningen til, hvad en telefon kan alene.

For danske indkøbere giver det en ny forhandlingsmulighed: mindre afhængighed af dyre server-SKU’er til standardopgaver – men også tættere binding til én OS-leverandørs metode. Notér, at servermodellerne kører på Nvidia-GPU’er i Google Cloud: fleksibel skalering, men flere led i leverandørkæden, der skal vurderes i risikomodellen.

Hvad man gør nu

Tre skridt i morgen: 1) Vælg en lille use case med høj dataværdi og klar offline-gevinst. 2) Byg en pilot, der logger cold\/hot expert loads, måler energi og tid, og tester en enkel warm-up. 3) Kør en 24-måneders TCO, der inkluderer kundesupport og OTA-vedligehold – ikke kun GPU-minutter.

En note fra et kundemøde i Odense, hvor kaffemaskinen lød som en traktor, står stadig: man forstår først forskellen, når man har det i hånden. AFM 3 ændrer rammebetingelserne for modellen. Resten er drift, målinger og stædighed.

Kildegrundlag og usikkerheder

De centrale tekniske påstande om DRAM-flaskehals, flash-lagring af vægte, prompt-routing og IFP stammer fra VentureBeat og bekræftes i Apples research-oversigt om AFM 3. Oplysninger om modelportefølje, samarbejde med Google og Private Cloud Compute stammer samme steder. Hvor tal mangler – write-endurance, præcise latenser under pres og synlighed af offload-beslutninger – markerer vi det som åbne spørgsmål, indtil Apple eller uafhængige tests leverer data.

Skulle kilderne senere divergere, opdaterer vi. Lige nu er billedet konsistent, men ufuldstændigt – hvilket er fint. Det tvinger til målinger i virkeligheden frem for gæt i præsentationer.

Kilder

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?