Google og MediaTek bringer LLMs til edge
Google har netop lanceret LiteRT NeuroPilot Accelerator i samarbejde med MediaTek. Det er første gang, at MediaTeks NPUs bliver “førsteklasses” mål for avancerede sprogmodeller (LLMs) direkte på edge-enheder som smartphones og IoT-hardware. Det betyder, at udviklere nu kan køre store sprogmodeller lokalt på enheder uden at sende data til skyen – et markant skridt for både privatliv, ydeevne og compliance.

Hvorfor betyder det noget?
At køre LLMs på mobile enheder har været en teknisk udfordring. Tidligere har fragmenterede NPU-løsninger og komplekse udviklingsmiljøer gjort det svært at udnytte hardware-accelerationen effektivt. Det har ført til ineffektiv kode, høj latency og ofte kompromitteret privacy, fordi data skulle sendes til eksterne servere. Med den nye integration får udviklere en ensartet platform, hvor privacy, lav latenstid og regulatorisk compliance kan løftes til et nyt niveau.
LiteRT og NeuroPilot: Teknisk overblik
LiteRT er arvtageren til TensorFlow Lite og fungerer som et unified runtime, der kan køre modeller i .tflite-format på tværs af CPU, GPU og nu også NPU via én samlet hardware-accelerationslag. LiteRT NeuroPilot Accelerator integrerer direkte med MediaTeks NeuroPilot NPU-stack og understøtter SoCs som Dimensity 7300, 8300, 9000, 9200, 9300 og 9400. Dermed dækker løsningen både mellemklasse og topmodeller på Android-markedet.
Unified workflow: Udvikleroplevelsen forenkles
Historisk har ML på edge været præget af fragmenterede toolchains, hvor hver chip krævede sin egen SDK og kompilationsflow. LiteRT NeuroPilot Accelerator samler det hele i ét workflow:
- Model konverteres eller loades som .tflite.
- AOT-kompilering (Ahead-Of-Time) kan køres med LiteRT Python tools for at producere en AI Pack til specifikke SoCs.
- Deployment sker via Play for On-device AI, hvor Accelerator.NPU vælges ved runtime. LiteRT håndterer fallback til GPU/CPU hvis NPU ikke er tilgængelig.
For udviklere betyder det, at kodebasen bliver simplere, og device-targeting flyttes til konfigurationsfiler og Play delivery.

Performance: Hvad kan vi forvente?
Benchmarks viser, at på en Dimensity 9500 NPU kan Gemma-3n E2B modellen nå over 1600 tokens pr. sekund i prefill og 28 tokens pr. sekund i decode ved 4K kontekst. Det svarer til op til 12 gange hurtigere end CPU og 10 gange hurtigere end GPU for LLM workloads. AOT-kompilering anbefales til større modeller, da on-device compilation kan tage over et minut for fx Gemma-3-270M.

Eksempler og kode: Sådan kommer du i gang
LiteRTs nye C++ API gør det muligt at loade modeller, vælge hardware-acceleration og køre inferens med få linjer kode. Eksempel:
auto model = Model::CreateFromFile("model.tflite");
auto options = Options::Create();
options->SetHardwareAccelerators(kLiteRtHwAcceleratorNpu);
auto compiled = CompiledModel::Create(*env, *model, *options);
auto input_buffers = compiled->CreateInputBuffers();
auto output_buffers = compiled->CreateOutputBuffers();
input_buffers[0].Write(input_span);
compiled->Run(input_buffers, output_buffers);
output_buffers[0].Read(output_span);
Fallback til GPU/CPU sker automatisk, og integrationen med Androids AHardwareBuffer muliggør zero-copy fra fx OpenGL, hvilket er vigtigt for realtidsvideo og billedbehandling.
Forretningsmæssige fordele og use cases
Med LLMs direkte på edge-enheder kan virksomheder i fx healthtech og fintech sikre, at følsomme data aldrig forlader enheden. Det reducerer både latency og risiko for databrud, og gør det lettere at overholde GDPR og andre regulatoriske krav. Use cases inkluderer realtidsoversættelse, semantisk søgning, klassifikation og kontekstuel assistentfunktionalitet – alt sammen uden cloud-afhængighed.

Sammenligning og kendte faldgruber
LiteRT adskiller sig fra alternativer ved at tilbyde en unified API og workflow på tværs af hardware. Andre frameworks kræver ofte vendor-specifik kode og manuelle tilpasninger. Begrænsninger inkluderer, at AOT-kompilering kræver kendskab til mål-SoC på forhånd, og at migrering fra ældre TFLite-delegates kan kræve tilpasning af eksisterende kode. Erfaringer fra open source-miljøet peger dog på, at migreringsværktøjer og dokumentation er i hastig udvikling.
Forskning og fremtidsperspektiver
Stacken er åben for tilpasning og udvidelse, og Google/MediaTek har lagt vægt på support for open weight-modeller som Gemma, Qwen og EmbeddingGemma. Det åbner for eksperimentelle use cases og edge AI-forskning, hvor man kan teste multimodale modeller og nye optimeringer direkte på enhederne.
Konklusion og anbefalinger
Virksomheder og udviklere, der arbejder med mobile eller IoT-løsninger, bør overveje at migrere til LiteRT NeuroPilot Accelerator, hvis de ønsker at udnytte NPUs fuldt ud til LLMs og embeddings. Gevinsterne er markante på privacy, latency og compliance, men kræver en vis investering i opdatering af workflow og kodebase. For mere information, se den officielle dokumentation, tutorials og community-fora – og kontakt gerne Snilld for rådgivning om migrering og best practices.
Kilder:
- https://www.marktechpost.com/2025/12/09/google-litert-neuropilot-stack-turns-mediatek-dimensity-npus-into-first-class-targets-for-on-device-llms/
- https://developers.googleblog.com/mediatek-npu-and-litert-powering-the-next-generation-of-on-device-ai/
- https://en.wikipedia.org/wiki/List_of_MediaTek_systems_on_chips
- https://ai.google.dev/edge/litert/android
- https://developers.googleblog.com/mediatek-npu-and-litert-powering-the-next-generation-of-on-device-ai/
- https://developers.googleblog.com/mediatek-npu-and-litert-powering-the-next-generation-of-on-device-ai/
Målgruppens mening om artiklen
Anders, CTO i HealthTech scaleup:
Jeg giver artiklen 92. Den er ekstremt relevant for vores arbejde med følsomme sundhedsdata på mobile enheder. Muligheden for at køre LLMs lokalt uden cloud er et kæmpe skridt ift. compliance og privacy. Artiklen er teknisk grundig, og jeg sætter pris på de konkrete eksempler og performance benchmarks. Jeg savner dog lidt mere om, hvordan migreringen fra eksisterende løsninger konkret håndteres.
Maria, ML-udvikler i fintech-startup:
Jeg giver den 85. Det er spændende at se unified workflow og hardware-acceleration på edge, især for GDPR og lav latency. Jeg synes dog, artiklen er lidt for overfladisk på de praktiske udfordringer ved AOT-kompilering og migrering fra TFLite. Men alt i alt meget relevant for vores use cases.
Jonas, Android-udvikler i IoT-virksomhed:
Jeg giver den 95. Endelig ser vi en løsning, der gør det lettere at targette flere SoCs uden at drukne i vendor-specifik kode. Jeg kan bruge de konkrete kodeeksempler direkte. Det eneste, jeg savner, er lidt mere om integration med eksisterende Android toolchains.
Sarah, AI-forsker på universitet:
Jeg giver den 88. Artiklen dækker både tekniske detaljer og fremtidsperspektiver, hvilket er vigtigt for forskningsmiljøet. Det er fedt at se fokus på open weight-modeller og eksperimentelle use cases. Jeg kunne dog godt tænke mig mere om, hvordan LiteRT adskiller sig fra alternativer som ONNX på edge.
Peter, CIO i storbank:
Jeg giver den 80. Det er relevant ift. compliance og privacy, men artiklen er meget teknisk og kunne godt have haft et afsnit om forretningsmæssige risici og TCO ved migrering. Men den rammer plet på vigtigheden af at holde data lokalt.
*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.
Billederne i artiklen er lavet af FLUX.1.1 Pro fra Black Forest Labs.
Book Din AI-Booster Samtale
– Ingen Tekniske Forudsætninger Påkrævet!
Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.
I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.
Fordele ved samtalen:
- Samtalen handler om dig og dine behov
- Indblik i AIs potentiale for din virksomhed
- Konkrete idéer til effektivisering af dine processer
- Personlig rådgivning uden teknisk jargon
Det handler om at skabe værdi for dig