Snilld

Google og MediaTek giver dig store sprogmodeller på mobilen uden forsinkelse og uden datalækager

Google og MediaTek gør det nu muligt at køre avancerede LLMs direkte på edge-enheder med LiteRT NeuroPilot Accelerator. Artiklen dækker tekniske detaljer, performance, konkrete use cases og hvordan udviklere og virksomheder kan drage fordel af den nye stack.

10. december 2025 Peter Munkholm

Google og MediaTek bringer LLMs til edge

Google har netop lanceret LiteRT NeuroPilot Accelerator i samarbejde med MediaTek. Det er første gang, at MediaTeks NPUs bliver “førsteklasses” mål for avancerede sprogmodeller (LLMs) direkte på edge-enheder som smartphones og IoT-hardware. Det betyder, at udviklere nu kan køre store sprogmodeller lokalt på enheder uden at sende data til skyen – et markant skridt for både privatliv, ydeevne og compliance.

Et realistisk og dokumentaristisk billede, der visualiserer den teknologiske fremtid for edge-enheder uden at vise mennesker direkte, kunne centrere sig om en nærbillede af en avanceret IoT- eller mobil enhed, der repræsenterer den nye MediaTek NPUs og LiteRT-NeuroPilot integration. En illustration af en kompakt, futuristisk smart device fra siden, hvor den øverste del viser et subtilt, blødt LED-mønster, der skifter farve i takt med operationerne, samt små antydninger af mikrochips og kredsløb, der antyder høj teknologi. Billedet skal fremhæve enhedens slanke, moderne design, integritet i udformningen, samt de bløde linjer, der værner om en æstetik af robusthed og diskret kraft, alt sammen i et veritabelt miljø, der minder om et high-tech laboratoriemiljø eller en industriel produktionslinje, uden mærkelige sci-fi-elementer, men med en realistisk, teknisk præcis vibe, som fremhæver edge computing i praksis. Baggrunden kan bestå af subtile refleksioner og bløde, diffust lys, der leder fokus mod den centrale

Hvorfor betyder det noget?

At køre LLMs på mobile enheder har været en teknisk udfordring. Tidligere har fragmenterede NPU-løsninger og komplekse udviklingsmiljøer gjort det svært at udnytte hardware-accelerationen effektivt. Det har ført til ineffektiv kode, høj latency og ofte kompromitteret privacy, fordi data skulle sendes til eksterne servere. Med den nye integration får udviklere en ensartet platform, hvor privacy, lav latenstid og regulatorisk compliance kan løftes til et nyt niveau.

LiteRT og NeuroPilot: Teknisk overblik

LiteRT er arvtageren til TensorFlow Lite og fungerer som et unified runtime, der kan køre modeller i .tflite-format på tværs af CPU, GPU og nu også NPU via én samlet hardware-accelerationslag. LiteRT NeuroPilot Accelerator integrerer direkte med MediaTeks NeuroPilot NPU-stack og understøtter SoCs som Dimensity 7300, 8300, 9000, 9200, 9300 og 9400. Dermed dækker løsningen både mellemklasse og topmodeller på Android-markedet.

Unified workflow: Udvikleroplevelsen forenkles

Historisk har ML på edge været præget af fragmenterede toolchains, hvor hver chip krævede sin egen SDK og kompilationsflow. LiteRT NeuroPilot Accelerator samler det hele i ét workflow:

  • Model konverteres eller loades som .tflite.
  • AOT-kompilering (Ahead-Of-Time) kan køres med LiteRT Python tools for at producere en AI Pack til specifikke SoCs.
  • Deployment sker via Play for On-device AI, hvor Accelerator.NPU vælges ved runtime. LiteRT håndterer fallback til GPU/CPU hvis NPU ikke er tilgængelig.

For udviklere betyder det, at kodebasen bliver simplere, og device-targeting flyttes til konfigurationsfiler og Play delivery.

Et kraftfuldt og realistisk billede, der visualiserer den nye teknologi i et nutidigt miljø, kan være en nærbillede af en moderne smartphone, som er placeret på et velordnet bord i et minimalistisk, futuristisk designet laboratorie. Telefonen viser en skærm med en kompleks, dynamisk grafisk animation af en AI-model i drift, hvor data visualiseres gennem fine streger og pulserende punkter, der antyder realtidsberegninger uden at menneskelige personer er synlige. Over telefonen svæver subtile, blå LED-linjer, der er integreret i miljøets belysning, og symboliserer hardwareacceleration og dataflow. Den bagvedliggende overflade er præget af matte, neutrale materialer, der afspejler den teknologiske præcision, samtidig med at lyset fra en blød, indirekte lyskilde understreger detaljer i enheden og dens ydre design. Dette scene er en dokumentaristisk genrefortælling, hvor fokus er på den hardware- og software-integration, der muliggør kørende LLMs på edge-enheder. Det illustrerer, hvordan avanceret A

Performance: Hvad kan vi forvente?

Benchmarks viser, at på en Dimensity 9500 NPU kan Gemma-3n E2B modellen nå over 1600 tokens pr. sekund i prefill og 28 tokens pr. sekund i decode ved 4K kontekst. Det svarer til op til 12 gange hurtigere end CPU og 10 gange hurtigere end GPU for LLM workloads. AOT-kompilering anbefales til større modeller, da on-device compilation kan tage over et minut for fx Gemma-3-270M.

Banner

Eksempler og kode: Sådan kommer du i gang

LiteRTs nye C++ API gør det muligt at loade modeller, vælge hardware-acceleration og køre inferens med få linjer kode. Eksempel:

auto model = Model::CreateFromFile("model.tflite");
auto options = Options::Create();
options->SetHardwareAccelerators(kLiteRtHwAcceleratorNpu);
auto compiled = CompiledModel::Create(*env, *model, *options);
auto input_buffers = compiled->CreateInputBuffers();
auto output_buffers = compiled->CreateOutputBuffers();
input_buffers[0].Write(input_span);
compiled->Run(input_buffers, output_buffers);
output_buffers[0].Read(output_span);

Fallback til GPU/CPU sker automatisk, og integrationen med Androids AHardwareBuffer muliggør zero-copy fra fx OpenGL, hvilket er vigtigt for realtidsvideo og billedbehandling.

Forretningsmæssige fordele og use cases

Med LLMs direkte på edge-enheder kan virksomheder i fx healthtech og fintech sikre, at følsomme data aldrig forlader enheden. Det reducerer både latency og risiko for databrud, og gør det lettere at overholde GDPR og andre regulatoriske krav. Use cases inkluderer realtidsoversættelse, semantisk søgning, klassifikation og kontekstuel assistentfunktionalitet – alt sammen uden cloud-afhængighed.

Et realistisk og dokumentaristisk billede, der illustrerer implementeringen af edge-Large Language Models gennem Google og MediaTeks samarbejde, kunne forestille sådan en scene: En moderne, stilfuld fabrikshal eller testmiljø, med en række avancerede, slanke IoT-enheder og smartphones, der er spredt ud over et arbejdsbord eller en åben platform. På en væg bagved er en stor, tydelig LED-skærm eller displaysystem, der viser komplekse grafer og datavisualiseringer – symboliserende den lokale, powerful AI-behandling uden behov for skyen. I dette miljø er de tekniske enheder indlejret i en lagrings- og gøre-det-selv-opsætning, hvor små, elegante chips og NPUs er synlige, men uden at fokusere på personer, hvilket fremhæver den praktiske anvendelse af teknologien i en hverdags- eller produktionssetting. Lyset er naturligt med en blød, industriel glød, hvilket fremhæver den subtile kompleksitet og kraften i den lokale AI. I baggrunden kan der ses en arbejdsstation med nogle åbne notebooks, der dokumenterer udvikling

Sammenligning og kendte faldgruber

LiteRT adskiller sig fra alternativer ved at tilbyde en unified API og workflow på tværs af hardware. Andre frameworks kræver ofte vendor-specifik kode og manuelle tilpasninger. Begrænsninger inkluderer, at AOT-kompilering kræver kendskab til mål-SoC på forhånd, og at migrering fra ældre TFLite-delegates kan kræve tilpasning af eksisterende kode. Erfaringer fra open source-miljøet peger dog på, at migreringsværktøjer og dokumentation er i hastig udvikling.

Forskning og fremtidsperspektiver

Stacken er åben for tilpasning og udvidelse, og Google/MediaTek har lagt vægt på support for open weight-modeller som Gemma, Qwen og EmbeddingGemma. Det åbner for eksperimentelle use cases og edge AI-forskning, hvor man kan teste multimodale modeller og nye optimeringer direkte på enhederne.

Konklusion og anbefalinger

Virksomheder og udviklere, der arbejder med mobile eller IoT-løsninger, bør overveje at migrere til LiteRT NeuroPilot Accelerator, hvis de ønsker at udnytte NPUs fuldt ud til LLMs og embeddings. Gevinsterne er markante på privacy, latency og compliance, men kræver en vis investering i opdatering af workflow og kodebase. For mere information, se den officielle dokumentation, tutorials og community-fora – og kontakt gerne Snilld for rådgivning om migrering og best practices.

Kilder:

 

Målgruppens mening om artiklen

Anders, CTO i HealthTech scaleup:

Jeg giver artiklen 92. Den er ekstremt relevant for vores arbejde med følsomme sundhedsdata på mobile enheder. Muligheden for at køre LLMs lokalt uden cloud er et kæmpe skridt ift. compliance og privacy. Artiklen er teknisk grundig, og jeg sætter pris på de konkrete eksempler og performance benchmarks. Jeg savner dog lidt mere om, hvordan migreringen fra eksisterende løsninger konkret håndteres.

Maria, ML-udvikler i fintech-startup:

Jeg giver den 85. Det er spændende at se unified workflow og hardware-acceleration på edge, især for GDPR og lav latency. Jeg synes dog, artiklen er lidt for overfladisk på de praktiske udfordringer ved AOT-kompilering og migrering fra TFLite. Men alt i alt meget relevant for vores use cases.

Jonas, Android-udvikler i IoT-virksomhed:

Jeg giver den 95. Endelig ser vi en løsning, der gør det lettere at targette flere SoCs uden at drukne i vendor-specifik kode. Jeg kan bruge de konkrete kodeeksempler direkte. Det eneste, jeg savner, er lidt mere om integration med eksisterende Android toolchains.

Sarah, AI-forsker på universitet:

Jeg giver den 88. Artiklen dækker både tekniske detaljer og fremtidsperspektiver, hvilket er vigtigt for forskningsmiljøet. Det er fedt at se fokus på open weight-modeller og eksperimentelle use cases. Jeg kunne dog godt tænke mig mere om, hvordan LiteRT adskiller sig fra alternativer som ONNX på edge.

Peter, CIO i storbank:

Jeg giver den 80. Det er relevant ift. compliance og privacy, men artiklen er meget teknisk og kunne godt have haft et afsnit om forretningsmæssige risici og TCO ved migrering. Men den rammer plet på vigtigheden af at holde data lokalt.









*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.

Billederne i artiklen er lavet af FLUX.1.1 Pro fra Black Forest Labs.








Book Din AI-Booster Samtale






– Ingen Tekniske Forudsætninger Påkrævet!

Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.

I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.

Fordele ved samtalen:

  • Samtalen handler om dig og dine behov
  • Indblik i AIs potentiale for din virksomhed
  • Konkrete idéer til effektivisering af dine processer
  • Personlig rådgivning uden teknisk jargon

Det handler om at skabe værdi for dig





    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?