Snilld

Cohere Command A+ kan køre på to H100 — hvad betyder det for virksomheder?

Cohere lancerer Command A+, en open‑source 218B Sparse MoE‑model, som ifølge producenten kan køre agentiske enterprise‑workflows på så få som to H100‑GPU’er via aggressiv kvantisering. Vi gennemgår, hvad tallene betyder i drift, hvor faldgruberne ligger, og hvordan man tester uden at brænde budgettet.

22. maj 2026 Peter Munkholm

To H100 til en 218 milliarder parameters model lyder vovet. Cohere hævder, at Command A+ — deres nye open‑source MoE‑model under Apache 2.0 — kan drive agentiske workflows på så få som 2 H100 med W4A4‑kvantisering. 218B total, ca. 25B aktivt ved inference. 128K kontekst. Multimodal. Det rammer mange enterprise‑krav på én gang.

Timingen giver mening: agentiske brugsscenarier er på vej i drift, og balancen mellem performance og omkostning afgør udrulningstempoet. Hvis W4A4 bevarer kvaliteten, ændrer det budgetter; hvis ikke, er det blot støj. Her er arkitektur, kvantisering, driftskrav og de metrics, der reelt afgør, om det er værd at tage i produktion.

Hvad er Command A+ teknisk

<p

Command A+ er en dekoder‑only Sparse Mixture‑of‑Experts Transformer med 218 milliarder parametre, hvor omkring 25 milliarder er aktive per token ved inference. Der er 128 eksperter i alt; routeren vælger 8 per token. Dertil en delt ekspert, som alle tokens passerer. Det sænker compute, men kræver præcis routing for at holde kvaliteten. Ifølge den tekniske gennemgang trænes der dropless med token‑choice routing og en normaliseret sigmoid over top‑k logits per token (kilde: MarkTechPost’s opsamling af Cohere).

Attention‑laget er hybridt: sliding‑window attention med RoPE kombineret med globale attention‑lag uden positionelle embeddings i et 3:1‑mønster. Opgivet kontekstlængde er 128K tokens med mulighed for 64K generation. Det dækker de fleste dokumenttunge cases, vi ser i praksis.

Arkivhylde med anonymiserede indekskassetter og teknikernes hænder, tonet i indigo og cyan, der illustrerer RAG/retrieval og 128K kontekst i enterprise‑flows.

Hvor meget regnekraft kræver det i praksis

<p

Cohere beskriver tre kvantiseringsvarianter og mindstekrav: BF16 kræver 4× B200 eller 8× H100, FP8 kræver 2× B200 eller 4× H100, og W4A4 kan køre på 1× B200 eller 2× H100. Anbefalingen er W4A4 til de fleste udrulninger med “negligible” kvalitetstab. Det bør verificeres uafhængigt, før man baserer planer på det.

I en typisk on‑prem eller colocation‑opsætning betyder W4A4, at 80 GB H100’ere kan være tilstrækkelige, fordi kun eksperterne ligger i 4‑bit vægte og aktiveringer, mens attention‑stien holdes i højere præcision. Til gengæld får man blandet præcision på tværs af lag, hvilket kan udløse overhead i dtype‑konverteringer og memory‑fragmentering. Ikke bare en detalje — det kan mærkes på latensen under spidslast.

Kvantiseringstricket

<p

Kernen i tilgangen er NVFP4 W4A4 på eksperterne alene. Vægte og aktiveringer kvantiseres til 4‑bit med to‑niveau skalering. Q\/K\/V\/O‑projektioner, KV‑cache og selve attention‑beregninger holdes i højere præcision. Man trykker den største hukommelsesbyrde ned og bevarer den følsomme attention‑vej skarp.

Banner

For at bevare kvaliteten bruger de Quantization‑Aware Distillation i post‑træningen: en kvantiseret elev matcher en fuldpræcisions lærer via fake‑quant i fremadpasset og straight‑through estimators bagud. Fornuftig metode — men vi mangler stadig offentlig kode og scripts, der gør effekten reproducerbar uden for Cohere’s egen pipeline.

Hvad kan modellen gøre

<p

Command A+ håndterer tekst, billede og tool‑use på input og leverer tekst, “reasoning” og tool‑use ud. Relevante enterprise‑scenarier: RAG over store filsystemer, automatiserede runbooks, spreadsheet‑analyse og multimodal dokumentforståelse. I praksis: sagsbehandling med bilag (pdf+fotos), change‑requests mod tidligere mødenoter, og en assistent der kalder interne API’er undervejs.

Vi har set de mønstre i Snilld, bl.a. i en prototype hvor en agent fandt afvigelser i lageroptællinger ved at kombinere kameraplans billeder og Excel‑udtræk. En detalje jeg stadig husker: det gamle serverrum i Bagsværd, den svagt brummende blæser, mens latensen faldt efter at vi klippede antallet af eksterne tool‑hop ned. Småt, men mærkbart.

Tekniker pinner anonymiserede ekspert‑moduler på samme GPU‑enhed for at undgå cross‑device jitter — et procesøjeblik i drift, tonet i indigo/cyan.

Performance vs løfter

<p

Cohere rapporterer store spring: på τ²‑Bench Telecom fra 37 til 85 procent vs Command A Reasoning, Terminal‑Bench Hard fra 3 til 25 procent, og interne North‑målinger med plusser på agentisk QA, spreadsheet og “memory usage quality”. De nævner også latenstidsforbedringer og højere tokens‑per‑sekund ved samme kvantisering samt 1.5–1.6× speedup fra spekulativ dekodning.

Metoden skal dog kaldes: mange scores er LLM‑as‑a‑judge. Det er udbredt, men følsomt for promptvalg og dommerbias. Uafhængige benchmarks mangler pr. skrivende stund. Til drift tæller især p50\/p90\/p99‑latens, tokens pr. krone og fejlrate ved tool‑kald. De tal er endnu ikke offentlige.

Infrastruktur og krav i drift

<p

Tre konsekvenser rammer først. Ét, kapacitet og køling: to H100 kan være nok til start, men varme og strøm i et ældre rack er ikke trivielt. Tjek PSU‑loft og luftflow, og planlæg headroom — agentiske flows kan spike, især ved multimodal parse og lange kontekster.

To, CI\/CD for modeller: med QAD og flere kvantiseringsvarianter får I reelt flere artefakter at versionere. Kræv en model‑pipeline med klar variant‑tagging, eval‑suite pr. variant og canary‑rulning med automatisk rollback på definerede metrik‑brud. I en hybrid drift så vi en FP8‑gren give 6 procent dårligere styring af tool‑kald; det tog en weekend at isolere årsagen — præcis derfor skal eval og rollback være automatiseret.

Sikkerhed og governance

<p

Tre, værktøjsadgang. Agentiske systemer uden stram styring bliver hurtigt kreative på den forkerte måde. Sæt API‑scopes lavt, hold audit‑spor i CloudWatch eller tilsvarende, og opret en “human‑in‑the‑loop” gate for handlinger der ændrer tilstand: “delete”, “scale down”, “approve payout”. AWS’ seneste eksempler med Bedrock AgentCore og MCP‑servere viser en brugbar vej med IAM‑kontrol og logning, men I skal stadig lave en tydelig tilladelsesmodel pr. værktøj.

128K kontekst gør on‑prem behandling af store dokumenter realistisk — godt for datalokation. Men retention‑politikker skal følge med: Hvem må læse prompt‑logge, hvor længe, og hvornår pseudonymiserer vi? I en kundesession i sidste uge gled en juridisk note ind i systemprompten. Det blev heldigvis fanget — og det bør jeres logs også gøre.

Makro af PSU‑område og termiske hotspots med et diskret 4‑bit 'grid' overlay i cyan og indigo — symboliserer kvantisering, hukommelses- og varme‑tradeoffs.

Hvad vi ville bygge først

<p

Hvis vi skulle prototype Command A+ i morgen, kørte vi en hybrid: modelserver tæt på data, RAG med vektorindeks og metadatafiltre, et tyndt prompt‑lag med tool‑routing, og overvågning på tre niveauer: model, tools og brugerflow. Fallback til en mindre, billig model for hurtige Q&A og højt træf.

Banner

I en anonymiseret produktionstest måtte agenten kun kalde tre værktøjer i første sprint: fil‑søgningsproxy, spreadsheet‑parser og et internt ticket‑API. Mem‑fragmentering på MoE‑eksperter var største bøvlkilde. Vi endte med at pinne visse eksperter på samme enhed for at undgå cross‑device jitter. Det kostede lidt throughput, men reddede p95‑latensen.

Risici og åbne spørgsmål

<p

Licens: MarkTechPost og Cohere’s blog omtaler Apache 2.0. Vi vil se repo’et før vi kalder den helt hjemme. Næst, reproducérbarhed af kvantisering: NVFP4 W4A4 med to‑niveau skalering lyder plausibelt, men detaljeret implementering og referencemålinger uden for Cohere’s pipeline mangler.

Hardware: To H100 kan være nok i W4A4, men hvad er tokens\/s ved 128K kontekst, tool‑kald hvert tredje turn og 8 aktive eksperter? Vi savner grafer for TTFT og steady‑state under samtidighed. Og endelig, bias og utilsigtede handlinger: agentisk adgang kræver sandkasser, rate‑limits og “deny by default”. Det er drift, ikke pynt.

Benchmark det der betyder noget

<p

I et proof‑of‑concept: mål p50\/p95 TTFT og tokens\/s pr. kvantisering, fejlrate på tool‑kald (forkert API, forkert scope), hallucinationsrate under RAG ved 10K og 100K kontekst samt cost pr. 1.000 output‑tokens i realistiske flows. Sammenlign W4A4 mod FP8 side‑om‑side på jeres egne dokumenter — ikke kun åbne benchmarks.

Definér succes før testen. Fx “p95 TTFT under 700 ms ved 4 samtidige sessions”, “max 2 procent forkerte tool‑kald i sandbox” og “min 20 procent tidsbesparelse i runbook‑eksekvering”. Læg et lille bufferbudget til at tæmme memory. Det sker. Vi har endnu ikke set en udrulning uden et par overraskelser her.

Hvad betyder det for regnestykket

<p

Hvis W4A4 leverer næsten samme kvalitet, falder indstigningsomkostningen markant: 2× H100 frem for 4–8×. Det kan være forskellen mellem et pilotprojekt og en evig plan. Men blandet præcision gør fejlsøgning dyrere og driften mere krævende. Reelt flytter man noget CapEx til OpEx i form af SRE‑timer og mere instrumentering. Det er en anden kurve, ikke nødvendigvis en dårligere.

På latency og throughput er billedet blandet. Kvantisering af eksperter alene sparer hukommelse, men medfører flere konverteringer i inferencestien. I agentiske flows med mange korte kald og hyppige værktøjsskift kan små overheads akkumulere. Her vinder en enkel tool‑router og færre hop ofte over “smartere” kernegenerering.

Vores vurdering lige nu

<p

Command A+ er lovende til dokumenttunge, værktøjstunge arbejdsgange — især hvor høj kontekst og multimodalitet er krav. MoE‑valg har givet pæne gevinster i PoC, men også ekstra sprints på stabilisering. Gå ind med smalt scope, skarp måling og korte læringssløjfer. Og hav en lille model ved siden af til trivielle opgaver og fallback.

En lille observation fra virkeligheden: den første dag modellen fik lov at skrive i et ticketsystem, skrev den en titel på 184 tegn. Ingen katastrofe, bare et klart signal om, at governance er software — ikke kun en PDF.

Bilag og kilder

<p

Primært baseret på Cohere’s egen udmelding og den tekniske gennemgang hos MarkTechPost. Vi holder øje med NVIDIA’s dokumentation for H100\/B200 for at tjekke memory‑budgetter og kvantiseringers realisme. AWS’ blog om MCP\/Bedrock er nyttig som reference for værktøjsstyring. Der mangler uafhængige benchmarks og et offentligt repo; når det lander, bør tallene gentestes i åbne eval‑scripts.

Praktisk note til sidst: forskellen mærkes først, når man kører det på egne workloads.

Teknisk appendiks

<ul

  • Arkitektur: 218B total, ~25B aktivt ved inference, 128 eksperter, 8 aktive per token, delt ekspert, dekoder‑only, 128K input, 64K generation. Kilde: MarkTechPost opsamling af Cohere.
  • Attention: sliding‑window med RoPE og globale lag uden positionelle embeddings i 3:1‑forhold. Kilde: samme.
  • Kvantisering: BF16 4× B200 eller 8× H100, FP8 2× B200 eller 4× H100, W4A4 1× B200 eller 2× H100. W4A4 på MoE‑eksperter, attention i højere præcision; QAD i post‑træning. Kilde: samme.
  • Licens: Apache 2.0 er oplyst i artiklerne. Verificér i Cohere’s repo\/blog, når artefakter er offentlige.

Kilder

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?