Corti melder sig ind i kapløbet om klinisk talegenkendelse med Symphony for Speech-to-Text. Ifølge virksomhedens eget evalueringsmateriale, gengivet af VentureBeat, rammer modellen 1,4% word error rate på engelsk medicinsk terminologi. Samme test opgiver 17,7% for OpenAI’s tale, 18,1% for ElevenLabs, 17,4% for Whisper og 18,9% for Parakeet. Det er en stor forskel på papir. Hvis det holder, er vi ovre i praktisk anvendelighed – ikke bare pæne demoer.
Pointen er enkel nok: specialiserede modeller kan slå de brede. Især når domænet er smalt, terminologien sær og konsekvensen af fejl høj. Sundhedsvæsenet, med alt dets akronymer, doser og forkortelser, er netop sådan et sted.
Hvad er Symphony for Speech-to-Text?
Symphony beskrives som klinisk-grade talegenkendelse til real-time diktering, samtale-transkription og batch-behandling. Altså både lægen der dikterer direkte i journalen, hele konsultationer der optages og konverteres, og store lydmængder der processeres i baghånd. Corti positionerer det som en produktionsklar API bygget til kliniske workflows: ikke en “one-size for alt”-motor, men et værktøj, der forstår medicinske begreber, en travl skadestue og de små tal der afgør, om en dosis er rigtig eller farlig.
På Cortis eget site indgår Symphony i en bredere platform, der også favner medicinsk kodning og tekstgenerering. Løftet om strukturerede, klinisk brugbare outputs direkte fra API’et er særligt interessant – ikke kun rå tekst.
Hvordan måler Corti det?
WER, eller word error rate, er standardmålet for talegenkendelse: indsætninger, sletninger og substitutioner divideret med antal ord. 1,4% er meget lavt på et snævert domæne, og resultatet er – igen, ifølge Corti via VentureBeat – målt specifikt på engelsk medicinsk terminologi. De generelle modeller lander i 17–19% i samme opsætning. Det er også herfra, at påstanden om op til 93% reduktion i WER stammer.
Men sæt en stjerne i margen: Vi har endnu ikke set det fulde evalueringsdataset, hverken antal timer, variation i dialekter, roller (læge, sygeplejerske, patient), baggrundsstøj eller grad af specialjargon. Der er ikke publiceret uafhængig replikation. Tallene er stærke – men de er Cortis egne.
Hvorfor betyder det noget i klinisk praksis?

Fordi fejl i transskriptioner ikke bare er kosmetik. De kan være dyre, tidskrævende og i værste fald farlige. Hvis “metoprolol 50 mg” bliver til “metoprolol 5 mg”, skal nogen opdage det, rette det og måske forklare sig. Vi har siddet i et mødelokale i en dansk akutmodtagelse, hvor en sygeplejerske rullede med øjnene over et system, der konsekvent hørte “hypo” som “hyper”. Den slags små bytter.
I vores feltarbejde har vi set, at selv lave WER-tal kan skjule præcis de fejl, man ikke må lave. Lokale forkortelser, halvudtalte lægemiddelnavne, pauser midt i et ciffer. En transskriptionsfejl der slipper igennem, kan forurene efterfølgende AI-beslutning: strukturering, kodning, beslutningsstøtte. Kæden er ikke stærkere end det svageste led. Og transskriptionen er tidligt i kæden.
Agentiske assistenter kræver renere input
I takt med at kliniske assistenter får mere at sige – foreslår diagnoser, klikker i EHR, genererer noter – stiger prisen på et enkelt mis-hørt ord. En fejl i input sætter spor gennem hele forløbet. Så lav WER er ikke bare nice to have. Det er et grundkrav, før man tør lade assistenter udføre handlinger i systemerne.
Her er specialisering et reelt es: en model der kender medicinlister, måleenheder og typiske samtalemønstre, laver færre dumme fejl. Ikke nul. Færre. Det er forskellen på at spare tid og at åbne en ny supportkø. Vi har selv testet generelle tale-API’er i et PoC for en dansk klinik. De klarede sig fint i stille konsultationer, men tabte pusten til baggrundsstøj og lokale forkortelser i aftenambulatoriet. Symphony lover at holde linjen netop dér.

Implementeringskrav og faldgruber
Integration er det første bump. Symphony skal kobles til EHR via API, og det betyder mappede felter: medicinnavne, doser, diagnoser, koder som ICD-10 og ydelseskoder. Vælg mellem real-time eller batch. Real-time kræver lav latenstid og robusthed ved driftstop. Batch er billigere i spidsbelastning, men langsommere og kræver tydelige arbejdsgange for efterredigering.
Databeskyttelse er næste. Hvor hostes data? EU eller USA. Kryptering i transit og i hvile, logning, audit, og mulighed for at slette spor præcist efter Patientjournallovens krav. Vi har været igennem for mange DPA’er, hvor noget så simpelt som retention ikke var eksplicit. Det betaler sig at tage den snak før piloten starter, ikke efter.
Latency, støj og akronymer i virkeligheden
På gulvet betyder latenstid alt. En læge der dikterer i realtid, accepterer ikke flere sekunders forsinkelse, slet ikke hvis systemet samtidig gætter på forkortelser. Akutmiljøer har støj, overlappende tale, viskere, skannere der piber. Det er banalt at skrive, men svært at løse. Her bør kravene være konkrete: end-to-end latenstid under X ms i 95-percentilen, og målinger i netop jeres lydmiljø.
Akronymer. Alle afdelinger har deres. Nogle er ældre end EPJ. En lav WER på standardsprog hjælper ikke, hvis en afdeling konsekvent siger “KAD” på én måde og nabohospitalet en anden. Løsningen er trivial i teorien – tilpasning og løbende træning – men kræver proces og ansvar i praksis. Hvem godkender ordlister? Hvor hurtigt kan man rulle ændringer ud?
Hvad Corti selv siger
I interview med VentureBeat siger CEO Andreas Cleve, at målet er tillid. Læger, klinikere, patienter – hele systemet, som han formulerer det – skal kunne stole på AI-scribes. Det passer til positioneringen af Symphony som produktions-API til kliniske workflows. Den røde tråd er, at specialisering slår generalister, når regler, ansvar og jargon fylder så meget som i sundhed.
Corti fremhæver også, at Symphony kan levere struktureret output – ikke bare tekst, men kliniske entiteter som doser, målinger og datoer. VentureBeat gengiver en recall på 98,3% for formaterede kliniske entiteter i Cortis egne benchmarks, mod 44,3% for den bedste generelle baseline. Hvis det holder i praksis, er det faktisk større end WER-forskellen. For downstream-systemer er strukturen guld.

Begrænsninger og kritiske spørgsmål
Der mangler uafhængig validering. Vi vil gerne se datasammensætning, antal timer, rollefordeling, støjprofiler, accenter og dialekter. Også hvordan modellerne er tunet. Det er ikke for at være vrangvillige, men fordi benchmarks har en tendens til at ligne det, de måler på. Og så snart man lander i en dansk klinik, skifter alt: sprog, udtale, forkortelser, workflow.
Økonomi og licenser er også et åbent felt. Hvad koster det per minut eller per million tegn? Hvad er marginalprisen når en afdeling skalerer? Hvordan står det mod store udbydere i et reelt driftsbudget? Ingen magi her. Hvis tidsgevinsten ikke er tydelig, dør projektet i driften, uanset hvor flot en WER-sløjfe man kan binde om det.

Konsekvenser for leverandører og hospitaler
For CIO’er og kliniske chefer er opgaven dobbelt: bevis værdien lokalt og gør det sikkert. Lav en PoC med klare acceptance-kriterier. Ikke bare “vær bedre end X”, men konkret: maksimalt 2% fejl på aftalte entiteter, end-to-end latenstid under 400 ms i klinik A’s netværk, og et efterredigeringsflow der holder under 30 sekunder per konsultation. Mål på rigtige samtaler, ikke bare læsedikterede sætninger.
Compliance-tests bør være standardpakke: DPA, hosting i EU eller eksplicitte garantier, audit-logs med uforanderlighed, revisionsspor på rettelser og en mekanisme til sletning. Og så en model for løbende performance-måling i drift: kvartalsvise WER-runs på samme testkurv, så man kan se, om kvaliteten driver.
Snillds anbefalinger
Vi foreslår en tretrins praksis, ikke for pæn, bare realistisk. Hurtigt spor: en 1-uges PoC med 50 konsultationer, målt på aftalte entiteter og latenstid. Sammenlign Symphony med jeres nuværende transskriptionsflow. Gem rå lyd, gem transkriptioner, gem tid brugt på efterredigering. Ikke mere teori, bare data fra egen gang.
Mellemlang kurs: dataintegration og governance. Byg en simpel API-gateway, der kan logge, rate-limite og lave fallback. Definér ordlister og akronymer pr. afdeling, og sæt et lille, stædigt team til at vedligeholde dem hver måned. Indfør audit-spor for alle ændringer. Sæt thresholds for hvornår en agent må udføre handlinger baseret på transskriptioner – og hvornår der kræves menneskelig accept.

Lang sigt og agentiske værktøjer
Langsigtet strategi: plan for hvordan talegenkendelsen forsyner downstream-systemer – kodning, note-generation, beslutningsstøtte – med strukturerede fakta. Lav en klar proces for modelopdateringer, så I ikke brækker integrationer, når version 1.3 bliver til 1.4. Trivielt på papiret, men vi har set nattevagter gå i stå, fordi et endpoint ændrede feltformat fra mg til mg/mL uden varsel.
Overvågning i drift er ikke bare grafer. Sæt auto-tests op med faste lydklip fra jeres miljø (ja, det kræver godkendelse). Mål WER og entity recall månedligt. Læg et par snavsede klip i kurven – overlappende tale, telefonlinje med støj. Hvis kvaliteten falder, sæt bremse på agent-handlinger. Hellere en kort flaskehals end et forkert medicinsk råd.
Hvad vi stadig mangler svar på
Vi efterlyser tre ting før vi kalder den: 1) indblik i evalueringsdatasættets sammensætning og metode, 2) konkrete latenstal i realtid på tværs af netværk og klienter, 3) sprog- og dialektdækning uden for engelsk. Og en fjerde, hvis vi må snyde: prisstrukturen i et nordisk driftsbudget. VentureBeat-rapporteringen er solid som nyhed, men vi savner tredjepartsbenchmarks.
Det her er måske lidt niche, men hosting og sletning er ofte stedet hvor gode PoC’er dør. Hvis data ikke kan forankres i EU, eller sletning er sløret, stopper juristerne det. Med rette. Så spørg om retention-praksis allerede på dag ét. Og få det skriftligt.
Konkurrencebilledet og reaktionen
Hvis Symphony leverer, vil de brede tale-API’er slå igen med fagspecifikke modes eller tilpasningslag. Det gør de altid. Prisen kan blive udslagsgivende. Men i sundhed har vi set igen og igen, at det der faktisk vinder, er kvalitet i drift og integrationsrobusthed. Ikke PR-grafen. Google og Microsoft har dybe integrationer i hospitals-IT, men specialister kan godt vinde, når feltet er smalt og kravene hårde.
Vi forventer, at konkurrenter vil fremhæve bredere sprogunderstøttelse, dybe partnere i EHR, eller lavere pris pr. minut. Fair nok. Spørgsmålet er stadig det samme: Hvem laver færrest fejl på de ord, jeres læger siger oftest, i det rum de sidder i.
Hvad vi har set i felten
Vi har set én afdeling, hvor en lav WER alligevel gav for mange fejl på lokale koder. De brugte interne triageforkortelser, som kun gav mening på et whiteboard i deres gang. Løsningen blev en lille ordliste og en ugentlig gennemgang, hvor to superbrugere godkendte nye termer. Først dér faldt efterredigeringstiden fra halvandet minut til under 40 sekunder. Lugten af kaffe og sprit i rummet den dag. Detalje, men man husker det.
Vi blev faktisk i tvivl et øjeblik, om specialisering bare flytter problemet: hvad når afdelingen skifter farmaka-liste? Men erfaringen er, at små, hyppige tilretninger slår store, sjældne modelskift. Det er ikke raketvidenskab. Det er proces.
Konklusion
Corti leverer overbevisende – deres egne – data på, at en specialiseret talegenkendelse banker de brede modeller på medicinsk terminologi. 1,4% WER er et stærkt tal, og recall på kliniske entiteter kan være det, der reelt gør forskellen i downstream-systemer. Vi er positive, men ikke blåøjede. Der mangler uafhængig validering, klare latenstal og en pris der holder vand i nordisk drift.
For hospitaler og klinikere betyder det én ting: test det i jeres egen virkelighed. Med jeres accenter, jeres støj, jeres akronymer. Sæt skarpe acceptance-kriterier, læg governance på plads og mål løbende. Hvis Symphony leverer dér, er gevinsterne håndgribelige: færre fejl, mindre efterredigering og et sikrere fundament for agentiske kliniske assistenter. Man opdager først forskellen, når man sidder med det i hænderne.