Snilld

Google lancerer Gemini 3.1 Flash TTS med granulære audio tags

Google DeepMind kalder Gemini 3.1 Flash TTS sin nyeste lydmodel og siger, at den introducerer granulære audio tags, som skal give præcis kontrol over AI-tale til ekspressiv lydgenerering. I den medsendte brief bliver det læst som styring af tone, tempo, energi og intention.

16. april 2026 Peter Munkholm

Google DeepMind har lanceret Gemini 3.1 Flash TTS og kalder den sin nyeste lydmodel. I lanceringen siger Google også, at modellen introducerer granulære audio tags, som skal give præcis kontrol over AI-tale til ekspressiv lydgenerering.

Finere greb om stemmen

Det er den del, der gør nyheden interessant. Ikke bare at modellen kan lave tale, men at Google lægger vægt på styring. Mere konkret læser den medsendte brief de granulære tags som kontrol over tone, tempo, energi og intention i stemmebaserede AI-oplevelser.

Banner

Det er værd at dvæle ved et øjeblik. For i praksis er forskellen på brugbar AI-tale og irriterende AI-tale tit ret banal. Den samme sætning kan lyde rolig, presset eller lidt for frisk, alt efter hvordan stemmen bliver leveret.

Et team vurderer forskellige AI-stemmer i et mødelokale.
Mikrofon og lydudstyr i studie, hvor AI-tale bliver finjusteret.

Briefen peger på forretningen

Briefen kobler også den finere styring til noget meget jordnært: muligheden for mere brand-konsistente og kontekstbevidste stemmeoplevelser. Det er en fortolkning fra briefen, ikke et uafhængigt dokumenteret resultat, men den er relevant. Især hvis man arbejder med løsninger, hvor stemmen faktisk møder kunder eller medarbejdere.

Banner

Her ligger også den mere spændende læsning af lanceringen. Hvis styringen holder i praksis, er det ikke kun en teknisk finesse. Det kan være forskellen på en stemme, der bare læser op, og en stemme, der passer til situationen.

Kundeservice-miljø hvor AI-stemmer kan bruges i praksis.

Det vi ved, og det vi ikke ved endnu

Kilderne rækker dog ikke til mere end det. Vi har Googles egen produktbeskrivelse, og vi har briefens praktiske læsning af den. Vi har ikke i materialet her uafhængige testresultater, benchmarks eller dokumentation for, hvordan modellen klarer sig mod andre modeller.

Der er heller ikke belæg i de foreliggende kilder for at sige noget sikkert om dansk kvalitet, lange dialoger, drift i produktion eller målbar effekt i brug. Så den nøgterne konklusion er enkel nok. Google lancerer en ny TTS-model med et løfte om mere finmasket kontrol over stemmen. Resten må bevises senere.

Kilder

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?