Google lancerer Gemini 3.1 Flash TTS med granulære audio tags

Google DeepMind kalder Gemini 3.1 Flash TTS sin nyeste lydmodel og siger, at den introducerer granulære audio tags, som skal give præcis kontrol over AI-tale til ekspressiv lydgenerering. I den medsendte brief bliver det læst som styring af tone, tempo, energi og intention.

16. april 2026 Peter Munkholm

Google DeepMind har lanceret Gemini 3.1 Flash TTS og kalder den sin nyeste lydmodel. I lanceringen siger Google også, at modellen introducerer granulære audio tags, som skal give præcis kontrol over AI-tale til ekspressiv lydgenerering.

Finere greb om stemmen

Det er den del, der gør nyheden interessant. Ikke bare at modellen kan lave tale, men at Google lægger vægt på styring. Mere konkret læser den medsendte brief de granulære tags som kontrol over tone, tempo, energi og intention i stemmebaserede AI-oplevelser.

Det er værd at dvæle ved et øjeblik. For i praksis er forskellen på brugbar AI-tale og irriterende AI-tale tit ret banal. Den samme sætning kan lyde rolig, presset eller lidt for frisk, alt efter hvordan stemmen bliver leveret.

Et team vurderer forskellige AI-stemmer i et mødelokale.

Mikrofon og lydudstyr i studie, hvor AI-tale bliver finjusteret.

Briefen peger på forretningen

Briefen kobler også den finere styring til noget meget jordnært: muligheden for mere brand-konsistente og kontekstbevidste stemmeoplevelser. Det er en fortolkning fra briefen, ikke et uafhængigt dokumenteret resultat, men den er relevant. Især hvis man arbejder med løsninger, hvor stemmen faktisk møder kunder eller medarbejdere.

Her ligger også den mere spændende læsning af lanceringen. Hvis styringen holder i praksis, er det ikke kun en teknisk finesse. Det kan være forskellen på en stemme, der bare læser op, og en stemme, der passer til situationen.

Kundeservice-miljø hvor AI-stemmer kan bruges i praksis.

Det vi ved, og det vi ikke ved endnu

Kilderne rækker dog ikke til mere end det. Vi har Googles egen produktbeskrivelse, og vi har briefens praktiske læsning af den. Vi har ikke i materialet her uafhængige testresultater, benchmarks eller dokumentation for, hvordan modellen klarer sig mod andre modeller.

Der er heller ikke belæg i de foreliggende kilder for at sige noget sikkert om dansk kvalitet, lange dialoger, drift i produktion eller målbar effekt i brug. Så den nøgterne konklusion er enkel nok. Google lancerer en ny TTS-model med et løfte om mere finmasket kontrol over stemmen. Resten må bevises senere.

Kilder

Kontakt

Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.

Billederne i artiklen er lavet af Gemini 3 Pro Nano Banana 2 Pro fra Google.

Google lancerer Gemini 3.1 Flash TTS med granulære audio tags

Finere greb om stemmen

Briefen peger på forretningen

Det vi ved, og det vi ikke ved endnu

Kilder

Lad os snakke!

Brugsvilkår

Brugsvilkår for Snilld

1. Om disse vilkår

2. Leverandør

3. Tjenesternes karakter

4. AI-assisterede funktioner

5. Ingen professionel rådgivning

6. Korrekt brug

7. Brugerinput og ansvar

8. Tredjepartsleverandører

9. Tilgængelighed og ændringer

10. Immaterielle rettigheder

11. Ansvarsfraskrivelse

12. Ansvarsbegrænsning

13. Personoplysninger og cookies

14. Ændringer af vilkårene

15. Lovvalg og værneting

16. Kontakt