Tarsier2: AI, der forvandler videoer til forståelse

Tarsier2, en stor vision-sprog model, overgår eksisterende modeller ved at løse centrale udfordringer i video forståelse og viser potentiale inden for digital medieanalyse.

16. januar 2025 Peter Munkholm

Introduktion til video for AI

Forståelse af videoindhold har altid været en udfordring for AI-forskere. I modsætning til statiske billeder kræver videoer en dybere forståelse af både tidsmæssige og rumlige sammenhænge. Det er afgørende for modeller at kunne analysere sekvenser af hændelser korrekt uden at falde for fristelsen til at “hallucinere” – opfinde detaljer der ikke er til stede. På trods af fremskridt med modeller som GPT-4o og Gemini-1.5-Pro, er der langt til at opnå menneskelignende forståelse af videoindhold.

For at illustrere indledningen til artiklen

Ny innovation: Tarsier2

ByteDance forskere har introduceret Tarsier2, en stor vision-sprog model (LVLM) med 7 milliarder parametre, designet til at imødegå de udfordringer, video forståelse medfører. Tarsier2 overgår sine konkurrenter ved at generere detaljerede videobeskrivelser og udmærker sig i opgaver som spørge-svar, jording og legemliggjort intelligens.

Data og teknologi integration

Med et udvidet dataset for fortræning på 40 millioner video-tekst par og anvendelse af Direct Preference Optimization (DPO) under træning, opnår Tarsier2 imponerende forbedringer. På DREAM-1K dataset overgår den GPT-4o med 2,8% og Gemini-1.5-Pro med 5,8% i F1-scorer. Disse resultater viser, hvor kritisk det er at integrere avancerede teknologier og strategiske dataanvendelse i modelleringen.

Tarsier2s præstationsfordele

Tarsier2 inkluderer flere teknologiske gennembrud, der styrker dens præstation. Modelens arkitektur indeholder en visionskodek, et visionsadapter og en storsprogsmodel, kombineret i en tre-trins træningsproces. Disse fremskridt forbedrer ikke kun generering af detaljerede videobeskrivelser, men også modellens alsidighed på tværs af video-relaterede opgaver.

For at illustrere artiklens fokus på videoanalyse i AI, ville jeg tage et dynamisk billede af en AI-forsker, som koncentreret arbejder ved en station med flere skærme. Skærmene vil vise komplekse videodata og real-time analyser, der visualiserer tidsmæssige og rumlige relationer. Kompositionen skal fange forskerens intense fokus, med et nært udsnit, der viser deres ansigt og hænder, mens de interagerer med dataene. Billedet vil blive taget med en Canon EOS R5, udstyret med et 24-70mm f/2.8 objektiv, med eksponeringsindstillinger på f/4 ved 1/125 sekund for at opnå en god dybdeskarphed og klarhed i fokusområdet. Lysforholdene vil være moderat dæmpede med et kunstnerisk blåligt skær, der fremhæver den teknologiske atmosfære. Efter redigering vil der blive foretaget justeringer af kontrast og farvetemperatur for at fremhæve de studerede data og forskerens ansigtstræk. Dette billede vil klart kommunikere den koncentration og de udfordringer, AI-forskere står overfor i deres arbejde med videoindhold, og vil dermed fremhæve nøglepunkterne i artikelens indhold.

Menneskelige evalueringer og benchmarks

Resultater fra menneskelige evalueringer viser en præstationsfordel på 8,6% over GPT-4o og 24,9% over Gemini-1.5-Pro. På DREAM-1K benchmark er Tarsier2 den første model der overstiger en samlet tilbagekaldelsesscore på 40%, hvilket viser dens evne til at registrere og beskrive dynamiske handlinger omfattende.

Fremtidens anvendelsespotentiale

Som videoindhold fortsætter med at dominere digitale medier, holder modeller som Tarsier2 et enormt potentiale for applikationer lige fra indholdsoprettelse til intelligent overvågning. Det er et skridt fremad i video forståelse ved at løse centrale udfordringer så som tidsjustering, hallucinationsreduktion og dataknaphed.

Snillds perspektiv

Fra vores perspektiv hos Snilld er Tarsier2 en spændende udvikling, der repræsenterer det næste skridt i multimodal AI. Som AI-konsulenter ser vi potentialet i at anvende disse teknologier på tværs af brancher for at øge effektivitet og kreativitet. Med vores fokus på at integrere AI-løsninger til virksomheders daglige operationer ser vi frem til at udrulle disse banebrydende muligheder.

Billedet, der ville komplementere artiklens sidste del, kunne være en dramatisk visuel repræsentation af Tarsier2-indsigten. Forestil dig en AI-forsker i et mørkt og stilfuldt laboratorium, der står i fokus med en robust laptop, omgivet af en kalejdoskop af skærme, som lyser op med komplekse dataanalyser og videoer, der illustrerer dens avancerede algoritmer. Forskeren vil være indfanget i et øjeblik af inspiration, måske med en hånd på hagen og det andet håndled, der fører blidt hen over tastaturet, mens der på skærmene blinker levende grafer og animationssekvenser. Billedet vil fange følelsen af potentiale og innovation i den nervepirrende verden af AI. Til dette skud ville jeg bruge en Sony A7 III med et 35mm f/1.4 objektiv for at opnå en blød, men fokuseret baggrundsunskarphed, der fremhæver forskeren og deres interaktive scenarium. Eksponeringen ville være sat til f/2.8 ved 1/60 sekund for at tillade et behageligt lys ved det kunstige skjær fra skærmene. Farvepaletten ville være domineret af dristige blå og grønne toner, der afspejler den teknologiske atmosfære, og i efterbehandlingen ville jeg justere kontrasten for at sikre, at dataene på skærmene forbliver skarpe og lokkende. Dette billede vil visuelt visualisere Tarsier2's potentiale og fremhæve den menneskelige side af AI-innovation, hvor intelligens og teknologi mødes.

Kilder:

Målgruppens mening om artiklen

Henrik Madsen, CIO:

Jeg vil give artiklen en score på 90. Den er meget relevant for mit arbejde, da den berører vigtige fremskridt inden for AI-teknologier, der kan bruges i vores produktion. Det er altid godt at se praktiske anvendelser af nye teknologier, og Tarsier2’s evner til at optimere arbejdsprocesser er noget, jeg kan se vores virksomhed drage fordel af.

Laura Thomsen, Operation Manager:

Jeg vil give artiklen en score på 85. Det er spændende at høre om nye teknologier, der kan lette forståelsen af komplekse datasæt. Som driftsleder ser jeg et stort potentiale i integrationen af disse teknologier for at forbedre afdelingens evne til at administrere og forbedre vores processer.

Mikkel Sørensen, Digitaliseringschef:

Jeg vil give artiklen en 95. Den giver et klart og overbevisende billede af de aktuelle fremskridt inden for AI-videoforståelse, som er centralt i vores mål om digital transformation. Specifikke detaljer om forbedringer ved Tarsier2 gør den yderst relevant for, hvordan vi kan implementere lignende løsninger i vores organisation.

Sofie Petersen, IT-chef:

Jeg vil give det 80. Mens det er meget fremadskuende og teknisk, kunne jeg godt tænke mig mere fokus på, hvordan disse fremskridt let kan integreres i eksisterende systemer og rammer, specielt for mindre IT-afdelinger som vores egen. Stadig en meget informativ læsning.

Anders Jensen, CTO:

Artiklen får en 88 fra mig. Den indeholder værdifuld information om en banebrydende AI-model og hvordan den klarer sig i forhold til andre modeller, hvilket er nyttigt viden i vores fortsatte udvikling af AI-drevne produkter. At forstå dette fremskridt kan hjælpe os i planlægningen af vores fremtidige AI-strategi.

*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.

Billederne i artiklen er lavet af Fluxx Schnell fra Black Forest Labs.

Book Din Gratis AI-Samtale

– Ingen Tekniske Forudsætninger Påkrævet!

Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.

I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.

Fordele ved samtalen:

Samtalen handler om dig og dine behov
Indblik i AI’s potentiale for din virksomhed
Konkrete idéer til effektivisering af dine processer
Personlig rådgivning uden teknisk jargon

Det handler om at skabe værdi for dig

Tarsier2: AI, der forvandler videoer til forståelse

Introduktion til video for AI

Ny innovation: Tarsier2

Data og teknologi integration

Tarsier2s præstationsfordele

Menneskelige evalueringer og benchmarks

Fremtidens anvendelsespotentiale

Snillds perspektiv

Målgruppens mening om artiklen

Book Din Gratis AI-Samtale

Lad os snakke!

Brugsvilkår

Brugsvilkår for Snilld

1. Om disse vilkår

2. Leverandør

3. Tjenesternes karakter

4. AI-assisterede funktioner

5. Ingen professionel rådgivning

6. Korrekt brug

7. Brugerinput og ansvar

8. Tredjepartsleverandører

9. Tilgængelighed og ændringer

10. Immaterielle rettigheder

11. Ansvarsfraskrivelse

12. Ansvarsbegrænsning

13. Personoplysninger og cookies

14. Ændringer af vilkårene

15. Lovvalg og værneting

16. Kontakt