Introduktion til video for AI
Forståelse af videoindhold har altid været en udfordring for AI-forskere. I modsætning til statiske billeder kræver videoer en dybere forståelse af både tidsmæssige og rumlige sammenhænge. Det er afgørende for modeller at kunne analysere sekvenser af hændelser korrekt uden at falde for fristelsen til at “hallucinere” – opfinde detaljer der ikke er til stede. På trods af fremskridt med modeller som GPT-4o og Gemini-1.5-Pro, er der langt til at opnå menneskelignende forståelse af videoindhold.

Ny innovation: Tarsier2
ByteDance forskere har introduceret Tarsier2, en stor vision-sprog model (LVLM) med 7 milliarder parametre, designet til at imødegå de udfordringer, video forståelse medfører. Tarsier2 overgår sine konkurrenter ved at generere detaljerede videobeskrivelser og udmærker sig i opgaver som spørge-svar, jording og legemliggjort intelligens.
Data og teknologi integration
Med et udvidet dataset for fortræning på 40 millioner video-tekst par og anvendelse af Direct Preference Optimization (DPO) under træning, opnår Tarsier2 imponerende forbedringer. På DREAM-1K dataset overgår den GPT-4o med 2,8% og Gemini-1.5-Pro med 5,8% i F1-scorer. Disse resultater viser, hvor kritisk det er at integrere avancerede teknologier og strategiske dataanvendelse i modelleringen.
Tarsier2s præstationsfordele
Tarsier2 inkluderer flere teknologiske gennembrud, der styrker dens præstation. Modelens arkitektur indeholder en visionskodek, et visionsadapter og en storsprogsmodel, kombineret i en tre-trins træningsproces. Disse fremskridt forbedrer ikke kun generering af detaljerede videobeskrivelser, men også modellens alsidighed på tværs af video-relaterede opgaver.

Menneskelige evalueringer og benchmarks
Resultater fra menneskelige evalueringer viser en præstationsfordel på 8,6% over GPT-4o og 24,9% over Gemini-1.5-Pro. På DREAM-1K benchmark er Tarsier2 den første model der overstiger en samlet tilbagekaldelsesscore på 40%, hvilket viser dens evne til at registrere og beskrive dynamiske handlinger omfattende.
Fremtidens anvendelsespotentiale
Som videoindhold fortsætter med at dominere digitale medier, holder modeller som Tarsier2 et enormt potentiale for applikationer lige fra indholdsoprettelse til intelligent overvågning. Det er et skridt fremad i video forståelse ved at løse centrale udfordringer så som tidsjustering, hallucinationsreduktion og dataknaphed.
Snillds perspektiv
Fra vores perspektiv hos Snilld er Tarsier2 en spændende udvikling, der repræsenterer det næste skridt i multimodal AI. Som AI-konsulenter ser vi potentialet i at anvende disse teknologier på tværs af brancher for at øge effektivitet og kreativitet. Med vores fokus på at integrere AI-løsninger til virksomheders daglige operationer ser vi frem til at udrulle disse banebrydende muligheder.

Kilder:
- https://www.marktechpost.com/2025/01/15/bytedance-researchers-introduce-tarsier2-a-large-vision-language-model-lvlm-with-7b-parameters-designed-to-address-the-core-challenges-of-video-understanding/
- https://www.twelvelabs.io/blog/the-past-present-and-future-of-video-understanding-applications
- https://github.com/bytedance/tarsier
- https://www.reddit.com/r/ChatGPT/comments/1d0zv1l/gpt4o_vs_gemini_15_pro_ultimate_head_to_head/
- https://arxiv.org/abs/2106.13432
- https://www.ibm.com/think/topics/ai-hallucinations
Målgruppens mening om artiklen
Henrik Madsen, CIO:
Jeg vil give artiklen en score på 90. Den er meget relevant for mit arbejde, da den berører vigtige fremskridt inden for AI-teknologier, der kan bruges i vores produktion. Det er altid godt at se praktiske anvendelser af nye teknologier, og Tarsier2’s evner til at optimere arbejdsprocesser er noget, jeg kan se vores virksomhed drage fordel af.
Laura Thomsen, Operation Manager:
Jeg vil give artiklen en score på 85. Det er spændende at høre om nye teknologier, der kan lette forståelsen af komplekse datasæt. Som driftsleder ser jeg et stort potentiale i integrationen af disse teknologier for at forbedre afdelingens evne til at administrere og forbedre vores processer.
Mikkel Sørensen, Digitaliseringschef:
Jeg vil give artiklen en 95. Den giver et klart og overbevisende billede af de aktuelle fremskridt inden for AI-videoforståelse, som er centralt i vores mål om digital transformation. Specifikke detaljer om forbedringer ved Tarsier2 gør den yderst relevant for, hvordan vi kan implementere lignende løsninger i vores organisation.
Sofie Petersen, IT-chef:
Jeg vil give det 80. Mens det er meget fremadskuende og teknisk, kunne jeg godt tænke mig mere fokus på, hvordan disse fremskridt let kan integreres i eksisterende systemer og rammer, specielt for mindre IT-afdelinger som vores egen. Stadig en meget informativ læsning.
Anders Jensen, CTO:
Artiklen får en 88 fra mig. Den indeholder værdifuld information om en banebrydende AI-model og hvordan den klarer sig i forhold til andre modeller, hvilket er nyttigt viden i vores fortsatte udvikling af AI-drevne produkter. At forstå dette fremskridt kan hjælpe os i planlægningen af vores fremtidige AI-strategi.
*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.
Billederne i artiklen er lavet af Fluxx Schnell fra Black Forest Labs.
Book Din Gratis AI-Samtale
– Ingen Tekniske Forudsætninger Påkrævet!
Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.
I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.
Fordele ved samtalen:
- Samtalen handler om dig og dine behov
- Indblik i AI’s potentiale for din virksomhed
- Konkrete idéer til effektivisering af dine processer
- Personlig rådgivning uden teknisk jargon
Det handler om at skabe værdi for dig
You must be logged in to post a comment.