Snilld

Nu vil kunstige datasæt ændre fremtiden for AI-sprogmodeller

Artiklen udforsker udfordringerne og mulighederne ved post-træning af store sprogmodeller (LLM'er), herunder vigtigheden af WILDCHAT-50M datasættet og Snillds rolle i at hjælpe virksomheder med AI-løsninger.

5. februar 2025 Peter Munkholm

Indledning til post-træning af sprogmodeller

Den stigende udvikling inden for kunstig intelligens har medført en større fokus på post-træning af store sprogmodeller som GPT-4. Post-træning handler om at raffinere adfærden af modellerne og forbedre deres kapabiliteter ud over den oprindelige træningsfase. Det omfatter teknikker som supervised fine-tuning (SFT) og reinforcement learning. Disse metoder er designet til at få modeller til at overholde menneskelige præferencer og opfylde specifikke opgavekrav.

Til den første tredjedel af artiklen ville et kreativt og tankevækkende billede være en visuel metafor for den komplekse proces bag post-træning af sprogmodeller. Billedet kan vise en person, der står ved et stort, moderne computerpanel fyldt med grafiske visninger af datamodeller og algoritmer, mens de justerer indstillinger og overvåger skærmene. Kompositionen skal være centreret om mennesket som en aktiv deltager i AIs evolution, med en dyb fokus på ansigtstræk, der udstråler koncentration og nysgerrighed. Fotoet kan tages med et Canon EOS R5-kamera, udstyret med en RF 24-70mm f/2.8L linse. Exponeringen sættes til 1/125 sekunder ved f/4 med ISO 800 for at opnå skarphed, samtidig med at der gives en blød bokeh-effekt til baggrunden. Dette udstyr kombineret med en lysopsætning, der fremhæver skærmene og ansigtet på modellen, giver en levende fremstilling af det innovative arbejde, der foregår inden for AI og sprogmodeller. Efterfølgende redigering kan fokusere på at justere kontrasten og farvemætningen for at skabe et dynamisk og inspirerende billede, der passer perfekt til temaet for artiklen.

Vigtigheden af syntetiske data

Syntetiske data spiller en central rolle i post-træning, da de muliggør evaluering og optimering af teknikkerne. Dog er forskningen på dette felt stadig i sin begyndelse, da tilgængeligheden af data og skalerbarhed er begrænsede. Uden adgang til høj-kvalitets datasæt, bliver det vanskeligt at analysere effekten af forskellige finjusteringsstrategier og vurdere deres virkning i virkelige anvendelser.

Udfordringer i post-træning

En af de største udfordringer inden for post-træning er mangel på store, offentligt tilgængelige syntetiske datasæt, der er velegnede til træning af sprogmodeller. Forskere har brug for bred adgang til konversationelle datasæt, som tillader meningsfulde komparative analyser og forbedring af justeringsstrategierne. Den manglende standardisering af datasæt begrænser evnen til at evaluere post-træningspræstationer på tværs af forskellige modeller.

Snillds perspektiv på udfordringerne

Hos Snilld ser vi på post-træning med stor interesse, især i forhold til vores arbejde med at designe og implementere AI-løsninger for SMV’er. Manglen på passende data betyder, at vi ofte må skræddersy løsninger til hver enkelt kunde. Dette understreger behovet for fleksibilitet og tilpasning i AI-løsninger, noget vi er dygtige til at levere.

Til den midterste sektion af artiklen ville et inspirerende billede være et nærbillede af et skærmbillede, der viser en kompleks datamodel og grafiske repræsentationer af syntetiske data. Billedet kan fokusere på skarpe linjer og farver, der symboliserer den dynamik og innovation, der er involveret i post-træning af sprogmodeller. Den visuelle fremstilling kan inkludere små ikoner af chatbots og datatransaktioner, der svæver over skærmen, hvilket fremhæver betydningen af de syntetiske datasæt, der gør denne forskning mulig. Billedet kan tages med et Sony A7R IV-kamera, udstyret med en 35mm f/1.4 linse. Med en eksponering på 1/60 sekunder ved f/2.8 og ISO 800 vil der opnås en fremragende skarphed samt en blød baggrund, der trækker fokus på skærmen. Den efterfølgende redigering kan bestå af at justere lysstyrken og kontrasten for at fremhæve detaljerne i grafikken, hvilket skaber en visuel repræsentation, der underbygger temaerne i den nævnte sektion af artiklen og fanger læserens opmærksomhed på betydningen af syntetiske data for AI-forskning.

Løsninger til dataudfordringer

En potentiel løsning på datamanglen er udviklingen af syntetiske datasæt, som f.eks. det nyligt introducerede WILDCHAT-50M. Dette omfattende datasæt, udviklet af forskere ved New York University, sigter mod at facilitere LLM-post-træning ved at inkludere svar fra mere end 50 åbne modeller. WILDCHAT-50M gør det muligt med en bred komparativ analyse og forbedring af post-træningsteknikker.

Muligheder med WILDCHAT-50M

WILDCHAT-50M består af ca. 125 millioner chattranskripter, som giver mulighed for en hidtil uset skala af syntetiske interaktioner. Datasættet blev frembragt over to måneder ved hjælp af en delt forskningsklynge, der optimerede effektiviteten og sikrede en diversitet af svar. Dette store datasæt er desuden basis for RE-WILD, en ny SFT-blanding designet til at forbedre træningseffektiviteten af LLM’er.

Potentielle effekter af RE-WILD

Det nyere RE-WILD SFT-tilgang demonstreret i forskningen, har outperformed andre teknikker som Tulu-3 SFT-mix fra Allen AI, mens det kun brugte 40% af datasættets størrelse. Dette viser mulighederne for besparelser og forbedret ydeevne ved implementering af smartere SFT-strategier.

Et billede, der vil komplementere den sidste del af artiklen om post-træning af sprogmodeller, kunne være en dynamisk visuel repræsentation af en forsker, der arbejder med WILDCHAT-50M datasættet. Billedet kunne vise en person siddende foran flere skærme, hvor data fra det omfattende datasæt er synligt, f.eks. grafiske repræsentationer af interaktioner og vigtige metrikker. Fokus skal være på forskerens ansigt, der udstråler begejstring og intens koncentration, mens de justerer indstillingerne for at optimere AI-modellens performance. Billedet kan tages med et Nikon Z6 II-kamera, forsynet med en NIKKOR Z 24-70mm f/2.8S linse. Eksponeringen kan sættes til 1/125 sekunder ved f/2.8 med ISO 400, hvilket giver en klar og skarp fremstilling samtidig med, at der opnås en blød bokeh, der isolerer motivet fra skærmene. Efterfølgende redigering kan fokusere på at fremhæve farverne og kontrasten i grafikken, således at det understøtter den innovative karakter af data- og AI-forskningen, samtidig med at det fanger essensen af Snillds engagement i post-træning af sprogmodeller.

Udviklingen af dataforbruget

Post-træningsprocesser, som dem brugt af WILDCHAT-50M, fremviser mulighederne for forbedring i modelperformance og effektivitet. Det understreger også behovet for åbne, offentligt tilgængelige datasæt for at lette skabelsen af stærkere og mere generelle modeller. Dette er kritisk for akademiske og industrielle brugere, som ønsker at skabe LLM’er, der generaliserer bedre på tværs af opgaver.

Kosteffektivitet i post-træning

De stigende omkostninger ved post-træning kan være en barriere for mindre institutioner, men det understreger også nødvendigheden af at finde mere kosteffektive tilgange. AI-forskning, herunder brugen af syntetiske data, kan hjælpe med at reducere omkostningerne ved at erstatte menneskelig evaluering med AI-baseret feedback, hvilket dramatisk kan sænke omkostningen pr. datapunkt.

Snillds rolle i post-træning

På Snilld hjælper vi virksomheder med at navigere i kompleksiteten ved AI-implementering, herunder post-træning af sprogmodeller. Vores unikke tilgang til skræddersyede AI-implementeringer betyder, at vi kan tilpasse vores løsninger til hver enkelt virksomhed, selv når standardiserede datasæt ikke er tilgængelige. Dette sikrer, at vores kunder får den bedst mulige løsning.

Fremtidsperspektiver for LLM-post-træning

I takt med at forskningen på området for post-træning af sprogmodeller udvikler sig, er det afgørende, at der etableres klare standarder for datasættene. Dette vil forbedre sammenligneligheden på tværs af studier og lette videnskabeligt samarbejde mellem akademia og industri. Snillds rådgivning kan bidrage med praktisk viden til organisationer, der ønsker at indføre AI-integration i deres arbejdsprocesser.

Opsummering

I sidste ende viser udvikling som WILDCHAT-50M, at der er fantastiske muligheder for fremtidig udvikling i AI-post-træning. Udnytter man disse fremskridt til fulde, vil det blive muligt at skabe mere effektive og tilpassede sprogmodeller, der kan håndtere et bredere spektrum af opgaver og interaktioner. Dette kræver en vedvarende indsats inden for både forskning og implementering af AI-løsninger.

Snillds Engagement i AI

Snilld vil fortsat være engageret i at levere skræddersyede AI-løsninger til erhvervslivet og at udvikle nye strategier for at optimere effektiviteten af LLM’er gennem post-træning. Vi er stolte over vores bidrag til det voksende felt af AI og ser frem til at hjælpe vores kunder med at maksimere fordelene ved AI-teknologi i deres processer.

Kilder:

 

Målgruppens mening om artiklen

88









*Denne artiklen er skrevet af en redaktion bestående af kunstig intelligenser, der har skrevet artiklen på baggrund af automatiseret research og oplysninger om de seneste teknologi nyheder fra internettet.

Billederne i artiklen er lavet af Fluxx Schnell fra Black Forest Labs.








Book Din Gratis AI-Samtale






– Ingen Tekniske Forudsætninger Påkrævet!

Er du nysgerrig på, hvad generativ AI er og hvordan AI kan løfte din virksomhed? Book en gratis og uforpligtende 30 minutters online samtale med vores AI-eksperter. Du behøver ingen teknisk viden – blot en computer eller telefon med internetforbindelse.

I samtalen kigger vi på dine muligheder og identificerer, hvor AI kan optimere jeres arbejdsprocesser og skabe værdi. Det er helt uden bindinger, og vi tilpasser rådgivningen til lige præcis jeres behov.

Fordele ved samtalen:

  • Samtalen handler om dig og dine behov
  • Indblik i AIs potentiale for din virksomhed
  • Konkrete idéer til effektivisering af dine processer
  • Personlig rådgivning uden teknisk jargon

Det handler om at skabe værdi for dig





    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?