En åbning i AI-horisonten
Meta, tidligere kendt som Facebook, har netop affyret en teknologisk raket med lanceringen af Llama 3.1, en open-source model med hele 405 milliarder parametre. Dette kæmpe spring betyder, du nu, givet du har en kraftig nok computer, kan køre en AI-model lokalt, der leverer resultater på niveau med eller bedre end førende kommercielle modeller som GPT-4 og GPT-4o fra OpenAI. Ifølge Meta’s CEO, Mark Zuckerberg, markerer dette “den første frontier-niveau open-source AI-model.” I AI-industrien refererer “frontier-model” til et system designet til at skubbe grænserne for nuværende kapaciteter.
Brud på status quo
Meta hævder, at Llama 3.1 405B matcher de bedste AI-modeller, når det kommer til viden, styring, matematik, værktøjsbrug og flersproget oversættelse. En grafik fra Meta viser, at 405B kommer meget tæt på ydelsen af GPT-4 Turbo, GPT-4o og Claude 3.5 Sonnet i benchmarks som MMLU (undergraduate niveau viden), GSM8K (folkeskolens matematik) og HumanEval (kodning). Men lad os være ærlige: Disse traditionelle AI-benchmarks er ikke altid videnskabeligt solide og afspejler ikke nødvendigvis oplevelsen af at interagere med sprogmodellerne.
Llama 3.1 405B: Revolutionizing AI with Open-Source Power
![452342830_524225500031704_780745667054798266_n](https://cdn.snilld.dk/wp-content/uploads/2024/07/452342830_524225500031704_780745667054798266_n-1024x280.png)
Partnerskab med Microsoft
I samarbejde med Microsoft har Meta også gjort Llama 3.1 405B tilgængelig via Azure AI’s Models-as-a-Service som en serverløs API-endpoint. Det betyder, at udviklere nu hurtigt kan prøve, evaluere og provisionere disse modeller i Azure AI Studio ved hjælp af populære udviklerværktøjer som Azure AI prompt flow, OpenAI, LangChain, LiteLLM, CLI med curl og Python web requests. Ud over den kraftige 405B model, inkluderer Azure også de finjusterede versioner af Llama 3.1 8B og Llama 3.1 70B i sin Model Catalog, som er tiltænkt specifikke industriopgaver.
Lovende anvendelser og udfordringer
Så hvad er 405B navnet? Det står for 405 milliarder parametre, som opbevarer trænet information i et neuralt netværk. Flere parametre betyder generelt en større sammenhæng mellem begreber, men kommer med behovet for mere beregningskraft. Meta har brugt over 16.000 H100 GPU’er og trænet modellen med over 15 billioner tokens af træningsdata for at nå dette niveau.
Meta’s Åbenhedsmanifest
I forbindelse med lanceringen frigav Zuckerberg også en 2.300 ords manifest med titlen “Open Source AI Is the Path Forward.” Heri skriver han om behovet for at have brugertilpassede AI-modeller, der tilbyder bruger kontrol og fremmer bedre datasikkerhed, omkostningseffektivitet og fremtidssikring, i modsætning til leverandør-låste løsninger.
Finskåren data og distillationskraft
Med Llama 3.1 405B kan udviklere udnytte modellen til at generere syntetiske data til finjustering af mindre modeller gennem en process kendt som distillation. Dette betyder, at man bruger en større model som Llama 3.1 405B til at generere data, der så bruges til at træne mindre student-modeller, som Llama 3.1 8B og 70B. Dette mindsker den nødvendige beregningskraft og gør modellerne mere strømlinede til specifikke domæneopgaver. Microsoft tilbyder nu også flere varianter af Llama 3.1, inklusive Llama Guard 3 8B og Prompt Guard i Azure AI Studio til administrerede compute-outputs.
Hvordan får man fat i Llama 3.1?
Llama 3.1-modellerne kan downloades fra Meta’s egen hjemmeside og på Hugging Face. Dog kræves der, at man oplyser kontaktinformation og accepterer en licens og en acceptabel brugspolitik, hvilket betyder, at Meta teknisk set kan trække tæppet væk under din brug af Llama 3.1 eller dens outputs til enhver tid. Llama 3.1 405B og dens varianter er også tilgængelige gennem Microsofts Azure AI, hvor virksomheder kan provisionere og implementere disse modeller til deres specifikke behov.
Fremtidens AI og Snilld’s Position
Hos Snilld er vi især spændte på, hvad sådan en kraftig open-source model kan betyde for tech industrien og forskning i den nærmeste fremtid, når vi begynder at se fin-tunede modeller trænet på virksomheders og forskningsprojekters egne data. Vi tror på, at dette kan være det næste kvantespring på kurven for eksponentiel udvikling af generativ AI teknologi. Vi glæder os til at komme i gang med at hjælpe nuværende og fremtidige kunder med træning og fin-tuning af deres egne kraftfulde LLM-modeller.
Kilder:
– https://ai.meta.com/blog/meta-llama-3-1/
– https://arstechnica.com/information-technology/2024/07/the-first-gpt-4-class-ai-model-anyone-can-download-has-arrived-llama-405b/
– https://techcommunity.microsoft.com/t5/ai-ai-platform-blog/meta-s-next-generation-model-llama-3-1-405b-is-now-available-on/ba-p/4198379