Snilld

NeuralBench vil gøre EEG-modeller sammenlignelige — men løser det hele?

Meta AI lancerer NeuralBench-EEG v1.0, en åben ramme der samler 36 EEG-opgaver og 94 datasæt i én standardiseret benchmark. Den skærer ned på hemmelige preprocessing-tricks og gør foundation-modellers kvalitet målbar på tværs af studier. For produktteams er den reelle ændring mere jordnær: klare YAML-konfigurationer, ensartede evaluatorer og en CLI der kan ind i CI. Det er stort. Men det fjerner ikke de hårde problemer med metadata, bias og drift i sundheds- og forskningsmiljøer.

7. maj 2026 Peter Munkholm

Meta AI har udgivet NeuralBench-EEG v1.0, et åbent, samlet benchmarkrammeværk for NeuroAI, der bringer 36 EEG-opgaver og 94 datasæt sammen på én fælles spilleplade. Ifølge udgivelsen dækker benchmark 9.478 forsøgspersoner og 13.603 timer EEG og sammenligner 14 deep learning-arkitekturer under en fælles grænseflade. I et felt præget af hjemmebyggede scripts, smalle testopgaver og lige lovligt kreative måder at rapportere resultater på, er det usædvanligt meget at få samlet ét sted.

NeuroAI har haft et vedvarende reproducerbarhedsproblem. NeuralBench giver forskere og produktteams et referencepunkt, der kan automatiseres i eksisterende pipelines — uden at starte fra nul.

Hvorfor det her betyder noget nu

<p

Feltet har været fragmenteret længe. Forskellige grupper bruger forskellige preprocessing-pipelines, håndterer datasæt forskelligt og tester på få udvalgte opgaver. Sammenligning på tværs bliver svær, ofte umulig. NeuralBench går efter roden af problemet med én standardiseret ramme og et bredt spektrum af opgaver og datasæt: 36 opgaver, 94 datasæt, 9.478 deltagere og 13.603 timer EEG-data, ifølge hovedkilden.

Konsekvensen er praktisk: mindre cherry-picking. Færre hemmelige tricks i forbehandlingen, der gemmer sig i metodeafsnittens fodnoter. Og en reel mulighed for at teste generalisering på tværs af datasæt, ikke kun inden for ét favoritstudie. Det har manglet i årevis.

Nærbillede af EEG-elektrodeklynge med synlig gel og kanalring (etiketter slørede)

Hvad er NeuralBench i praksis

<p

NeuralBench er bygget som tre Python-pakker, der tilsammen dækker datahentning, datasæt-objekter og træning\/evaluering. NeuralFetch henter kuraterede data fra offentlige repos som OpenNeuro, DANDI og NEMAR. NeuralSet gør data klar som PyTorch-dataloaders og vikler eksisterende neuroværktøjer ind — MNE-Python og nilearn til forbehandling, og HuggingFace til stimuli-embeddings når opgaver involverer tekst, tale eller billeder. NeuralTrain leverer en modulær trænings- og evalueringssløjfe bygget på PyTorch-Lightning, Pydantic og et execution\/caching-lag (exca).

Arbejdet styres via CLI i tre trin: download, prepare, execute. Eksempel: først neuralbench download , så neuralbench prepare for at materialisere forbehandling og splits, og til sidst neuralbench execute for at træne og evaluere. Hver opgave og model styres af en YAML-fil med kilde, splits, preprocessing-trin, målvariabler, hyperparametre og metrikker. På papiret enkelt — og i praksis netop det, der ofte mangler i mange lab-koder.

Hvad der er inkluderet i v1.0

<p

Første udgivelse fokuserer på EEG. Opgaverne spænder bredt: cognitive decoding (fx billed-, sætning-, tale- og ord-decoding), BCI, evoked responses, kliniske detektioner, interne tilstande, søvn, fenotypning og diverse. Datasættene hentes via NeuralFetch fra primært OpenNeuro, DANDI og NEMAR, som har været knudepunkter for åbne neurodata i flere år.

Der evalueres tre brede modelfamilier under samme grænseflade: opgavespecifikke arkitekturer, prætrænede EEG “foundation”-modeller der finjusteres, samt håndlavede feature-baselines med klassiske klassifikatorer. I alt 14 arkitekturer, ifølge udgivelsen. Det giver et første, samlet referencepunkt for hvor stærke de forskellige tilgangsklasser er på tværs af mange opgaver.

Banner

Hvad NeuralBench ændrer for forskning

<p

Det store skifte er direkte sammenlignelighed. Når datasæt, forbehandling, splits og evaluatorer ligger i samme system, forsvinder de kreative fortolkninger i baggrunden. Man kan lave cross-dataset validering uden at håndkode alt fra bunden, og det bliver synligt, hvis en model kun virker på et enkelt datasæt — eller en enkelt søvnfase. Det tvinger en mere ærlig samtale om generalisering.

MOABB har i årevis været en de facto reference for BCI, men er smalt på udtasks. Den dækker op til 148 BCI-datasæt, men kun fem downstream-opgaver, ifølge Meta-udgivelsen. NeuralBench dækker færre datasæt i absolut tal, men langt flere opgavetyper og med en samlet trænings-evaluator, der er bygget til både opgavespecifikke og prætrænede modeller. Ambitionen er en anden — og mere praktisk for brede NeuroAI-spørgsmål.

Hænder klargør en compute-node og tilslutter et data-kabel ved en orkestreringsbænk — ikoniske flow-symboler uden læsbar tekst

Set fra skrivebordet hos Snilld

<p

Vi har set problemet tæt på. I to pilotprojekter med EEG-data rykkede modelperformance sig voldsomt ved små ændringer i forbehandlingen. Valg af filterrækkefølge, vinduelængde eller referencekanaler kunne flytte AUC mere end et arkitekturhop. Pinligt, næsten. At kunne låse forbehandlingen i YAML og køre samme pipeline på tværs af datasæt giver ro i maven — og færre diskussioner om “hvad gjorde I i trin tre?”.

En detalje fra praksis: vi brugte en eftermiddag på at jagte en 1 Hz drift i et datasæt. Den kom fra en utilsigtet resampling, der skubbede epoch-justeringen. Den slags fejl er ikke fancy, og man opdager dem for sent. En fælles prepare-fase med deterministisk caching gør det lettere at fange dem, før modeltræning æder GPU-timerne.

Praktiske implikationer for produktteams

<p

NeuralBench er bygget på PyTorch og PyTorch-Lightning, med MNE-Python og nilearn i maskinrummet. Teams kan derfor pakke opsætningen i Docker-containere og få versionslåset forbehandling, modelkode og metrikker. YAML-konfigurationerne er korte nok til at leve i repoet, så de kan køre i CI: ved hver ændring i data-schemas eller preprocessing trigges en fuld eller delvis benchmark.

Men pas på. Metadata-ensartethed er den skjulte tidsrøver: samplingfrekvens, kanalnavne, montager, eksklusionskriterier, samtykketags. Hvis ikke de ting er strømlinet, hjælper intet framework. Vores erfaring: brug den første uge på at rydde metadata og skrive skema-validering, ikke på modelvalg. Ellers ender I med at forklare mærkelige kurver i stedet for at løse opgaven.

Sådan kan en benchmark lande i jeres pipeline

<p

En mulig, konkret bane:

  • Tilknyt NeuralFetch til jeres datalake som read-only kilde, og spejl kun de datasæt, I faktisk må og bør bruge.
  • Hold NeuralSet-konfigurationerne i et versionsstyret katalog, og kræv review ved ændringer i forbehandlings-YAML.
  • Læg NeuralTrain-eksperimenter ind i jeres orkestrering (fx GitHub Actions eller et internt Airflow-job) med faste seeds og logning.
  • Sæt en cross-dataset suite som minimumscheck før produktion: mindst to eksterne datasæt plus jeres eget.

    Vi ville starte med en lille kerne af opgaver, der matcher målproblemet (fx anfaldsdetektion eller søvnstadieklassifikation) og køre referencearkitekturerne op mod 2–3 datasæt. Ikke for at finde “den bedste model” på dag ét, men for at se, hvor robust performance er, når forbehandling og data skifter en smule. Den kurve fortæller mere end top-1-tallet.

    NeuralBench vil gøre EEG-modeller sammenlignelige — men løser det hele? - billede 3

    Begrænsninger og åbne spørgsmål

    <p

    NeuralBench-EEG v1.0 er, som navnet siger, EEG-fokuseret. Ifølge kilden findes der endnu ingen systematisk benchmark for MEG og fMRI i samme ånd. Det gør EEG til et godt første trin, men ikke hele neurokortet. Hvis jeres use case går på tværs af modaliteter, er der et hul at udfylde.

    Påstanden om at være “størst” bør nuanceres. Udgivelsen kalder NeuralBench-EEG v1.0 den største åbne benchmark i sin kategori. Det afhænger af, hvordan man tæller — antal opgaver, antal datasæt, timer, modaliteter. MOABB har som nævnt flere BCI-datasæt men færre udtasks. Andre forsøg (EEG-Bench, EEG-FM-Bench, AdaBrain-Bench) dækker mindre flader på andre måder. Vi noterer derfor “størst” som en rimelig, men definitionsafhængig påstand.

    Banner

    Datasættenes metadata varierer. En standardiseret evaluator fjerner ikke bias i kildedata, og etik\/juridik følger med: GDPR, patientdata, samtykke. Et framework kan ikke lovliggøre brugen af et datasæt, det kan kun gøre brugen mere gennemsigtig. Det er stadig jeres ansvar at dokumentere behandlingsgrundlag og anonymisering.

    Tekniske kanter man rammer i praksis

    <p

    Forbehandling er en stor del af sandheden: valg af filter, notch, artifact rejection, re-referencing, epoching. NeuralBench standardiserer, men det rigtige valg er stadig domæneafhængigt. I vores erfaring bliver resultater skrøbelige, hvis man blindt bruger en default. Lås jeres valg i YAML, men mål og dokumenter hvorfor.

    Ressourcer: 13.603 timers rå EEG fylder. Spejles der meget lokalt, skal I regne med tung lagring, hurtig cache og en fornuftig cleanup-politik. GPU-krav afhænger af modelvalg og batchstørrelse; containerisering gør livet lettere, men planlæg for determinisme og pinning af versionsnumre på PyTorch, Lightning, MNE-Python, nilearn og HuggingFace-stakke.

    Hvad det betyder for forskningsclaims

    <p

    NeuralBench kan lægge låg på de mest luftige “foundation”-påstande. Når alle kører gennem samme evaluator og på flere opgaver, bliver det tydeligt, om en model bærer tværs over domæner, eller om den kun skinner på én type stimuli. Det er hele pointen med et fælles referencepunkt: færre præsentationer med selektive plots, flere kurver der kan gentages.

    Vi vil gerne se flere offentlige baseline-resultater og referenceplots i næste runde. Hvem fører hvor — og hvorfor? Uden det bliver diskussionen hurtigt “rammeværkets løfte” i stedet for “modellers faktiske ydeevne”. Meta nævner 14 arkitekturer under samme interface; detaljer om præcist træningssetup for hver model bør være fuldt åbne for at skære usikkerhed fra.

    Hvordan aktører bør forholde sig

    <p

    Hvis I sidder med EEG i R&D: brug NeuralBench som baseline, ikke som facit. Kør jeres kandidater på tværs af flere datasæt før I fejrer en vinder. Log al preprocessing og hold YAML versioneret. Byg en lille CI-suite, der genkører 3–5 kerneopgaver, når I skifter feature-engineering, arkitektur eller datakilder.

    Hvis I sigter mod produktion: etabler en governance-rygrad. Hvem må ændre forbehandling? Hvordan godkendes nye datasæt? Hvilke metrikker følger I i drift, der afslører EEG-specifikke fejlsignaler (elektrode-afkobling, baseline-drift, artifact spikes)? Få styr på monitorering og alarmsignaler før rollout — kedeligt, men det er det, der redder nattetimerne.

    Små ting, der alligevel betyder noget

    <p

    Navngiv kanaler konsekvent og dokumentér montager. En fejl i kanalmapningen kan ligne en modelregression. Og skriv seed, versionsnumre og hardware ind i YAML’en som metadata. Vi har set to ellers identiske kørsler afvige på grund af en upinnet CUDA-driver. Dumt — og almindeligt.

    Og så en parentes: vi er i tvivl om, hvor harmoniserede nogle datasæt reelt er til fair tværsammenligning. Det må tiden — og flere åbne rapporter — afgøre. Indtil da: brug cross-dataset-resultater som indikation, ikke dom.

    Hvad vi stadig mangler svar på

    <p

    Tre åbne spørgsmål står tilbage. Ét: roadmap for MEG og fMRI. Hvis målet er et samlet NeuroAI-benchmark, skal modaliteterne med. To: en præcis, offentlig liste over de 94 datasæt med metadata-kvalitet, samplingrater og kanalantal vil hjælpe teams med at planlægge storage og preprocessing. Tre: tydelige, reproducerbare baseline-resultater på tværs af opgaver, så man kan kalibrere forventninger og GPU-budgetter.

    Indtil videre er NeuralBench et stort skridt. Ikke en magisk løsning. Den fælles CLI, YAML og evaluatorer er det praktiske kit, mange mangler. Resten — driftsikkerhed, governance, etisk ramme — skal bygges ovenpå. Forskellen mærkes først, når man sidder med det i hænderne.

Kilder

    Gør brugeroplevelsen bedre.
    Hvilket firma arbejder du for?