Aarhus Universitet

12/14/2025 | Press release | Distributed by Public on 12/15/2025 02:04

AI-modeller kan overse viden, fordi data mangler

AI-modeller kan overse viden, fordi data mangler

Et nyt studie fra Center for Humanities Computing på Aarhus Universitet viser, at AI let kan overse vigtig viden, hvis bestemte mennesker, sprog eller erfaringer kun fylder meget lidt - eller slet ikke er til stede - i de data, modellerne trænes på. Det gør det nødvendigt at forstå, hvilke perspektiver der mangler eller er svagt repræsenteret i data, hvis vi vil udvikle mere retvisende AI-systemer.

Colourbox
14. december 2025 af Anja Kjærgaard

Hvor kommer begrebet "silencing" fra?

Begrebet silencing stammer fra humanistisk og samfundsvidenskabelig forskning i viden, magt og uretfærdighed.

  • Filosoffen Miranda Fricker introducerede begrebet som en del af teorien om epistemisk uretfærdighed.
    Her beskriver silencing, hvordan personer fra bestemte sociale grupper får deres vidnesbyrd undervurderet eller afvist - ikke fordi de tager fejl, men fordi de ikke bliver anerkendt som troværdige videnskilder.

  • Arkivforskeren Rodney Carter bruger begrebet archival silencing til at beskrive, hvordan marginaliserede grupper systematisk mangler i arkiver.
    Når arkiver fungerer som samfundets kollektive hukommelse, betyder fraværet af bestemte grupper, at deres erfaringer ikke bliver bevaret eller anerkendt som viden.

I det nye studie overføres disse begreber til data science, hvor datasæt og digitale arkiver fungerer som grundlag for AI-modellers viden om verden.

De fleste af os falder med jævne mellemrum over en Wikipedia-side, når vi søger efter noget på internettet. For mange fungerer Wikipedia som et hurtigt opslagsværk - og for kunstig intelligens som en del af det datagrundlag, modellerne lærer af. Men hvad hvis kun 25 procent af artiklerne på Wikipedia handler om kvinder, og hvis kvinder ofte beskrives på en anden måde end mænd? Og hvad hvis den skævhed ikke er begrænset til Wikipedia, men gælder internetdata generelt? I de data, der er "scrapet" fra internettet, er der for eksempel systematisk underrepræsentation af ikke-engelske sprog og perspektiver fra det globale Syd, ifølge Ida Marie S. Lassen, der forsker ved Center for Humanities Computing på Aarhus Universitet.

"Pointen er, når sådanne skævheder findes i de data, der bruges til at træne AI-modeller, så tilegner teknologien sig også et skævt billede af verden. Visse sociale grupper bliver gjort tavse, og det sker længe før en model kommer med et output - den opstår i helt almindelige praksisser, vi bruger, når vi indsamler, renser og træner data," fortæller Ida Marie Lassen, ph.d. i filosofi om bias i maskinlæring, der står bag studiet, som er offentliggjort i tidsskriftet Big Data & Society.

Hvor opstår usynligheden?
I studiet identificerer Ida Marie S. Lassen sammen med de øvrige forfattere bag studiet fire steder i arbejdet med data, hvor der er risiko for at bringe perspektiver til tavshed. Det første handler om selve dataindsamlingen: Hvis man primært indsamler data om majoritetsgrupper, bliver minoriteter allerede her fraværende som videnskilder.

Det andet led er datarensning, hvor ufuldstændige eller "afvigende" datapunkter ofte sorteres fra. Hvis afvigelserne især findes hos bestemte grupper, forsvinder deres erfaringer endnu en gang.

Det tredje sted er modeltræningen, hvor AI-modeller lærer mest af de mønstre, der fylder mest i datasættet. Små eller underrepræsenterede grupper kan efterlade for svagt et signal til, at modellen overhovedet opfatter disse mønstre.

Og det fjerde sted er implementeringen: Når modellen bruges i praksis, viderefører den de skævheder, der fandtes i træningsdata - og kan dermed forstærke eksisterende uligheder.

Konsekvenser i praksis: Navne, der ikke bliver genkendt
Denne tavshed er ikke kun teoretisk. Ida Marie S. Lassen har tidligere vist, at danske modeller til såkaldt Named Entity Recognition - et værktøj, der automatisk genkender navne i tekst - er markant bedre til at finde navne forbundet med majoritetsdanskere end navne forbundet med minoritetskvinder.

Hvis sådanne modeller bruges i forskning, sagsbehandling eller analyse af store tekstsamlinger, betyder det, at visse grupper igen risikerer at blive overset. De bliver simpelthen ikke registreret som tilstedeværende.

Selvom studiet peger på udfordringer, rummer det også et positivt budskab. Data science kan nemlig bruges til at afdække eksisterende uretfærdigheder - og i nogle tilfælde til at genskabe stemmer, der tidligere er blevet overset.

Forskerne peger blandt andet på VOICE-projektet ved University of Dublin, hvor digitale metoder bruges til at analysere historiske dokumenter, der før var utilgængelige. Ved hjælp af maskinlæring er håndskrevne tekster gjort søgbare, og kvinders liv og netværk i det tidligmoderne samfund bliver igen synlige som en del af vores fælles historie.

Mod AI, der repræsenterer flere
For Ida Marie Lassen handler forskningen om mere end tekniske løsninger.

"Når vi bruger datadrevne systemer i vores vidensproduktion er det til at drage konklusioner om verden omkring os. Derfor er det afgørende at spørge, hvem der får lov at bidrage til denne viden - og hvem der risikerer at blive bragt til tavshed," fortæller hun.

Med studiet Silencing in Data Science Practices håber Ida Marie Lassen at styrke det videnskabelige samarbejde mellem humaniora og data science, så både tekniske og menneskelige perspektiver får plads i udviklingen af fremtidens AI-systemer.

Bag om forskningen
Studietype: Filosofi
Forfattere: Ida Marie S. Lassen, Jens Bjerring & Kristoffer L. Nielbo
Link til den videnskabelige publikation: Silencing in Data Science Practices
Tidsskrift: Big Data & Society (SAGE, 2025)

Kontakt

Ida Marie S. Lassen, videnskabelig assistent
Center for Humanities Computing
Institut for Kultur og Samfund
Aarhus Universitet
Mail: [email protected]
Telefon: + 45 8716 9108

Aarhus Universitet published this content on December 14, 2025, and is solely responsible for the information contained herein. Distributed via Public Technologies (PUBT), unedited and unaltered, on December 15, 2025 at 08:04 UTC. If you believe the information included in the content is inaccurate or outdated and requires editing or removal, please contact us at [email protected]