Gender and representation: investigations of bias in natural language processing

↓ Direkt till sidans innehåll
↓ Direkt till sidans sekundära innehåll (sidomenyn)

Sökning: WFRF:(Björklund Jenny 1974 ) > (2020-2024) > Gender and represen...

Gender and representation : investigations of bias in natural language processing

Devinney, Hannah, 1995- (författare): Umeå universitet,Institutionen för datavetenskap,Umeå centrum för genusstudier (UCGS)

Björklund, Henrik, Associate Professor (preses): Umeå universitet,Institutionen för datavetenskap

Björklund, Jenny, Professor, 1974- (preses): Centre for Gender Research, Uppsala University

visa fler...

Hardmeier, Christian, Associate Professor (opponent): Computer Science, IT University Copenhagen, Denmark

visa färre...

(creator_code:org_t)

ISBN 9789180703376
Umeå : Umeå University, 2024
Engelska 173 s.
Serie: Report / UMINF, 0348-0542

Relaterad länk:: https://umu.diva-por...; visa fler...; https://umu.diva-por... (Preview); https://umu.diva-por... (primary) (Raw object); https://urn.kb.se/re...; visa färre...

Doktorsavhandling (övrigt vetenskapligt/konstnärligt)

Abstract Ämnesord

Stäng

Natural Language Processing (NLP) technologies are a part of our every day realities. They come in forms we can easily see as ‘language technologies’ (auto-correct, translation services, search results) as well as those that fly under our radar (social media algorithms, 'suggested reading' recommendations on news sites, spam filters). NLP fuels many other tools under the Artificial Intelligence umbrella – such as algorithms approving for loan applications – which can have major material effects on our lives. As large language models like ChatGPT have become popularized, we are also increasingly exposed to machine-generated texts.Machine Learning (ML) methods, which most modern NLP tools rely on, replicate patterns in their training data. Typically, these language data are generated by humans, and contain both overt and underlying patterns that we consider socially undesirable, comprising stereotypes and other reflections of human prejudice. Such patterns (often termed 'bias') are picked up and repeated, or even made more extreme, by ML systems. Thus, NLP technologies become a part of the linguistic landscapes in which we humans transmit stereotypes and act on our prejudices. They may participate in this transmission by, for example, translating nurses as women (and doctors as men) or systematically preferring to suggest promoting men over women. These technologies are tools in the construction of power asymmetries not only through the reinforcement of hegemony, but also through the distribution of material resources when they are included in decision-making processes such as screening job applications.This thesis explores gendered biases, trans and nonbinary inclusion, and queer representation within NLP through a feminist and intersectional lens. Three key areas are investigated: the ways in which “gender” is theorized and operationalized by researchers investigating gender bias in NLP; gendered associations within datasets used for training language technologies; and the representation of queer (particularly trans and nonbinary) identities in the output of both low-level NLP models and large language models (LLMs). The findings indicate that nonbinary people/genders are erased by both bias in NLP tools/datasets, and by research/ers attempting to address gender biases. Men and women are also held to cisheteronormative standards (and stereotypes), which is particularly problematic when considering the intersection of gender and sexuality. Although it is possible to mitigate some of these issues in particular circumstances, such as addressing erasure by adding more examples of nonbinary language to training data, the complex nature of the socio-technical landscape which NLP technologies are a part of means that simple fixes may not always be sufficient. Additionally, it is important that ways of measuring and mitigating 'bias' remain flexible, as our understandings of social categories, stereotypes and other undesirable norms, and 'bias' itself will shift across contexts such as time and linguistic setting.

Nuförtiden möter vi dagligen språkteknologi i olika former. Ibland är det tydligt för oss att detta sker, till exempel när vi använder maskinöversättning. Andra gånger är det svårare att upptäcka, som när sociala medier rekommenderar oss inlägg. Språkteknologi ligger också till grund för större AI-system, som till exempel kan användas för att bevilja eller avslå låneansökningar och därmed ha stora materiella effekter på våra liv. I takt med att ChatGPT och andra stora språkmodeller blir mer populära kommer vi också att konfronteras med fler och fler maskingenererade texter. Maskininlärningsmetoder, som de flesta av dessa verktyg förlitar sig på idag, upprepar mönster de 'ser' i sin träningsdata. Vanligtvis är detta språkdata som människor har skrivit eller talat, så förutom saker som meningsstruktur innehåller den också information om hur vi konstruerar vårt samhälle. Detta inkluderar även stereotyper och andra fördomar. Vi kallar dessa mönster för 'social bias' och de upprepas, eller till och med förvärras, av maskininlärningssystem. När språkteknologi blir en del av vårt språkliga sammanhang blir de också delaktiga i att föra vidare stereotyper genom att till exempel anta att sjuksköterskor är kvinnor och läkare män, eller systematiskt föreslå män framför kvinnor för befordran. Tekniken blir därmed ett verktyg som samhället använder för att bygga upp makt -- och maktskillnader -- genom att sprida och normalisera orättvisa idéer samt genom att bidra till orättvisa resursfördelningar. Den här avhandlingen utforskar sociala fördomar om kön och genus, inkludering av trans- och ickebinära personer samt queer representation i språkteknologier genom en feministisk och intersektionell lins. Tre frågor ställs: Hur tänker forskare på och mäter 'genus' när de undersöker 'genusbias' i språkteknologi? Vilka könsstereotyper finns i data som används för att träna språkteknologiska modeller? Hur representeras queera (särskilt trans- och ickebinära) människor, kroppar och erfarenheter i produktionen av dessa teknologier? Avhandlingen finner att ickebinära personer osynliggörs av fördomar i såväl modeller som data, men också av forskare som vill ta itu med könsfördomar. Män och kvinnor reduceras till cisheteronormativa roller och stereotyper, med litet utrymme att vara en individ bortom kön. Vi kan mildra några av dessa problem, till exempel genom att lägga till mer ickebinärt språk i träningsdatan, men fullständiga lösningar är svåra att uppnå på grund av det komplexa samspelet mellan samhälle och teknik. Dessutom måste vi förbli flexibla, eftersom vår förståelse av samhället, stereotyper och 'bias' i sig skiftar över tid och med sammanhanget.

Ämnesord

NATURVETENSKAP -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES -- Computer and Information Sciences -- Language Technology (hsv//eng)
SAMHÄLLSVETENSKAP -- Annan samhällsvetenskap -- Genusstudier (hsv//swe)
SOCIAL SCIENCES -- Other Social Sciences -- Gender Studies (hsv//eng)

Nyckelord

NLP
natural language processing
gender bias
social impact of AI
gendered pronouns
neopronouns
gender studies
topic modeling
Computer Science
datalogi
computational linguistics
datorlingvistik
genusvetenskap
gender studies

Publikations- och innehållstyp

vet (ämneskategori)
dok (ämneskategori)

Hitta via bibliotek

Gender and representation investigations of bias in natural language processing (Sök publikationen i LIBRIS)

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...: Devinney, Hannah ...; Björklund, Henri ...; Björklund, Jenny ...; Hardmeier, Chris ...

Om ämnet

NATURVETENSKAP: NATURVETENSKAP; och Data och informa ...; och Språkteknologi

SAMHÄLLSVETENSKAP: SAMHÄLLSVETENSKA ...; och Annan samhällsve ...; och Genusstudier

Delar i serien: Report / UMINF,

Av lärosätet: Umeå universitet

Sök utanför SwePub

Sök vidare i:: Google; Google Book Search; Google Scholar

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

LIBRIS.kb.se