SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Vu Xuan Son 1988 )
 

Sökning: WFRF:(Vu Xuan Son 1988 ) > (2024) > Pseudonymization Ca...

Pseudonymization Categories across Domain Boundaries

Szawerna, Maria Irena (författare)
Gothenburg University,Göteborgs universitet,Institutionen för svenska, flerspråkighet och språkteknologi,Språkbanken Text, Institutionen för svenska, flerspråkighet och språkteknologi,Department of Swedish, Multilingualism, Language Technology,Språkbanken Text, Department of Swedish, multilingualism, language technology
Dobnik, Simon, 1977 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för filosofi, lingvistik och vetenskapsteori,Department of Philosophy, Linguistics and Theory of Science
Lindström Tiedemann, Therese, 1976 (författare)
visa fler...
Muñoz Sánchez, Ricardo, 1992 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för svenska, flerspråkighet och språkteknologi,Språkbanken Text, Institutionen för svenska, flerspråkighet och språkteknologi,Department of Swedish, Multilingualism, Language Technology,Språkbanken Text, Department of Swedish, multilingualism, language technology
Vu, Xuan-Son, 1988 (författare)
Volodina, Elena, 1973 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för svenska, flerspråkighet och språkteknologi,Språkbanken Text, Institutionen för svenska, flerspråkighet och språkteknologi,Department of Swedish, Multilingualism, Language Technology,Språkbanken Text, Department of Swedish, multilingualism, language technology
visa färre...
 (creator_code:org_t)
ELRA and ICCL, 2024
2024
Engelska.
Ingår i: Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). - : ELRA and ICCL.
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Linguistic data, a component critical not only for research in a variety of fields but also for the development of various Natural Language Processing (NLP) applications, can contain personal information. As a result, its accessibility is limited, both from a legal and an ethical standpoint. One of the solutions is the pseudonymization of the data. Key stages of this process include the identification of sensitive elements and the generation of suitable surrogates in a way that the data is still useful for the intended task. Within this paper, we conduct an analysis of tagsets that have previously been utilized in anonymization and pseudonymization. We also investigate what kinds of Personally Identifiable Information (PII) appear in various domains. These reveal that none of the analyzed tagsets account for all of the PII types present cross-domain at the level of detailedness seemingly required for pseudonymization. We advocate for a universal system of tags for categorizing PIIs leading up to their replacement. Such categorization could facilitate the generation of grammatically, semantically, and sociolinguistically appropriate surrogates for the kinds of information that are considered sensitive in a given domain, resulting in a system that would enable dynamic pseudonymization while keeping the texts readable and useful for future research in various fields.

Ämnesord

HUMANIORA  -- Språk och litteratur -- Jämförande språkvetenskap och allmän lingvistik (hsv//swe)
HUMANITIES  -- Languages and Literature -- General Language Studies and Linguistics (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Nyckelord

pseudonymization
anonymization
privacy
deidentification
universal tagset

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Till lärosätets databas

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy