SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:DiVA.org:su-207489"
 

Sökning: id:"swepub:oai:DiVA.org:su-207489" > Terminology Expansi...

Terminology Expansion with Prototype Embeddings : Extracting Symptoms of Urinary Tract Infection from Clinical Text

Alam, Mahbub Ul (författare)
Stockholms universitet,Institutionen för data- och systemvetenskap
Henriksson, Aron, 1985- (författare)
Stockholms universitet,Institutionen för data- och systemvetenskap
Hideyuki, Tanushi (författare)
Karolinska Institutet, Sweden
visa fler...
Emil, Thiman (författare)
Karolinska Institutet, Sweden; Karolinska University Hospital, Sweden
Pontus, Naucler (författare)
Karolinska Institutet, Sweden; Karolinska University Hospital, Sweden
Dalianis, Hercules, 1959- (författare)
Stockholms universitet,Institutionen för data- och systemvetenskap
visa färre...
 (creator_code:org_t)
Setúbal : SciTePress, 2021
2021
Engelska.
Ingår i: Proceedings of the 14th International Joint Conference on Biomedical Engineering Systems and Technologies (BIOSTEC 2021) - Volume 5: HEALTHINF. - Setúbal : SciTePress. - 9789897584909 ; , s. 47-57
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Many natural language processing applications rely on the availability of domain-specific terminologies containing synonyms. To that end, semi-automatic methods for extracting additional synonyms of a given concept from corpora are useful, especially in low-resource domains and noisy genres such as clinical text, where nonstandard language use and misspellings are prevalent. In this study, prototype embeddings based on seed words were used to create representations for (i) specific urinary tract infection (UTI) symptoms and (ii) UTI symptoms in general. Four word embedding methods and two phrase detection methods were evaluated using clinical data from Karolinska University Hospital. It is shown that prototype embeddings can effectively capture semantic information related to UTI symptoms. Using prototype embeddings for specific UTI symptoms led to the extraction of more symptom terms compared to using prototype embeddings for UTI symptoms in general. Overall, 142 additional UTI symp tom terms were identified, yielding a more than 100% increment compared to the initial seed set. The mean average precision across all UTI symptoms was 0.51, and as high as 0.86 for one specific UTI symptom. This study provides an effective and cost-effective solution to terminology expansion with small amounts of labeled data.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Systemvetenskap, informationssystem och informatik (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Information Systems (hsv//eng)

Nyckelord

Natural Language Processing
Terminologies
Synonym Extraction
Word Embeddings
Clinical Text
informationssamhället
Information Society

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy