SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:DiVA.org:su-94344"
 

Sökning: id:"swepub:oai:DiVA.org:su-94344" > Semantic Spaces of ...

LIBRIS Formathandbok  (Information om MARC21)
FältnamnIndikatorerMetadata
00007576nam a2200493 4500
001oai:DiVA.org:su-94344
003SwePub
008131003s2013 | |||||||||||000 ||eng|
024a https://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-943442 URI
040 a (SwePub)su
041 a engb engb swe
042 9 SwePub
072 7a vet2 swepub-contenttype
072 7a lic2 swepub-publicationtype
100a Henriksson, Aron,d 1985-u Stockholms universitet,Institutionen för data- och systemvetenskap4 aut0 (Swepub:su)ahenr
2451 0a Semantic Spaces of Clinical Text :b Leveraging Distributional Semantics for Natural Language Processing of Electronic Health Records
264 1a Stockholm, Sweden :b Department of Computer and Systems Sciences, Stockholm University,c 2013
338 a electronic2 rdacarrier
520 a The large amounts of clinical data generated by electronic health record systems are an underutilized resource, which, if tapped, has enormous potential to improve health care. Since the majority of this data is in the form of unstructured text, which is challenging to analyze computationally, there is a need for sophisticated clinical language processing methods. Unsupervised methods that exploit statistical properties of the data are particularly valuable due to the limited availability of annotated corpora in the clinical domain.Information extraction and natural language processing systems need to incorporate some knowledge of semantics. One approach exploits the distributional properties of language – more specifically, term co-occurrence information – to model the relative meaning of terms in high-dimensional vector space. Such methods have been used with success in a number of general language processing tasks; however, their application in the clinical domain has previously only been explored to a limited extent. By applying models of distributional semantics to clinical text, semantic spaces can be constructed in a completely unsupervised fashion. Semantic spaces of clinical text can then be utilized in a number of medically relevant applications.The application of distributional semantics in the clinical domain is here demonstrated in three use cases: (1) synonym extraction of medical terms, (2) assignment of diagnosis codes and (3) identification of adverse drug reactions. To apply distributional semantics effectively to a wide range of both general and, in particular, clinical language processing tasks, certain limitations or challenges need to be addressed, such as how to model the meaning of multiword terms and account for the function of negation: a simple means of incorporating paraphrasing and negation in a distributional semantic framework is here proposed and evaluated. The notion of ensembles of semantic spaces is also introduced; these are shown to outperform the use of a single semantic space on the synonym extraction task. This idea allows different models of distributional semantics, with different parameter configurations and induced from different corpora, to be combined. This is not least important in the clinical domain, as it allows potentially limited amounts of clinical data to be supplemented with data from other, more readily available sources. The importance of configuring the dimensionality of semantic spaces, particularly when – as is typically the case in the clinical domain – the vocabulary grows large, is also demonstrated.
520 a De stora mängder kliniska data som genereras i patientjournalsystem är en underutnyttjad resurs med en enorm potential att förbättra hälso- och sjukvården. Då merparten av kliniska data är i form av ostrukturerad text, vilken är utmanande för datorer att analysera, finns det ett behov av sofistikerade metoder som kan behandla kliniskt språk. Metoder som inte kräver märkta exempel utan istället utnyttjar statistiska egenskaper i datamängden är särskilt värdefulla, med tanke på den begränsade tillgången till annoterade korpusar i den kliniska domänen.System för informationsextraktion och språkbehandling behöver innehålla viss kunskap om semantik. En metod går ut på att utnyttja de distributionella egenskaperna hos språk – mer specifikt, statistisk över hur termer samförekommer – för att modellera den relativa betydelsen av termer i ett högdimensionellt vektorrum. Metoden har använts med framgång i en rad uppgifter för behandling av allmänna språk; dess tillämpning i den kliniska domänen har dock endast utforskats i mindre utsträckning. Genom att tillämpa modeller för distributionell semantik på klinisk text kan semantiska rum konstrueras utan någon tillgång till märkta exempel. Semantiska rum av klinisk text kan sedan användas i en rad medicinskt relevanta tillämpningar.Tillämpningen av distributionell semantik i den kliniska domänen illustreras här i tre användningsområden: (1) synonymextraktion av medicinska termer, (2) tilldelning av diagnoskoder och (3) identifiering av läkemedelsbiverkningar. Det krävs dock att vissa begränsningar eller utmaningar adresseras för att möjliggöra en effektiv tillämpning av distributionell semantik på ett brett spektrum av uppgifter som behandlar språk – både allmänt och, i synnerhet, kliniskt – såsom hur man kan modellera betydelsen av flerordstermer och redogöra för funktionen av negation: ett enkelt sätt att modellera parafrasering och negation i ett distributionellt semantiskt ramverk presenteras och utvärderas. Idén om ensembler av semantisk rum introduceras också; dessa överträffer användningen av ett enda semantiskt rum för synonymextraktion. Den här metoden möjliggör en kombination av olika modeller för distributionell semantik, med olika parameterkonfigurationer samt inducerade från olika korpusar. Detta är inte minst viktigt i den kliniska domänen, då det gör det möjligt att komplettera potentiellt begränsade mängder kliniska data med data från andra, mer lättillgängliga källor. Arbetet påvisar också vikten av att konfigurera dimensionaliteten av semantiska rum, i synnerhet när vokabulären är omfattande, vilket är vanligt i den kliniska domänen.
650 7a NATURVETENSKAPx Data- och informationsvetenskapx Språkteknologi0 (SwePub)102082 hsv//swe
650 7a NATURAL SCIENCESx Computer and Information Sciencesx Language Technology0 (SwePub)102082 hsv//eng
653 a distributional semantics
653 a random indexing
653 a semantic space
653 a electronic health records
653 a clinical text
653 a synonyms
653 a diagnosis codes
653 a adverse drug reactions
653 a Computer and Systems Sciences
653 a data- och systemvetenskap
653 a IT for health
653 a IT för hälsa
653 a datorlingvistik
653 a Computational Linguistics
653 a datalogi
653 a Computer Science
700a Dalianis, Hercules,c Professoru Stockholms universitet,Institutionen för data- och systemvetenskap4 ths
700a Duneld, Martin,c PhDu Stockholms universitet,Institutionen för data- och systemvetenskap4 ths
700a Karlgren, Jussi,c Associate Professoru Royal Institute of Technology (KTH), Sweden4 opn
710a Stockholms universitetb Institutionen för data- och systemvetenskap4 org
856u https://su.diva-portal.org/smash/get/diva2:653288/FULLTEXT01.pdfx primaryx Raw objecty fulltext
8564 8u https://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-94344

Hitta via bibliotek

Till lärosätets databas

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy