SwePub
Sök i LIBRIS databas

  Utökad sökning

onr:"swepub:oai:DiVA.org:ri-35898"
 

Sökning: onr:"swepub:oai:DiVA.org:ri-35898" > Can We quantify dom...

Can We quantify domainhood? : Exploring measures to assess domain-specificity in web corpora

Santini, Marina, 1960- (författare)
RISE,SICS,RISE SICS, Linköping, Sweden
Strandqvist, Wiktor (författare)
Linköpings universitet,RISE,SICS,RISE SICS, Linköping, Sweden; Linköping University, Linköping, Sweden,Interaktiva och kognitiva system,Tekniska fakulteten,RISE Research Institutes of Sweden AB
Nyström, Mathias (författare)
RISE,SICS,Linköping University, Sweden
visa fler...
Alirezaie, Marjan, 1980- (författare)
Örebro universitet,Institutionen för naturvetenskap och teknik,Örebro University, Örebro, Sweden
Jönsson, Arne, 1955- (författare)
Linköpings universitet,RISE,SICS,RISE SICS, Linköping, Sweden; Linköping University, Linköping, Sweden,Interaktiva och kognitiva system,Tekniska fakulteten
Nyström, Mikael, 1977- (författare)
Linköpings universitet,RISE,SICS,Linköping University, Sweden,Avdelningen för medicinsk teknik,Tekniska fakulteten
visa färre...
 (creator_code:org_t)
2018-08-07
2018
Engelska.
Ingår i: Commun. Comput. Info. Sci.. - Cham : Springer International Publishing. - 9783319991320 - 9783319991337 ; , s. 207-217
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Web corpora are a cornerstone of modern Language Technology. Corpora built from the web are convenient because their creation is fast and inexpensive. Several studies have been carried out to assess the representativeness of general-purpose web corpora by comparing them to traditional corpora. Less attention has been paid to assess the representativeness of specialized or domain-specific web corpora. In this paper, we focus on the assessment of domain representativeness of web corpora and we claim that it is possible to assess the degree of domain-specificity, or domainhood, of web corpora. We present a case study where we explore the effectiveness of different measures - namely the Mann-Withney-Wilcoxon Test, Kendall correlation coefficient, Kullback–Leibler divergence, log-likelihood and burstiness - to gauge domainhood. Our findings indicate that burstiness is the most suitable measure to single out domain-specific words from a specialized corpus and to allow for the quantification of domainhood.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Datavetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Computer Sciences (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Nyckelord

Big data
Data mining
Expert systems
Search engines
Domain specific
Domain specificity
Kendall correlation coefficients
Log likelihood
Modern languages
Specialized corpora
Web Corpora
Wilcoxon test
Information management

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy