SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Kann Viggo 1964 )
 

Sökning: WFRF:(Kann Viggo 1964 ) > (2009) > Using Uplug and Sit...

Using Uplug and SiteSeeker to construct a cross language search engine for Scandinavian languages

Dalianis, Hercules, 1959- (författare)
KTH,Data- och systemvetenskap, DSV
Rimka, Martin (författare)
KTH,Data- och systemvetenskap, DSV
Kann, Viggo, 1964- (författare)
KTH,Data- och systemvetenskap, DSV
 (creator_code:org_t)
Northern European Association for Language Technology (NEALT), 2009
2009
Engelska.
Ingår i: Proceedings of the 17th Nordic Conference of Computational Linguistics, NODALIDA 2009. - : Northern European Association for Language Technology (NEALT). ; , s. 26-33
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • This paper presents how we adapted a website search engine for cross language information retrieval, using the Uplug word alignment tool for parallel corpora. We first studied the monolingual search queries posed by the visitors of the website of the Nordic council containing six different languages. In order to compare how well different types of bilingual dictionaries covered the most common queries and terms on the website we tried a collection of ordinary bilingual dictionaries, a small manually constructed trilingual dictionary and an automatically constructed trilingual dictionary, constructed from the news corpus in the website using Uplug. The precision and recall of the automatically constructed Swedish-English dictionary using Uplug were 71 and 93 percent, respectively. We found that precision and recall increase significantly in samples with high word frequency, but we could not confirm that POS-tags improve precision. The collection of ordinary dictionaries, consisting of about 200 000 words, only cover half of the top 100 search queries at the website. The automatically built trilingual dictionary combined with the small manually built trilingual dictionary consists of about 2000 words and covers 27 of the top 100 search queries.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Nyckelord

Cross language information retrieval
Danish
Norwegian
parallel corpora
Swedish
word alignment

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Dalianis, Hercul ...
Rimka, Martin
Kann, Viggo, 196 ...
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Språkteknologi
Artiklar i publikationen
Av lärosätet
Kungliga Tekniska Högskolan

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy