SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:DiVA.org:hb-2507"
 

Sökning: id:"swepub:oai:DiVA.org:hb-2507" > Construction and an...

Construction and annotation of a corpus of contemporary Nepali

Allwood, Jens (författare)
Gothenburg University,Göteborgs universitet,Högskolan i Borås,Institutionen Handels- och IT-högskolan,Institutionen för lingvistik,Kollegium SSKKII (-2009),Department of Linguistics,Centre of Interdisciplinary Research/Cognition/Information
Yavada, Yogendra P (författare)
Hardie, Andres (författare)
visa fler...
Lohani, R R (författare)
Rhegmi, Bhim (författare)
Gurung, S (författare)
Gurung, A (författare)
McEnery, Tony (författare)
Hall, Pat (författare)
McEnery, A. (författare)
visa färre...
 (creator_code:org_t)
Edinburgh University Press, 2008
2008
Engelska.
Ingår i: Corpora. - : Edinburgh University Press. - 1749-5032 .- 1755-1676. ; 3:2, s. 213-225
  • Tidskriftsartikel (refereegranskat)
Abstract Ämnesord
Stäng  
  • In this paper, we describe the construction of the 14-million-word Nepali National Corpus (NNC). This corpus includes both spoken and written data, the latter incorporating a Nepali match for FLOB and a broader collection of text. Additional resources within the NNC include parallel data (English–Nepali and Nepali–English) and a speech corpus. The NNC is encoded as Unicode text and marked up in CES-compatible XML. The whole corpus is also annotated with part-of-speech tags. We describe the process of devising a tagset and retraining tagger software for the Nepali language, for which there were no existing corpus resources. Finally, we explore some present and future applications of the corpus, including lexicography, NLP, and grammatical research.

Ämnesord

HUMANIORA  -- Språk och litteratur -- Studier av enskilda språk (hsv//swe)
HUMANITIES  -- Languages and Literature -- Specific Languages (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences (hsv//eng)

Nyckelord

corpus linguistics
nepali
spoken language
Corpus linguistics
linguistic resources

Publikations- och innehållstyp

ref (ämneskategori)
art (ämneskategori)

Hitta via bibliotek

  • Corpora (Sök värdpublikationen i LIBRIS)

Till lärosätets databas

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy