SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:gup.ub.gu.se/255457"
 

Sökning: id:"swepub:oai:gup.ub.gu.se/255457" > Romanized Arabic an...

Romanized Arabic and Berber Detection Using Prediction by Partial Matching and Dictionary Methods

Adouane, Wafia, 1985 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för filosofi, lingvistik och vetenskapsteori,Department of Philosophy, Linguistics and Theory of Science
Semmar, N. (författare)
Johansson, Richard, 1975 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för data- och informationsteknik (GU),Department of Computer Science and Engineering (GU)
 (creator_code:org_t)
2016
2016
Engelska.
Ingår i: 2016 IEEE/ACS 13TH INTERNATIONAL CONFERENCE OF COMPUTER SYSTEMS AND APPLICATIONS (AICCSA). - 9781509043200
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Arabic is one of the Semitic languages written in Arabic script in its standard form. However, the recent rise of social media and new technologies has contributed considerably to the emergence of a new form of Arabic, namely Arabic written in Latin scripts, often called Romanized Arabic or Arabizi. While Romanized Arabic is an informal language, Berber or Tamazight uses Latin script in its standard form with some orthography differences depending on the country it is used in. Both these languages are under-resourced and unknown to the state-of-theart language identifiers. In this paper, we present a language automatic identifier for both Romanized Arabic and Romanized Berber. We also describe the built linguistic resources (large dataset and lexicons) including a wide range of Arabic dialects (Algerian, Egyptian, Gulf, Iraqi, Levantine, Moroccan and Tunisian dialects) as well as the most popular Berber varieties (Kabyle, Tashelhit, Tarifit, Tachawit and Tamzabit). We use the Prediction by Partial Matching (PPM) and dictionary-based methods. The methods reach a macro-average F-Measure of 98.74% and 97.60% respectively.

Ämnesord

HUMANIORA  -- Språk och litteratur (hsv//swe)
HUMANITIES  -- Languages and Literature (hsv//eng)

Nyckelord

Under-resourced languages
Romanized Arabic
Romanized Berber
Linguistic resource building
Automatic language identification
Informal language processing

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Adouane, Wafia, ...
Semmar, N.
Johansson, Richa ...
Om ämnet
HUMANIORA
HUMANIORA
och Språk och litter ...
Artiklar i publikationen
2016 IEEE/ACS 13 ...
Av lärosätet
Göteborgs universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy