SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:gup.ub.gu.se/291265"
 

Sökning: id:"swepub:oai:gup.ub.gu.se/291265" > When is Multi-task ...

When is Multi-task Learning Beneficial for Low-Resource Noisy Code-switched User-generated Algerian Texts?

Adouane, Wafia, 1985 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för filosofi, lingvistik och vetenskapsteori,Department of Philosophy, Linguistics and Theory of Science
Bernardy, Jean-Philippe, 1978 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för filosofi, lingvistik och vetenskapsteori,Department of Philosophy, Linguistics and Theory of Science
 (creator_code:org_t)
Paris : European Language Resources Association, 2020
2020
Engelska.
Ingår i: Fourth Workshop on Computational Approaches to Linguistic Code-Switching. Language Resources and Evaluation Conference (LREC 2020), Marseille, 11–16 May 202. - Paris : European Language Resources Association. - 9791095546665
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • We investigate when is it beneficial to simultaneously learn representations for several tasks, in low-resource settings. For this, we work with noisy user-generated texts in Algerian, a low-resource non-standardised Arabic variety. That is, to mitigate the problem of the data scarcity, we experiment with jointly learning progressively 4 tasks, namely code-switch detection, named entity recognition, spell normalisation and correction, and identifying users’ sentiments. The selection of these tasks is motivated by the lack of labelled data for automatic morpho-syntactic or semantic sequence-tagging tasks for Algerian, in contrast to the case of much multi-task learning for NLP. Our empirical results show that multi-task learning is beneficial for some tasks in particular settings, and that the effect of each task on another, the order of the tasks, and the size of the training data of the task with more data do matter. Moreover, the data augmentation that we performed with no external resources has been shown to be beneficial for certain tasks.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Nyckelord

Algerian Arabic
code-switched user-generated data
multi-task learning
low-resource colloquial languages

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Adouane, Wafia, ...
Bernardy, Jean-P ...
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Språkteknologi
Artiklar i publikationen
Fourth Workshop ...
Av lärosätet
Göteborgs universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy