Sökning: onr:"swepub:oai:DiVA.org:ltu-101305" >
AfriWOZ: Corpus for...
AfriWOZ: Corpus for Exploiting Cross-Lingual Transfer for Dialogue Generation in Low-Resource, African Languages
-
- Adewumi, Tosin (författare)
- Luleå tekniska universitet,EISLAB,Masakhane
-
- Adeyemi, Mofetoluwa (författare)
- Masakhane
-
- Anuoluwapo, Aremu (författare)
- Masakhane
-
visa fler...
-
- Peters, Bukola (författare)
- CIS
-
- Buzaaba, Happy (författare)
- Masakhane
-
- Samuel, Oyerinde (författare)
- Masakhane
-
- Rufai, Amina Mardiyyah (författare)
- Masakhane
-
- Ajibade, Benjamin (författare)
- Masakhane
-
- Gwadabe, Tajudeen (författare)
- Masakhane
-
- Koulibaly Traore, Mory Moussou (författare)
- Masakhane
-
- Ajayi, Tunde Oluwaseyi (författare)
- Masakhane
-
Muhammad, Shamsuddeen (författare)
-
- Baruwa, Ahmed (författare)
- Masakhane
-
- Owoicho, Paul (författare)
- Masakhane
-
- Ogunremi, Tolulope (författare)
- Masakhane
-
- Ngigi, Phylis (författare)
- Jomo Kenyatta University of Agriculture and Technology
-
- Ahia, Orevaoghene (författare)
- Masakhane
-
- Nasir, Ruqayya (författare)
- Masakhane
-
- Liwicki, Foteini (författare)
- Luleå tekniska universitet,EISLAB
-
- Liwicki, Marcus (författare)
- Luleå tekniska universitet,EISLAB
-
visa färre...
-
(creator_code:org_t)
- Institute of Electrical and Electronics Engineers Inc. 2023
- 2023
- Engelska.
-
Ingår i: IJCNN 2023 - International Joint Conference on Neural Networks, Conference Proceedings. - : Institute of Electrical and Electronics Engineers Inc.. - 9781665488686 - 9781665488679
- Relaterad länk:
-
https://urn.kb.se/re...
-
visa fler...
-
https://doi.org/10.1...
-
visa färre...
Abstract
Ämnesord
Stäng
- Dialogue generation is an important NLP task fraught with many challenges. The challenges become more daunting for low-resource African languages. To enable the creation of dialogue agents for African languages, we contribute the first high-quality dialogue datasets for 6 African languages: Swahili, Wolof, Hausa, Nigerian Pidgin English, Kinyarwanda & Yorùbá. There are a total of 9,000 turns, each language having 1,500 turns, which we translate from a portion of the English multi-domain MultiWOZ dataset. Subsequently, we benchmark by investigating & analyzing the effectiveness of modelling through transfer learning by utilziing state-of-the-art (SoTA) deep monolingual models: DialoGPT and BlenderBot. We compare the models with a simple seq2seq baseline using perplexity. Besides this, we conduct human evaluation of single-turn conversations by using majority votes and measure inter-annotator agreement (IAA). We find that the hypothesis that deep monolingual models learn some abstractions that generalize across languages holds. We observe human-like conversations, to different degrees, in 5 out of the 6 languages. The language with the most transferable properties is the Nigerian Pidgin English, with a human-likeness score of 78.1%, of which 34.4% are unanimous. We freely provide the datasets and host the model checkpoints/demos on the HuggingFace hub for public access.
Ämnesord
- NATURVETENSKAP -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
- NATURAL SCIENCES -- Computer and Information Sciences -- Language Technology (hsv//eng)
- NATURVETENSKAP -- Data- och informationsvetenskap -- Datavetenskap (hsv//swe)
- NATURAL SCIENCES -- Computer and Information Sciences -- Computer Sciences (hsv//eng)
Nyckelord
- crosslingual
- dialogue systems
- low-resource
- multilingual
- NLG
- Maskininlärning
- Machine Learning
Publikations- och innehållstyp
- ref (ämneskategori)
- kon (ämneskategori)
Hitta via bibliotek
Till lärosätets databas
- Av författaren/redakt...
-
Adewumi, Tosin
-
Adeyemi, Mofetol ...
-
Anuoluwapo, Arem ...
-
Peters, Bukola
-
Buzaaba, Happy
-
Samuel, Oyerinde
-
visa fler...
-
Rufai, Amina Mar ...
-
Ajibade, Benjami ...
-
Gwadabe, Tajudee ...
-
Koulibaly Traore ...
-
Ajayi, Tunde Olu ...
-
Muhammad, Shamsu ...
-
Baruwa, Ahmed
-
Owoicho, Paul
-
Ogunremi, Tolulo ...
-
Ngigi, Phylis
-
Ahia, Orevaoghen ...
-
Nasir, Ruqayya
-
Liwicki, Foteini
-
Liwicki, Marcus
-
visa färre...
- Om ämnet
-
- NATURVETENSKAP
-
NATURVETENSKAP
-
och Data och informa ...
-
och Språkteknologi
-
- NATURVETENSKAP
-
NATURVETENSKAP
-
och Data och informa ...
-
och Datavetenskap
- Artiklar i publikationen
-
IJCNN 2023 - Int ...
- Av lärosätet
-
Luleå tekniska universitet