SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(de Lhoneux Miryam 1990 )
 

Sökning: WFRF:(de Lhoneux Miryam 1990 ) > Nightmare at test t...

Nightmare at test time : How punctuation prevents parsers from generalizing

Søgaard, Anders (författare)
University of Copenhagen
de Lhoneux, Miryam, 1990- (författare)
Uppsala universitet,Institutionen för lingvistik och filologi,Computational Linguistics
Augenstein, Isabelle (författare)
University of Copenhagen
 (creator_code:org_t)
Brussels : Association for Computational Linguistics, 2018
2018
Engelska.
Ingår i: Proceedings of the 2018 EMNLP Workshop BlackboxNLP. - Brussels : Association for Computational Linguistics. ; , s. 25-29
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Punctuation is a strong indicator of syntactic structure, and parsers trained on text with punctuation often rely heavily on this signal. Punctuation is a diversion, however, since human language processing does not rely on punctuation to the same extent, and in informal texts, we therefore often leave out punctuation. We also use punctuation ungrammatically for emphatic or creative purposes, or simply by mistake. We show that (a) dependency parsers are sensitive to both absence of punctuation and to alternative uses; (b) neural parsers tend to be more sensitive than vintage parsers; (c) training neural parsers without punctuation outperforms all out-of-the-box parsers across all scenarios where punctuation departs from standard punctuation. Our main experiments are on synthetically corrupted data to study the effect of punctuation in isolation and avoid potential confounds, but we also show effects on out-of-domain data.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Nyckelord

dependency parsing
punctuation
noisy data
generalization
Datorlingvistik
Computational Linguistics

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Søgaard, Anders
de Lhoneux, Miry ...
Augenstein, Isab ...
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Språkteknologi
Artiklar i publikationen
Av lärosätet
Uppsala universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy