SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:gup.ub.gu.se/310123"
 

Sökning: id:"swepub:oai:gup.ub.gu.se/310123" > A Supervised Machin...

A Supervised Machine Learning Approach for Post-OCR Error Detection for Historical Text

Dannélls, Dana, 1976 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för svenska språket,Department of Swedish
Virk, Shafqat, 1979 (författare)
Gothenburg University,Göteborgs universitet,Institutionen för svenska språket,Department of Swedish
 (creator_code:org_t)
2021-08-12
2021
Engelska.
Ingår i: Linköping Electronic Press Workshop and Conference Collection. Selected contributions from the Eighth Swedish Language Technology Conference (SLTC-2020), 25-27 November, 2020. - Linköping : Linköping Electronic Press. - 2003-6523.
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Training machine learning models with high accuracy requires careful feature engineering, which involves finding the best feature combinations and extracting their values from the data. The task becomes extremely laborious for specific problems such as post Optical Character Recognition (OCR) error detection because of the diversity of errors in the data. In this paper we present a machine learning approach which exploits character n-gram statistics as the only feature for the OCR error detection task. Our method achieves a significant improvement over the baseline reaching state-of-the-art results of 91% and 89% F1 measure on English and Swedish datasets respectively. We report various experiments to select the appropriate machine learning algorithm and to compare our approach to previously reported traditional approaches.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Nyckelord

Natural Language Processing
Computational Linguistics
OCR
Historical text
Swedish

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Dannélls, Dana, ...
Virk, Shafqat, 1 ...
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Språkteknologi
Artiklar i publikationen
Linköping Electr ...
Av lärosätet
Göteborgs universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy