Sökning: WFRF:(Adesam Yvonne 1975) >
Exploring the Quali...
Exploring the Quality of the Digital Historical Newspaper Archive KubHist
-
- Adesam, Yvonne, 1975 (författare)
- Gothenburg University,Göteborgs universitet,Institutionen för svenska språket,Department of Swedish
-
- Dannélls, Dana, 1976 (författare)
- Gothenburg University,Göteborgs universitet,Institutionen för svenska språket,Department of Swedish
-
- Tahmasebi, Nina, 1982 (författare)
- Gothenburg University,Göteborgs universitet,Institutionen för svenska språket,Centrum för Digital Humaniora (CDH),Department of Swedish,Centre for Digital Humanities
-
(creator_code:org_t)
- Aachen : CEUR Workshop Proceedings, 2019
- 2019
- Engelska.
-
Ingår i: Proceedings of the 4th Conference of The Association Digital Humanities in the Nordic Countries (DHN), Copenhagen, Denmark, March 5-8, 2019 / edited by Costanza Navarretta, Manex Agirrezabal, Bente Maegaard. - Aachen : CEUR Workshop Proceedings. - 1613-0073.
- Relaterad länk:
-
https://gup.ub.gu.se...
Abstract
Ämnesord
Stäng
- The KubHist Corpus is a massive corpus of Swedish historical newspapers, digitized by the Royal Swedish library, and available through the Språkbanken corpus infrastructure Korp. This paper contains a first overview of the KubHist corpus, exploring some of the difficulties with the data, such as OCR errors and spelling variation, and discussing possible paths for improving the quality and the searchability.
Ämnesord
- NATURVETENSKAP -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
- NATURAL SCIENCES -- Computer and Information Sciences -- Language Technology (hsv//eng)
Nyckelord
- Historical newspaper corpus
- OCR errors
- Spelling normalization
Publikations- och innehållstyp
- ref (ämneskategori)
- kon (ämneskategori)
Hitta via bibliotek
Till lärosätets databas