SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Grobelnik Marko)
 

Sökning: WFRF:(Grobelnik Marko) > (2006-2009) > Comparing and combi...

Comparing and combining two approaches to automated subject classification of text

Golub, Koraljka (författare)
Lund University,Lunds universitet,Institutionen för elektro- och informationsteknik,Institutioner vid LTH,Lunds Tekniska Högskola,Department of Electrical and Information Technology,Departments at LTH,Faculty of Engineering, LTH,Library and Information Science
Ardö, Anders (författare)
Lund University,Lunds universitet,Institutionen för elektro- och informationsteknik,Institutioner vid LTH,Lunds Tekniska Högskola,Department of Electrical and Information Technology,Departments at LTH,Faculty of Engineering, LTH
Mladenic, Dunja (författare)
visa fler...
Grobelnik, Marko (författare)
visa färre...
 (creator_code:org_t)
Berlin, Heidelberg : Springer, 2006
2006
Engelska.
Ingår i: Research and advanced technology for digital libraries. - Berlin, Heidelberg : Springer. - 9783540446361 - 9783540446385 ; 4172, s. 467-470
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • A machine-learning and a string-matching approach to automated subject classification of text were compared, as to their performance, advantages and downsides. The former approach was based on an SVM algorithm, while the latter comprised string-matching between a controlled vocabulary and words in the text to be classified. Data collection consisted of a subset from Compendex, classified into six different classes. It was shown that SVM on average outperforms the string-matching approach: our hypothesis that SVM yields better recall and string-matching better precision was confirmed only on one of the classes. The two approaches being complementary, we investigated different combinations of the two based on combining their vocabularies. The results have shown that the original approaches, i.e. machine-learning approach without using background knowledge from the controlled vocabulary, and string-matching approach based on controlled vocabulary, outperform approaches in which combinations of automatically and manually obtained terms were used. Reasons for these results need further investigation, including a larger data collection and combining the two using predictions.

Ämnesord

SAMHÄLLSVETENSKAP  -- Medie- och kommunikationsvetenskap -- Biblioteks- och informationsvetenskap (hsv//swe)
SOCIAL SCIENCES  -- Media and Communications -- Information Studies (hsv//eng)
TEKNIK OCH TEKNOLOGIER  -- Elektroteknik och elektronik (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Electrical Engineering, Electronic Engineering, Information Engineering (hsv//eng)

Nyckelord

Biblioteks- och informationsvetenskap
Library and Information Science

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy