SwePub
Sök i SwePub databas

  Utökad sökning

Träfflista för sökning "WFRF:(Kann Viggo) srt2:(2005-2009)"

Sökning: WFRF:(Kann Viggo) > (2005-2009)

  • Resultat 1-18 av 18
Sortera/gruppera träfflistan
   
NumreringReferensOmslagsbildHitta
1.
  • Bigert, Johnny, 1976- (författare)
  • Automatic and unsupervised methods in natural language processing
  • 2005
  • Doktorsavhandling (övrigt vetenskapligt/konstnärligt)abstract
    • Natural language processing (NLP) means the computer-aided processing of language produced by a human. But human language is inherently irregular and the most reliable results are obtained when a human is involved in at least some part of the processing. However, manual workis time-consuming and expensive. This thesis focuses on what can be accomplished in NLP when manual workis kept to a minimum. We describe the construction of two tools that greatly simplify the implementation of automatic evaluation. They are used to implement several supervised, semi-supervised and unsupervised evaluations by introducing artificial spelling errors. We also describe the design of a rule-based shallow parser for Swedish called GTA and a detection algorithm for context-sensitive spelling errors based on semi-supervised learning, called ProbCheck. In the second part of the thesis, we first implement a supervised evaluation scheme that uses an error-free treebankto determine the robustness of a parser when faced with noisy input such as spelling errors. We evaluate the GTA parser and determine the robustness of the individual components of the parser as well as the robustness for different phrase types. Second, we create an unsupervised evaluation procedure for parser robustness. The procedure allows us to evaluate the robustness of parsers using different parser formalisms on the same text and compare their performance. Five parsers and one tagger are evaluated. For four of these, we have access to annotated material and can verify the estimations given by the unsupervised evaluation procedure. The results turned out to be very accurate with few exceptions and thus, we can reliably establish the robustness of an NLP system without any need of manual work. Third, we implement an unsupervised evaluation scheme for spell checkers. Using this, we perform a very detailed analysis of three spell checkers for Swedish. Last, we evaluate the ProbCheck algorithm. Two methods are included for comparison: a full parser and a method using tagger transition probabilities. The algorithm obtains results superior to the comparison methods. The algorithm is also evaluated on authentic data in combination with a grammar and spell checker.
  •  
2.
  • Dalianis, Hercules, et al. (författare)
  • Using Uplug and SiteSeeker to construct a cross language search engine for Scandinavian
  • 2007
  • Konferensbidrag (övrigt vetenskapligt/konstnärligt)abstract
    • This paper presents how we adapted a website search engine for cross language information retrieval, using the Uplug word alignment tool for parallel corpora.We first studied the monolingual search queries posed by the visitors of the website of the Nordic council containing five different languages. In order to compare how well different types of bilingual dictionaries covered the most common queries and terms on the website we tried a collection of ordinary bilingual dictionaries, a small manually constructed trilingual dictionary and an automatically constructed trilingual dictionary, constructed from the news corpus in the website using Uplug. The pre-cision and recall of the automatically constructed Swedish-English dictionary using Uplug were 71 and 93 percent, re-spectively. We found that precision and recall increase significantly in samples with high word frequency, but we could not confirm that POS-tags improve pre-cision. The collection of ordinary dic-tionaries, consisting of about 200 000 words, only cover 41 of the top 100 search queries at the website. The automatically built trilingual dictionary com-bined with the small manually built trilingual dictionary, consisting of about 2 300 words, and covers 36 of the top search queries.
  •  
3.
  •  
4.
  • Dalianis, Hercules, 1959-, et al. (författare)
  • Using Uplug and SiteSeeker to construct a cross language search engine for Scandinavian languages
  • 2009
  • Ingår i: Proceedings of the 17th Nordic Conference of Computational Linguistics, NODALIDA 2009. - : Northern European Association for Language Technology (NEALT). ; , s. 26-33
  • Konferensbidrag (refereegranskat)abstract
    • This paper presents how we adapted a website search engine for cross language information retrieval, using the Uplug word alignment tool for parallel corpora. We first studied the monolingual search queries posed by the visitors of the website of the Nordic council containing six different languages. In order to compare how well different types of bilingual dictionaries covered the most common queries and terms on the website we tried a collection of ordinary bilingual dictionaries, a small manually constructed trilingual dictionary and an automatically constructed trilingual dictionary, constructed from the news corpus in the website using Uplug. The precision and recall of the automatically constructed Swedish-English dictionary using Uplug were 71 and 93 percent, respectively. We found that precision and recall increase significantly in samples with high word frequency, but we could not confirm that POS-tags improve precision. The collection of ordinary dictionaries, consisting of about 200 000 words, only cover half of the top 100 search queries at the website. The automatically built trilingual dictionary combined with the small manually built trilingual dictionary consists of about 2000 words and covers 27 of the top 100 search queries.
  •  
5.
  • Hassel, Martin, 1971- (författare)
  • Resource Lean and Portable Automatic Text Summarization
  • 2007
  • Doktorsavhandling (övrigt vetenskapligt/konstnärligt)abstract
    • Today, with digitally stored information available in abundance, even for many minor languages, this information must by some means be filtered and extracted in order to avoid drowning in it. Automatic summarization is one such technique, where a computer summarizes a longer text to a shorter non-rendundant form. Apart from the major languages of the world there are a lot of languages for which large bodies of data aimed at language technology research to a high degree are lacking. There might also not be resources available to develop such bodies of data, since it is usually time consuming and requires substantial manual labor, hence being expensive. Nevertheless, there will still be a need for automatic text summarization for these languages in order to subdue this constantly increasing amount of electronically produced text. This thesis thus sets the focus on automatic summarization of text and the evaluation of summaries using as few human resources as possible. The resources that are used should to as high extent as possible be already existing, not specifically aimed at summarization or evaluation of summaries and, preferably, created as part of natural literary processes. Moreover, the summarization systems should be able to be easily assembled using only a small set of basic language processing tools, again, not specifically aimed at summarization/evaluation. The summarization system should thus be near language independent as to be quickly ported between different natural languages. The research put forth in this thesis mainly concerns three computerized systems, one for near language independent summarization – The HolSum summarizer; one for the collection of large-scale corpora – The KTH News Corpus; and one for summarization evaluation – The KTH eXtract Corpus. These three systems represent three different aspects of transferring the proposed summarization method to a new language. One aspect is the actual summarization method and how it relates to the highly irregular nature of human language and to the difference in traits among language groups. This aspect is discussed in detail in Chapter 3. This chapter also presents the notion of “holistic summarization”, an approach to self-evaluative summarization that weighs the fitness of the summary as a whole, by semantically comparing it to the text being summarized, before presenting it to the user. This approach is embodied as the text summarizer HolSum, which is presented in this chapter and evaluated in Paper 5. A second aspect is the collection of large-scale corpora for languages where few or none such exist. This type of corpora is on the one hand needed for building the language model used by HolSum when comparing summaries on semantic grounds, on the other hand a large enough set of (written) language use is needed to guarantee the randomly selected subcorpus used for evaluation to be representative. This topic briefly touched upon in Chapter 4, and detailed in Paper 1. The third aspect is, of course, the evaluation of the proposed summarization method on a new language. This aspect is investigated in Chapter 4. Evaluations of HolSum have been run on English as well as on Swedish, using both well established data and evaluation schemes (English) as well as with corpora gathered “in the wild” (Swedish). During the development of the latter corpora, which is discussed in Paper 4, evaluations of a traditional sentence ranking text summarizer, SweSum, have also been run. These can be found in Paper 2 and 3. This thesis thus contributes a novel approach to highly portable automatic text summarization, coupled with methods for building the needed corpora, both for training and evaluation on the new language.
  •  
6.
  • Kann, Viggo (författare)
  • Effektiv, formativ och målrelaterad sluttenta : [Efficient, formative and criterion-referenced final exam]
  • 2008
  • Konferensbidrag (refereegranskat)abstract
    • Den stora fördelen med skriftliga tentor, säger en vitt spridd myt på högskolan, är att det är enbillig och effektiv examinationsform. I denna artikel visas att så faktiskt inte är fallet.Missuppfattningen kommer nog av stordriften – alla tentander får samtidigt jobba med sammauppgifter – det måste ju vara effektivt! Genom att ersätta en vanlig skriftlig tenta med enkombination av en kamraträttad mindre teoritenta och en frivillig muntlig tenta för högre betyghar författaren minskat kostnaden för slutexaminationen per tentand från 800 kr till 270 kr, alltsåmed två tredjedelar. Den nya examinationen är inte bara billigare, den är också målrelaterad och ihögre grad formativ än den tidigare traditionella tentan.
  •  
7.
  • Kann, Viggo, et al. (författare)
  • Free Construction of a Free SwedishDictionary of Synonyms
  • 2005
  • Ingår i: NoDaLiDa 2005. ; , s. 1-6
  • Konferensbidrag (refereegranskat)abstract
    • Building a large dictionary of synonymsfor a language is a very tedioustask. Hence there exist veryfew synonym dictionaries for mostlanguages, and those that exist aregenerally not freely available due tothe amount of work that have beenput into them.The Lexin on-line dictionary1 is avery popular web-site for translationsof Swedish words to about tendifferent languages. By letting userson this site grade automatically generatedpossible synonym pairs a freedictionary of Swedish synonyms hasbeen created. The lexicon reflectsthe users intuitive definition of synonymityand the amount of work putinto the project is only as much asthe participants want to.
  •  
8.
  • Kann, Viggo (författare)
  • Lärarbemanning för kvalitet
  • 2009
  • Konferensbidrag (övrigt vetenskapligt/konstnärligt)abstract
    • Nada vid KTH har utvecklat ett system för bemanningen som gersärskilt goda möjligheter att säkra och utveckla kvaliteten iutbildningen. Systemet leder också till en ekonomisk budget medvars hjälp man kan besvara viktiga frågor som:Behöver vi anställa fler lärare och har vi råd med det?Vilka kurser är självbärande och vilka går med förlust?Kommer ett alternativt kursupplägg, t ex en ny examinationsform,  att kräva mer eller mindre lärartid?Hur mycket undervisning har vi råd att ge i en ny kurs?När ekonomin är kärv, vad är det effektivast att spara på?Kommer någon lärare att bli överbelastad av den planerade undervisningen?Varje vår har studierektorn och läraren ett bemanningssamtal därläsårets undervisning planeras. Resultatet av samtalet blir ettdokument (kontrakt) som beskriver hur många timmar som läraren skalägga på varje arbetsuppgift. Sedan ansvarar läraren för att deplanerade uppgifterna genomförs och slipper att i efterhand redovisasin arbetstid. Läraren kan därför själv disponera sin tid och vidbehov omfördela den mellan olika uppgifter.Bemanningsplanen som byggs upp vid bemanningssamtalen lagras i ettkalkylark. Kursparametrar som poängantal, elevantal, gruppantal ochantal timmar undervisning är ifyllda redan före samtalet. Vid samtaletfastställs dels parametrar som hur lång tid det tar att förbereda entimmes föreläsning och att rätta en tenta, dels hur stor del avarbetet som läraren själv ska genomföra. Tid ges i bemanningen förkvalitetsarbete som kursutveckling, kursutvärdering och kursanalys.Resultatet blir både en färdig bemanning av varje kurs och en kursbudget.Även lärarens egenutveckling planeras in vid bemanningen, fördelad påen oplanerad del, kallad "akademiskt deltagande", och planeradeaktiviteter. Läraren lämnar samtidigt in en självdeklaration av detsenaste årets egenutveckling.Bemanningssystemet infördes 2000 och har förfinats med åren. År 2006gjordes en utvärdering av skolans bemanningsprocess och resultatetblev att lärarna till största delen var mycket nöjda med bemanningen,bland annat dess tydlighet och flexibilitet. Endast inom ett avskolans ämnen fanns en viss kritik, vilket gjorde att vi inom dettaämne införde en bemanningsdiskussion för alla lärare förebemanningssamtalen.Systemet används på skolan av fem olika studierektorer i fem ämnen avolika karaktär. Det är flexibelt och bör kunna användas ellerenkelt anpassas för de flesta utbildningsmiljöer.
  •  
9.
  • Kann, Viggo (författare)
  • Målrelaterade betygskriterier kräver modifierad examination - examination efter betygskriterier i en algoritmkurs på KTH
  • 2007
  • Konferensbidrag (övrigt vetenskapligt/konstnärligt)abstract
    • Algoritmer, datastrukturer och komplexitet heter en datalogikurs på 6 poäng som är obligatorisk för Datateknikprogrammets årskurs 2 på KTH. Jag har hållit kursen åtta gånger och har funnit ett upplägg på undervisning och examination som fungerar bra. Kursen har drygt 100 elever, läses över en hel termin och består av 9 handledda labbtillfällen, 22 föreläsningar och 12 övningar. Examinationen har tidigare gjorts med labbar, två individuella uppgifter kallade mästarprov som redovisas skriftligt och muntligt, och en skriftlig tenta bestående av en teoridel utan hjälpmedel och en problemdel med kurslitteraturen som hjälpmedel. I och med Bologniseringen av högskolan utformade jag lärandemål och målrelaterade betygskriterier för kursen. För att kunna ge målrelaterade betyg var jag tvungen att modifiera examinationen. Jag har haft Biggs (1999) princip om constructive alignment som vägledning, det vill säga att lärandemål, undervisning och examination bör hänga ihop, vara samstämmiga och underlätta meningsfullt lärande. Jag formulerade betygskriterier för varje lärandemål, sammanlagt åtta stycken. För varje mål har jag angett hur det examineras (Kann 2007). Tre av målen är inte graderade, det vill säga alla kriterierna är lika. Det var naturligt att göra så på grund av dessa måls natur och hur de examineras (med datorlabbar eller teoritenta). Varje mästarprov består av tre uppgifter av olika svårighetsgrad. En rätt löst uppgift ger E på momentet, två ger C och tre ger A. Uppgifternas svårighetsgrad motsvarar betygskriterierna för relevanta mål. Eftersom mästarproven redovisas muntligt kan eleven korrigera mindre fel och ofullständigheter i den inlämnade skriftliga lösningen under redovisningen. Teoritentan utförs i storsal och följs omedelbart av genomgång av lösningarna och rättningsmallen. Varje tentand får sedan rätta en (anonym) kamrats tenta. Slutligen snabbgranskar jag rättningen. När jag införde betygskriterier ersatte jag problemtentan med en munta för högre betyg. Jag ville gå ifrån den kompensatoriska examinationen (Ekecrantz 2007), och då såg jag ingen möjlighet att behålla problemtentan. På muntan begär tentanden att få frågor på en viss betygsnivå och får då visa att han kan det som krävs för det betyget för alla mål som han tidigare inte examinerats på på den nivån.
  •  
10.
  • Kann, Viggo (författare)
  • Så lika är orden
  • 2008
  • Ingår i: Språktidningen. - 1654-5028. ; :4, s. 32-33
  • Tidskriftsartikel (populärvet., debatt m.m.)
  •  
11.
  • Kann, Viggo, et al. (författare)
  • Tvärslå - defining an XML exchange format and then building an on-line Nordic dictionary
  • 2007
  • Konferensbidrag (refereegranskat)abstract
    • Tvärslå is a dynamically expandable multilingual on-line dictionary, composed of all dictionaries used and developed in the Nordisk netordbog (Nordic Web Dictionary) project. Currently the languages included are Swedish, Danish, Norwegian, Icelandic, Finnish and English. Tvärslå can be used both interactively and called by the Tvärsök system [1]. This article describes the functionality of Tvärslå and how the system was constructed, beginning in choosing an XML format suitable for exchanging dictionaries within the project.
  •  
12.
  • Knutsson, Ola, 1969- (författare)
  • Developing and Evaluating Language Tools for Writers and Learners of Swedish
  • 2005
  • Doktorsavhandling (övrigt vetenskapligt/konstnärligt)abstract
    • Skrivande och skrivet språk är idag en viktig del av många människors liv, i datorns ordbehandlare, i e-postprogram och i chattkanaler på Internet. Skrivet språk har blivit mer eller mindre en förutsättning för människors dagliga kommunikation. Denna utveckling av samhället leder till ökade behov av att på olika sätt hantera text. En teknologi som har stor potential att hjälpa människor med skrivande och skrivet språk är språkteknologi. I denna avhandling ligger fokus på olika språkverktyg vars avsikt är att stödja skribenter och de som lär sig svenska bland annat genom att skriva. Ett språkverktyg som har utvecklats och utvärderats i avhandlingen är språkgranskningsverktyget Granska. I arbetet med Granska har fokus legat på utvecklingen av regelspråk, granskningsregler och generella analysregler samt utvärdering av dessa. Granska kombinerar en statistisk grundanalys av ordens ordklasser med regelbaserade metoder för sökning av grammatiska fel och frasanalys. I utvecklingen av granskningsreglerna är dragkampen mellan felaktiga utpekningar av fel, så kallade falska alarm, och uteblivna utpekningar av fel, det största enskilda problemet. Dragkampen uppstår genom att det är svårt att hitta många fel utan att också göra en del felaktiga utpekningar. Språkverktyg för skrivande kan i stort sett utvärderas på två sätt: med fokus på texten eller på den som skriver. I denna avhandling har båda typerna av utvärdering utförts med såväl modersmålskribenter som skribenter med svenska som andraspråk. I en första textbaserad utvärdering visade det sig att textgenre spelar stor roll för Granskas resultat. Ett vanligt fel i en textgenre förekommer nästan inte alls i en annan. Detta innebär att det blir mycket svårt för programmet att inte avge några falska alarm i de texter där feltypen saknas. I en andra textbaserad utvärdering jämfördes Granska och en kommersiell grammatikkontroll på texter från andraspråksskribenter. Den kommersiella grammatikkontrollen visade sig att ha bättre träffsäkerhet, men upptäckte färre fel än Granska. En första mindre användarstudie utfördes med Granska och fem erfarna skribenter. Syfte med studien var att utveckla Granska i linje med skribenters behov vid revision av text. Resultatet indikerade att användarna inte hade några problem med att välja mellan olika feldiagnoser om ett av ersättningsförslagen var korrekt. Falska alarm verkade vara av varierande svårighetsgrad: falska alarm från stavningskontrollen är mer eller mindre ofarliga, medan falska alarm från granskningen av mer komplicerade feltyper kan försvåra revisionsarbetet för användaren. Granska utvecklades från början för erfarna skribenter med svenska som modersmål, men allteftersom arbetet har fortskridit har även skribenter med svenska som andraspråk blivit en allt viktigare användargrupp. I detta arbete har diskussionen om granskningsmetod blivit mer och mer central. Även om gruppen andraspråksskribenter är mycket heterogen, så innehåller den här gruppens texter generellt sett mer fel, och i många fall fler fel i samma mening. Detta gör granskningsproblemet betydligt svårare. För det första så blir det svårare att avgöra ordens ordklass och frastillhörighet när flera fel finns i samma mening, och därmed har programmet allt mindre att hänga upp den grundläggande språkliga analysen på. För det andra är det svårare att konstruera granskningsregler för fel vars natur är svår att förutsäga på förhand. För att förbättra den grundläggande språkanalysen utvecklades programmet GTA, som gör en frasanalys och satsgränsigenkänning. GTA utvecklades ur de generella analysregler som redan fanns i Granska. GTA designades för att klara av att analysera texter som innehåller vissa avvikelser från språkets norm, t.ex. inkongruens. För att ta reda på hur väl programmet klarade av mindre avvikelser i form av stavfel utvärderades GTA och även två program för ordklassanalys på texter med olika andel stavfel. GTA bygger till mycket stor del på att identifikationen av ordklass fungerar för att fraser och satsgränser skall analyseras korrekt. Detta bekräftas också i utvärderingen, där det visade sig att GTA klarar sig bra så länge som den underliggande ordklassanalysen klarar att hantera avvikelser i texten. En viktig faktor för att klara språkliga avvikelser, i form av stavfel, är en fungerande metod för att hantera ord som är okända för programmet. Nya metoder för språkgranskning har undersökts i samarbete med andra forskare, och där har avhandlingens bidrag varit i form av transformationsregler i den statistiska språkgranskaren ProbGranska. Dessa regler visade sig vid en utvärdering avsevärt förbättra ProbGranskas säkerhet när det gällde att identifiera grammatiska problem. I utvecklingen av språkgranskaren SnålGranska har avhandlingen bidragit med idéer till dess grundläggande algoritm. Denna algoritm bygger på att träna ett maskininlärningsprogram på konstgjorda fel i avsaknad av en korpus med många uppmärkta autentiska fel. För att komma vidare med utvecklingen av språkverktyg för andraspråksskribenter genomfördes en längre fältstudie vid ett svenskt universitet. Syftet var att studera användningen av Granska i autentiska skrivuppgifter som studenterna genomförde i en avancerad kurs i svenska som främmande språk. Sexton studenter med olika språklig och kulturell bakgrund deltog i studien. En viktig del av studien utgjordes av studenternas bedömningar av Granskas alarm. Bedömningarna gjordes på en betygsskala från 1 till 5. Studenternas texter samlades också in i två versioner; en version före och en efter användningen av programmet. Denna metod gjorde det möjligt att studera i vilken grad studenterna följde Granskas råd, och huruvida dåliga eller bra råd från programmet fick höga eller låga betyg. Mest alarmerande var att dåliga råd angående ordföljd alltid fick högsta betyg. Andra ofta lämpliga råd dömdes ut för att beskrivningen av dessa feltyper, t.ex. anmärkningar om saknade tempusböjda verb och uteblivna subjekt, var svåra att förstå samt att de saknade ersättningsförslag. En viktig insikt från fältstudien var att Granska eller liknade verktyg inte är det enda verktyg som andraspråksskribenter behöver när de skriver text. Denna insikt tillsammans med andra resultat från fältstudien mynnade ut i flera designprinciper för program med fokus på andraspråksskribenter. Dessa designprinciper användes sedan i utformningen av språkmiljön Grim. Grim är en ordbehandlingsmiljö med olika interaktiva språkverktyg integrerade: Granska, GTA, den statistiska språkgranskaren ProbGranska, lexikonet Lexin med åtta olika språkpar, konkordansgränssnitt mot stora textmängder från korpusen Parole, och en ordböjningsfunktion. I Grim kan användaren arbeta med egna eller andras texter, och få återkoppling på språkets former från Granska och GTA, undersöka ords användning i autentiska texter samt få en ökad förståelse av målspråket genom integrerade tvåspråkiga lexikon.
  •  
13.
  • Rosell, Magnus, 1975- (författare)
  • Clustering in Swedish : The Impact of some Properties of the Swedish Language on Document Clustering and an Evaluation Method
  • 2005
  • Licentiatavhandling (övrigt vetenskapligt/konstnärligt)abstract
    • Text clustering divides a set of texts into groups, so that texts within each group are similar in content. It may be used to uncover the structure and content of unknown text sets as well as to give new perspectives on known ones. The contributions of this thesis are an investigation of text representation for Swedish and an evaluation method that uses two or more manual categorizations. Text clustering, at least such as it is treated here, is performed using the vector space model, which is commonly used in information retrieval. This model represents texts by the words that appear in them and considers texts similar in content if they share many words. Languages differ in what is considered a word. We have investigated the impact of some of the characteristics of Swedish on text clustering. Since Swedish has more morphological variation than for instance English we have used a stemmer to strip suffixes. This gives moderate improvements and reduces the number of words in the representation. Swedish has a rich production of solid compounds. Most of the constituents of these are used on their own as words and in several different compounds. In fact, Swedish solid compounds often correspond to phrases or open compounds in other languages.In the ordinary vector space model the constituents of compounds are not accounted for when calculating the similarity between texts. To use them we have employed a spell checking program to split compounds. The results clearly show that this is beneficial. The vector space model does not regard word order. We have tried to extend it with nominal phrases in different ways. Noneof our experiments have shown any improvement over using the ordinary model. Evaluation of text clustering results is very hard. What is a good partition of a text set is inherently subjective. Automatic evaluation methods are either intrinsic or extrinsic. Internal quality measures use the representation in some manner. Therefore they are not suitable for comparisons of different representations. External quality measures compare a clustering with a (manual) categorization of the same text set. The theoretical best possible value for a measure is known, but it is not obvious what a good value is -- text sets differ in difficulty to cluster and categorizations are more or less adapted to a particular text set. We describe an evaluation method for cases where a text set has more than one categorization. In such cases the result of a clustering can be compared with the result for one of the categorizations, which we assume is a good partition. We also describe the kappa coefficient as a clustering quality measure in the same setting.
  •  
14.
  • Rosell, Magnus, et al. (författare)
  • Global Evaluation of Random Indexing through Swedish Word Clustering Compared to the People’s Dictionary of Synonyms
  • 2009
  • Ingår i: Proceedings of the International Conference RANLP-2009. ; , s. 376-380
  • Konferensbidrag (refereegranskat)abstract
    • Evaluation of word space models is usually local in the sense that it only considers words that are deemed very similar by the model. We propose a global evaluation scheme based on clustering of the words. A clustering of high quality in an external evaluation against a semantic resource, such as a dictionary of synonyms, indicates a word space model of high quality. We use Random Indexing to create several different models and compare them by clustering evaluation against the People's Dictionary of Synonyms, a list of Swedish synonyms that are graded by the public. Most notably we get better results for models based on syntagmatic information (words that appear together) than for models based on paradigmatic information (words that appear in similar contexts). This is quite contrary to previous results that have been presented for local evaluation. Clusterings to ten clusters result in a recall of 83% for a syntagmatic model, compared to 34% for a comparable paradigmatic model, and 10% for a random partition.
  •  
15.
  •  
16.
  • Rosell, Magnus, 1975- (författare)
  • Text Clustering Exploration : Swedish Text Representation and Clustering Results Unraveled
  • 2009
  • Doktorsavhandling (övrigt vetenskapligt/konstnärligt)abstract
    • Text clustering divides a set of texts into clusters (parts), so that texts within each cluster are similar in content. It may be used to uncover the structure and content of unknown text sets as well as to give new perspectives on familiar ones. The main contributions of this thesis are an investigation of text representation for Swedish and some extensions of the work on how to use text clustering as an exploration tool. We have also done some work on synonyms and evaluation of clustering results. Text clustering, at least such as it is treated here, is performed using the vector space model, which is commonly used in information retrieval. This model represents texts by the words that appear in them and considers texts similar in content if they share many words. Languages differ in what is considered a word. We have investigated the impact of some of the characteristics of Swedish on text clustering. Swedish has more morphological variation than for instance English. We show that it is beneficial to use the lemma form of words rather than the word forms. Swedish has a rich production of solid compounds. Most of the constituents of these are used on their own as words and in several different compounds. In fact, Swedish solid compounds often correspond to phrases or open compounds in other languages. Our experiments show that it is beneficial to split solid compounds into their parts when building the representation. The vector space model does not regard word order. We have tried to extend it with nominal phrases in different ways. We have also tried to differentiate between homographs, words that look alike but mean different things, by augmenting all words with a tag indicating their part of speech. None of our experiments using phrases or part of speech information have shown any improvement over using the ordinary model. Evaluation of text clustering results is very hard. What is a good partition of a text set is inherently subjective. External quality measures compare a clustering with a (manual) categorization of the same text set. The theoretical best possible value for a measure is known, but it is not obvious what a good value is – text sets differ in difficulty to cluster and categorizations are more or less adapted to a particular text set. We describe how evaluation can be improved for cases where a text set has more than one categorization. In such cases the result of a clustering can be compared with the result for one of the categorizations, which we assume is a good partition. In some related work we have built a dictionary of synonyms. We use it to compare two different principles for automatic word relation extraction through clustering of words. Text clustering can be used to explore the contents of a text set. We have developed a visualization method that aids such exploration, and implemented it in a tool, called Infomat. It presents the representation matrix directly in two dimensions. When the order of texts and words are changed, by for instance clustering, distributional patterns that indicate similarities between texts and words appear. We have used Infomat to explore a set of free text answers about occupation from a questionnaire given to over 40 000 Swedish twins. The questionnaire also contained a closed answer regarding smoking. We compared several clusterings of the text answers to the closed answer, regarded as a categorization, by means of clustering evaluation. A recurring text cluster of high quality led us to formulate the hypothesis that “farmers smoke less than the average”, which we later could verify by reading previous studies. This hypothesis generation method could be used on any set of texts that is coupled with data that is restricted to a limited number of possible values.
  •  
17.
  • Sjöbergh, Jonas (författare)
  • Language Technology for the Lazy : Avoiding Work by Using Statistics and Machine Learning
  • 2006
  • Doktorsavhandling (övrigt vetenskapligt/konstnärligt)abstract
    • Language technology is when a computer processes human languages in some way. Since human languages are irregular and hard to define in detail, this is often difficult. Despite this, good results can many times be achieved. Often a lot of manual work is used in creating these systems though. While this usually gives good results, it is not always desirable. For smaller languages the resources for manual work might not be available, since it is usually time consuming and expensive. This thesis discusses methods for language processing where manual work is kept to a minimum. Instead, the computer does most of the work. This usually means basing the language processing methods on statistical information. These kinds of methods can normally be applied to other languages than they were originally developed for, without requiring much manual work for the language transition. The first half of the thesis mainly deals with methods that are useful as tools for other language processing methods. Ways to improve part of speech tagging, which is an important part in many language processing systems, without using manual work, are examined. Statistical methods for analysis of compound words, also useful in language processing, is also discussed. The first part is rounded off by a presentation of methods for evaluation of language processing systems. As languages are not very clearly defined, it is hard to prove that a system does anything useful. Thus it is very important to evaluate systems, to see if they are useful. Evaluation usually entails manual work, but in this thesis two methods with minimal manual work are presented. One uses a manually developed resource for evaluating other properties than originally intended with no extra work. The other method shows how to calculate an estimate of the system performance without using any manual work at all. In the second half of the thesis, language technology tools that are in themselves useful for a human user are presented. This includes statistical methods for detecting errors in texts. These methods complement traditional methods, based on manually written error detection rules, for instance by being able to detect errors that the rule writer could not imagine that writers could make. Two methods for automatic summarization are also presented. One is based on comparing the overall impression of the summary to that of the original text. This is based on statistical methods for measuring the contents of a text. The second method tries to mitigate the common problem of very sudden topic shifts in automatically generated summaries. After this, a modified method for automatically creating a lexicon between two languages by using lexicons to a common intermediary language is presented. This type of method is useful since there are many language pairs in the world lacking a lexicon, but many languages have lexicons available with translations to one of the larger languages of the world, for instance English. The modifications were intended to improve the coverage of the lexicon, possibly at the cost of lower translation quality. Finally a program for generating puns in Japanese is presented. The generated puns are not very funny, the main purpose of the program is to test the hypothesis that by using "bad word" things become a little bit more funny.
  •  
18.
  •  
Skapa referenser, mejla, bekava och länka
  • Resultat 1-18 av 18

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy