SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:DiVA.org:ri-35186"
 

Sökning: id:"swepub:oai:DiVA.org:ri-35186" > Streaming word simi...

Streaming word similarity mining on the cheap

Görnerup, Olof (författare)
RISE,SICS
Gillblad, Daniel (författare)
RISE,SICS
 (creator_code:org_t)
2018
2018
Engelska.
  • Konferensbidrag (övrigt vetenskapligt/konstnärligt)
Abstract Ämnesord
Stäng  
  • Accurately and efficiently estimating word similarities from text is fundamental in natural language processing. In this paper, we propose a fast and lightweight method for estimating similarities from streams by explicitly counting second-order co-occurrences. The method rests on the observation that words that are highly correlated with respect to such counts are also highly similar with respect to first-order co-occurrences. Using buffers of co-occurred words per word to count second-order co-occurrences, we can then estimate similarities in a single pass over data without having to do prohibitively expensive similarity calculations. We demonstrate that this approach is scalable, converges rapidly, behaves robustly under parameter changes, and that it captures word similarities on par with those given by state-of-the-art word embeddings.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Publikations- och innehållstyp

vet (ämneskategori)
kon (ämneskategori)

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Görnerup, Olof
Gillblad, Daniel
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Språkteknologi
Av lärosätet
RISE

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy