SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Benavente Yolanda)
 

Sökning: WFRF:(Benavente Yolanda) > A comparative study...

A comparative study of self-supervised speech representationsin read and spontaneous TTS

Wang, Siyang, 1995- (författare)
KTH,Tal, musik och hörsel, TMH
Henter, Gustav Eje, Assistant Professor, 1980- (författare)
KTH,Tal, musik och hörsel, TMH
Gustafsson, Joakim, Professor, 1966- (författare)
KTH,Tal, musik och hörsel, TMH
visa fler...
Székely, Éva (författare)
KTH,Tal, musik och hörsel, TMH
visa färre...
 (creator_code:org_t)
ISBN 9798350302615
Institute of Electrical and Electronics Engineers (IEEE), 2023
Engelska.
Ingår i: ICASSPW 2023. - : Institute of Electrical and Electronics Engineers (IEEE).
  • Annan publikation (övrigt vetenskapligt/konstnärligt)
Abstract Ämnesord
Stäng  
  • Recent work has explored using self-supervised learning(SSL) speech representations such as wav2vec2.0 as the rep-resentation medium in standard two-stage TTS, in place ofconventionally used mel-spectrograms. It is however unclearwhich speech SSL is the better fit for TTS, and whether ornot the performance differs between read and spontaneousTTS, the later of which is arguably more challenging. Thisstudy aims at addressing these questions by testing severalspeech SSLs, including different layers of the same SSL, intwo-stage TTS on both read and spontaneous corpora, whilemaintaining constant TTS model architecture and trainingsettings. Results from listening tests show that the 9th layerof 12-layer wav2vec2.0 (ASR finetuned) outperforms othertested SSLs and mel-spectrogram, in both read and sponta-neous TTS. Our work sheds light on both how speech SSL canreadily improve current TTS systems, and how SSLs comparein the challenging generative task of TTS. Audio examplescan be found at https://www.speech.kth.se/tts-demos/ssr tts

Ämnesord

TEKNIK OCH TEKNOLOGIER  -- Elektroteknik och elektronik -- Annan elektroteknik och elektronik (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Electrical Engineering, Electronic Engineering, Information Engineering -- Other Electrical Engineering, Electronic Engineering, Information Engineering (hsv//eng)
TEKNIK OCH TEKNOLOGIER  -- Annan teknik -- Interaktionsteknik (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Other Engineering and Technologies -- Interaction Technologies (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap -- Språkteknologi (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Language Technology (hsv//eng)

Nyckelord

speech synthesis
self-supervised speech representation
spontaneous speech
Speech and Music Communication
Tal- och musikkommunikation

Publikations- och innehållstyp

vet (ämneskategori)
ovr (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Wang, Siyang, 19 ...
Henter, Gustav E ...
Gustafsson, Joak ...
Székely, Éva
Om ämnet
TEKNIK OCH TEKNOLOGIER
TEKNIK OCH TEKNO ...
och Elektroteknik oc ...
och Annan elektrotek ...
TEKNIK OCH TEKNOLOGIER
TEKNIK OCH TEKNO ...
och Annan teknik
och Interaktionstekn ...
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Språkteknologi
Artiklar i publikationen
Av lärosätet
Kungliga Tekniska Högskolan

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy