SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Ternström Sten)
 

Sökning: WFRF:(Ternström Sten) > (2015-2019) > Prediction of three...

Prediction of three articulatory categories in vocal sound imitations using models for auditory receptive fields

Friberg, Anders, Professor (författare)
KTH,Tal, musik och hörsel, TMH
Lindeberg, Tony, Professor, 1964- (författare)
KTH,Beräkningsvetenskap och beräkningsteknik (CST)
Hellwagner, Martin (författare)
KTH,Tal, musik och hörsel, TMH
visa fler...
Helgason, Pétur (författare)
KTH,Tal, musik och hörsel, TMH
Salomão, Gláucia Laís, PhD (författare)
Stockholms universitet,KTH,Tal, musik och hörsel, TMH,Avdelningen för fonetik,SUBIC – Centrum för hjärnavbildning vid Stockholms universitet,Speech, Music and Hearing, School of Electrical Engineering and Computer Science, KTH Royal Institute of Technology 1 , Lindstedtsvägen 24, 10044 Stockholm, Sweden
Elowsson, Anders (författare)
KTH,Tal, musik och hörsel, TMH
Lemaitre, Guillaume (författare)
Institute for Research and Coordination in Acoustics and Music, Paris, France
Ternström, Sten, 1956- (författare)
KTH,Tal, musik och hörsel, TMH
visa färre...
 (creator_code:org_t)
Acoustical Society of America (ASA), 2018
2018
Engelska.
Ingår i: Journal of the Acoustical Society of America. - : Acoustical Society of America (ASA). - 0001-4966 .- 1520-8524. ; 144:3, s. 1467-1483
  • Tidskriftsartikel (refereegranskat)
Abstract Ämnesord
Stäng  
  • Vocal sound imitations provide a new challenge for understanding the coupling between articulatory mechanisms and the resulting audio. In this study, we have modeled the classification of three articulatory categories, phonation, supraglottal myoelastic vibrations, and turbulence from audio recordings. Two data sets were assembled, consisting of different vocal imitations by four professional imitators and four non-professional speakers in two different experiments. The audio data were manually annotated by two experienced phoneticians using a detailed articulatory description scheme. A separate set of audio features was developed specifically for each category using both time-domain and spectral methods. For all time-frequency transformations, and for some secondary processing, the recently developed Auditory Receptive Fields Toolbox was used. Three different machine learning methods were applied for predicting the final articulatory categories. The result with the best generalization was found using an ensemble of multilayer perceptrons. The cross-validated classification accuracy was 96.8 % for phonation, 90.8 % for supraglottal myoelastic vibrations, and 89.0 % for turbulence using all the 84 developed features. A final feature reduction to 22 features yielded similar results.

Ämnesord

TEKNIK OCH TEKNOLOGIER  -- Elektroteknik och elektronik -- Signalbehandling (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Electrical Engineering, Electronic Engineering, Information Engineering -- Signal Processing (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences (hsv//eng)
TEKNIK OCH TEKNOLOGIER  -- Maskinteknik -- Strömningsmekanik och akustik (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Mechanical Engineering -- Fluid Mechanics and Acoustics (hsv//eng)

Nyckelord

vocal articulation
sound imitations
signal processing
auditory receptive fields
turbulence
phonation
supraglottal myoelastic vibration
partial least-square regression
support vector classification
ensemble learning
Speech and Music Communication
Tal- och musikkommunikation

Publikations- och innehållstyp

ref (ämneskategori)
art (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy