SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:lup.lub.lu.se:e85c159b-3969-479d-b475-30b3e3e7ab01"
 

Sökning: id:"swepub:oai:lup.lub.lu.se:e85c159b-3969-479d-b475-30b3e3e7ab01" > GCC-PHAT Re-Imagine...

GCC-PHAT Re-Imagined - A U-Net Filter for Audio TDOA Peak-Selection

Gulin, Jens (författare)
Lund University,Lunds universitet,Integrerade elektroniksystem,Forskargrupper vid Lunds universitet,Datorseende och maskininlärning,Integrated Electronic Systems,Lund University Research Groups,Computer Vision and Machine Learning,Sony Europe B.V.
Åström, Kalle (författare)
Lund University,Lunds universitet,Mathematical Imaging Group,Forskargrupper vid Lunds universitet,Stroke Imaging Research group,LTH profilområde: AI och digitalisering,LTH profilområden,Lunds Tekniska Högskola,LTH profilområde: Teknik för hälsa,LU profilområde: Ljus och material,Lunds universitets profilområden,LU profilområde: Naturlig och artificiell kognition,LU profilområde: Proaktivt åldrande,LU profilområde: Naturbaserade framtidslösningar,Datorseende och maskininlärning,Lund University Research Groups,LTH Profile Area: AI and Digitalization,LTH Profile areas,Faculty of Engineering, LTH,LTH Profile Area: Engineering Health,Faculty of Engineering, LTH,LU Profile Area: Light and Materials,Lund University Profile areas,LU Profile Area: Natural and Artificial Cognition,LU Profile Area: Proactive Ageing,LU Profile Area: Nature-based future solutions,Computer Vision and Machine Learning
 (creator_code:org_t)
2024
2024
Engelska 5 s.
Ingår i: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 9798350344868 - 9798350344851 ; , s. 8806-8810
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Time-difference-of-arrival (TDOA) estimation from GCC-PHAT is not always as straight forward as finding the maximum peak. This work views the GCC output as an image, with time on the vertical axis and TDOA horizontally, to explore if image-to-image machine learning methods can make a more robust filter. The Structure from Sound Database provides audio recorded with a distributed microphone setup and a moving sound source. The audio was fed to GCC-PHAT without pre-processing, and images were produced for batch processing. The ground truth, the direct-path TDOA, shows a continuous curve through time. The GCC output image has a similar curve, but obscured by noise and not at all times texturally different from the multi-path components. The main approach tested is binary semantic segmentation with a U-Net. A challenge is the extreme class imbalance within the image. Preliminary results indicate that the method is valid to detect curves, yet more work is needed to single out the direct path TDOA with confidence.

Ämnesord

TEKNIK OCH TEKNOLOGIER  -- Elektroteknik och elektronik -- Signalbehandling (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Electrical Engineering, Electronic Engineering, Information Engineering -- Signal Processing (hsv//eng)

Nyckelord

Time-difference-of-arrival
Semantic segmentation
curve detection
noise reduction
U-Net
Generalized Cross-Correlation

Publikations- och innehållstyp

kon (ämneskategori)
ref (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Gulin, Jens
Åström, Kalle
Om ämnet
TEKNIK OCH TEKNOLOGIER
TEKNIK OCH TEKNO ...
och Elektroteknik oc ...
och Signalbehandling
Artiklar i publikationen
ICASSP 2024 - 20 ...
Av lärosätet
Lunds universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy