SwePub
Tyck till om SwePub Sök här!
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Wang Gang)
 

Sökning: WFRF:(Wang Gang) > A GPU-accelerated r...

A GPU-accelerated real-time human voice separation framework for mobile phones

Chen, Gang (författare)
Sun Yat Sen Univ, Guangzhou, Peoples R China.
Zheng, Yi (författare)
Sun Yat Sen Univ, Guangzhou, Peoples R China.
Zhou, Zhaoheng (författare)
Sun Yat Sen Univ, Guangzhou, Peoples R China.
visa fler...
He, Shengyu (författare)
Sun Yat Sen Univ, Guangzhou, Peoples R China.
Wang, Yi (författare)
Uppsala universitet,Datorteknik
visa färre...
Sun Yat Sen Univ, Guangzhou, Peoples R China Datorteknik (creator_code:org_t)
Elsevier, 2023
2023
Engelska.
Ingår i: Journal of systems architecture. - : Elsevier. - 1383-7621 .- 1873-6165. ; 145
  • Tidskriftsartikel (refereegranskat)
Abstract Ämnesord
Stäng  
  • Mobile speech communication can experience significant degradation in quality when users are in a noisy acoustic environment. With the rapid development of artificial intelligence in recent years, deep learning based monaural speech separation methods have shown remarkable progress in boosting the performance of the separation accuracy. However, the latency and computational cost of these methods remain far insufficient for mobile devices. Performance and power constraints make it still challenging to deploy such methods on mobile devices due to their high computational complexity. In this paper, we present VoiceBit, an efficient and light-weight human voice separation framework for real-time speech separation on mobile devices. Specifically, we propose a light-weight speech separation network to segregate human voice and interfering noises directly from time-domain signals. We binarize the convolution blocks in down-sampling blocks to reduce computation complexity and memory footprint, and leverage scaler layers as well as learnable bias layers to enhance the representation ability of binary filters. In addition, we present a set of parallel optimizations to accelerate the operations in VoiceBit. Specifically, we adopt KKC-minor format for weight matrices of convolution layers to coalesce memory access from global memory. Then, we explore different methods to implement the transposed convolution operation under PhoneBit framework. Experimental results on the MUSDB18-HQ dataset and VCTK dataset show that VoiceBit achieves significant speedup and energy efficiency compared with state-of-the-art frameworks, while maintaining minimal compromise in accuracy.

Ämnesord

TEKNIK OCH TEKNOLOGIER  -- Elektroteknik och elektronik -- Signalbehandling (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Electrical Engineering, Electronic Engineering, Information Engineering -- Signal Processing (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap -- Datavetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Computer Sciences (hsv//eng)

Nyckelord

Mobile Speech Communication
Deep Learning
Real-Time Speech Separation

Publikations- och innehållstyp

ref (ämneskategori)
art (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Chen, Gang
Zheng, Yi
Zhou, Zhaoheng
He, Shengyu
Wang, Yi
Om ämnet
TEKNIK OCH TEKNOLOGIER
TEKNIK OCH TEKNO ...
och Elektroteknik oc ...
och Signalbehandling
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Datavetenskap
Artiklar i publikationen
Journal of syste ...
Av lärosätet
Uppsala universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy