Deep Learning Paper Review: (FULLSUBNET) Speech Enhancement
No | 기본지식 내용 | 유투브 |
1 | 배치 정규화(Batch Normalization) | 강좌 |
2 | LSTM 쉽게 이해하기 | 강좌 |
3 | Sequence Data를 위한 RNN & LSTM | 강좌 |
Paper Review
FULLSUBNET: A FULL-BAND AND SUB-BAND FUSION MODEL FOR REAL-TIMESINGLE-CHANNEL SPEECH ENHANCEMENT
Author : Xiang Hao, Xiangdong Su, Radu Horaud , and Xiaofei Li
Data : 24 Jan 2021
[ ABSTRACT ]
이 논문에서는 단일 채널 실시간 Speech Enhancement를 위해 FullSubNet으로 명명된 Full-band 및 Sub-band 퓨전(융합) 모델을 제안한다. Full-band 및 Sub-band는 각각 Full-band 및 Sub-band 잡음(노이즈) 스펙트럼 특징을 입력하고 Full-band 및 Sub-band 음성 대상을 출력하는 모델 말한다. Sub-band 모델은 각 주파수를 독립적으로 처리한다. 입력은 하나의 주파수와 여러 개의 컨텍스트 주파수로 구성된다. 출력은 해당 주파수에 대한 깨끗한 음성 대상의 예측이다. 이러한 두 가지 유형의 모델은 뚜렷한 특성을 가지고 있다. Full-band 모델은 Global 스펙트럼 컨텍스트와 장거리 교차 대역 의존성을 캡처할 수 있다. 단, 신호 정상성을 모델링하고 Local 스펙트럼 패턴을 따르는 기능은 부족하다. Sub-band 모델은 그 반대이다. 제안된 FullSubNet에서, 우리는 순차적으로 순수 Full-band 모델과 순수 Sub-band 모델을 연결하고 이러한 두 가지 모델의 장점을 통합하기 위해 실용적인 공동 학습(훈련)을 사용한다. 제안된 방법을 평가하기 위해 DNS 챌린지(INTERSPEECH 2020) 데이터셋에 대한 실험을 실시했다. 실험 결과에 따르면 Full-band 및 Sub-band 정보는 상호 보완적이며 FullSubNet은 이들을 효과적으로 통합할 수 있다. 게다가, FullSubNet의 성능 또한 DNS 챌린지에서 1위를 차지한 방법(DCCRN)의 성능을 능가한다.
Index Terms: FullSubNet, Full-band and Sub-band Fusion, Sub-band, Speech Enhancement
1. INTRODUCTION
최근 몇 년 동안 딥러닝 기반의 단일 채널 Speech Enhancement 방법은 Speech Enhancement 시스템의 음성 품질과 지능을 크게 향상시켰다. 이러한 방법은 종종 Supervised 설정으로 학습(훈련)되며 시간 영역 방법과 주파수 영역 방법으로 나눌 수 있다. 시간 영역 방법[1–3]은 신경망을 사용하여 잡음(노이즈)이있는 Speech Waveform을 깨끗한 Speech Waveform에 직접 매핑하여 직접 Speech Waveform을 정리하는데 사용된다. 주파수 영역 방법[4-7]은 신경망의 입력으로 잡음(노이즈)이있는 Spectral feature(예: Complex Spectrum, Magnitude Spectrum)을 사용한다. 학습(훈련) 대상은 깨끗한 음성 또는 특정 마스크(예: 이상적인 바이너리 마스크 [8], 이상적인 비율 마스크 [9], Complex 이상 비율 마스크(CIRM)[10])의 Spectral feature이다. 일반적으로 시간 도메인 신호에 대한 높은 차원과 명백한 기하학적 구조의 부족으로 인해 주파수 도메인 방법은 여전히 대부분의 Speech Enhancement 방법을 지배한다. 이 논문에서는 주파수 영역의 실시간 단일 채널 Speech Enhancement에 초점을 맞춘다.
우리의 이전 연구[11]에서는, 단일 채널 Speech enhancement을 위한 Sub-band 기반 방법이 제안되었다. 기존의 Full-band 기반 방식과 달리 Sub-band 방식으로 수행되는 방법은 다음과 같다. 모델의 입력은 여러 컨텍스트 주파수와 함께 하나의 주파수로 구성된다. 출력은 해당 주파수에 대한 깨끗한 음성 대상의 예측(Prediction of the Clean Speech Target)이다. 모든 주파수는 독립적으로 처리된다. 이 방법은 다음과 같은 근거를 바탕으로 설계되었다. (1) 음성 및 정상적인 잡음(노이즈)을 구별하기 위해 주파수별 신호 정상성을 학습한다. 많은 유형의 잡음(노이즈)이 상대적으로 정상적인 반면, 음성은 비정상정적인 것으로 알려져 있다. 주파수 기준 STFT Magnitude의 시간적 진화는 종래의 잡음(노이즈) 파워 Estimators[12, 13]와 Speech Enhancement 방법의 기초가 되는 정상성을 반영한다[14, 15]. (2) 현재 주파수들과 컨텍스트 주파수들에서 나타나는 Local 스펙트럼 패턴에 초점을 맞춘다. Local 스펙트럼 패턴이 음성 및 기타 신호 구별에 유용한 것으로 확인되었다. 이 방법은 DNS 챌린지[16]에 제출되었으며, 16개의 실시간 트랙 제출 중 4위를 차지했다.
Sub-band 모델은 DNS 챌린지의 실시간 요구 사항을 충족하며 성능도 매우 뛰어나다. 그러나 Global 스펙트럼 패턴을 모델링 할 수 없고 장거리 교차 대역 종속성(Long Distance Cross-band Dependency)을 활용할 수 없기 때문에, 특히, 신호 대 잡음비(SNR)가 매우 낮은 Sub-band의 경우, Sub-band 모델은 깨끗한 음성을 거의 복구 할 수 없지만 Full-band 종속성의 도움으로 가능하다. 반면에, Full-band 모델 [4, 5]은 신호 정상성과 같은 Sub-band 정보 전용 메커니즘이 부족하여 고차원 입력과 출력 간의 회귀를 학습하도록 훈련되었다.
이 논문에서는 위의 문제를 해결하기 위해 FullSubNet이라는 이름의 Full-band 및 Sub-band 퓨전(융합) 모델을 제안한다. 많은 예비 실험을 바탕으로 FullSubNet은 Full-band 모델과 Sub-band 모델의 직렬 연결로 설계되었다. 즉, Full-band 모델의 출력이 Sub-band 모델에 입력된다. 효과적인 공동 학습(훈련)을 통해 이 두 모델은 공동으로 최적화된다. FullSubNet은 신호 정상성을 모델링하고 Local 스펙트럼 패턴에 참여하는 기능을 유지하면서 전역(Full-band) 컨텍스트를 캡처할 수 있다. Sub-band 모델과 마찬가지로 FullSubNet은 여전히 실시간 요구 사항을 충족하며 적절한 지연 시간 내에 향후 정보를 활용할 수 있다. 우리는 DNS 챌린지 데이터셋으로 FullSubNet을 평가한다. 실험 결과에 따르면, FullSubNet은 FullSubNet과 함께 더 많은 파마리터를 가진 Sub-band 모델 [17]과 순수 Full-band 모델 모두를 현저하게 능가한다. 이는 Sub-band 정보와 Full-band 정보가 상호 보완적이라는 것을 나타낸다. 제안된 퓨전(융합) 모델은 통합에 효과적이다. 또한 DNS 챌린지에서 1위를 차지한 방법과 성능을 비교했는데, 그 결과 우리의 객관적인 성능 척도가 이들보다 더 우수하다는 것을 알 수 있었다.
2. METHOD
우리는 Short-time fourier transform(STFT) 영역에서 음성 신호의 표현을 사용한다 :
여기서 X(t, f), S(t, f) 및 N(t, f)는 각각 잡음(노이즈)이있는 음성, 잡음(노이즈)없는 음성(마이크에서 수신 된 반향(에코) 이미지 신호)의 Complex-valued 시간-주파수(TF) 빈 및 t = 1, · · ·, T 및 f = 0, · · ·, F-1 인 시간 프레임 t 및 주파수 빈 f에서의 간섭 잡음(노이즈)을 나타낸다. T와 F는 각각 프레임과 주파수 빈의 총 수를 나타낸다.
이 논문은 잡음(노이즈) 제거 작업에만 초점을 맞추고 있으며, 목표는 잡음(노이즈) N(t, f)을 억제하고 반향(에코) 음성 신호 S(t, f)를 복구하는 것이다. 우리는 이 작업을 달성하기 위해 순수한 Full-band 모델 Gfull과 순수한 Sub-band 모델 Gsub를 포함한 Full-band 및 Sub-band 퓨전(융합) 모델을 제안한다. 기본 워크플로우는 <그림 1>에 나와 있다. 다음은 각 부분을 자세히 소개할 것이다.
그림 1 : 제안된 FullSubNet의 다이어그램. 직사각형의 두 번째 선은 현재 단계에서 데이터의 차원을 설명한다. 예를 들어 "1 (F)"은 하나의 F-차원 벡터를 나타낸다. "F(2N + 1)"는 F 독립(2N + 1) 차원 벡터를 나타낸다. |
![]() |
2.1. Input
이전 연구[4, 5, 11, 17]는 Magnitude 스펙트럼 Feature(특성)가 Full-band에서 Global 스펙트럼 패턴에 대한 중요한 단서를 제공하는 반면, Sub-band에서 Local 스펙트럼 패턴과 신호 정상성에 대한 중요한 단서를 제공 할 수 있음을 입증했다. 그러므로, 우리는 잡음(노이즈)이있는 Full-band Magnitude 스펙트럼 Feature(특성)을 사용한다.
이 시퀀스를 Full-band 모델 Gfull의 입력으로 사용한다.
그런 다음, Gfull은 전역 상황 정보(Global Contextual Information)를 캡처할 수 있으며 ^X와 동일한 크기의 스펙트럼 임베딩을 출력하여 다음과 같은 Sub-band 모델 Gsub에 대한 보완 정보를 제공할 것으로 예상된다.
Sub-band 모델 Gsub는 신호 정상성과 잡음(노이즈)이 많은 Sub-band 신호로 인코딩된 Local 스펙트럼 모드 및 Full-band 모델의 출력에 따라 주파수별 깨끗한 음성 대상을 예측한다. 세부적으로, 우리는 Sub-band 단위로 시간 주파수 포인트 |X(t, f)|와 그 인접한 2 × N의 시간 주파수 포인트를 취한다. N은 각 측면에서 고려되는 인접 주파수 개수이다. 경계 주파수의 경우 f - N < 0 또는 f + N > F - 1인 경우 원형 푸리에 주파수가 사용된다. 우리는 Sub-band 모델 Gsub의 입력으로 Gfull(|X(t, f)|)로 표시된 Full-band 모델의 출력과 Sub-band unit을 연결한다.
주파수 f의 경우 Gsub의 입력 시퀀스는 식(5)와 같다.
이 시퀀스에서 시간적 진화는 시간 축과 함께 신호 정상성를 반영하며, 이는 음성과 상대적으로 고정 잡음(노이즈)을 구별하기 위한 효율적인 신호이다. 잡음(노이즈)이 많은 Sub-band 스펙트럼(2N + 1 주파수로 구성)과 그 시간 역학은 전용 Sub-band 모델에서 학습할 수 있는 국소 스펙트럼 패턴을 제공한다. 그러나 신호 정상성 신호와 Local 패턴은 실제로 Full-band 모델 Gfull의 입력에도 존재하지만, Full-band 모델 Gfull에 의해 학습되지는 않는다. 결과적으로, Sub-band 모델 Gsub는 여전히 Full-band 모델 Gfull과 관련된 일부 추가/다른 정보를 학습한다. 한편, Full-band 모델 Gfull의 출력은 Sub-band 모델 Gsub에게 보이지 않는 일부 보완 정보를 제공한다.
Full-band 스펙트럼 특성 X(t)에는 F 주파수가 포함되어 있으므로 결국 Gsub에 대해 각각 2N + 2 차원의 F 독립 입력 시퀀스를 생성한다.
2.2. Learning target
특히 낮은 신호 대 잡음비(SNR) 조건에서, Phase 정밀 추정이 더 많은 청각 인식 품질 개선을 제공할 수 있다는 것에는 의심의 여지가 없다. 그러나 Phase는 −π ∼ π로 싸여 있고 데이터 분포가 혼란 스럽기 때문에 추정하기가 쉽지 않다. 이전 연구[11, 17]과 같이 Phase를 직접 추정하는 대신, Complex Ideal Ratio Mask(cIRM)를 모델의 학습(훈련) 대상으로 채택했다. [10]에 따르면 tanh(hyperbolic tangent)를 사용하여 훈련에서 cIRM을 압축하고 역함수를 사용하여 추론에서 압축되지 않은 마스크를 사용한다(K = 10, C = 0.1). 우리는 cIRM을 하나의 T-F 빈에 대해 y(t, f) ∈ R2로 표시한다. Sub-band 모델은 주파수 f에 대한 입력 시퀀스 ^x(f)를 취한 다음 cIRM 시퀀스를 예측한다.
2.3. Model architecture
<그림 1>은 FullSubNet의 아키텍처를 보여준다. FullSuNet의 Full-band 및 Sub-band 모델은 단방향 LSTM 계층 2개와 선형(완전 연결) 계층 1개를 포함하여 모델 구조가 동일하다. Full-band 모델의 LSTM은 각 계층에 512개의 은닉 유닛을 포함하며 ReLU를 출력 계층의 활성화 함수로 사용한다. Full-band 모델은 각 주파수마다 하나의 요소를 갖는 F차원 벡터를 각 시간 단계에서 출력한다. 그런 다음, Sub-band 유닛은 이 벡터 주파수와 주파수별로 연결되어 식(4)에 따라 Sub-band 모델에 대한 F 독립 입력 샘플을 형성한다. 이전의 실험에 따르면, Sub-band 모델은 Full-band 모델만큼 클 필요가 없으므로 LSTM의 각 계층에서 384개의 은닉 유닛이 사용된다. [10]의 설정에 따라 Sub-band 모델의 출력 계층은 활성화 기능을 사용하지 않는다. 모든 주파수가 하나의 고유한 Sub-band 네트워크 (및 해당 파미미터)를 공유한다는 점에 유의하는 것이 중요하다. 학습(훈련) 중에는 제한된 LSTM 메모리 용량을 고려하여 입력-대상 시퀀스 쌍이 일정한 길이의 시퀀스로 생성된다.
모델을 보다쉽게 최적화하려면 입력 레벨을 균등화하도록 입력 시퀀스를 정규화 해야한다. Full-band 모델의 경우, Full-band 시퀀스 ^X에서 Magnitude 스펙트럼 특성의 평균값 μfull을 경험적으로 계산하고 입력 시퀀스를 ^X/μfull로 정규화한다. Sub-band 모델은 주파수를 독립적으로 처리한다. 주파수 f의 경우 입력 시퀀스 ^x(f)에서 평균값 µsub(f)를 계산하고 입력 시퀀스를 ^x(f)/µsub(f)로 정규화한다.
실시간 추론 단계에서, 우리는 일반적으로 누적 정규화 방법[18, 19]을 사용한다. 즉, 매번, 정규화에 사용되는 평균 값은 사용 가능한 모든 프레임을 사용하여 계산된다. 하지만, 실제 실시간 음성 향상 시스템에서, 음성 신호는 일반적으로 처음에는 침묵을 지킨다는 것은 음성 신호의 시작 부분이 대부분 무효라는 것을 의미한다. 본 연구에서는 정규화 문제와 무관하게 FullSubNet의 성능을 보다 잘 보여주기 위해 전체 테스트 클립에서 계산된 µfull 및 µsub(f)를 직접 사용하여 추론하는 동안 정규화를 수행한다.
[17]에서 언급된 방법과 마찬가지로, 본 논문의 제안 방법은 출력 지연을 지원하여, 모델이 합리적으로 작은 지연 내에서 미래의 정보를 탐색할 수 있도록 한다. <그림 1>에서와 같이 y(t−τ)를 추론하기 위해, 입력 시퀀스에 미래 시간 단계, 즉, x(t−τ+1), · · ·, x(t)가 제공된다.
3. EXPERIMENTAL SETUP
3.1. Datasets
우리는 DNS 챌린지 데이터 세트[16]에서 FullSubNet을 평가했다. 깨끗한 음성 세트에는 2150명의 연설자(화자)에 대해서 500시간 이상의 클립이 포함되어 있다. 잡음(노이즈) 데이터 세트에는 150개 등급의 180시간 이상의 클립이 포함되어 있다. 데이터 세트를 최대한 활용하기 위해 모델 학습(훈련) 중에 동적 혼합을 사용하여 음성-잡음 혼합을 시뮬레이션한다.
구체적으로, 각 학습(훈련) 기간이 시작되기 전에 깨끗한 음성의 75%가 (1) 다중 채널 임펄스 응답 데이터베이스[20]에서 무작위로 선택된 룸 임펄스 응답(RIR)과 3개의 반향(에코) 시간(T60) 0.16초, 0.36초 및 0.61초로 혼합된다. (2) 세 가지 반향(에코) 시간 0.3초, 0.6초 및 0.7초가 있는 Reverb Challenge 데이터 세트[21]. 그 후, 깨끗한 음성(75%는 반향(에코))과 잡음(노이즈)을 -5 ~ 20dB사이의 무작위 SNR과 혼합하여 음성-잡음 혼합을 동적으로 생성한다. 모델에서 "확인"한 총 데이터는 10개의 학습(훈련) 기간(에포치)이 지난 후, 5000시간이 넘는다. DNS 챌린지는 두 가지 범주의 합성 클립(즉, 반향(에코) 없음 및 반향(에코) 포함)을 포함하여 공개적으로 사용할 수 있는 테스트 데이터 세트를 제공한다. 각 카테고리에는 SNR 레벨이 0dB ~ 20dB 사이로 분포된 150개의 잡음(노이즈) 클립이 있다. 이 테스트 데이터 세트를 평가에 사용한다.
3.2. Implementation
신호는 256개의 샘플로 구성된 프레임 스텝이 있는 512-샘플(32ms) 해닝 윈도우를 사용하여 STFT 도메인으로 변환된다. 우리는 FullSubNet을 구현하기 위해 PyTorch를 사용한다. Adam Optimizer는 0.001의 학습률로 사용된다. 학습(훈련)을 위한 시퀀스 길이는 T = 192 프레임 (약 3 초)으로 설정된다. DNS 챌린지의 실시간 요구 사항에 따라 현재 프레임을 향상시키기 위해, 두 개의 미래 프레임을 활용하여 16 x 2 = 32ms 예측을 사용하는 τ = 2를 설정한다. [17]에서와 같이 FullSubNet에서 Sub-band 모델의 입력 주파수의 각 측면에 대해 15개의 인접 주파수를 설정했다.
3.3. Baselines
Full-band 및 Sub-band 퓨전(융합) 방법의 효과를 입증하기 위해, 우리는 다음의 두 모델과 비교한다. 이 두 모델은 FullSubNet과 동일한 실험 설정 및 학습(훈련) 대상(cIRM)을 사용한다.
- Sub-band 모델[17]: Sub-band 모델은 DNS 챌린지(실시간 트랙 중 4위)에서 매우 경쟁력 있는 성능을 달성했다. 성능을 공정하게 비교하기 위해 FullSubNet을 학습(훈련)하는 것처럼 학습(훈련) 중에 동적 혼합을 사용한다.
- Full-band 모델: 우리는 각 계층에 대해 512개의 숨겨진 유닛이 있는 3개의 LSTM 레이어를 포함하는 순수 Full-band 모델을 구성한다. Full-band 모델의 아키텍처(즉, LSTM 계층의 스택)는 실제로 [6,26]에서와 같이 Speech Enhancement을 위해 널리 사용된다. 이 모델은 제안된 퓨전(융합) 모델보다 약간 더 크므로, 비교는 충분히 공정할 것이다.
이 두 모델 외에도, NSNet[22], DTLN[23], Conv-TasNet[24], DCCRN[19], PoCoNet[25]을 포함한 DNS 챌린지의 최상위 방법과 비교했다.
4. RESULTS
4.1. Comparison with the baselines
<표 1>의 마지막 세 행에서, 우리는 Sub-band 모델, Full-band 모델 및 FullSubnet의 성능을 비교한다. 표에서, “#Para” 와 “Look Ahead”는 각각 모델의 파라미터 양과 사용된 미래 정보의 길이를 나타낸다. "With Reverb"는 시험 데이터 세트의 잡음(노이즈)이 소음뿐만 아니라 일정 수준의 반향(에코)도 발생한다는 것을 의미하며, 이는 Speech Enhancement의 난이도를 크게 높인다. "Without Reverb"는 테스트 데이터 세트의 잡음(노이즈)이 나는 음성에 잡음(노이즈)만 있음을 의미한다. 공정한 비교를 위해 이 세 모델은 동일한 훈련 목표(cIRM), 실험 설정을 사용하고 미리보기를 사용합니다.
표에서, 우리는 Full-band 모델이 더 큰 네트워크를 사용하여 광대역(Wide-band) 정보를 이용하기 때문에 대부분의 Full-band 모델의 평가 점수가 Sub-band 모델의 점수보다 더 우수하다는 것을 알 수 있다. "With Reverb"에 대한 Full-band 모델의 우월성이 "Without Reverb"에 대한 것보다 작기 때문에, Full-band 모델에 비해 Sub-band 모델이 "With Reverb" 데이터에 더 효과적인 것을 발견하는 것은 흥미롭다. 이는 Sub-band 모델이 협대역 스펙트럼(Narrow-band Spectrum)의 시간적 진화에 초점을 맞춤으로써 반향(에코) 효과를 효과적으로 모델링함을 나타낸다. 가능한 이유는 반향(에코) 효과의 교차 대역 의존성이 실제로 신호 스펙트럼보다 훨씬 낮기 때문이다.
FullSubNet 관련: (1) Sub-band 모델의 성능이 이미 매우 경쟁력이 있지만, Full-band 모델(LSTM 계층 2개와 선형 계층 1개로 누적)을 통합한 후에는 모델 성능이 대폭 개선되었다. 이러한 개선은 Global 스펙트럼 패턴과 장거리 교차 대역 의존성이 Speech Enhancement에 필수적이라는 것을 보여준다. (2) FullSubNet의 성능 또한 Full-band 모델을 상당히 초과한다. 우리는 먼저 이러한 개선이 더 많은 파마미터를 사용함으로써 얻어지지 않는다는 것을 지적해야 한다. 사실, FullSubNet (Full-Band LSTM의 2 레이어 + SubBand LSTM의 2 레이어)은 Full-Band 모델(Full-Band LSTM의 3 레이어)보다 훨씬 적은 파라미터를 가진다. Sub-band 모델을 통합한 후, FullSubNet은 Sub-band 모델의 고유한 능력, 즉 신호 정상성과 Local 스펙트럼 패턴 활용 및 반향(에코) 효과 모델링 기능을 상속한다. Full-band 모델에 비해 FullSubNet의 명백한 우월성은 Sub-band 모델에 의해 이용된 정보가 Full-band 모델에 의해 실제로 학습(훈련)되지 않으며, Full-band 모델을 보완한다는 것을 보여준다. 전반적으로, 이러한 결과는 제안된 퓨전(융합) 모델이 Full-band과 Sub-band 기술의 장점을 성공적으로 통합했음을 입증한다.
표 1 : DNS 챌린지 테스트 데이터셋의 WB-PESQ[MOS], NB-PESQ[MOS], STOI[%] 및 SI-SDR[dB] 측면에서 성능. |
4.2. Comparison with the state-of-the-art methods
<표 1>에서는 FullSubNet이 두 가지 보완 모델을 효과적으로 통합할 수 있다는 것을 보여줄 뿐 아니라 성능을 DNS 챌린지의 최상위 방법과 성능을 비교한다. 표의 "순위"열은 실시간 처리를 지원할지 여부와 도전 순위를 나타낸다. 예를 들어, "RT-8"은 실시간(RT) 트랙의 8번째 순위를 의미한다. "NRT-1"은 비실시간(NRT) 트랙의 첫 번째 위치를 의미합니다.
<표 1>에서 NSNet은 DNS 챌린지의 공식 기준 방법으로, 콤팩트 RNN을 사용해 단일 프레임 입력, 단일 프레임 출력 방식으로 잡음(노이즈)이 많은 단시간 음성 스펙트럼을 향상시킨다. 우리는 NSNet을 구현하고 훈련하기 위해 Asteroid 툴킷 1에 제공된 DNS 챌린지 레시피를 사용한다. 학습(훈련) 데이터는 [17]에 언급된 방법을 사용하여 생성된다. 표에서 어떤 메트릭이든 우리가 제안한 방법은 모든 메트릭에서 NSNet을 크게 능가한다.
DTLN, Conv-TasNet, DCCRN 및 PoCoNet은 DNS 챌린지의 주관적 듣기 테스트에서 최상위를 차지한 방법이다. 비교의 공정성을 보장하기 위해 원본 논문에서 성과 점수를 직접 인용한다. 표의 빈자리는 해당 점수가 원래 논문에 보고되지 않았음을 의미한다. DTLN[23]은 실시간 처리가 가능하다. 이는 STFT 작업과 학습된 분석 및 합성 기준을 파라미터가 100만개 미만인 스택형 네트워크로 결합한다. [24]는 대기 시간이 짧은 Conv-TasNet을 제안하였다. Conv-TasNet[18]은 널리 사용되는 시간-도메인 오디오 분리 네트워크이며, 컴퓨팅 복잡성이 크다. 결과적으로, 대기 시간이 짧은 Conv-TasNet은 실시간 요구 조건을 충족하지 못한다. DCCRN[19]는 컨볼루션 순환 네트워크 내부에서 복소수 연산을 시뮬레이션한다. 그것은 실시간 트랙의 1위를 차지했다. PoCoNet[25]은 주파수 위치 임베딩이 적용된 컨볼루션 신경망이다. 게다가, 잡음(노이즈)이 많은 데이터 세트를 미리 강화함으로써 대화형 학습(훈련) 데이터를 증가시키기 위해 반 감독 방식이 채택된다. 그것은 비실시간 트랙의 1위를 차지했다. 이러한 방법들은 광범위한 고급 딥러닝 기반 Speech Enhancement 기술을 다루며 어느 정도 최첨단 기술을 나타낸다. 이러한 방법들의 원본 논문들은 이 작업에 사용된 것과 동일한 테스트 세트에 대한 평가 결과를 제공했지만 이러한 작업에 사용된 모든 메트릭스는 제공하지 않았다. 제안된 퓨전(융합) 모델은 이 제한된 데이터셋의 모든 것보다 훨씬 더 높은 객관적인 점수를 달성하는 것을 알 수 있다. PoCoNet의 성능은 우리와 비슷하지만 훨씬 더 큰 네트워크(약 50M 파라미터)를 사용하는 비실시간 모델입니다. 제안된 FullSubNet은 Full-band/Sub-band 퓨전(융합) 전용의 새로운 모델을 제공하며, 이는 이러한 최첨단 모델에 채택된 고급 기술과 상충되지 않을 가능성이 높다. 그러므로, 적절하게 결합함으로써 Speech Enhancement 능력이 더욱 향상될 수 있다고 기대할 가치가 있다.
5. CONCLUSION
본 논문에서는 실시간 단일 채널 음성 향상을 위해 FullSubNet으로 명명된 Full-band 및 Sub-band 퓨전(융합) 모델을 제안한다. 이 모델은 Full-band와 Sub-band 모델의 장점을 통합하도록 설계되었다. 즉, 신호 정상성 모델링하고 Local 스펙트럼 패턴에 참여하는 동시에 Full-band 스펙트럼 정보와 장거리 교차 대역 의존성을 캡처할 수 있다. DNS 챌린지 테스트 데이터셋에서 Sub-band 정보와 Full-band 정보가 상호 보완적이며 FullSubNet이 이를 효과적으로 통합할 수 있음을 입증했다. 또한 성능을 DNS 챌린지의 상위 항목 방법과 비교했는데, 결과는 FullSubNet이 이러한 방법을 능가하는 것으로 나타났습니다.
[딥러닝 공부할 때 알아야 기본]
- Speech Enhancement를 위해 노이즈를 제거하는 딥러닝 방법이 많이 연구되고 있다. SNR이 낮다는 의미는 무엇인가? (예: SNR -20dB)
- SNR이 낮은 상황(SNR: -20dB)에서 Speech Enhancement의 성능이 좋은 모델은 어떤것이 있는가?