No | 기본지식 내용 | 유투브 |
1 | 배치 정규화(Batch Normalization) | 강좌 |
2 | ||
3 |
Paper Review
UNetGAN: A Robust Speech Enhancement Approach in Time Domain forExtremely Low Signal-to-noise Ratio Condition
Author : Xiang Hao, Xiangdong Su, Zhiyu Wang , Hui Zhang and Batushiren
Data : 29 Oct 2020
[ Abstract ]
SNR이 매우 낮은 조건에서 Speech Enhancement은 매우 어려운 문제이고, 이전 연구에서 거의 조사되지 않았다. 이 논문은 이러한 문제를 처리하기 위한 U-Net 및 생성적 적대적 학습(Generative Adversarial Learning)에 기반한 강력한 Speech Enhancement 접근법(UNetGAN)을 제안한다. 이 접근법은 시간 도메인에서 직접 동작하는 Generative 네트워크와 Discriminator 네트워크로 구성된다. Generator 네트워크는 U-Net과 유사한 구조를 채택하고 병목 현상이 발생하는 곳에서는 Dilated Convolution을 채택한다. 우리는 공개 벤치마크에서 SNR이 낮은 조건(최대 -20dB)에서 UNetGAN의 성능을 평가한다. 결과는 그것이 음성 품질을 크게 개선하고 대체로 Short-Time Objective Intelligibility (STOI)와 Perceptual evaluation of speech quality (PESQ)에 대해서 SEGAN, cGAN for SE, PSA-BLSTM, Wave-U-Net 대표적인 딥러닝모델보다 우수한 성능을 보인다.
1. Introduction
Speech Enhancement는 Target Speech와 Background Noise 간섭[1]을 분리하는 것이다. 청각 보형물 (Hearing Prosthesis) [2], 이동통신 [3], 자동 음성 인식 [4] 등과 같은 관련 신호 처리 시스템을 최적화하기 위해 음성 품질을 개선하고자 한다. 이 문제는 오랫동안 광범위하게 연구되어 왔고, 많은 수의 방법들이 제안되었다[5][6]. 그러나 이러한 방법 중 SNR 낮은 조건에서의 Speech Enhancement에 주의를 기울이는 방법은 거의 없으며, SNR이 높은 조건보다 더 중요하다. SNR 매우 낮은 조건에서 많은 통신 시나리오가 있다. 예를 들어, 금속 절단 공장에서 무전기와 통신하는 근로자, 헬리콥터를 시험할 때 무선 헤드셋과 기계 통신 등 이다. 일부 시끄러운 환경에서도 마이크에 의해 수집된 소리가 심각한 잡음(노이즈)을 가지고 있어 상대방이 명확하게 들을 수 없기 때문에, 사람들은 의사소통을 위해 제스처만 사용할 수 있다. SNR이 낮은 조건에서의 Speech Enhancement은 연설을 명확하게 듣고 정확하게 이해할 수 있는지 여부를 결정하는 반면, SNR 높은 상황에서의 Speech Enhancement은 청취자들에게 더 편안함을 준다. 이러한 관점에서, SNR이 낮은 상황에서의 Speech Enhancement은 SNR이 높은 상황 보다 더 중요하다.
본 논문은 U-Net 및 Dilated Convolution Operation [7]을 Generative Adversarial Network[8] 기반 프레임워크에 통합하고, 극도로 낮은 SNR 조건을 위한 Speech Enhancemen 접근법(UNetGAN)을 제안한다. 우리의 연구 동기는 다음과 같다. 첫째, Speech Enhancement은 잡음(노이즈)과 Clean Speech가 섞인 혼합물에서 Clean Speech를 분리하는 특별한 형태의 Speech Separation로 볼 수 있다. Speech Separation의 딥 러닝 기반 모델 중, U-Net[9]은 시간 도메인에서 작동하며 사전 처리가 필요 없지만 최첨단 성능을 달성한다. 둘째, GAN은 Generator Network와 Discriminator Network 사이의 Min-Max Game을 통해 Generator Network의 성능을 향상시킬 수 있다. Speech Enhancement에서의 효과성은 [10] 논문에서도 입증되었다. 셋째, Dilated Convolution은 수용 필드 크기를 확장하고 큰 시간적 컨텍스트를 고려할 수 있다[11].
제안된 UNetGAN은 Generator Network와 Discriminator Network로 구성되며, 이는 시간 도메인에서 작동하고 적대적 방식으로 훈련된다. Generator Network는 다운샘플링 블록과 업샘플링 블록 사이에서 Dilated Convolution이 사용되는 U-Net 유사 구조를 채택한다. Discriminator Network는 Batch Normalization [12] 및 Leaky ReLU [13]를 포함하는 일반적인 컨볼루션 신경망이다. 일단 훈련을 받으면, Generator를 Speech Enhancement에 사용할 수 있다.
우리의 접근 방식은 공개 데이터 세트에서 SNR이 극도로 낮은 조건(최대 -20dB)에서 평가한다. 또한 SEGAN [14], cGAN for SE [15], bidirectional LSTM using phase-sensitive spectrum approximation cost function (PSABLSTM) [16] 및 Wave-U-Net[9]를 포함한 딥 러닝을 기반으로 한 제안된 접근 방식과 다른 대표적인 Speech Enhancement 접근 방식 간에 비교가 이루어진다. 실험 결과는 우리의 접근 방식이 Short-Time Objective Intelligibility (STOI) [17] 및 음성 품질에 대한 Perceptual evaluation (PESQ) [18] 측면에서 음성 품질을 크게 개선하고 다른 접근 방식을 크게 능가한다는 것을 보여준다.
Pascual et al.[14]은 Speech Enhancement을 위해 시간 도메인에서 GAN(SEGAN)을 처음 사용했지만, SEGAN과 우리의 접근 방식에는 두 가지 중요한 차이가 있다. 첫째, 우리의 접근 방식의 네트워크 구조는 SEGAN과 다르다. 둘째, 우리의 접근 방식은 시간 도메인에서 직접 작동하는 반면, SEGAN은 입력 데이터에 High-Frequency Preemphasis Filter를 적용한다. Michelsanti et al. [15]이 제안한 GAN 기반 Speech Enhancement 접근법이 또 있다. 네트워크 구조의 차이를 제외하고, 그것은 주파수 도메인에서 작동하는 반면, 우리의 접근 방식은 시간 도메인에서 동작한다. 우리의 접근 방식은 또한 완전한 Convolutional Neural Network [19][20][21] 및 U-Net[22][23][24]에 기반을 둔 다음과 같은 Speech Enhancemen 접근법과도 다르다. 우리는 U-Net을 GAN 기반 아키텍처에 소개하고 이를 학습(훈련)시키기 위해 적대적 학습을 취한다. 그것은 또한 우리의 접근법에서의 U-Net의 손실 함수가 위의 접근법에서의 그것과는 다르다는 것을 의미한다.
제안된 접근법은 두 가지 주요 장점이 있다. 첫째, 우리의 접근 방식은 SNR이 매우 낮은 조건에서 음성 품질을 크게 개선하고 최첨단 성능을 달성한다. 둘째, 우리의 접근 방식은 시간 도메인의 U-Net을 개선하기 위해 적대적 학습을 채택하고 수용 필드 크기를 확대하기 위해 Dilated Convolution을 적용한다. 셋째, 우리의 접근 방식은 엔드 투 엔드로 작동한다.
2. Approach
2.1 Architecture
이 논문은 Speech Enhancement을 수행하기 위한 Conditional GAN(cGAN) [25]기반 접근법을 제안한다. Speech Enhancement은 Generator Network 와 Discriminator Network라는 두 가지 요소로 구성된다. Generator Network는 U-Net과 유사한 구조와 Dilated Convolution 동작을 채택한다. Discriminator는 Batch Normalization와 Leaky ReLU 활성화와 관련된 일반적인 CNN이다. 이 두 네트워크는 모두 시간 도메인에서 직접 동작한다. Discriminator D는 음성들을 훈련 데이터(Real, Close to 1) 또는 Generator G(Fake, Close to 0)에서 나온 것으로 분류하도록 훈련된다. 이 값은 혼합물 x에 맞춰 조절되고 깨끗한 음성 또는 향상된 음성 yˆ를 실제 데이터 분포에 매핑한다 : D(x, y) or D(x, yˆ) → (0, 1). Generator G는 혼합물 x에서 향상된 음성 yˆ: G(x) → yˆ로 매핑되며, Discriminator D를 혼동하려고 한다. 그들은 미니맥스 게임을 한다. 목표는 다음과 같이 표현할 수 있다. 목적함수는 다음과 같이 표현된다.
여기서 G는 적대적인 D에 대항하여 이 목표함수를 최소화하려고 한다.
그림 1 : UNetGan의 Generator. k, s 와 c는 각각 1D Convolution에서 kernel size, stride 그리고 channel 수이다. r은 1D Dilated Convolution의 Dilated Rate를 나타낸다. |
![]() |
Generator의 상세 구조는 <그림 1>과 같다. Downsampling(DS)과 Upsampling(US) 부분은 그 사이에 몇 개의 Dilated Convolution 블록을 추가하는 것을 제외하고 [9]에서 설명한 것과 유사하다. 먼저, 혼합물 x는 일련의 DS 블록을 사용하여 더 좁은 시간 척도에서 점점 더 많은 상위 레벨 기능으로 변환된다. 다음으로, 이러한 기능은 세 개의 연속적인 Dilated Convolution 블록에 의해 처리되어 더 큰 컨텍스트를 통합한다. 이후 스킵 연결을 통해 US 블록을 사용하여 초기 로컬 고해상도 기능과 결합되어 예측을 위해 사용되는 다중 스케일 기능을 산출한다.
Generator의 DS 블록에는 총 8개의 레벨이 있다. 각 연속 레벨은 이전 레벨보다 절반의 Time Resolution으로 작동하며 채널 수는 24개 간격으로 점진적으로 증가하였다. 여기서 각 DS 블록은 배치 정규화, Leaky ReLU 및 다운샘플링에 따라 1D Convolution을 수행한다. 1D Convolution의 파라미터는 <그림 1>의 각 DS 블록 위에서 찾을 수 있으며, k, s 및 c는 각각 1D convolution의 커널 크기, stride 및 채널 번호를 나타낸다. 입력과 동일한 Time Resolution의 출력을 생성하기 위해 동일한 패딩을 수행한다. 배치 정규화는 네트워크 성능과 안정성을 보장하기 위해 사용된다. 우리는 Tanh를 사용하는 최종 레이어를 제외한 Leaky ReLU를 활성화 함수로 사용한다. Time Resolution을 절반으로 낮추기 위해 다른 모든 시간 단계의 기능을 Decimate 한다. Dilated Convolution 블록에서 우리는 서로 다른 확장 속도(r = 1, 2, 4)를 가진 세 개의 연속적인 Dilated Convolution 연산을 사용하여 바람직한 Time Resolution에서 형상을 점진적으로 추출한다. 결과, 피쳐 맵은 US 블록의 입력으로 사용된다. Dilated Convolution의 세부 사항은 섹션 2.2에 설명되어 있다. US 블록에서 업샘플링은 시간 방향에서 2배 인자로 선형 보간을 수행한다. 각 레벨의 채널 번호가 24번 간격으로 감소한다.
그림 2 :UnetGan의 Discriminator. k, s 와 c는 1D convolution의 kernel size, stride와 channel수를 나타낸다. |
![]() |
Discriminator는 <그림 2>에 보여진다. 깨끗한 음성 또는 향상된 음성은 혼합물과 연결되고 1D 컨볼루션, 배치 정규화 및 Leaky ReLU를 사용하여 점점 더 많은 수의 피처 맵으로 변환된다. 세 개의 컨볼루션 블록 후에 피처 맵은 결국 높은 수준의 표현으로 압축된다. 이 두 네트워크는 번갈아 훈련된다. 고정 Generator G의 경우, Discriminator D는 깨끗한 Speeches과 강화된 Speeches을 구별하도록 훈련된다. Discriminator가 최적일 때 이를 동결하고 Generator G를 계속 훈련시켜 Discriminator의 정확도를 낮출 수 있다.
2.2 Dilated Convolution
위에서 언급한 바와 같이, Dilated Convolution은 Generator 네트워크에서 사용된다. 이 연산은 원래 Wavelet Transform[26]을 위해 개발되었으며, 나중에 [7]에서 Dilated Convolution이라고 한다. 커널 요소 사이에 공백을 삽입하여 커널을 팽창시킨다. 수용 필드 크기를 확대하여 더 큰 컨텍스트를 통합할 수 있다 [27]. 1-D 입력 신호 x[i]의 경우, 길이 K의 필터 w[k]를 가진 Dilated Convolution의 출력 y[i]는 다음과 같이 정의된다.
r은 Dilated Rate이다. r = 1일 때, Dilated Convolution과 기존 Convolution은 동일하다.
그림 3 : (a) 1D Conventional Convolution Operation을 사용한 3개의 CNN. (b) 지수승으로 증가하는 Dilated Rate(r=1,2,3,4)를 가지는 1D Dilated Convolution Operation을 사용한 3개의 CNN |
![]() |
<그림 3>은 1-D 신호의 기존 Convolution과 Dilated Convolution(r = 1, 2, 4)을 보여 주며, 여기서 stread = 1, 커널 크기 = 3. <그림 3>(a)는 수용 필드 크기가 레이어 수에 따라 선형인 세 개의 순차 컨볼루션 연산 후 7이라는 것을 보여준다. <그림 3>(b)와 같이 기하급수적으로 증가하는 Dilated Rate(r = 1, 2, 4)를 사용하면 수용성 필드 크기가 15로 기하급수적으로 증가한다. 모델의 Dilated Convolution 블록은 <그림 3>(b)과 같은 지수적으로 증가하는 확장 속도(r = 1, 2, 4)를 사용하여 수용 필드의 크기가 기하급수적으로 증가한다.
2.3 Loss function
신경망 학습(훈련) 작업은 파라미터 조정을 위한 그레이디언트 역전파를 통해 손실 함수가 중심 역할을 하는 반복 프로세스에서 좋은 파라미터를 찾는 작업 중 하나이다. U-Net[9][28]에 대한 이전 연구는 평균 제곱 오차(MSE)를 손실 함수로 사용하고 좋은 성능을 얻음으로써 MSE의 효과를 입증한다. GAN 기반 네트워크는 대개 적대적 손실을 손실 함수로 채택하여 생성된 결과를 예상과 일치시킨다. Generator는 적대적 손실이 감소함에 따라 점차적으로 개선된다. 우리의 접근 방식은 MSE 및 적대적 손실을 식(2)와 같이 Generator Network의 손실 함수로 통합한다.
여기서 x는 혼합물이고, y는 학습(훈련) 데이터 세트의 깨끗한 음성이며, λ 는 검증 실험을 통해 결정되는 MSE의 가중치이다.
Discriminator는 아직 변화되지 않는다. 즉, 혼합 x에서 깨끗한 음성을 참으로 매핑하고 향상된 음성 G(x)를 거짓 조건화하여 거짓으로 매핑하는 역할을 한다. 따라서, 손실 함수는 식(3)과 같이 작성할 수 있다.
3. Experiment
3.1 Dataset and metrics
제안된 접근 방식을 평가하기 위해 TIMIT corpus[29]와 NOISEX-92 corpus[30]가 실험에 사용된다. TIMIT corpus는 깨끗한 데이터베이스로 사용되고 NOISEX-92 corpus는 간섭(noise)으로 사용된다. 우리는 TIMIT에서 750개의 발음을 무작위로 선택하여 학습(훈련) 부분(600개의 발화), 유효성 검증 부분(50개의 발화), 시험 부분(100개의 발화)의 세 부분으로 나누었다.
학습(훈련) 세트와 관련하여, 우리는 NOISEX-92 코퍼스에서 babble, factoryfloor1, destroyerengine 및 destroyerops를 선택했다. 각 잡음(노이즈)의 처음 2분은 4개의 SNR 중 하나(0dB, -5dB, -10dB, -15dB)에서 학습(훈련) 세트의 깨끗한 음성과 혼합됩니다. 총 9600개의 학습(훈련) 샘플을 산출하며, 각 샘플은 혼합물과 그에 상응하는 깨끗한 음성으로 구성된다. 학습(훈련) 세트의 잡음(노이즈) 외에도 일반화 성능을 평가하기 위해 factoryfloor2(NOISEX-92 코퍼스)를 선택했다. 각 잡음(노이즈)의 마지막 2분은 9개의 SNR 중 하나(0dB, -3dB, -5dB, -7dB, -10dB, -12dB, -15dB, -17dB, -20dB)에서 시험 발화와 혼합되어 4500개의 시험 표본이 생성된다. 유효성 검증 세트는 2250개의 샘플을 포함하는 테스트 세트와 동일한 방식으로 구축된다. 모든 샘플의 샘플링 속도는 16000Hz입니다. 잡음(노이즈)은 학습(훈련) 세트에서 시험 잡음(노이즈)가 반복되지 않도록 두 부분으로 구분된다.
우리는 STOI와 PESQ 점수를 사용하여 각각 음성 인텔리전스와 품질을 측정한다.
3.2 Training
앞서 언급했듯이, 각 샘플은 혼합물과 그에 상응하는 깨끗한 음성으로 구성된다. 모든 샘플은 길이가 다르다. 각 학습(훈련) 기간(epoch), 우리는 혼합물과 깨끗한 음성에서 각각 연속 16384개의 시간 프레임을 랜덤하게 샘플링하여 UNetGAN의 네트워크에 입력한다. learning rate = 0.0002, decay rates β1 = 0.9, β2 = 0.999인 Adam Optimizer[31]를 사용한다. 우리는 Leaky ReLU의 배치 크기를 150으로, 음의 기울기를 0.1로 설정했다. 식(2)의 λ 는 유효성 검증 실험에 따라 설정되며, 이는 최적 Model에서 20과 같다.
우리는 두 가지 모두를 최적화하기 위해 Generator G와 Discriminator D에 대해 Gradient Descent를 대체적으로 수행한다. Generator 손실은 초기에 일부 진동 동작을 나타내며 900 epoch 이후에 점진적으로 수렴된다. 결국 0.771에 가깝다.
3.3 Baseline Approaches
본 논문은 UNetGAN을 시간 도메인의 GAN 기반 접근법(SEGAN [14]), 주파수 도메인의 GAN 기반 접근법(cGAN for SE [15]), 시간 주파수 마스크를 사용한 BiLSTM 기반 접근법(PSA-BLSTM [16]) 및 시간 도메인 기반 U-Net 접근법(Wave-U-Net)을 포함한 다음 접근법들과 비교한다.
- SEGAN : Waveform 레벨에서 동작하는 GAN 기반 Speech Enhancement 접근법이다. 모든 입력 Speech에 고주파 Preemphasis Filter를 적용한다. 우리는 SEGAN과 동일한 구현[32]을 사용하고 기본 파라미터를 변경하지 않고 유지한다.
- cGAN for SE : Isola 등이 제안한 pix2pix 프레임워크를 사용한다. [33] 잡음(노이즈)이 많은 음성 스펙트럼에서 향상된 음성으로의 매핑을 학습한다. 우리는 [15]에서 언급한 것과 동일한 전처리 방법과 구현을 채택한다.
- PSA-BLSTM : Phase-Sensitive Spectrum Approximation(PSA) 비용 함수를 사용하여 Speech Enhancement을 위한 양방향 LSTM 네트워크이다. 우리는 모델을 다시 구현하고 [16]의 것과 동일한 하이퍼 파라미터를 사용한다.
- Wave-U-Net : U-Net 아키텍처를 단대단 오디오 소스 분리를 수행하기 위해 1차원 시간 도메인에 적응시킨 것이다. 우리는 [34]에 대한 구현과 그 기본 파라미터를 사용한다.
3.4 Result and Discussion
표 1 : 서로 다른 SNR과 다른 noise에서 UNETGAN의 STOI와 PESQ. N1,N2,N3,N4,N5는 babble, factoryfloor1, destroyerengine, destroyerops and factoryfloor2. |
![]() |
<표 1>은 STOI 및 PESQ 측면에서 0dB ~ -20dB의 향상된 음성과 혼합물을 제시한다. 표의 "Mixture" 라인은 혼합물을 나타내고, "Enhanced" 라인은 UNetGAN을 사용한 향상된 연설을 나타낸다. "Seen" 열은 training set에 SNR 조건이 존재함을 의미하며, "Un-seen" 열은 training set에 존재하지 않는 SNR 조건을 나타낸다. noise N1, N2, N3, N4, N5는 각각 babble, factory floor1, destroyer 엔진, destroyer ops, factory floor2이다. 그 중 모델 training 부분에서는 factoryfloor2이 사용되지 않는다.
<표 1>에서, 모든 조건에서 Speech Enhancement 후 STOI와 PESQ의 상당한 개선이 있다. -5dB보다 낮은 SNR은 일반적으로 매우 낮은 SNR 조건으로 간주된다. STOI와 PESQ의 평균 개선율은 각각 39.16%와 62.55%이다. 이것은 우리의 접근법이 매우 효과적이라는 것을 나타낸다. "Seen" SNR 조건에서 STOI와 PESQ의 평균 개선은 34.74%와 57.80%이다. "Un-seen" 조건에서의 해당 개선은 43.16%와 67.01%로 UNetGAN의 안정성을 반영한다. 보이지 않는 noise "factoryfloor2"의 평균 개선은 5.55% STOI와 18.33% PESQ를 달성하여 UNetGAN이 우수한 일반화 능력을 가지고 있음을 입증한다.
표 2 : Test Set에 대한 UNetGan과 Base-line Approaches의 Average Performances |
![]() |
<표 2>에는 테스트 세트에 대한 UNetGAN의 성능과 기준 접근 방식의 성능이 나열되어 있다. 기준 접근 방식 중 Wave-U-Net은 가장 높은 STOI(혼합보다 12.54% 높음)를 얻고 PSA-BLSTM은 가장 높은 PESQ(혼합보다 31.13% 높음)를 얻는다. UNetGAN은 혼합물에 비해 STOI가 39.16%, PESQ가 62.55% 향상되었다. UNetGAN이 다른 어떤 기준 접근 방식 보다 훨씬 더 나은 성능을 발휘한다는 것은 명백하다. WaveU-Net과 UNetGAN 모두 U-Net과 같은 구조를 사용하지만 UNetGAN의 Dilated Convolution 운영, 적대적 학습 그리고 잘 정의된 구조는 우수한 성능에 기여한다.
그림 4 : 서로 다른 SNR에 대한 UNetGan과 Base-line Approaches의 Average Performances |
![]() |
<그림 4>는 서로 다른 SNR에 대한 UNetGan과 기준 접근 방식들의 STOI 및 PESQ를 보여준다. 이는 UNetGAN이 무엇보다도 모든 SNR에서 다른 것보다 훨씬 더 우수한 성능을 발휘함을 시사한다. <그림 4>에서, SNR이 감소함에 따라, 모든 기준 접근 방식들은 STOI와 PESQ의 혼합물에 점진적으로 접근한다. 즉, SNR이 매우 낮을 때, 이러한 접근 방식들의 효과는 매우 제한적이지만 반대로, 우리의 방법(UNetGan)은 매우 낮은 SNR 상황에서 강한 견고성을 보여준다.
4. Conclusion
낮은 SNR 조건에서 Speech Enhancement은 매우 어려운 작업이다. 본 논문은 Voice Separation에서의 성능 및 네트워크 훈련에서의 GAN 효과와 관련하여, U-Net을 GAN 기반 프레임워크에 통합하고 SNR 조건이 극히 낮은 상황에서의 엔드 투 엔드 Speech Enhancement 접근법을 제안하였다. 또한 Feature Extraction에서 수용 필드 크기를 확대하기 위해 Dilated Convolution 연산을 사용했다. 우리의 접근 방식은 최첨단 성능을 달성하고 SEGAN, cGAN for SE, PSA-BLSTM 및 WaveU-Net을 크게 능가한다. STOI와 PESQ의 평균 개선은 각각 39.16%와 62.55%를 달성한다. 실험은 또한 우리의 모델이 보이지 않는 낮은 SNR 조건과 잡음(노이즈)에 강하다는 것을 증명한다. 우리가 아는 한, 이 논문은 SNR이 극도로 낮은 상황(최대 -20dB)에서 Speech Enhancement을 탐구하는 첫 번째 논문이다.
[딥러닝 공부할 때 알아야 기본]
- 최근 딥러닝 네트워크 모델에 DC라는 단어를 많이 붙인다(DCUNnet, DCCRN, etc.). DC 단어의 의미는 무엇이며, DC는 어떤 연산을 한다는 것인가? 그림으로 설명 해보시오.
'AI-Study' 카테고리의 다른 글
Deep Learning Paper Review: Malware Detection (2) | 2021.06.27 |
---|---|
Deep Learning Paper Review: (DCCRN) Speech Enhancement (0) | 2021.06.26 |
Deep Learning Paper Review: (FULLSUBNET) Speech Enhancement (2) | 2021.06.22 |
Deep Learning Paper Review: (SEGAN) Speech Enhancement (4) | 2021.06.21 |
Deep Learning : Speech Enhancement -APPENDIX (2) | 2021.06.19 |