Deep Learning Paper Review: (SEGAN) Speech Enhancement
[참고 유투브 강좌]
No | 강좌제목 | 동영상 보기 |
1 | 10분안에 배우는 머신러닝 GAN 알고리즘 원리와 응용분야 | 강좌보기 |
2 | GAN: Generative Adversarial Networks (꼼꼼한 딥러닝 논문 리뷰) | 강좌보기 |
Paper Review
SEGAN: Speech Enhancement Generative Adversarial Network
Author : Santiago Pascual1 , Antonio Bonafonte1 , Joan Serra` 2
Data : 9 Jun 2017
[ Abstract ]
현재 Speech Enhancement 기술은 스펙트럼 Domain(Frequency)에서 작동하거나 일부 상위 수준 특성(feature)를 활용한다. 대부분은 제한된 수의 Noise Condition들을 다루고 1차 통계에 의존한다. 이러한 문제를 피하기 위해 대규모 예제 세트에서 복잡한 기능을 학습(훈련) 할 수 있는 능력 덕분에 딥 네트워크가 점점 더 많이 사용되고 있다. 이 연구에서 우리는 Speech Enhancement을 위한 GAN(Generative Adversarial Network: 생성적인 적대적 네트워크)의 사용을 제안한다. 현재의 기술과 달리 우리는 Waveform Level에서 작동하여 모델을 종단 간 학습(훈련)하고, 28명의 연설자(화자)와 40개의 서로 다른 잡음 조건을 동일한 모델에 통합하여 모델 매개 변수를 공유한다. 우리는 2명의 연설자(화자)와 20개의 대체 잡음 조건이있는 독립적인 보이지 않는 테스트 세트를 사용하여 제안된 모델을 평가한다. 향상된 샘플은 제안된 모델의 실행 가능성을 확인하고 객관적 및 주관적 평가 모두 그 효과를 확인한다. 이를 통해 Speech Enhancement를 위한 생성 아키텍처 탐색을 시작하여 성능을 향상시키기 위해 추가 음성 중심 설계 선택을 점진적으로 통합 할 수 있다.
Index Terms: speech enhancement, deep learning, generative adversarial networks, convolutional neural networks.
1. Introduction
Speech Enhancement는 Additive Noise(가산성 잡음)에 의해 오염된 음성의 명료도와 품질을 향상 시키는 것이다[1]. 주요 응용분야로는 시끄러운 환경에서 이동 통신의 품질을 향상시키는 것과 관련이 있다. 그러나, 우리는 또한 보청기 및 그것과 관련된 중요한 응용 분야를 찾는다. 증폭전 신호를 강화하면 불편함을 크게 줄이고 명료도를 높일 수 있다[2]. Speech Enhancement는 음성 인식 및 연설자(화자) 식별 시스템의 전처리 단계로 성공적으로 적용되었다[3, 4, 5].
고전적인 Speech Enhancement 방법은 Spectral Subtraction(스펙트럼 감산)[6], Wiener 필터링 [7], 통계 모델 기반 방법 [8] 및 Subspace 알고리즘[9, 10]이다. 신경망은 80년대부터 Speech Enhancement에 적용되었다[11, 12]. 최근에는 잡음 제거 자동 인코더 아키텍처[13]가 널리 채택되었다. 그러나, RNN(Recurrent Neural Network)도 사용된다. 예를 들어, 반복 잡음 제거 자동 인코더는 임베디드 신호의 시간적 컨텍스트 정보를 활용하는 상당한 성능을 보여주었다. 가장 최근의 접근 방식은 LSTM(Long Short-Term Memory Network)를 잡음 제거 작업에 적용한다[4, 14]. [15]와 [16]에서는 잡음 특성이 추정되어 Deep Neural Network의 입력 특성에 포함된다. Dropout, Post-filtering 및 지각적으로 동기 부여된 Metric의 사용이 효과적인 것으로 나타났다.
현재 대부분의 시스템은 Short-time Fourier 분석/합성 프레임워크를 기반으로 한다[1]. Short Term(단시간) Phase는 Speech Enhancement에 중요하지 않다고 종종 주장되어 왔기 때문에 스펙트럼 Magnitude만 수정한다[17]. 그러나 추가연구[18]들은 특히 깨끗한 Phase 스펙트럼이 알려진 경우 Speech Enhancement의 상당한 개선이 가능함을 보여준다. 1988년 Tamura et al.[11]은 Raw Audio Waveform(원시 오디오 파형)에서 직접 작동하는 Deep Network를 제안했지만 연설자(화자) 종속 및 격리된 단어 데이터베이스에서 프레임 단위(60개 샘플)로 작동하는 Feed-Forward Layer들을 사용했다.
최근 딥러닝 생성 모델링 분야의 돌파구는 GAN이다[19]. GAN은 사실적인 이미지를 생성하고 픽셀 단위의 복잡한(고차원) 분포로 잘 일반화하는 컴퓨터비전 분야에서 좋은 수준의 성공을 거두었다[20, 21, 22]. 우리가 아는 한, GAN은 음성 생성이나 향상 작업에 아직 적용되지 않았으므로 이것은 적대적 프레임워크를 사용하여 음성 신호를 생성하는 첫 번째 접근 방식이다.
제안된 Speech Enhancement GAN(SEGAN)의 주요 이점은 다음과 같다.
- 빠른 향상 프로세스를 제공한다. 인과 관계가 필요하지 않으므로 RNN과 같은 재귀 연산이 없다.
- 원시 오디오와 함께 종단간 작동한다. 따라서 손으로 만든 기능이 추출되지 않으며 원시 데이터에 대한 명시적인 가정도 수행되지 않는다.
- 서로 다른 연설자(화자) 및 잡음 유형에서 학습(훈련)하고 이를 동일한 공유 매개 변수화로 통합한다. 이것은 이러한 차원에서 시스템을 단순하고 일반화 할 수 있게 한다.
우리는 "섹션 2"에서는 GAN에 대한 개요를 보여준다. 다음으로 제안된 모델("섹션 3")과 실험적 설정("섹션 4")에 대해 설명한다. 마지막으로 결과("섹션 5")를 살펴보고 몇가지 결론("섹션 6")을 논의한다.
2. Generative Adversarial Networks
GANs[19]는 일부 이전 분포 Z의 샘플 z를 다른 분포 X의 샘플 x에 매핑하는 방법을 학습(훈련)하는 생성 모델이며, 이는 학습(훈련) 예제(예 : 이미지, 오디오 등) 중 하나이다. 매핑을 수행하는 GAN 구조 내의 구성 요소를 G(생성기)라고 하며, 그것의 주요 작업은 실제 데이터 분포를 모방하여 학습(훈련) 세트의 구성 요소와 관련된 새로운 샘플을 생성할 수 있는 효과적인 매핑을 배우는 것이다. 중요한 것은 G(생성기)가 입력-출력 쌍을 암기하는 것이 아니라 이전 Z에서 정의한 매니폴드에 데이터 분포 특성을 매핑하는 것이다.
그림 1 : GAN Training Process. 첫째, D(판별기)는 실제 예제를 일괄 처리한다. 그런 다음 D(판별기)는 G(생성기)에서 가져온 가짜 예를 일괄 처리하여 가짜로 분류한다. 마지막으로, D(판별기)의 매개 변수는 고정되고 G(생성기)는 D(판별기)가 잘못 분류되도록 한다. |
![]() |
G(생성기)가 매핑을 수행하는 방법은 적대적 훈련을 통해 학습(훈련)되며, 여기서 우리는 D(판별기)라고 불리는 다른 구성요소를 갖는다. D(판별기)는 일반적으로 이진 분류기이며, 입력은 G(생성기)가 모방하고 있는 데이터 세트에서 가져온 실제 샘플이거나 G(생성기)가 만든 가짜 샘플이다. 적대적 특성은 D(판별기)가 X에서 나오는 샘플을 실제 샘플로 분류해야 하는 반면 G(생성기), X^에서 나오는 샘플은 가짜 샘플로 분류해야 한다는 사실에서 비롯된다. 이는 G(생성기)가 D(판별기)를 속이려고 하는 것으로 이어지며, 이를 위한 방법은 G(생성기)가 G(생성기)의 출력을 실제와 같이 분류하도록 매개 변수를 조정하는 것이다. 역 전파 중에 D(판별기)는 입력에서 Real의 특징을 찾는데 더 능숙해지고, G(생성기)는 학습(훈련) 데이터로 설명하는 실제 데이터 매니폴드로 이동하도록 매개 변수를 수정한다(<그림 1>). 이 적대적 학습(훈련) 프로세스는 목표를 가지고 G(생성기)와 D(판별기) 사이의 미니맥스 게임으로 공식화된다.
우리는 또한 매핑과 분류를 수행하기 위해 G(생성기)와 D(판별기)에 약간의 추가 정보를 가지고 있는 조건부 버전의 GAN을 사용할 수 있다([20] 및 참조의 참조). 이 경우, 우리는 몇가지 추가 입력 Xc를 추가할 수 있으며, 이를 통해 우리는 목적 함수를 다음과 같이 변경할 수 있다.
GAN 방법론은 최근 학습(훈련)을 안정화시키고 G(생성기)에서 생성된 샘플의 품질을 높이기 위해 개선되었다. 예를 들어, 고전적인 접근 방식은 학습(훈련)에 사용되는 시그모이드 교차 엔트로피 손실로 인해 Gradient가 사라지는 어려움을 겪었다. 이를 해결하기 위해 최소 제곱 GAN(LSGAN) 접근법[21]은 최소 제곱 함수에 의한 교차 엔트로피 손실을 이진 코딩으로 대체한다(Real은 1, Fake는 0). 이를 통해 식(2)를 아래 식(3) 및 식(4)와 같이 변경한다.
3. Speech Enhancement GAN
Enhancement 문제는 입력 잡음이있는 신호 ~x를 가지도록 정의되며, 이를 처리하여 향상된 신호 ~x를 얻으려고 한다. 우리는 Speech Enhancement GAN(SEGAN)으로 그렇게 할 것을 제안한다. 우리의 경우, G(생성기) 네트워크는 개선을 수행한다. 입력은 잠재 표현 z와 함께 잡음이있는 음성 신호 ~x이며, 출력은 향상된 버전 ^x = G(~x)이다. 우리는 G(생성기)를 완전한 컨볼루션으로 설계하여 조밀한 레이어가 전혀 없도록 한다. 이것은 네트워크가 입력 신호와 전체 계층화 프로세스 전반에 걸쳐 일시적으로 닫히는 상관관계에 초점을 맞추도록 강제한다. 또한, 학습(훈련) 매개 변수의 수와 따라서 학습(훈련) 시간이 감소한다.
그림 2 : Speech Enhancement을위한 인코더-디코더 아키텍처(G 네트워크). 인코더와 디코더 블록 사이의 화살표는 스킵 연결을 나타낸다. |
![]() |
G(생성기) 네트워크는 자동 인코더와 유사하게 구성되어 있다(<그림 2>). 인코딩 단계에서 입력 신호는 다수의 Strided Convolution 레이어에 이어 파라메트릭 정류 선형 단위(PReLUs)[23]를 통해 프로젝션 및 압축되어 필터의 모든 N 단계에서 컨볼루션 결과를 얻는다. 우리는 다른 풀링 접근법보다 GAN 학습(훈련)에 더 안정적인 것으로 나타났기 때문에 Strided Convolution을 선택한다[22]. Decimation(소멸)은 사상 벡터 c라고 불리는 축약 표현을 얻을 때까지 수행되며, 잠재 벡터 z와 연결된다. 인코딩 프로세스는 부분 Strided 전치 컨볼루션(때로는 디콘볼루션이라고도 함)을 통해 디코딩 단계에서 반전되며, 그 다음에 다시 PReLU가 이어진다.
G(생성기) 네트워크는 또한 스킵 연결을 특징으로 하며, 각 인코딩 레이어를 상동의 디코딩 레이어에 연결하고, 모델 중간에서 수행되는 압축을 우회한다(<그림 2>). 이것은 모델의 입력과 출력이 동일한 기본 구조를 공유하기 때문에 이루어지며, 이는 자연스러운 음성 구조를 공유하기 때문에 수행된다.따라서 모든 정보가 압축 병목 지점을 통과하도록 강제할 경우 음성 파형을 제대로 재구성하기 위해 많은 낮은 수준의 세부 정보가 손실될 수 있다. 스킵 연결은 파형의 미세한 정보를 디코딩 단계(예: 위상, 정렬)로 직접 전달한다. 또한, Gradients가 전체 구조를 통해 더 깊이 흐를 수 있기 때문에 더 나은 학습(훈련) 동작을 제공한다[24].
G(생성기)의 중요한 특징은 16 kHz로 샘플링된 원시 음성을 처리하여 음향 특징을 추출하는 중간 변환을 제거(많은 일반적인 파이프라인과 대조적으로)하는 단대단 구조이다. 이러한 유형의 모델에서는 원시 음성 생성 모델 WaveNet [25]에서 언급한 바와 같이 평균 절대 오차 또는 평균 제곱 오차 같은 일반적인 회귀 손실에 주의해야 한다. 이러한 손실은 출력 분포가 형성되는 방법에 대한 강력한 가정 하에서 작동하므로 중요한 모델링 한계(다수 모달 분포를 허용하지 않고 가능한 모든 예측의 평균으로 예측을 편향하는 것과 같은)를 부과한다. 이러한 한계를 극복하기 위한 우리의 해결책은 생성적 적대적 설정을 사용하는 것이다. 이렇게 하면 G(생성기)는 출력 파형을 실제 분포를 향해 약간 보정하고, 잡음이 있는 신호는 가짜로 표시되면서 제거할 수 있도록 실제와 가짜의 정보를 G(생성기)에 전송하는 역할을 한다. 이런 의미에서 D(판별기)는 G(생성기)의 출력이 실제처럼 보이도록 일종의 손실을 학습(훈련)하는 것으로 이해될 수 있다.
예비 실험에서는 G(생성기)의 생성과 깨끗한 예 사이의 거리를 최소화하기 위해 G(생성기)의 손실에 보조 구성요소를 추가하는 것이 편리하다는 것을 발견했다. 이러한 거리를 측정하기 위해 이미지 조작 영역에서 효과가 입증된 L1 표준을 선택했다[20,26].이러한 방법으로, 우리는 적대적 구성요소가 더 세분화되고 현실적인 결과를 추가하도록 허용한다. L1 표준의 Magnitude는 새로운 하이퍼 파라미터 λ에 의해 제어된다. 따라서 LSGAN 식(4) 중 하나로 선택한 G(생성기) 손실은 다음과 같다.
4. Experimental Setup
4.1. Data Set
SEGAN의 효과를 평가하기 위해 Valentini 외 연구진이 설정한 데이터에 의존한다[27]. 우리는 그것이 개방적이고 이용가능하기 때문에, 그리고 데이터의 양과 유형이 이 작업에 우리의 목적에 맞기 때문에 그것을 선택한다. 즉, 많은 다양한 스피커를 위한 많은 종류의 잡음을 일반화한다. 데이터 세트는 Voice Bank Corpus[28]에서 30명의 연설자(화자)를 선택한다 : 28명는 학습(훈련) 세트에, 2명은 테스트 세트에 포함된다.
잡음이 있는 학습(훈련) 세트를 만들기 위해 총 40개의 서로 다른 조건이 [27]: 10가지 유형의 잡음(인공 2개 및 수요 데이터베이스에서 8개[29])으로 간주되며, 각각 4개의 신호 대 잡음비(SNR) (15, 10, 5 및 0dB)가 있다. 각 조건에는 학습(훈련) 연설자(화자) 한 명당 약 10개의 서로 다른 문장이 있다. 테스트 세트를 만들기 위해 총 20개의 서로 다른 조건이 고려된다[27]. 5가지의 잡음 유형(모두 수요 데이터베이스에서)과 각각 4개의 SNR(17.5, 12.5, 7.5, 2.5dB)이 그것 이다. 각 조건마다 테스트 연설자(화자) 마다 약 20개의 다른 문장이 있다. 중요한 것은 테스트 세트가 다른 연설자(화자)와 조건을 사용하여 학습(훈련) 세트에 의해 완전히 보이지 않는다는 것이다.
4.2. SEGAN Setup
그림 3 : Speech Enhancement를 위한 적대적 훈련. 점선은 기울기 역 전파를 나타낸다. |
![]() |
이 모델은 RMSprop[30]와 학습(훈련)률 0.0002를 가진 86개의 epochs에 대해 훈련되며, 유효 배치 크기 400개를 사용한다. 우리는 두 쌍으로 학습(훈련) 예제를 구성한다(<그림 3>). 잡음 신호와 클린 신호로 구성된 실제 쌍(~x 및 x), 잡음 신호와 향상된 신호로 구성된 가짜 쌍(~x 및 ^x)이다. 데이터 세트 파일을 파형 발생 목적에 적합하도록, 우리는 48kHz에서 16kHz까지의 원본 발화를 다운샘플링한다. 학습(훈련)중에 500ms(50% 겹침)마다 약 1초의 음성(16384 샘플) 슬라이딩 윈도우로 파형 청크를 추출한다. 테스트 중에 우리는 기본적으로 테스트 발화의 전체 기간을 통해 겹치지 않고 윈도우를 밀어내고 스트림 끝에 결과를 연결한다. 학습(훈련)과 테스트 모두에서, 우리는 모든 입력 샘플에 0.95의 고주파 사전 강조 필터를 적용한다(테스트 중, 출력이 이에 상응하여 강조됨).
L1 정규화의 λ 가중치와 관련하여, 몇 가지 실험을 거친 후, 우리는 전체 학습(훈련)에서 100으로 설정했다. 처음에는 1로 설정했지만, 우리는 G 손실이 적대적 1에서 2배 정도의 크기라는 것을 관찰했고, 따라서 L1은 학습(훈련)에 실질적인 영향을 미치지 않았다. 일단 100으로 설정하면, 우리는 L1에서 최소화 동작을 보았고 적대적 동작에서 균형 동작을 보았다. L1이 낮아질수록 출력 샘플의 품질이 증가했으며, 우리는 G가 현실적인 생성 측면에서 더 효과적이라고 가정한다.
아키텍처와 관련하여 G는 필터 폭 31과 N = 2의 스트라이드인 22개의 1차원 입체 컨볼루션 레이어로 구성된다. 레이어 당 필터의 양은 증가하므로 폭(시간 내 신호의 지속 시간)이 좁아질수록 깊이가 커진다. 그 결과 레이어 당 치수는 16384×1, 8192×16, 4096×32, 2048×32, 1024×64, 512×64, 256×128, 128×256, 32×256, 16×512, 8×1024이다. 여기서, 우리는 이전의 8×1024차원 정규 분포 N(0,I)의 잡음 샘플 z를 샘플링한다. 앞서 언급했듯이, G의 디코더 단계는 동일한 필터 폭과 동일한 양의 필터를 가진 인코더의 미러링이다. 그러나, 스킵 연결과 잠재 벡터를 추가하면 모든 레이어의 특징(피처) 맵 수가 두 배가 된다.
네트워크 D는 G의 인코더 단계와 동일한 1차원 컨볼루션 구조를 따르며 컨볼루션 분류 네트워크의 기존 토폴로지에 적합하다. 차이점은 (1) 16384개 샘플의 두 개의 입력 채널을 가져오고, (2) α = 0.3 인 LeakyReLU 비선형성 이전에 가상 배치 표준 [31]을 사용하고, (3) 마지막 활성화 레이어에는 숨겨진 활성화(1x1 컨볼루션)를 다운 샘플링하지 않는 너비 1의 필터 하나를 가진 1차원 컨볼루션 레이어가 있다. 후자 (3)는 최종 분류 뉴런에 필요한 매개 변수의 양을 감소시키며, 이는 선형 동작으로 모든 숨겨진 활성화와 완전히 연결된다. 이는 완전히 연결된 구성 요소에서 필요한 매개 변수의 양을 8 × 1024 = 8192에서 8로 줄이고, 1024 채널이 병합되는 방법을 컨볼루션 매개 변수에서 학습(훈련)할 수 있음을 의미한다. 모든 프로젝트는 TensorFlow[32]로 개발되었으며 코드는 https://github.com/santi-pdp/segan에서 사용할 수 있다. 구현에 대한 자세한 내용은 이 리소스를 참조하라. 향상된 음성 오디오 샘플은 http://veu.talp.cat/segan에서 제공된다.
5. Results
5.1. Objective Evaluation
향상된 음성의 품질을 평가하기 위해 다음과 같은 객관적인 척도를 계산한다(높을수록 좋다). 모든 메트릭은 향상된 신호를 824 테스트세트 파일의 깨끗한 참조와 비교한다. [1]에 포함 된 구현을 사용하여 계산되었으며 Publisher Website에서 사용할 수 있다.
- PESQ : ITU-T P.862.2 [33]에서 권장하는 광대역 버전을 사용하여 음성 품질의 지각 평가 (–0.5 ~ 4.5).
- CSIG : 음성 신호에만 수반되는 신호 왜곡의 평균 오피니언 점수 (MOS) 예측 [34] (1에서 5까지).
- CBAK : 배경 잡음의 침입성에 대한 MOS 예측 [34] (1 ~ 5).
- COVL : 전체 효과에 대한 MOS 예측 [34] (1 ~ 5).
- SSNR : 세그먼트 SNR [35, p.41] (0에서 ∞).
<표 1>은 이러한 메트릭의 결과를 보여준다. 비교 참조를 위해, 그것은 또한 [1]에 제공된 것과 같이 이전의 SNR 추정에 기초한 Wiener 방법을 사용하여 필터링된 신호와 잡음 신호에 직접 적용할 때 이러한 메트릭의 결과를 보여준다[36]. SEGAN이 PESQ를 약간 악화시키는 방법을 관찰 할 수 있다. 그러나 음성/잡음 왜곡과 더 잘 연관되는 다른 모든 메트릭에서 SEGAN은 Wiener 방법보다 성능이 뛰어나다. 음성 왜곡(CSIG)을 줄이고 잡음을 더 효과적으로 제거한다(CBAK 및 SSNR). 따라서 두 요인(COVL)간의 더 나은 균형을 이룬다.
![]() |
5.2. Subjective Evaluation
SEGAN을 잡음 신호 및 Wiener 기준선과 비교하기 위한 지각 테스트도 수행되었다. 이를 위해, 테스트 세트에서 20개의 문장이 선택되었다. 데이터베이스는 각 파일의 잡음 양과 유형을 나타내지 않기 때문에 제공된 잡음 파일 중 일부를 청취하여 다른 잡음 유형의 균형을 맞추기 위해 선택되었다. 대부분의 파일들은 낮은 SNR을 가지고 있지만, 높은 SNR을 가진 몇몇 파일들도 포함되었다.
총 16명의 청취자에게 무작위 순서로 20개의 문장이 제시되었다. 각 문장에 대해 잡음 신호, Wiener 강화 신호 및 SEGAN 강화 신호의 세 가지 버전이 무작위 순서로 제시되었다. 각 신호에 대해 청취자는 1부터 5까지의 척도를 사용하여 전체 품질을 평가했다. 5개 범주에 대한 설명에서, 그들은 신호 왜곡과 잡음 침입성에 주의를 기울이도록 지시 받았다(예: 5=우수:성능저하가 없고 눈에 띄지 않는 잡음이 없는 매우 자연스러운 음성). 청취자는 각 신호를 원하는 횟수만큼 들을 수 있었고, 세 신호의 비교 비율에 주의를 기울이도록 요청 받았다.
<표 2>에서는 잡음 신호와 Wiener 기준선 모두에서 SEGAN이 어떻게 선호되는지 관찰할 수 있다. 그러나 잡음 신호의 SNR에 큰 변동이 있기 때문에 MOS 범위가 매우 크고 Wiener와 SEGAN의 차이는 크지 않다. 그러나 청취자가 모든 시스템을 동시에 비교함에 따라 비교 중인 두 시스템의 MOS를 빼서 비교 MOS(CMOS)를 계산할 수 있다.
표 2 : 잡음이있는 신호와 Wiener 및 SEGAN 강화 신호를 비교한 주관적인 평가 결과. |
![]() |
<그림 4>는 이러한 상대적 비교를 보여준다. SEGAN에서 생성된 신호가 어떻게 선호되는지 알 수 있다. 보다 구체적으로, 67%의 경우 SEGAN이 원래(잡음이 있는) 신호보다 선호되는 반면, 잡음이 있는 신호는 8 %의 경우에서 선호된다(25 %의 경우 선호하지 않음). Wiener 시스템과 관련하여, SEGAN은 사례의 53%에서 선호되고, Winer는 사례의 23%에서 선호된다(사례의 24%에서 선호되지 않음).
그림 4 : CMOS 상자 플롯(SEGAN-Wiener 비교에서 중앙값은 1에 있다). 양수 값은 SEGAN이 선호됨을 의미한다. |
![]() |
6. Conclusions
이 연구에서는 생성적인 적대적 프레임워크 내에서 종단 간 Speech Enhancement 방법이 구현되었다. 이 모델은 인코더-디코더 완전 컨볼루션 구조로 작동하므로 파형 청크 잡음 제거를 빠르게 수행 할 수 있다. 결과는 방법이 실행 가능할뿐만 아니라 현재 접근 방식에 대한 효과적인 대안을 나타낼 수도 있음을 보여준다. 가능한 미래 작업은 더 나은 컨볼루션 구조의 탐색과 적대적 학습(훈련)에 지각 가중치를 포함하여 현재 모델에 의해 도입 될 수 있는 가능한 고주파 아티팩트를 줄이는 것이다. SEGAN을 다른 경쟁적 접근 방식과 비교하려면 추가 실험을 수행해야한다.
[딥러닝 공부할 때 알아야 기본]
- DNS 챌린지에서 DNS는 무엇의 약자인가?
- DNS 챌린지에서 실시간 1위, 비실시간 2위를 차지한 딥러닝 모델은 무엇인가?