딥러닝 2

시계열 데이터를 위한 LSTM 이해하기

LSTM (Long Short Term Memory)  [ LSTM 의 Cell 하나의 구조 ] C값이 컨베이어 벨트처럼 흐르는 Cell state이며, LSTM은 이러한 Cell state를 보호하고 컨트롤 하기 위한 세 가지 게이트: forget, input, output gate를 통해 vanishing gradient과 exploding을 방지하고 그래디언트가 효과적으로 흐를 수 있게 함.   (케라스 창시자에게 배우는 딥러닝, 2017) 프랑소와 숄레는 LSTM을 설명하면서 상태 정보에 대한 새로운 이동 상태 계산으로 표현했다. (Neural networks and deep learning by Aurélien Géron, 2018) 『핸즈온 머신러닝』의 저자 오렐리앙 제롱이 이후에 딥러닝 책을..

AI-Study 2024.10.15

Deep Learning : Activation Function(활성화 함수) 종류

활성화 함수 : 딥러닝 네트워크에서는 노드에 들어오는 값들에 대해 곧바로 다음 레이어로 전달하지 않고 주로 비선형 함수를 통과시킨 후 전달한다. 이때 사용하는 함수를 활성화 함수(Activation Function) 이라 부른다. 여기서 주로 비선형 함수를 사용하는 이유는 선형함수를 사용할 시 층을 깊게 하는 의미가 줄어들기 때문이다. "밑바닥부터 시작하는 딥러닝" 에서 인용 "선형함수인 h(x)=cx 를 활성화함수로 사용한 3층 네트워크를 떠올려 보세요. 이를 식으로 나타내면 y(x)=h(h(h(x))) 가 됩니다. 이는 실은 y(x)=ax와 똑같은 식입니다. a=c3이라고만 하면 끝이죠. 즉, 은닉층이 없는 네트워크로 표현할 수 있습니다. 뉴럴네트워크에서 층을 쌓는 혜택을 얻고 싶다면 활성화함수로는 ..

AI-Study 2021.06.17
반응형