Deep Learning

신경망에는 과적합과 Gradient Vanishing 외에 Internal Covariance shift 문제가 또 있다. Internal Covariance shift는 각 Layer마다 Input 분포가 달라짐에 따라 학습 속도가 느려지는 형상이다. Batch Normalization은 이런 것을 해결하기 위해 Input 분포를 정규화 시켜 학습 속도를 빠르게 진행 시킨다. $BN(h;\gamma,\beta) = \beta + \gamma\tfrac{h-E(h)}{\sqrt{(Var(h)+\epsilon)}}$
GAN GAN은 생성자(Generator)와 식별자(Discriminator)라는 신경망 2개가 서로 경쟁하면서 학습하는 생성 모델이다. 생성자(Generator)는 가짜 데이터를 만드는 모델이다. 식별자를 속이는 데 목적이 있다. 랜덤 노이즈를 입력해 가짜 데이터를 만들어 식별자가 이를 극복하지 못하도록 학습을 진행한다. 식별자(Discriminator)는 생성자가 만든 가짜를 식별한다는 목적이 있다. 원본 데이터와 생성자가 만든 데이터 모두를 훈련 데이터로 삼아 아주 작은 차이도 식별하도록 훈련한다. 이미지라면 생성자는 어떤 그림의 위작을 만들고 식별자는 위작인지를 감정한다. 생성자는 식별자가 속을 만한 진짜 그림을 그리려고 노력하고 식별자는 가짜 그림임을 알아내려고 노력한다. 이과정에서 점점 원본과..
wiki.hash.kr/index.php/%EC%A0%9C%ED%94%84%EB%A6%AC_%ED%9E%8C%ED%8A%BC 제프리 힌튼 - 해시넷 제프리 힌튼(Geoffrey Hinton) 제프리 힌튼(Geoffrey Hinton)은 인공지능(AI) 분야를 개척한 영국 출신의 인지심리학자이자 컴퓨터 과학자이다. 오류 역전파 법과 딥러닝 연구에 기여하고, 힌튼 다이어그 wiki.hash.kr 힌튼은 하나의 목표변수에 대해 여러 개의 퍼셉트론을 동시에 사용하는 것이 기존의 신경망을 대체할 유일한 방법임을 확신하고 연구했다. 결국 다수의 퍼셉트론을 함께 사용한다면 비선형 문제 또한 해결할 수 있다는 것을 보였다. 병렬로 배치된 두 퍼셉트론에 같은 자료를 입력할 때, 두 퍼셉트론의 출력을 무엇으로 하든 그오차..
퍼셉트론을 수학적으로 다룰 때는 출력을 f(x)로 표현한다. input*weights + bias_weights > 0.5 1? 0? -> 1 predict = 1 import numpy as np example_input = [1,.2,.05,.1,.2] example_weights = [.2,.12,.4,.6,.90] input_vector = np.array(example_input) weights = np.array(example_weights) bias_weights = .2 activation_level = np.dot(input_vector,weights)+(bias_weights * 1) activation_level # 0.684 # threshold threshold = 0.5 if a..
class MultiHeadAttention(tf.keras.layers.Layer): def __init__(self,**kargs): super(MultiHeadAttention,self).__init__() self.num_heads = kargs['num_heads'] self.d_model = kargs['d_model'] assert self.d_model % self.num_heads == 0 self.depth = self.d_model // self.num_heads self.wq = tf.keras.layers.Dense(kargs['d_model']) self.wk = tf.keras.layers.Dense(kargs['d_model']) self.wv = tf.keras.layers..
Conditional VAE (조건부 VAE) 조건부VAE(Conditional VAE)는 잠재 변수뿐만 아니라 레이블도 디코더에 입력하여 레이블을 지정하는 형태로 데이터를 생성한다. 필기체 숫자 이미지별로 가로와 세로의 잠재 변수 2개를 변화시키며 같은 숫자라도 필기체 숫자 이미지가 바뀌는 것을 알 수 있다. VAE는 보통 비지도학습이지만 지도학습 요소를 추가해 비지도 학습을 실행하면 복원할 데이터를 지정할 수 있다. β-VAE β-VAE는 이미지의 'disentanglement', 얽힌 것을 푸는 것이 특징이다. 이미지의 특징을 잠재 공간에서 분리하는 응용 기술이다. 예를 들어 얼굴 이미지는 첫 번쨰 잠재 변수에서 눈의 모양, 두 번째 잠재 변수에서 얼굴 방향의 특징을 담는다. 잠재 변수로 눈의 모양..
nlp.seas.harvard.edu/2018/04/01/attention.html#position-wise-feed-forward-networks The Annotated Transformer The recent Transformer architecture from “Attention is All You Need” @ NIPS 2017 has been instantly impactful as a new method for machine translation. It also offers a new general architecture for many NLP tasks. The paper itself is very clearly writte nlp.seas.harvard.edu class Positiona..
nlp.seas.harvard.edu/2018/04/01/attention.html#position-wise-feed-forward-networks The Annotated Transformer The recent Transformer architecture from “Attention is All You Need” @ NIPS 2017 has been instantly impactful as a new method for machine translation. It also offers a new general architecture for many NLP tasks. The paper itself is very clearly writte nlp.seas.harvard.edu FFN(x)=max( 0, ..
다했다
'Deep Learning' 카테고리의 글 목록 (7 Page)