Activation Function
-sigmoid Function
-tanh Function
-absolute Function
-ReLU Function
AlexNet
Argumentation
BackPropagation
역파장.
Batch Normalization
그 이유는 해당
그러나 입력을 표준화하면 학습을 더 빨리하고 지역 최적의 상태에 빠지게 될 가능성을 줄이는 다양한 실용적인 이유가 있습니다.
또한, 표준화 된 입력을 통해
장점
출처: http://goodtogreate.tistory.com/entry/Neural-Network-적용-전에-Input-data를-Normalize-해야-하는-이유 [GOOD to GREAT]
출처: https://blog.naver.com/acelhj/221155064510
CNN(Convolutional Neural Network)
CaffeNet
Chain Rule
우리는 함수의 합성을 통하여 수많은 함수를 새롭게 생성하고 사용한다. 이러한 합성함수의 미분은 연쇄법칙에 의하여 얻어질 수 있다. 연쇄법칙은 '연쇄'라는 단어가 의미하는 것처럼 어떤 변수의 변화가 매개변수의 변화를 유발하고 그 매개변수의 변화가 다시 최종함숫값의 변화를 유발하는 연쇄작용을 의미하는데 이러한 최종변화율은 중간변화율들의 곱으로 나타난다.
Classification
Concatenation
이어서 붙이는 것.
Convolution
합성 곱. 필터와 이미지를 곱하는 역할.
중첩 적분을 의미하는 수학 연산자로, 어떠한 함수가 두 개 존재할 때 두 함수 중 하나를 반전 시킨 후 이동한 값을 나머지 다른 함수에 곱한 다음에, 각 구간에 대하여 적분을 함으로써 새로운 함수를 만들어내는 것이다. 합성 곱이라고도 하며, 만약 함수 f와 함수 g를 콘볼루션 한다고 할 때, 수학 기호로는 f*g와 같이 표기한다.
이런 식으로 계산하고 zero padding, stride에 따라 출력 크기가 결정된다.
주변 값과의 평준화 느낌.
Convolutional Layer
Convolutional layer를 거칠수록 크기는 작아지지만 두께는 두꺼워지는 것이 일반적이다.
Cross-Entropy Cost
Cross-Validation
DeConvNet
DenseNet
Dropout
Fully Connected
Fully Convolutional Network(FCN)
Instance Segmentation
GoogleNet
Gradient Descent
기울기
Initialization
Linear Regression
Localization
Loss Function (=Cost Function)
LSTM
NIN(Network In Network)
Overfitting
PathNet
Pooling
Pooling의 다른 말은 sampling 또는 resizing이다.
어떤 작업을 하건 pooling을 거치면 크기가 작아진다는 것이 핵심이다.
(Zero Padding시에는 다름.)

출처: http://pythonkim.tistory.com/53?category=573319 [파이쿵]
RNN(Recurrent Neural Network)
ReLU(Rectified Linear Units)
Reseptive Field ResNet
정확도가 높은 편이지만 속도가 매우 느리다
Segmentation
Pixel-wise Prediction
SegNet
Sigmoid Function
Softmax Regression
Sparsity
SqueezeNet
Stride
필터가 이동하는 크기. 출력 크기가 소수가 된다면 그 Stride는 사용할 수 없다.
SubSampling
(=Pooling) UpSampling
해상도 복원
VGG-Net
VGG-16, VGG-19를 주로 사용하며 빠르지만 정확도가 낮은 편이고 메모리를 많이 사용함.
Vanishing Gradient
Weakly-Supervised Learning(Localization)
-학회
NIPS
CVPR
-sigmoid Function
-tanh Function
-absolute Function
-ReLU Function
AlexNet
Argumentation
BackPropagation
역파장.
Batch Normalization
normalization을 하는 이유
입력 변수가 선형적으로 결합된다면 적어도 이론 상으로는 입력을 표준화하는 것이 거의 필요하지 않습니다.그 이유는 해당
weight
와 bias
를 변경하여 입력 벡터를 재조정하면 이전과 완전히 똑같은 결과를 남길 수 있기 때문입니다.그러나 입력을 표준화하면 학습을 더 빨리하고 지역 최적의 상태에 빠지게 될 가능성을 줄이는 다양한 실용적인 이유가 있습니다.
또한, 표준화 된 입력을 통해
Gradient Descent
및 Bayesian estimation
을 보다 편리하게 수행 할 수 있습니다.
Batch Normalization Algorithm
mean = 평균
variance = 분산
gamma = Scalar factor, Scale
beta = Shift factor, Shift (bias 역할 대체 가능)
장점
기존 Deep Network에서는 learning rate를 너무 높게 잡을 경우 gradient가 explode/vanish 하거나, 나쁜 local minimal에 빠지는 문제가 있었다. 이는 parameter들의 scale 때문인데, Batch Normalization을 사용할 경우 propagation 할 때 parameter의 scale에 영향을 받지 않게 된다. 따라서, learning rate를 크게 잡을 수 있게 되고 이는 빠른 학습을 가능케 한다.
Dropout을 같이 사용하지 말 것.
직관적 이해
아래와 같이
이유는 cost 그래프가
아래와 같이
Unnormalized
된 상태에서는 Learning Rate
을 매우 작게 설정해야 정상적을 학습이 된다.이유는 cost 그래프가
elongated
하기 때문이다. 따라서 elongated contour
의 모습을 가진다.아래와 같이
Input
의 Range가 서로 다르다면 Gradient Descent Algorithm
을 적용하는것이 매우 까다로워지는 상황이 발생 한다.
하지만 normalization을 적용하면 좀 더
spherical contour
를 가지게 된다.
이렇게 하면 좀 더
Gradient Descent Algorithm
으로 쉽게
그리고 빠르게
최적화 지점을 찾게 된다.출처: http://goodtogreate.tistory.com/entry/Neural-Network-적용-전에-Input-data를-Normalize-해야-하는-이유 [GOOD to GREAT]
출처: https://blog.naver.com/acelhj/221155064510
CaffeNet
Chain Rule
우리는 함수의 합성을 통하여 수많은 함수를 새롭게 생성하고 사용한다. 이러한 합성함수의 미분은 연쇄법칙에 의하여 얻어질 수 있다. 연쇄법칙은 '연쇄'라는 단어가 의미하는 것처럼 어떤 변수의 변화가 매개변수의 변화를 유발하고 그 매개변수의 변화가 다시 최종함숫값의 변화를 유발하는 연쇄작용을 의미하는데 이러한 최종변화율은 중간변화율들의 곱으로 나타난다.
출처 : [네이버 지식백과] 연쇄법칙 [chain rule] (수학백과, 2015.5, 대한수학회)
Classification
Concatenation
이어서 붙이는 것.
Convolution
합성 곱. 필터와 이미지를 곱하는 역할.
중첩 적분을 의미하는 수학 연산자로, 어떠한 함수가 두 개 존재할 때 두 함수 중 하나를 반전 시킨 후 이동한 값을 나머지 다른 함수에 곱한 다음에, 각 구간에 대하여 적분을 함으로써 새로운 함수를 만들어내는 것이다. 합성 곱이라고도 하며, 만약 함수 f와 함수 g를 콘볼루션 한다고 할 때, 수학 기호로는 f*g와 같이 표기한다.
출처 : [네이버 지식백과] 콘볼루션 [Convolution] (두산백과)
주변 값과의 평준화 느낌.
Convolutional layer를 거칠수록 크기는 작아지지만 두께는 두꺼워지는 것이 일반적이다.
(32-5) / 1 + 1 = 28, 6개의 Filter -> 6개의 Channel
Filter 하나를 거칠 때마다 Channel 하나 생성.
Cross-Validation
DeConvNet
DenseNet
Dropout
Fully Connected
Fully Convolutional Network(FCN)
Instance Segmentation
GoogleNet
Gradient Descent
기울기
Initialization
Linear Regression
y = 종속 변수
x = 설명 변수
B = 독립 변수
e = 오차항
출처 : https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80[위키백과]
Localization
Loss Function (=Cost Function)
LSTM
NIN(Network In Network)
Overfitting
PathNet
Pooling
Pooling의 다른 말은 sampling 또는 resizing이다.
어떤 작업을 하건 pooling을 거치면 크기가 작아진다는 것이 핵심이다.
(Zero Padding시에는 다름.)

MaxPooling
필터의 값 중에서 가장 큰 값을 꺼내서 모아 놓는 것을 뜻한다.
AveragePooling
필터의 값 중에서 평균 값을 구해 모아 놓는 것을 뜻한다.
출처: http://pythonkim.tistory.com/53?category=573319 [파이쿵]
RNN(Recurrent Neural Network)
ReLU(Rectified Linear Units)
Reseptive Field ResNet
정확도가 높은 편이지만 속도가 매우 느리다
Segmentation
Pixel-wise Prediction
SegNet
Sigmoid Function
Softmax Regression
Sparsity
SqueezeNet
Stride
필터가 이동하는 크기. 출력 크기가 소수가 된다면 그 Stride는 사용할 수 없다.
SubSampling
(=Pooling) UpSampling
해상도 복원
VGG-Net
VGG-16, VGG-19를 주로 사용하며 빠르지만 정확도가 낮은 편이고 메모리를 많이 사용함.
Vanishing Gradient
Weakly-Supervised Learning(Localization)
-학회
NIPS
CVPR
댓글
댓글 쓰기