batch normalization 4

Group Normalization (ECCV'18)

우리가 이미지 처리를 할 때 가장 많이 쓰이는 Normalization 기법은 구글에서 발표한 Batch Normalization 일 것이다. Batch norm은 Batch Normalization , Accelerating Deep Network Training by Reducing Internal Covariate Shift (2015)에 의해 제안된 모델이며 일반적으로 성능이 좋다고 알려져 있다. 하지만 뒷단의 Reducing Internal Covariate Shift라는 의미가 이후 논문들에 의해 지적을 받고 있다. 그럼에도 불구하고 왜 BN을 계속 사용하는가? 일반적으로 배치 사이즈가 크면 BN의 성능이 좋게 나오기 때문이다. 하지만 배치 사이즈가 작아지면 BN의 error는 가파르게 상승한..

Paper review/Others 2021.10.20

[Regularization] variety methods of Regularization

Regularization은 규제화라고 할 수 있을 것이다. 모델에 제약을 걸어 Generalization performance를 좋게 하고 싶은 것이다. 회귀분석에서의 제약 모델에 있어서는 Ridge, Lasso, ElasticNet 등이 있을 것이며, 딥러닝에 있어서는 다음과 같은 Regularization 이 존재한다. Early stopping Parameter norm penalty Data augmentation Noise robustness Label smoothing Dropout Batch normalization 학습을 방해하는 것이 Regularization의 주된 목적이지만 단순히 방해만 하는 것이 아니라 학습 데이터에서만 잘 작동되게 하는 것이 아니라, 테스트 데이터에도 잘 작동하..

[CS224N] ConvNets for NLP

해당 강의에서는 CNNs을 다루기 전 RNN의 단점에 대해서 먼저 다룬다. RNN은 Prefix(접두사) context를 모두 포함하게 되며 Piece of sentence로 나누지 못한다는 단점이 있고, Sequence to Sequence의 모델을 살펴볼때 앞 단 Encoder부분의 RNN에서 Decoder로 보내주는 과정의 Last hidden state는 Last token에 영향을 많이 받게 된다. 또한 단어의 길이가 길어지면 정보의 손실이 발생할 수 있다는 것이 큰 문제이다. GRU나 LSTM 등 모델을 사용하거나 Encoder 부분에 Attention을 사용해 문제를 보완하곤 했다. CNNs CNNs 에서는 특정 길이로 Sub-sequence로 분할한 후 Feature를 추출하는 과정으로 접..

[CS231N] 활성화 함수(Activation Fucntion)의 종류

Training Neural Network Transfer learning을 진행할 때 고려할 점. 1) Pre-train data와의 이질성 2) Finetuning할 데이터의 양 3) 분석에 할당된 시간 4) 가용한 hardware ... 하나의 layer에서 activation function으로 들어가게 되는데 layer의 값은 $\Sigma w_{i}x_{i} + b$로 선형조합으로 나타낼 수 있다. 그 선형조합을 비선형조합의 activation function으로 넣게 된다. 만약 activation function 자체가 linear라고 생각해보면 layer를 stacking 하는 것 자체가 의미가 없어진다. 왜냐하면 linear function을 activate function으로 사용하게..

반응형