Training Neural Network Transfer learning을 진행할 때 고려할 점. 1) Pre-train data와의 이질성 2) Finetuning할 데이터의 양 3) 분석에 할당된 시간 4) 가용한 hardware ... 하나의 layer에서 activation function으로 들어가게 되는데 layer의 값은 $\Sigma w_{i}x_{i} + b$로 선형조합으로 나타낼 수 있다. 그 선형조합을 비선형조합의 activation function으로 넣게 된다. 만약 activation function 자체가 linear라고 생각해보면 layer를 stacking 하는 것 자체가 의미가 없어진다. 왜냐하면 linear function을 activate function으로 사용하게..