AlexNet 5

Rich feature hierarchies for accurate object detection and semantic segmentation (CVPR'14)

R-CNN을 제안한 논문인 Rich feature hierarchies for accurate object detection and semantic segmentation (2014) 에 대해 리뷰를 하고자 한다. R-CNN이 등장하기 이전에는 SIFT[논문], HOG[논문] 을 활용한 방법으로 Object Detection을 하고 있었으나 몇 년 간 성능 개선을 보이지 못하고 있었다. R-CNN은 기존 모델의 성능을 31.4% 만큼 개선함으로써 엄청난 성능을 보여주었다. (24.3% $\rightarrow$ 53.7%) 기존의 모델들은 물체가 있을 만한 곳을 하나씩 탐색하는 방법인 Sliding Window 을 사용해 물체를 탐지했는데, 이 방식은 크기가 고정되지 않아 여러 크기로도 순차적으로 탐색해야..

[VISION] Convolution Neural Network

CNN은 이미지에 주로 사용되는 것이라 볼 수 있다. 하지만 최근에는 이미지 뿐만 아니라 자연어처리에도 사용되고 여러 분야에서 다양하게 CNN을 활용한다. CNN은 convolution layer를 겹겹이 쌓아 분류 문제의 경우 class 만큼의 output을 만들어 낸다. CNN을 하기 위해서는 기본적으로 filter라는 개념을 짚고 넘어가야 한다. filter는 input데이터를 필터사이즈 만큼 곱해서 하나의 output을 출력하게 된다. 이 경우 해당 filter size만큼의 값들이 추출된다. 일반적으로 input 을 넣고 filter를 지난 후 nonlinear function(ReLU와 같은)을 거쳐 출력되며 padding이나 stride를 조정해 output 이미지의 사이즈를 조절할 수 있다..

[CS231N] Object Detection의 종류 (R-CNN, SPPnet, Fast R-CNN, Faster R-CNN, YOLO까지)

Contents Detection Object detection은 Localization과 비교해서 다양한 object들에 class분류와 위치를 파악해야되기 때문에 쉽지않은 문제다. object detection을 수행하기 위해서는 객체의 Region proposals을 찾아주는 작업이 필요하다. Region proposals을 찾아주기 위한 방법으로 Selective Search가 있다. Selective Search는 객체인식을 위한 후보 영역을 알아낼 수 있는 방법을 제공하는 것을 목표로 한다. Selective Search는 Exhaustive search(모든 객체의 위치를 찾아내는 것)와 Segmentation 방식을 결합하여 보다 뛰어난 후보 영역을 선택하는 것이다. Segmentation..

[CS231N] spatial localization and object detection

Localization - Localization as regression - Overfeat 본 강의에서는 위 내용들을 다루어볼 것이다. Computer Vision Tasks Computer vision Tasks는 크게 4가지로 나눌 수 있다. 이미지상의 하나의 물체에 대해서 어떤 클래스에 속하는지 찾아주는 것을 Classification, classification 뿐만 아니라 물체의 위치정보를 바운딩 박스를 이용해 나타내주는 것을 Localization, 한 이미지 내에서 다양한 물체들의 클래스와 위치를 찾아주는 것을 Object Detection, 이미지 상에서 해당 물체와 배경을 인식해 물체의 영역만을 찾아주는 것을 Instance Segmentation이라고 부른다. Classificati..

[CS231N] CNN 기반 모델의 종류(LeNet, AlexNet, ZFNet, VVGNet, GoogleNet, ResNet, DenseNet)

Contents ImageNet에서 유명한 CNN model 을 설명하는 파트다. LeNet - 5 LeNet - 5 는 LeNet 모델 중 가장 최근 모델이며 Yann LeCun 연구실에서 1990년대에 만들어졌다. 우편번호나 숫자를 인식하는데 활용되었다. LeNet구조가 지금의 CNN과 큰 다른점이 없다는 것이 핵심이다. Convolution과 subsampling이 쓰이고 feature map을 일자로 펼치는 fully-connection으로 연결을 했다. AlexNet AlexNet은 ILSVRC 2012 에서 우승한 모델이고, 이 때 당시 AlexNet 모델에 인해 딥러닝에 혁명이 일었다고 볼 수 있다. 왜냐하면 AlexNet이 CNN 구조로 과거의 top 5 error를 크게 줄였기 때문이다...

반응형