Paper review/Computer Vision 4

Zero-shot Referring Image Segmentation with Global-Local Context Features (CVPR'23)

Contents Abstract Referring Image Segmentation (RIS)는 입력으로 이미지의 영역의 Referring expression이 주어지면 Segmentation mask를 찾는 태스크다. RIS Task를 수행하기 위해서는 각 이미지 내 Segmentation에 대한 라벨이 지정된 데이터가 요구되는데 많은 비용과 인력이 투자된다. 본 논문에서는 이와 같은 문제를 해결하고자, 사전 학습된 CLIP을 기반으로 한 Zero-shot referring image segmentation method를 제안한다. 입력으로 주어진 텍스트 정보에서 segmentation mask 를 추출하기 위해, 입력된 이미지의 Global and local contextual information을..

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (NeurIPS'15)

Fatser R-CNN은 기존 R-CNN이 속도가 느린 것을 개선한 모델로 Fast R-CNN 다음 등장한 모델이다. 기존의 2 stage detection에서는 SPP-net이나 Fast R-CNN이 많이 활용되고 있었는데, Faster R-CNN은 속도를 개선하여 Real-Time으로 이미지 처리를 가능하게 했다는 것이다. 제일 처음 나온 R-CNN의 경우 입력받은 이미지에 대해서 2000개의 Region Proposal을 생성하고, 생성된 Proposal을 NMS(Non-Maximum Suppression)을 수행하여 가장 IoU가 높은 하나의 Bbox를 추출하는 형태로 진행하였기 때문에 Region Proposal 단계에서 엄청난 시간이 소요되고 있었다. 이를 개선하기 위해 Fast R-CNN이 ..

You Only Look Once: Unified, Real-Time Object Detection (CVPR'16)

이 논문은 YOLO의 처음 제안한 v1 버전의 논문이다. 기존의 Object Detection 관련 논문 (R-CNN, Fast R-CNN, Faster R-CNN) 등의 논문들은 Region Proposal을 생성하고 Classification하는 두 개로 된 2 stage detection 방식을 사용했으나, YOLO의 경우 1 stage detection 방식을 사용해 이슈가 되었다. YOLO는 이름에서도 알 수 있듯 아래와 같은 장점이 존재한다. 1. You Only Look Once : 이미지를 한 번만 보고 처리를 한다. 2. Unified : Stage를 결합하여 One Stage detection을 수행한다. 3. Real-Time : 속도가 매우 빠르다. Object Detection I..

Rich feature hierarchies for accurate object detection and semantic segmentation (CVPR'14)

R-CNN을 제안한 논문인 Rich feature hierarchies for accurate object detection and semantic segmentation (2014) 에 대해 리뷰를 하고자 한다. R-CNN이 등장하기 이전에는 SIFT[논문], HOG[논문] 을 활용한 방법으로 Object Detection을 하고 있었으나 몇 년 간 성능 개선을 보이지 못하고 있었다. R-CNN은 기존 모델의 성능을 31.4% 만큼 개선함으로써 엄청난 성능을 보여주었다. (24.3% $\rightarrow$ 53.7%) 기존의 모델들은 물체가 있을 만한 곳을 하나씩 탐색하는 방법인 Sliding Window 을 사용해 물체를 탐지했는데, 이 방식은 크기가 고정되지 않아 여러 크기로도 순차적으로 탐색해야..

반응형