Contents Abstract Referring Image Segmentation (RIS)는 입력으로 이미지의 영역의 Referring expression이 주어지면 Segmentation mask를 찾는 태스크다. RIS Task를 수행하기 위해서는 각 이미지 내 Segmentation에 대한 라벨이 지정된 데이터가 요구되는데 많은 비용과 인력이 투자된다. 본 논문에서는 이와 같은 문제를 해결하고자, 사전 학습된 CLIP을 기반으로 한 Zero-shot referring image segmentation method를 제안한다. 입력으로 주어진 텍스트 정보에서 segmentation mask 를 추출하기 위해, 입력된 이미지의 Global and local contextual information을..