참고 사이트 및 이미지 출처

Segment Anything

arxiv.org

무엇이든 누끼따는✂️ AI! Segment Anything Model 리뷰

[DMQA Open Seminar] Segment Anything

Segment Anything

논문 요약

Abstract

우리는 Segment Anything (SA) 프로젝트를 소개한다. 이 프로젝트는 이미지 분할을 위한 새로운 태스크, 모델, 그리고 데이터셋을 제안한다.

효율적인 모델을 데이터 수집 루프에서 활용하여, 현재까지 가장 큰 이미지 분할 데이터셋을 구축하였으며, 이는 11M개의 라이선스 확보 및 개인정보 보호가 고려된 이미지에서 10억 개 이상의 마스크를 포함한다.

이 모델은 프롬프트(prompt) 기반으로 설계 및 학습되었으며, 이를 통해 새로운 이미지 분포와 태스크에 대해 제로샷(Zero-shot) 전이 학습이 가능하다.

우리는 여러 가지 태스크에서 모델의 성능을 평가하였으며, 그 결과 제로샷 성능이 매우 뛰어나며, 기존의 완전 지도학습(fully supervised) 방식과 비교해도 경쟁력 있는 성능을 보이거나 심지어 더 우수한 경우도 존재함을 확인했다.

우리는 Segment Anything Model (SAM)과 함께 1B(10억 개) 마스크 및 11M(1,100만 개) 이미지로 구성된 데이터셋(SA-1B)을 공개하며, 이를 통해 컴퓨터 비전 분야의 기초 모델(foundation models)에 대한 연구를 촉진하고자 한다.

공식 웹사이트: https://segment-anything.com

image.png

1. Introduction

웹 규모 데이터셋(web-scale datasets)에서 사전 학습된 대규모 언어 모델(large language models)은 강력한 제로샷(zero-shot) 및 퓨샷(few-shot) 일반화 능력을 갖추며, 자연어 처리(NLP) 분야에서 혁신을 일으키고 있다【10】. 이러한 “기초 모델(foundation models)”【8】은 훈련 중에 본 적 없는 태스크(task)와 데이터 분포에도 일반화할 수 있다.

이러한 능력은 종종 프롬프트 엔지니어링(prompt engineering)을 통해 구현되며, 이는 사람이 작성한 텍스트 프롬프트를 사용하여 모델이 해당 태스크에 적합한 텍스트 응답을 생성하도록 하는 방식이다.

웹에서 수집된 대규모 텍스트 코퍼스를 활용하여 이러한 모델을 확장하고 학습하면, 제로샷 및 퓨샷 성능이 미세 조정된(fine-tuned) 모델과 비교했을 때도 상당히 경쟁력 있는 수준이 되며, 일부 경우에는 이를 능가하기도 한다【10, 21】.

경험적으로, 모델 크기, 데이터셋 크기, 그리고 총 훈련 연산량이 증가할수록 이러한 능력이 더욱 향상됨이 관찰된다【56, 10, 21, 51】.