End-to-End Object Detection with Transformers

End-to-End Object Detection with Transformers

arxiv.org

DETRs Beat YOLOs on Real-time Object Detection

arxiv.org

이 논문은 "End-to-End Object Detection with Transformers" (DETR)입니다. DETR는 객체 탐지를 직접적인 집합 예측(set prediction) 문제로 간주하여, 기존의 탐지 기법에서 사용되던 NMS(Non-Maximum Suppression) 및 anchor boxes를 제거한 End-to-End Transformer 기반 모델을 제안합니다.

논문의 주요 내용 요약:

  1. 기존 객체 탐지의 문제점
  2. DETR의 핵심 아이디어
  3. 모델 구조
  4. DETR의 성능 및 장점
  5. 한계점

Abstract

우리는 객체 탐지를 직접적인 set prediction problem 으로 간주하는 새로운 방법을 제안한다. 우리의 접근 방식은 탐지 파이프라인을 단순화하여, NMS(Non-Maximum Suppression) 과정이나 앵커(anchor) 생성과 같은 수작업 설계 요소들을 제거한다.

이 새로운 프레임워크는 DEtection TRansformer (DETR) 라 불리며, 다음과 같은 주요 요소를 포함한다:

  1. 집합 기반 글로벌 손실(set-based global loss)
  2. Transformer 인코더-디코더 구조

이 모델은 개념적으로 단순하며, 기존의 최신 탐지 모델들과 달리 특수한 라이브러리를 필요로 하지 않는다. DETR은 COCO 객체 탐지 데이터셋에서 잘 정립된 Faster R-CNN 모델과 유사한 정확도 및 실행 속도를 달성한다.