End-to-End Object Detection with Transformers
End-to-End Object Detection with Transformers
arxiv.org
DETRs Beat YOLOs on Real-time Object Detection
arxiv.org
이 논문은 "End-to-End Object Detection with Transformers" (DETR)입니다. DETR는 객체 탐지를 직접적인 집합 예측(set prediction) 문제로 간주하여, 기존의 탐지 기법에서 사용되던 NMS(Non-Maximum Suppression) 및 anchor boxes를 제거한 End-to-End Transformer 기반 모델을 제안합니다.
논문의 주요 내용 요약:
- 기존 객체 탐지의 문제점
- 기존 탐지 모델(Faster R-CNN, YOLO 등)은 객체 후보군(proposals)이나 anchor boxes를 기반으로 탐지를 수행.
- 이러한 방식은 후처리(post-processing) 과정이 필요하고, anchor box 설정이 성능에 큰 영향을 줌.
- 탐지 파이프라인이 복잡하며, 과적합(overfitting) 위험이 있음.
- DETR의 핵심 아이디어
- Transformer 기반의 End-to-End 객체 탐지: CNN으로 이미지 특징을 추출한 후, Transformer를 사용하여 전체 이미지를 global하게 탐지.
- Bipartite Matching Loss: 예측된 객체와 GT(Ground Truth) 객체를 1:1로 매칭하는 Hungarian Matching 알고리즘을 활용.
- Query 기반 탐지: 고정된 개수의 learnable object queries를 활용해 예측 수행 (즉, 기존 모델처럼 anchor를 사용하지 않음).
- 모델 구조
- CNN(ResNet-50, 101 등)으로 이미지 feature extraction.
- Transformer Encoder-Decoder 구조 활용.
- Decoder에서 N개의 Object Query를 입력받아 최종 bounding box 및 class label을 예측.
- DETR의 성능 및 장점
- COCO 데이터셋에서 Faster R-CNN과 비슷한 성능을 보이며, 대형 객체에 대해 더 높은 성능을 기록.
- Anchor box, NMS가 필요 없어 구조가 단순하며, 범용성이 높음.
- Panoptic Segmentation으로 쉽게 확장 가능.
- 한계점
- 작은 객체(small object) 탐지 성능이 기존 Faster R-CNN보다 떨어짐.
- 매우 긴 학습 시간(최소 500 epochs 이상) 필요.
- 고정된 개수(N)의 Object Query를 사용하여, 한 이미지에서 탐지할 수 있는 객체 수가 제한됨.
Abstract
우리는 객체 탐지를 직접적인 set prediction problem 으로 간주하는 새로운 방법을 제안한다. 우리의 접근 방식은 탐지 파이프라인을 단순화하여, NMS(Non-Maximum Suppression) 과정이나 앵커(anchor) 생성과 같은 수작업 설계 요소들을 제거한다.
이 새로운 프레임워크는 DEtection TRansformer (DETR) 라 불리며, 다음과 같은 주요 요소를 포함한다:
- 집합 기반 글로벌 손실(set-based global loss)
- Bipartite matching(이분매칭) 을 사용하여 고유한 예측을 강제.
- Transformer 인코더-디코더 구조
- 소수의 학습된 object query를 활용하여 객체 간 관계와 전체 이미지 컨텍스트를 이해하고, 최종 예측을 병렬로 출력.
이 모델은 개념적으로 단순하며, 기존의 최신 탐지 모델들과 달리 특수한 라이브러리를 필요로 하지 않는다. DETR은 COCO 객체 탐지 데이터셋에서 잘 정립된 Faster R-CNN 모델과 유사한 정확도 및 실행 속도를 달성한다.