본 논문 (R-CNN)은 Object detction에 Convolutional Neural Network를 feature extractor로 사용한 논문 으로 이후 Fast R-CNN, Faster R-CNN 등 여러가지 논문의 기반이 되는 논문입니다. 저술되어 공개된 지 오래된 논문이 만큼 여러 report가 존재하며, 본 포스트는 Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)에 기초하여 작성하였으며, 중요한 idea만 다루고 있습니다. 상세한 내용은 논문을 보시면 좋을 듯 합니다.
본 논문에서는 mAP (mean Avereage Precision) 를 기준으로 VOC 2012의 best result와 비교하여, 30% 이상의 성능 향상을 (mAP : 53.3%) 이루었다고 말하며, 그 기반이 되는 아이디어는 아래의 두 가지입니다.
- One can apply high-capacity convolutional neural networks (CNNs) to bottom-up region proposal in order to localize and segment objects.
- When labeled traning data is scarce, supervised pre-training for an auxiliary task. followed by domain-specific fine-tuning, yields a significant performance boost.