Fast-RCNN 논문 정리

Posted by JudeLee on May 11, 2016

Fast-RCNN 논문 정리

본 문서는 arXiv tech report 를 보고 개인 공부를 위해 정리한 글 입니다.

Architecture

- Input process flow

input(entire image and a set of object proposals) -> several conf -> max poling -> conv feature map -> ROI polling layer (each object proposal에 대해) -> fixed-length feature vector 뽑아냄 (from feature map) -> FC(fully connected) -> output(1. softmax probability estimates over K object classes plus a catch-all “background” class, 2. 4 real-valued numbers for each of the K object classes(4개 값은 bounding-box positions for one of the K classes)

- RoI polling layer

  1. Max polling 을 사용하여 interest 한 valid region 의 features 를 고정된 크기(ex:H x W)의 samll feature map 으로 변환한다.
  2. RoI layer는 SPPnets 에서 single pyramid level 만 있는 spatial pyramid pooling layer 의 케이스라고 보면 된다.

Initializing from pre-trained networks

pre-trained 된 network를 이용하여 Fast R-CNN 를 initialize 할 때, 다음과 같은 변화점이 생긴다.

  • 마지막 max polling layer가 net의 첫번 째 FC lyaer 에 맞추기 위해 RoI polling lyaer 로 대체된다.
  • net의 마지막 FC lyaer 와 softmax 가 a fully connected layer and softmax over K + 1 cat- egories and category-specific bounding-box regressors 로 대체된다.
  • Input으로 image list 와 그 image들의 RoI 를 받을 수 있도록 된다.

Fine-tuning for detection

  • SPPnet의 문제점 :

    • SPPnet에서는 각 트레이닝 샘플들(i.e.RoI)이 다른 이미지로부터 왔을때 back-propagation이 비 효율적임. ( 근데 R-CNN과 SPPnet이 트레이닝되는 방식이 각 트레이닝 샘들들이 다른 이미지로부터 옴) 즉 SPPnet은 ROI-centric하게 training 함 하지만 Fast-RCNN 은 image-centric임.
  • Fast-RCNN 에서의 해결

    • 따라서 한 image에 대한 RoI들은 computation, memory 를 공유

Reference

  • http://arxiv.org/abs/1504.08083