728x90

0. 초록

- 이 논문에서는 물체 검출을 위한 고속의 영역 기반 합성곱 신경망 Fast R-CNN을 소개함.

- Fast R-CNN은 기존의 작업을 기반으로 해서 심층 합성곱 신경망을 이용하여 효율적으로 물체 영역들을 분류함.

- 이전의 연구와 비교할때, Fast R-CNN은 여러 벼화를 통해 훈련과 테스트 속도는 빠르고, 검출 정확률을 더 높임.

- Fast R-CNN은  VGG16 신경망을 기반으로 R-CNN보다 훈련시에는 9배, 테스트시에는 213배 더 빨라졌으며, PASCAL VOC 2012에서 더 높은 mAP를 도달할 수 있었습니다.

- SPPnet과 비교할때 Fast R-CNN은 VGG16 신경망을 학습해서 3배 더 빨라지고, 훈련시에는 10배, 그리고 더 정확한 결과를 얻었습니다.

- Fast R-CNN은 카페를 이용해서 파이썬과 C++로 구현되었고, MIT License 오픈소스로 사용 가능합니다.

 

 

1. 소개

 

1.1 R-CNN과 SPPnet

 R-CNN은 합성곱 신경망으로 물체 제안 영역들을 높은 정확도로 분류할수 있었으나 아래와 같은 단점들을 가지고 있습니다.

 1. 훈련 과정이 여러 단계의 파이프라인으로 구성되어있음.

 - R-CNN은 먼저 합성곱 신경망을 로그 비용을 사용해서 물체 제안에 맞게 미세조정을 거칩니다.

 - 그 다음 SVM으로 합성곱 신경망 특징을 학습함. 이 SVM은 소프트맥스 분류기를 대신하여 물체검출기 역활을 함.

 - 세 번째 훈련 단계에서는 바운딩 박스 회귀기가 학습딤.

 2. 학습하는데 공간과 시간적 비용이 큼.

  - SVM과 바운딩 박스 회귀기를 돌리기 위해서, 매 이미지마다 제안 영역들의 특징들을 추출해서 디스크에 저장해야함.

  - VGG16 같은 심층 신경망의 경우 VOC07 훈련 셋 이미지 5K를 학습하는데만 2.5GPU-일이 걸림.

  - 특징들을 저장하는데만 수 백 기가바이트용량을 필요로함.

 3. 물체 검출이 느림

  - 테스트시 특징들을 테스트 이미지로부터 각 물체 제안 영역으로부터 추출이 되는데, 검출 과정만 이미지당 47초가 걸림(GPU)

 

1.2 개선점

 우리가 제안한 알고리즘은 R-CNN과 SPPnet의 단점들을 고쳐 더 높은 속도와 정확도를 얻어내었으며, 학습과 테스트가 더 빨라졌으므로 이 알고리즘 이름을 Fast R-CNN이라고 함. Fast R-CNN은 아래와 같은 이점을 가짐

 

 1. R-CNN, SPPnet보다 높은 검출 퀄리티 (mAP)

 2. 훈련이 다중 작업 비용을 사용하여 한 단계로 이루어짐

 3. 훈련 과정으로 모든 신경망 레이어가 갱신됨.

 4. 특징 캐싱에 디스크 공간을 필요로 하지 않음.

 

2. Fast R-CNN 아키텍처와 학습

그림 1. Fast R-CNN 아키텍처. 입력 이미지와 다중 관심 영역(ROI)이 완전 합성곱 신경망에 입력으로 들어갑니다. 각 ROI는 고정 크기의 특징 맵으로 풀되고, 완전 연결 레이어를 통해 특징 백터로 맵핑됩니다. 이 신경망은 ROI당 두 출력 벡터를 가집니다.

 

2.1 ROI Pooling Layer

 

2.2 선학습된 신경망으로 초기화

 

2.3 검출에 맞게 미세 조정하기

 

2.4 스케일 불변성

300x250

+ Recent posts