0. 초록
- 이 논문에서는 물체 검출을 위한 고속의 영역 기반 합성곱 신경망 Fast R-CNN을 소개함.
- Fast R-CNN은 기존의 작업을 기반으로 해서 심층 합성곱 신경망을 이용하여 효율적으로 물체 영역들을 분류함.
- 이전의 연구와 비교할때, Fast R-CNN은 여러 벼화를 통해 훈련과 테스트 속도는 빠르고, 검출 정확률을 더 높임.
- Fast R-CNN은 VGG16 신경망을 기반으로 R-CNN보다 훈련시에는 9배, 테스트시에는 213배 더 빨라졌으며, PASCAL VOC 2012에서 더 높은 mAP를 도달할 수 있었습니다.
- SPPnet과 비교할때 Fast R-CNN은 VGG16 신경망을 학습해서 3배 더 빨라지고, 훈련시에는 10배, 그리고 더 정확한 결과를 얻었습니다.
- Fast R-CNN은 카페를 이용해서 파이썬과 C++로 구현되었고, MIT License 오픈소스로 사용 가능합니다.
1. 소개
1.1 R-CNN과 SPPnet
R-CNN은 합성곱 신경망으로 물체 제안 영역들을 높은 정확도로 분류할수 있었으나 아래와 같은 단점들을 가지고 있습니다.
1. 훈련 과정이 여러 단계의 파이프라인으로 구성되어있음.
- R-CNN은 먼저 합성곱 신경망을 로그 비용을 사용해서 물체 제안에 맞게 미세조정을 거칩니다.
- 그 다음 SVM으로 합성곱 신경망 특징을 학습함. 이 SVM은 소프트맥스 분류기를 대신하여 물체검출기 역활을 함.
- 세 번째 훈련 단계에서는 바운딩 박스 회귀기가 학습딤.
2. 학습하는데 공간과 시간적 비용이 큼.
- SVM과 바운딩 박스 회귀기를 돌리기 위해서, 매 이미지마다 제안 영역들의 특징들을 추출해서 디스크에 저장해야함.
- VGG16 같은 심층 신경망의 경우 VOC07 훈련 셋 이미지 5K를 학습하는데만 2.5GPU-일이 걸림.
- 특징들을 저장하는데만 수 백 기가바이트용량을 필요로함.
3. 물체 검출이 느림
- 테스트시 특징들을 테스트 이미지로부터 각 물체 제안 영역으로부터 추출이 되는데, 검출 과정만 이미지당 47초가 걸림(GPU)
1.2 개선점
우리가 제안한 알고리즘은 R-CNN과 SPPnet의 단점들을 고쳐 더 높은 속도와 정확도를 얻어내었으며, 학습과 테스트가 더 빨라졌으므로 이 알고리즘 이름을 Fast R-CNN이라고 함. Fast R-CNN은 아래와 같은 이점을 가짐
1. R-CNN, SPPnet보다 높은 검출 퀄리티 (mAP)
2. 훈련이 다중 작업 비용을 사용하여 한 단계로 이루어짐
3. 훈련 과정으로 모든 신경망 레이어가 갱신됨.
4. 특징 캐싱에 디스크 공간을 필요로 하지 않음.
2. Fast R-CNN 아키텍처와 학습
2.1 ROI Pooling Layer
2.2 선학습된 신경망으로 초기화
2.3 검출에 맞게 미세 조정하기
2.4 스케일 불변성
'그외 > 논문' 카테고리의 다른 글
Deep contextualized word representation (0) | 2021.04.26 |
---|---|
UNet: Convolutional Networks for Biomedical Image Segmentation (0) | 2021.04.26 |
Fully Convolutional Networks for Semantic Segmentation (0) | 2021.04.22 |
Attention Is All You Need (0) | 2021.04.19 |
Zero-Shot Text-to-Image Generation (0) | 2021.04.19 |