728x90

arxiv.org/abs/1406.4729

 

[Submitted on 18 Jun 2014 (v1), last revised 23 Apr 2015 (this version, v4)]

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

 

1. 요약

1.1 현황

- 현존하는 심층 합성곱 신경망들은 고정 크기의 (e.g 224 x 224) 입력 이미지를 받고 있습니다. 이러한 요구사항은 이미지 혹은 고정 크기/스케일 하부이미지의 인식 정확도를 떨어트릴수도 있습니다.

 

1.2 특징

- 이 연구에서는 이러한 요구 사항을 제거하기 위해 "공간 피라미드 풀링 Spatial Pyramid Pooling"이라고 부르는 조금 다른 풀링 방법을 사용한 신경망을 사용하였습니다.

- 이 새로운 신경망 구조를 SPP-net이라고 부르며, 이미지 크기와 스케일에 무관하게 고정된 길이의 표현 결과를 만들어 낼수가 있습니다.

- 피라미드 풀링은 물체 변형들에도 object deformation에 강인합니다.

 

1.3 연구

1.3.1 이미지 분류

- 이러한 장점으로 SPP-net은 CNN 기반 이미지 분류들을 개선 시킬수 있었습니다.

- 이미지넷 2012 데이터셋의 경우, SPP-net은 다르게 설계된 CNN 아키텍쳐들의 정확도를 끌어올릴수 있었습니다.

- PASCAL VOC 2007과 Caltech 101 데이터셋에서도, SPP-net은 단일 이미지 표현을 사용해서, 미세 조정없이 최신의 분류 성능을 얻어낼 수가 있었습니다.

 

1.3.2 물체 검출

- SPP-net은 물체 검출에도 큰 효과를 보였는데, SPP-net을 사용하여 전체 이미지로부터 특징맵을 구해내고, 검출기를 학습 시키기 위해서 고정 길이들의 표현들을 생성시키도록  특정 영역에서 특징들을 풀링 시킵니다.

- 이 방법은 합성곱 특징들을 반복적으로 계산하는 것을 방지시킵니다.

- 테스트 이미지를 처리할때 R-CNN보다 24-102배 더 빨라졌으며, PASCAL VOC 2007데이터에서 상당히 더 정확해졌습니다.

- 이미지넷 큰 규모의 시각 인식 대회 ILSVRC 2014에서 물체 검출에서 2등을, 이미지 분류에서 38팀 중에서 3등을 차지하였습니다.

 

 

300x250

+ Recent posts