728x90

0. 초록

- 심층 신경망을 잘 학습하기 위해서는 수 많은 훈련 샘플을 필요로 한다는 것에 많은 사람들이 동의를 하고 있다.

- 이 논문에서는 신경망과 훈련 방법을 소개하고자 하는데, 데이터 증강을 이용하여 더 효율적으로 샘플을 사용하고자 한다.

- 이 아키텍처는 컨텍스트를 찾아내기 위한 수축 경로와 이를 대칭적으로 정밀한 위치 추정을 하는 팽창 경로로 이루어져 있다.

- 이 신경망을 아주 적은 수의 이미지만으로 end-to-end로 학습하여, ISBI 대회의 미세 이미지를 이용한 세그먼테이션 분야에서 지난 최고의 방법을 능가하였고, 2015년 ISBI 세포 추적 대회에서 큰 격차로 우승하였다.

- 이 신경망은 빨라, 512 x 512 크기의 이미지도 GPU로 몇초안에  세그먼테이션을 수행할 수 있음.

 

1. 소개

- 최근 2년간 심층 신경망을 이용하는 방법이 많은 시각 인지 작업 분야에서 높은 성과를 보이고 있다.

- 합성곱 신경망은 나온지 오랜 시간이 지났지만, 사용 가능한 훈련셋의 크기와 신경망의 크기 때문에 잘 사용되지 못하였었다.

- 하지만 Krizhevsky가 100만개로 이루어진 이미지넷 데이터셋을 8계층의 수백만 파라미터로 구성된 신경망을 지도 학습을 함으로서 시발점이 되었고, 그 이래로 더 크고 깊어진 신경망이 나오고 있다.

 

- 기존의 합성곱 신경망은 이미지가 주어지면 단일 클래스 라벨을 출력하는 분류 작업에만 사용되어옴.

- 하지만 많은 시각 작업 분야에서, 특히 생체 이미지 처리에서는 위치에 대한 정보도 필요로 하고있는데, 예를 들어 클래스 라벨이 각 픽셀단위로 있어야 한다.

- 게다가 생명의악 분야에도 수많은 훈련할 이미지들이 있다. Ciresan은 슬라이딩 윈도우를 사용하여, 해당 로컬 지역(패치), 픽셀을 입력으로 주어 각 픽셀의 라벨을 예측하는 신경망을 학습하였는데, 이 신경망은 위치를 추정하고, 훈련 이미지의 수보다 패치 단위의 훈련 데이터가 훨씬 컸다. 이 신경망은 IBSI 2012  EM 세그먼테이션 대회에서 큰 격차로 우승하였다.

 

- Ciresan의 방법은 두가지 문제점이 있었는데, 신경망은 각 패치 단위를 개별적으로 돌리고, 패치들간에 어쩔수 없이 많은 부분이 겹치는 탓에 꽤 느렸다.

- 두번째로 위치 추정의 정확도와 컨텍스트 사용의 트레이드 오프가 있었는데, 큰 패치일 수록 위치 추정 정확도를 줄이는 형향을 주는 더 많은 맥스 풀링 레이어가 필요하였고, 작은 패치일경우 적은 컨택스트밖에 보지못하였다.

300x250
728x90

0. 초록

- 이 논문에서는 물체 검출을 위한 고속의 영역 기반 합성곱 신경망 Fast R-CNN을 소개함.

- Fast R-CNN은 기존의 작업을 기반으로 해서 심층 합성곱 신경망을 이용하여 효율적으로 물체 영역들을 분류함.

- 이전의 연구와 비교할때, Fast R-CNN은 여러 벼화를 통해 훈련과 테스트 속도는 빠르고, 검출 정확률을 더 높임.

- Fast R-CNN은  VGG16 신경망을 기반으로 R-CNN보다 훈련시에는 9배, 테스트시에는 213배 더 빨라졌으며, PASCAL VOC 2012에서 더 높은 mAP를 도달할 수 있었습니다.

- SPPnet과 비교할때 Fast R-CNN은 VGG16 신경망을 학습해서 3배 더 빨라지고, 훈련시에는 10배, 그리고 더 정확한 결과를 얻었습니다.

- Fast R-CNN은 카페를 이용해서 파이썬과 C++로 구현되었고, MIT License 오픈소스로 사용 가능합니다.

 

 

1. 소개

 

1.1 R-CNN과 SPPnet

 R-CNN은 합성곱 신경망으로 물체 제안 영역들을 높은 정확도로 분류할수 있었으나 아래와 같은 단점들을 가지고 있습니다.

 1. 훈련 과정이 여러 단계의 파이프라인으로 구성되어있음.

 - R-CNN은 먼저 합성곱 신경망을 로그 비용을 사용해서 물체 제안에 맞게 미세조정을 거칩니다.

 - 그 다음 SVM으로 합성곱 신경망 특징을 학습함. 이 SVM은 소프트맥스 분류기를 대신하여 물체검출기 역활을 함.

 - 세 번째 훈련 단계에서는 바운딩 박스 회귀기가 학습딤.

 2. 학습하는데 공간과 시간적 비용이 큼.

  - SVM과 바운딩 박스 회귀기를 돌리기 위해서, 매 이미지마다 제안 영역들의 특징들을 추출해서 디스크에 저장해야함.

  - VGG16 같은 심층 신경망의 경우 VOC07 훈련 셋 이미지 5K를 학습하는데만 2.5GPU-일이 걸림.

  - 특징들을 저장하는데만 수 백 기가바이트용량을 필요로함.

 3. 물체 검출이 느림

  - 테스트시 특징들을 테스트 이미지로부터 각 물체 제안 영역으로부터 추출이 되는데, 검출 과정만 이미지당 47초가 걸림(GPU)

 

1.2 개선점

 우리가 제안한 알고리즘은 R-CNN과 SPPnet의 단점들을 고쳐 더 높은 속도와 정확도를 얻어내었으며, 학습과 테스트가 더 빨라졌으므로 이 알고리즘 이름을 Fast R-CNN이라고 함. Fast R-CNN은 아래와 같은 이점을 가짐

 

 1. R-CNN, SPPnet보다 높은 검출 퀄리티 (mAP)

 2. 훈련이 다중 작업 비용을 사용하여 한 단계로 이루어짐

 3. 훈련 과정으로 모든 신경망 레이어가 갱신됨.

 4. 특징 캐싱에 디스크 공간을 필요로 하지 않음.

 

2. Fast R-CNN 아키텍처와 학습

그림 1. Fast R-CNN 아키텍처. 입력 이미지와 다중 관심 영역(ROI)이 완전 합성곱 신경망에 입력으로 들어갑니다. 각 ROI는 고정 크기의 특징 맵으로 풀되고, 완전 연결 레이어를 통해 특징 백터로 맵핑됩니다. 이 신경망은 ROI당 두 출력 벡터를 가집니다.

 

2.1 ROI Pooling Layer

 

2.2 선학습된 신경망으로 초기화

 

2.3 검출에 맞게 미세 조정하기

 

2.4 스케일 불변성

300x250
728x90

초록

- 합성곱 신경망은 계층화된 특징들을 구하는데 유용한 시각 모델임.

- end-to-end로 학습되고, 픽셀 대 픽셀로 최신 시멘틱 세그먼테이션을 능가하는 합성곱 신경망을 소개합니다.

- 우리 연구의 핵심은 완전 합성곱 신경망 fully convolutional network를 만든 것으로 일정 크기의 입력을 받아 추론과 학습에 효율적인 크기의 출력을 만들어 냅니다.

- 그리고 현세대의 분류 신경망인 AlexNet, VGG net, GoogleNet을 완전 연결 신경망에 적용하고, 세그먼테이션 작업에 맞게 미세 조정하여 학습된 표현들을 전이시키겠습니다.

- 심층, 거친 레이어에서의 시멘틱 정보와, 얕고 미세한 레이어로부터 얻은 외양 정보를 결합하여 정확하고, 세밀한 세그먼테이션을 구하는 새로운 아키텍처를 정의하였습니다.

- 우리의 완전 연결 합성곱 신경망은 PASCAL VOC 세그먼테이션에서 뛰어난 성능을 보였으며 2012년 62.2% mean IU와 비교하여 20%정도 성능 향상이 있었습니다.

 

 

 

300x250
728x90

arxiv.org/pdf/1706.03762.pdf

 

1. 초록

- 대부분의 시퀀스 변환 모델들은 인코더와 디코더로 구성된 복잡한 순환 혹은 합성곱 신경망을 기반으로 하고 있습니다.

- 가장 좋은 성능을 보이는 모델은 인코더와 디코더가 어텐션 메커니즘을 통해 연결되어 있음.

- 본 논문에서는 순환과 합성곱 연산을 수행하는 어텐션 기반의 간단한 신경망 아키텍처인 트랜스포머를 소개합니다.

- 두 기계 번역 작업 실험을 통해서 주어진 모델들 중에서 얼마나 잘 병렬화가 되고 학습 시간이 덜 솜모되는지를 보면서 어느것이 더 좋은지 보여주겠습니다.

- 우리의 모델은 WMT 2014 영어-to-독일어 번역 작업에서 28.4 BLEU의 성능을 얻었는데, 기존 최고 성능을 뛰어넘었으며 앙상블시 2 BLEU를 더 뛰어넘었습니다.

- WMT 2014 영어-to-프랑스어 번역 작업의 경우 우리가 만든 모델이 8개의 GPU로 3.5일간 학습을 하여 41.8 BLEU 스코어를 얻었습니다.

- 거기다가 트렌스포머가 모델이 크거나 작은 훈련 셋을 이용해서 영어 파싱하는것 같이 다른 작업에서도 일반화하여 로 잘 동작하였습니다.

300x250
728x90

초록

- 텍스트에서 이미지 생성은 주어진 데이터셋으로 학습 과정 중 더 나은 모델 가정을 찾아내는 것에 집중을 해 왔었다.

- 이러한 가정들로 복잡한 아키텍처나, 추가적인 비용 함수, 물체 일부 라벨이나 세그먼테이션 마스크 같은 보조적인 정보들이 있음.

- 이미지와 텍스트를 하나의 스트림 데이터로 자기회귀적으로 다루는 트랜스 포머를 기반으로하는 방법을 소개하겠다.

- 충분한 데이터와 량이 주어지면, 우리가 소개한 방법은 없는 학습 하지 않은 데이터도 평가시에 다른 도메인 특화 방법들과 경쟁할만함.

 

 

300x250
728x90

[Submitted on 8 Jun 2015 (v1), last revised 9 May 2016 (this version, v5)]

You Only Look Once: Unified, Real-Time Object Detection

 

 

0. 요약

0.1 소개

- 물체 검출을 위한 새로운 방법인 YOLO를 소개합니다. 이전의 물체 검출 연구에서는 분류기가 검출을 수행할 수 있도록 고쳤습니다.

- YOLO는 대신 물체 검출을 나눠진 바운딩 박스들과 이에 연관된 클래스 확률에 대한 회귀 문제로 만들었습니다.

- 하나의 신경망은 이미지로부터 바운딩 박스와 클래스 확률들을 예측하는데, 전체 검출 파이프라인이 하나의 신경망으로 이루어져 있으므로 end-to-end로 검출 성능을 최적화 시킬수가 있습니다.

 

0.2 속도

- 우리가 소개한 아키텍처는 매우 빠르며, YOLO 베이스 모델의 경우 초당 45프레임으로 실시간으로 이미지를 처리합니다. 

- 더 작아진 신경망 버전인 Fast YOLO는 초당 155 프레임의 처리속도를 가졌을 뿐더러 다른 실시간 물체 검출기의 mAP의 두배에 달하는 성능을 유지하고 있습니다.

 

0.3 특징

- 최신 검출 시스템과 비교해서 YOLO는 더 많은 위치 추정 에러를 가지고 있기는 하나 배경을 거짓 긍정으로 예측하는 경우를 줄였습니다.

- 마지막으로 YOLO는 물체의 일반적인 표현들을 학습하여, 일반 자연스러운 이미지에서 미술품 같은 특정 도메인까지 DPM과 R-CNN과 같은 다른 방법보다 우수한 성능을 보이고 있습니다.

 

 

 

 

 

1. 소개

 사람의 경우 이미지를 한번 보면 그 이미지에 있는 물체가 무엇이고, 어디에 있는지, 이들이 뭘하는지 한번에 알수 있습니다. 그래서 사람의 시각 시스템은 빠르고 정확하며 무의식적으로 복잡한 작업을 할수 있게 됩니다. 물체 검출을 위한 빠르고 정확한 알고리즘을 이용하면 컴퓨터가 특별한 센서 없이 차를 운전할수 있게 도우며, 사람에게 실시간 정보를 전달하거나, 더 범용적인 목적으로, 로봇 시스템 같은데 활용될 잠재력을 가지고 있습니다.

 

 현재 검출 시스템은 분류기를 검출을 수행할수 있도록 수정한 것입니다. 물체를 검출하기 위해서 이러한 시스템들은 물체의 분류기가 테스트 이미지의 어느 장소에, 스케일이 있는지 추정해 냅니다. 변환 파츠 모델 Deformable Parts Model DPM같은 시스템은 슬라이딩 윈도우 방법으로 분류기를 이미지 전체 위치에다가 동작시켰습니다.

 

 R-CNN같이 더 최근 방법의 경우 영역 제안 방법을 통해서 이미지의 첫번쨰 잠재 바운딩 박스들을 생성해내고, 주어진 바운딩 박스에다가 분류기를 동작시킵니다. 분류한 후에 후처리 과정을 통해 바운딩 박스의 위치를 고치고, 중복된 검출을 제거하고, 다시 박스에 다른 물체가 있는지 평가 합니다. 하지만 이런 복잡한 파이프라인은 각 요소들이 독립적으로 학습되어야 하다보니 느리고, 최적화하기가 어려운 문제가 있겠습니다.

 

 우리는 물체 검출을 하나의 회귀 문제로 봄으로서, 이미지 픽셀들로부터 바로 바운딩 박스의 좌표와 클래스 확률을 구해냅니다. 이 시스템을 사용해서 여러분은 이미지를 한번만 봄으로서 어떤 물체가 있고, 어디에 위치하는지 예측할수가 있겠습니다.

 

 

그림 1. YOLO 검출 시스템. YOLO를 이용한 이미지 처리는 단순하며 직관적입니다. 이 시스템은 (1)에서 입력 이미지를 448 x 448로 크기를 바꿉니다. (2)에서는 한 합성곱 신경망을 돌리고, (3)에서 모델의 신뢰도로 검출 결과들을 임계화 시킵니다.

 YOLO는 단순합니다. 그림 1을 보면 한 합성곱 신경망이 동시에 바운딩 박스들과 클래스 확률들을 예측해 냅니다. 욜라는 전체 이미지를 학습하고, 검출 성능을 최적화 시킬수가 있어요. 이 통합된 모델은 기존의 물체 검출기들보다 다양한 이점을 가질수가 있습니다.

 

 첫번째로, 우선 YOLO는 아주 빠릅니다. 검출을 회귀 문제로 만든 덕분에 복잡한 파이프 라인 필요없이 새로운 이미지를 신경망에다가 돌려서 검출 결과들을 예측하면 됩니다. 기본 신경망의 경우 Titan X GPU에서 배치 처리 없이 초당 45 프레임 속도로 동작하였으며, 빠른 버전의 경우 150 fps이상의 속도를 보였습니다. 이는 적어도 25ms 레이턴시 아래로 실시간으로 비디오 스트리밍을 처리할수 있겠습니다. 거기다가 YOLO는 다른 실시간 시스템보다 mAP가 2배 이상의 성능을 보이고 있습니다.

 

 두번쨰는, YOLO는 예측 할때 전역적으로 추론합니다. 슬라이딩 윈도우나 영역 제안 기법과는 달리 YOLO는 훈련과 테스트 시 전체 이미지를 보고, 묵시적으로 클래스 뿐만 아니라 외형에 대한 상황적인 정보를 인코드 합니다. 최고의 검출 방법이라 할 수 있는 Fast R-CNN은 더 큰 상황을 볼수 없기 때문에 이미지에 존재하는 물체에 대해서 잘못된 배경 패치를 구할수 있습니다. 하지만 YOLO는 Fast R-CNN과 비교하여 절반정도 안되는 배경 오류를 구합니다

 

 세번째는 YOLO는 물체의 일반화 시킨 표현들을 학습시킵니다. 자연스러운 이미지를 학습하고, 미술품으로 테스트시에 YOLO는 DPM이나 R-CNN같은 다른 방법들보다 큰 폭으로 높은 성능을 보입니다. YOLLO는 크게 일반화 할수 있기 때문에 새로운 분야나 예상치 못한 입력에도 오작동 할 가능성이 적겠습니다.

 

  하지만 YOLO는 여전히 최신 검출 시스템들과 비교할떄 정확성 면에서 여전히 뒤떨어 지고 있습니다. YOLO는 이미지 상에 존재하는 물체들을 빠르게 식별할수 있지만 작은 물체들의 경우 힘들게 찾아냅니다. 이에 대해 실험을 통해 트레이드 오프를 조사해보았습니다.

 

 우리의 훈련과 테스트 코드 전체는 오픈소스이며, 선학습된 모델 또한 다운받아서 사용할수 있습니다.

 

 

2.  통합된 검출 Unified Detection

 

  본 논문에서는 물체 검출의 다양한 요소들을 하나의 신경망으로 합쳤습니다. 우리의 신경망은 이미지 전체로부터 얻은 특징들을 각 바운딩 박스를 예측하는데 사용하였고, 모든 바운딩 박스와 동시에 클래스를 예측해내었습니다. 즉, 우리가 제안한 신경망은 이미지 전체를 전역적으로, 모든 물체들을 추론해낸다고 할수 있겠습니다. YOLO 디자인은 end-to-end 학습이 가능하며, 높은 평균 정밀도를 유지하면서 실시간성을 가지고 있습니다.

 

 이 시스템은 입력 이미지를 S x S 크기의 그리드로 분할 시킵니다. 물체의 중심이 그리드 셀에 있다면, 그 그리드 셀은 물체가 존재한다고 할수 있겠습니다.

 

 각 그리드셀은 B개의 바운딩 박스와 이 박스들의 신뢰도 스코어를 예측해냅니다. 이 신뢰도 스코어는 모델이 얼마나 신뢰할수 있게 박스가 물체를 포함하고 있는지, 그리고 그 박스가 얼마나 정확하게 예측하고 있는지를 반영합니다. 일단 신뢰도를 Pr(Object) * IOU(truth_pred) 로 정의하면, 물체가 셀에 존재하지 않는 경우 신뢰도 스코어는 0이 되겠습니다. 하지만 우리는 신뢰도 스코어가 예측된 박스와 그라운드 트루스 박스 사이의 IOU와 동일하기를 원했습니다.

 

 각 바운딩 박스는 5개의 예측치로 구성됩니다. x, y, w, h, 신뢰도. 여기서 (x, y)는 그리드 셀에서의 박스 중심점 위치를 나타내고, 폭과 높이는 전체 이미지에 대한 상대적인 예측 비율. 마지막으로 신뢰도 예측치는 예측 박스와 그라운드 트루스 박스 사이 IOU로 나타내겠습니다.

 

 그리고 각 그리드 셀은 C개의 조건부 클래스 확률들 Pr(Class_i | Object)를 예측 합니다. 이 확률들은 그리드 셀이 한 물체를 포함하고 있을지를 조건으로 하고 있습니다.  박스의 개수 B에 상관없이 각 그리드셀마다 클래스 확률을 예측한다고 할수 있겠습니다. 

 

 테스트 시에 조건부 클래스 확률과 개 개별 박스 신뢰도 예측치를 곱하여 정리하면, 각 박스당 클래스 신뢰도 스코어를 얻을수 있게 됩니다.

 이 스코어는 박스에 존재하는 클래스의 확률과 예측된 박스가 물체에 얼마나 적합한지를 인코드 합니다.

 

그림 2. 모델. 회귀 문제로서 검출 시스템이 설계 되었습니다. 이 모델은 이미지를 S x S 그리드로 나누고, 각 그리드 셀은 B개의 바운딩 박스들과 이 박스들의 신뢰도, C개의 클래스에 대한 확률들을 예측합니다. 이러한 예측 결과는 S X S X ( B * 5 + C) 텐서로 인코드 됩니다.

 YOLO로 PASCAL VOC셋을 평가하기 위해서 S = 7, B = 2로 설정시, PASCAL VOC는 20개의 라벨 클래스를 가지고 있으므로, C = 20으로 하겠습니다. 그 결과 최종 예측은 7 x 7 x 30 텐서가 나오게 됩니다.

 

300x250
728x90

[Submitted on 10 Jun 2014]

Generative Adversarial Networks

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

 

 

 

0. 초록

- 본 논문에서는 적대적인 처리 과정을 거치는 생성 모델들을 구하는 새로운 프레임워크를 소개합니다.

- 여기서 두 모델을 동시에 학습하는데, 생성 모델 G는 데이터 분포를 캡처하고, 판별 모델 D는 실제 훈련 데이터셋으로부터 얻은 샘플인지 G로부터 얻은 샘플인지에 대한 확률을 추정합니다.

- 생성 모델 G의 훈련 과정은 D가 실수할 확률을 최대화 시킵니다.

- 이 프레임워크는 두 선수의 최소 최대 게임이라 할수 있으며, G, D는 정답을 가지고 있는 함수가 되겠습니다. G는 훈련 데이터셋의 형태로 분포를 복원시켜야 하며, D는 1/2에 가까워져야 합니다. 

- G, D를 다층 퍼셉트론으로 구현시에 전체 시스템은 역전파 과정을 통해서 학습시킬수 있으며, 마르코브 체인이나 학습이나 샘플 생성하는 동안 근사 추론 과정을 펼칠 필요가 없겠습니다.

- 실험 결과를 보면 이 프레임 워크의 잠재력을 생성된 샘플의 질적 평가와 양적 평가를 통해 보여주고 있습니다.

 

 

 

 

 

300x250
728x90

arxiv.org/abs/1604.03540

[Submitted on 12 Apr 2016]

Training Region-based Object Detectors with Online Hard Example Mining

 

0. 초록

0.1 현황

- 물체 검출 분야에서 영역 기반 합성곱 신경망을 이용하여 많은 진보가 있어왔다. 하지만 이런 방법들의 학습과정은 여전히 많이 휴리스틱/경험적이며, 많은 조정해야할 하이퍼파라미터들을 가지고 있다.

 

0.2 특징

- 그래서 영역 기반 합성곱 신경망 검출기를 효율적으로 학습하기 위한 online hard example mining OHEM 알고리즘을 소개 한다.

- 이 방법은 검출 데이터셋은 대다수의 쉬운 예시와 소수의 어려운 예시들을 가지고 있다. 여기서 어려운 예시들만 자동적으로 선택하여 학습을 더 효과적이고 효율적으로 만들겠다.

- OHEM은 단순하고, 직관적인 알고리즘인데 흔하게 사용되는 경험적인 것들과 하이퍼 파미터들을 제거한다. 하지만 더 중요한것은 이렇게 함으로서 PASCAL VOC2007, 2012같은 벤치마크에서 검출 성능이 크게 뛰어올랐다.

 

0.3 결과

- 이 덕분에 데이터셋을 더 크게, 더 어렵게 만들수 있게 되었으며, MS COCO 데이터셋을 통해 결과를 확인하였다.

- OHEM을 물체 검출 분야에서 최신 기법들과 결합함으로서 PASCAL VOC 2007, 2012에서 각각 78.9%, 76.3% mAP 결과가 나왔다.

 

 

300x250
728x90

arxiv.org/abs/1406.4729

 

[Submitted on 18 Jun 2014 (v1), last revised 23 Apr 2015 (this version, v4)]

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

 

1. 요약

1.1 현황

- 현존하는 심층 합성곱 신경망들은 고정 크기의 (e.g 224 x 224) 입력 이미지를 받고 있습니다. 이러한 요구사항은 이미지 혹은 고정 크기/스케일 하부이미지의 인식 정확도를 떨어트릴수도 있습니다.

 

1.2 특징

- 이 연구에서는 이러한 요구 사항을 제거하기 위해 "공간 피라미드 풀링 Spatial Pyramid Pooling"이라고 부르는 조금 다른 풀링 방법을 사용한 신경망을 사용하였습니다.

- 이 새로운 신경망 구조를 SPP-net이라고 부르며, 이미지 크기와 스케일에 무관하게 고정된 길이의 표현 결과를 만들어 낼수가 있습니다.

- 피라미드 풀링은 물체 변형들에도 object deformation에 강인합니다.

 

1.3 연구

1.3.1 이미지 분류

- 이러한 장점으로 SPP-net은 CNN 기반 이미지 분류들을 개선 시킬수 있었습니다.

- 이미지넷 2012 데이터셋의 경우, SPP-net은 다르게 설계된 CNN 아키텍쳐들의 정확도를 끌어올릴수 있었습니다.

- PASCAL VOC 2007과 Caltech 101 데이터셋에서도, SPP-net은 단일 이미지 표현을 사용해서, 미세 조정없이 최신의 분류 성능을 얻어낼 수가 있었습니다.

 

1.3.2 물체 검출

- SPP-net은 물체 검출에도 큰 효과를 보였는데, SPP-net을 사용하여 전체 이미지로부터 특징맵을 구해내고, 검출기를 학습 시키기 위해서 고정 길이들의 표현들을 생성시키도록  특정 영역에서 특징들을 풀링 시킵니다.

- 이 방법은 합성곱 특징들을 반복적으로 계산하는 것을 방지시킵니다.

- 테스트 이미지를 처리할때 R-CNN보다 24-102배 더 빨라졌으며, PASCAL VOC 2007데이터에서 상당히 더 정확해졌습니다.

- 이미지넷 큰 규모의 시각 인식 대회 ILSVRC 2014에서 물체 검출에서 2등을, 이미지 분류에서 38팀 중에서 3등을 차지하였습니다.

 

 

300x250
728x90

arxiv.org/abs/1506.01497

[Submitted on 4 Jun 2015 (v1), last revised 6 Jan 2016 (this version, v3)]

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

 

 

 

1. 초록

1.1 현황

- 최신 물체 검출 신경망들은 물체의 위치를 구해내기 위해서 영역 제안 알고리즘들을 사용하고 있습니다.

- 기존의 SPPnet이나 Fast R-CNN과 같은 방법들은 신경망의 물체 검출 동작 시간을 줄여왔으나 제안 영역을 구하는 과정에 병목 현상이 발생되고 있습니다.

 

1.2 특징

- 그래서 이 논문에서는 영역 제안 신경망 Region Proposal Network RPN을 소개하고자 합니다. 이 RPN은 합성곱 특징들을 검출 신경망으로 나눔으로서 제안 영역을 구하는데 비용을 줄여내었습니다.

- RPN은 Fast R-CNN에서 물체 검출에 사용되었던 부분과 같이 고 품질의 제안 영역들을 생성하도록 학습 됩니다.

- 그 다음 RPN과 Fast R-CNN을 합성곱 특징들을 공유하도록하여 합쳐진 하나의 신경망으로 만들어 지는데, 여기서 어텐션 메커니즘이 사용되며 RPN이 어떤 부분을 보아야 하는지 알려주는것이 되겠습니다.

 

1.3 결과

- VGG-16 모델을 백본으로 사용하였을때, 검출 시스템은 GPU로 5fps의 속도를 보였으며, PASCAL VOC 2007, 2012, 그리고 MS COCO 데이터셋의 이미지 당 300 제안 영역을 구하도록  하였을때 물체 검출에 있어서 높은 정홧도를 보였습니다.

- ILSVRC와 COCO 2015년 대회에서 Faster R-CNN과 RPN은 여러 부문에서 1등을 수상할수 있엇습니다.

 

300x250

+ Recent posts