728x90

arxiv.org/pdf/1706.03762.pdf

 

1. 초록

- 대부분의 시퀀스 변환 모델들은 인코더와 디코더로 구성된 복잡한 순환 혹은 합성곱 신경망을 기반으로 하고 있습니다.

- 가장 좋은 성능을 보이는 모델은 인코더와 디코더가 어텐션 메커니즘을 통해 연결되어 있음.

- 본 논문에서는 순환과 합성곱 연산을 수행하는 어텐션 기반의 간단한 신경망 아키텍처인 트랜스포머를 소개합니다.

- 두 기계 번역 작업 실험을 통해서 주어진 모델들 중에서 얼마나 잘 병렬화가 되고 학습 시간이 덜 솜모되는지를 보면서 어느것이 더 좋은지 보여주겠습니다.

- 우리의 모델은 WMT 2014 영어-to-독일어 번역 작업에서 28.4 BLEU의 성능을 얻었는데, 기존 최고 성능을 뛰어넘었으며 앙상블시 2 BLEU를 더 뛰어넘었습니다.

- WMT 2014 영어-to-프랑스어 번역 작업의 경우 우리가 만든 모델이 8개의 GPU로 3.5일간 학습을 하여 41.8 BLEU 스코어를 얻었습니다.

- 거기다가 트렌스포머가 모델이 크거나 작은 훈련 셋을 이용해서 영어 파싱하는것 같이 다른 작업에서도 일반화하여 로 잘 동작하였습니다.

300x250
728x90

초록

- 텍스트에서 이미지 생성은 주어진 데이터셋으로 학습 과정 중 더 나은 모델 가정을 찾아내는 것에 집중을 해 왔었다.

- 이러한 가정들로 복잡한 아키텍처나, 추가적인 비용 함수, 물체 일부 라벨이나 세그먼테이션 마스크 같은 보조적인 정보들이 있음.

- 이미지와 텍스트를 하나의 스트림 데이터로 자기회귀적으로 다루는 트랜스 포머를 기반으로하는 방법을 소개하겠다.

- 충분한 데이터와 량이 주어지면, 우리가 소개한 방법은 없는 학습 하지 않은 데이터도 평가시에 다른 도메인 특화 방법들과 경쟁할만함.

 

 

300x250
728x90

C4W1L05 Strided Convolutions

- stride 는 합성곱 연산에서 자주 사용되는 요소로 몇 칸씩 띄어갈지를 지정

- Conv2D 결과 :  (n + 2p - f) / s + 1 x (n + 2p - f) / s + 1

- 일반 수학에서의 합성곱 : 필터를 x, y 축으로 뒤집은후 곱 합 수행, 딥러닝에서의 합성곱은 교차 상관 cross correlation이라 부름.

- 신경망에서의 합성곱 : 필터를 밀어가면서 곱 합 수행

 

 

 

 

 

C4W1L06 Convolutions Over Volumes

- 입체 공간에서의 합성곱 RGB 이미지의 경우 W x H x 3의 형태를 가짐

- 입력 이미지가 6 x 6 x 3, 필터가 3 x 3 x 3 일떄, 출력은 4 x 4 (x 1)의 형태가 나옴.(별도 패딩이나 스트라이드 지정없을시)

 * 입력 채널과 필터 채널은 동일해야함.

- 빨간색 채널의 수직 에지를 검출하도록 학습한다면. R 필터만 수직 에지 필터, 나머지 G, B는 0으로 학습하면 됨.

- 필터가 채널에 상관없이 수직 에지를 검출 하도록 학습된다면, RGB 필터 모두 수직 에지를 검출하는 필터 형태로 학습된다.

 

 

- 수직 에지만 검출할게 아니라 기울어진 혹은 수평 에지도 검출할 수 있도록 학습하고 싶다.

- 출력 시킬 채널 개수만큼 위의 필터들을 여러개 만들면됨

=> W x H x input channel   *    f_w x f_h x input_channel x output_channel => output_w x output_h x output_channel

- 아래의 경우에는 수직 에지와 수평 에지만 검출할 수 있다면, 출력 채널의 수가 많을 수록 검출할 수 있는 특징들이 많아지겠다.

 

 

 

 

 

 

 

 

 

 

 

300x250
728x90

C4W1L01 Computer Vision

- 컴퓨터 비전 분야의 문제들을 소개한다 -> 이미지 분류, 물체 검출, 스타일 전이

- 큰 이미지에서의 신경망 연산이 어떻게 되는가

 

 

 

 

 

 

C4W1L02 Edge Detection Examples

- 합성곱 연산이 어떻게 수행되는지 소개

- 수직 에지 필터로 어떻게 영상에서 에지 검출을 하는지 알려준다.

 

 

 

 

 

 

C4W1L03 More Edge Detection

- 이번에는 수평 에지 검출 필터와 기존의 대표적인 필터들 sobel, scharr를 보여줌.

- 복잡한 이미지가 주어질때 신경망은 필터를 역전파 과정을 통해서 학습한다.

- 학습된 필터로 수평, 수직 에지 뿐만이 아니라 기울어진 에지들도 검출 할수가 있다.

 

 

 

 

 

 

C4W1L04 Padding

- 합성곱 연산의 문제점 : 층이 쌓일수록 출력이 작아지고, 가장자리의 정보들이 사라진다.

- 이미지 가장자리에 패딩을 추가시켜 위 문제를 해결.

- 합성곱 연산 패딩 종류 : valid convolution(패딩 없음) , same convolution(입력과 동일한 크기로 출력을 하도록 패딩 지정)

* 필터의 크기가 홀수 인 경우 중심 픽셀이 존재하고, 컴퓨터 비전 분야의 관습 상 홀수 크기를 사용. 짝수도 좋은 성능을 보임.

 

 

 

 

 

 

 

300x250
728x90

 

 

 

 

 

300x250
728x90

[Submitted on 8 Jun 2015 (v1), last revised 9 May 2016 (this version, v5)]

You Only Look Once: Unified, Real-Time Object Detection

 

 

0. 요약

0.1 소개

- 물체 검출을 위한 새로운 방법인 YOLO를 소개합니다. 이전의 물체 검출 연구에서는 분류기가 검출을 수행할 수 있도록 고쳤습니다.

- YOLO는 대신 물체 검출을 나눠진 바운딩 박스들과 이에 연관된 클래스 확률에 대한 회귀 문제로 만들었습니다.

- 하나의 신경망은 이미지로부터 바운딩 박스와 클래스 확률들을 예측하는데, 전체 검출 파이프라인이 하나의 신경망으로 이루어져 있으므로 end-to-end로 검출 성능을 최적화 시킬수가 있습니다.

 

0.2 속도

- 우리가 소개한 아키텍처는 매우 빠르며, YOLO 베이스 모델의 경우 초당 45프레임으로 실시간으로 이미지를 처리합니다. 

- 더 작아진 신경망 버전인 Fast YOLO는 초당 155 프레임의 처리속도를 가졌을 뿐더러 다른 실시간 물체 검출기의 mAP의 두배에 달하는 성능을 유지하고 있습니다.

 

0.3 특징

- 최신 검출 시스템과 비교해서 YOLO는 더 많은 위치 추정 에러를 가지고 있기는 하나 배경을 거짓 긍정으로 예측하는 경우를 줄였습니다.

- 마지막으로 YOLO는 물체의 일반적인 표현들을 학습하여, 일반 자연스러운 이미지에서 미술품 같은 특정 도메인까지 DPM과 R-CNN과 같은 다른 방법보다 우수한 성능을 보이고 있습니다.

 

 

 

 

 

1. 소개

 사람의 경우 이미지를 한번 보면 그 이미지에 있는 물체가 무엇이고, 어디에 있는지, 이들이 뭘하는지 한번에 알수 있습니다. 그래서 사람의 시각 시스템은 빠르고 정확하며 무의식적으로 복잡한 작업을 할수 있게 됩니다. 물체 검출을 위한 빠르고 정확한 알고리즘을 이용하면 컴퓨터가 특별한 센서 없이 차를 운전할수 있게 도우며, 사람에게 실시간 정보를 전달하거나, 더 범용적인 목적으로, 로봇 시스템 같은데 활용될 잠재력을 가지고 있습니다.

 

 현재 검출 시스템은 분류기를 검출을 수행할수 있도록 수정한 것입니다. 물체를 검출하기 위해서 이러한 시스템들은 물체의 분류기가 테스트 이미지의 어느 장소에, 스케일이 있는지 추정해 냅니다. 변환 파츠 모델 Deformable Parts Model DPM같은 시스템은 슬라이딩 윈도우 방법으로 분류기를 이미지 전체 위치에다가 동작시켰습니다.

 

 R-CNN같이 더 최근 방법의 경우 영역 제안 방법을 통해서 이미지의 첫번쨰 잠재 바운딩 박스들을 생성해내고, 주어진 바운딩 박스에다가 분류기를 동작시킵니다. 분류한 후에 후처리 과정을 통해 바운딩 박스의 위치를 고치고, 중복된 검출을 제거하고, 다시 박스에 다른 물체가 있는지 평가 합니다. 하지만 이런 복잡한 파이프라인은 각 요소들이 독립적으로 학습되어야 하다보니 느리고, 최적화하기가 어려운 문제가 있겠습니다.

 

 우리는 물체 검출을 하나의 회귀 문제로 봄으로서, 이미지 픽셀들로부터 바로 바운딩 박스의 좌표와 클래스 확률을 구해냅니다. 이 시스템을 사용해서 여러분은 이미지를 한번만 봄으로서 어떤 물체가 있고, 어디에 위치하는지 예측할수가 있겠습니다.

 

 

그림 1. YOLO 검출 시스템. YOLO를 이용한 이미지 처리는 단순하며 직관적입니다. 이 시스템은 (1)에서 입력 이미지를 448 x 448로 크기를 바꿉니다. (2)에서는 한 합성곱 신경망을 돌리고, (3)에서 모델의 신뢰도로 검출 결과들을 임계화 시킵니다.

 YOLO는 단순합니다. 그림 1을 보면 한 합성곱 신경망이 동시에 바운딩 박스들과 클래스 확률들을 예측해 냅니다. 욜라는 전체 이미지를 학습하고, 검출 성능을 최적화 시킬수가 있어요. 이 통합된 모델은 기존의 물체 검출기들보다 다양한 이점을 가질수가 있습니다.

 

 첫번째로, 우선 YOLO는 아주 빠릅니다. 검출을 회귀 문제로 만든 덕분에 복잡한 파이프 라인 필요없이 새로운 이미지를 신경망에다가 돌려서 검출 결과들을 예측하면 됩니다. 기본 신경망의 경우 Titan X GPU에서 배치 처리 없이 초당 45 프레임 속도로 동작하였으며, 빠른 버전의 경우 150 fps이상의 속도를 보였습니다. 이는 적어도 25ms 레이턴시 아래로 실시간으로 비디오 스트리밍을 처리할수 있겠습니다. 거기다가 YOLO는 다른 실시간 시스템보다 mAP가 2배 이상의 성능을 보이고 있습니다.

 

 두번쨰는, YOLO는 예측 할때 전역적으로 추론합니다. 슬라이딩 윈도우나 영역 제안 기법과는 달리 YOLO는 훈련과 테스트 시 전체 이미지를 보고, 묵시적으로 클래스 뿐만 아니라 외형에 대한 상황적인 정보를 인코드 합니다. 최고의 검출 방법이라 할 수 있는 Fast R-CNN은 더 큰 상황을 볼수 없기 때문에 이미지에 존재하는 물체에 대해서 잘못된 배경 패치를 구할수 있습니다. 하지만 YOLO는 Fast R-CNN과 비교하여 절반정도 안되는 배경 오류를 구합니다

 

 세번째는 YOLO는 물체의 일반화 시킨 표현들을 학습시킵니다. 자연스러운 이미지를 학습하고, 미술품으로 테스트시에 YOLO는 DPM이나 R-CNN같은 다른 방법들보다 큰 폭으로 높은 성능을 보입니다. YOLLO는 크게 일반화 할수 있기 때문에 새로운 분야나 예상치 못한 입력에도 오작동 할 가능성이 적겠습니다.

 

  하지만 YOLO는 여전히 최신 검출 시스템들과 비교할떄 정확성 면에서 여전히 뒤떨어 지고 있습니다. YOLO는 이미지 상에 존재하는 물체들을 빠르게 식별할수 있지만 작은 물체들의 경우 힘들게 찾아냅니다. 이에 대해 실험을 통해 트레이드 오프를 조사해보았습니다.

 

 우리의 훈련과 테스트 코드 전체는 오픈소스이며, 선학습된 모델 또한 다운받아서 사용할수 있습니다.

 

 

2.  통합된 검출 Unified Detection

 

  본 논문에서는 물체 검출의 다양한 요소들을 하나의 신경망으로 합쳤습니다. 우리의 신경망은 이미지 전체로부터 얻은 특징들을 각 바운딩 박스를 예측하는데 사용하였고, 모든 바운딩 박스와 동시에 클래스를 예측해내었습니다. 즉, 우리가 제안한 신경망은 이미지 전체를 전역적으로, 모든 물체들을 추론해낸다고 할수 있겠습니다. YOLO 디자인은 end-to-end 학습이 가능하며, 높은 평균 정밀도를 유지하면서 실시간성을 가지고 있습니다.

 

 이 시스템은 입력 이미지를 S x S 크기의 그리드로 분할 시킵니다. 물체의 중심이 그리드 셀에 있다면, 그 그리드 셀은 물체가 존재한다고 할수 있겠습니다.

 

 각 그리드셀은 B개의 바운딩 박스와 이 박스들의 신뢰도 스코어를 예측해냅니다. 이 신뢰도 스코어는 모델이 얼마나 신뢰할수 있게 박스가 물체를 포함하고 있는지, 그리고 그 박스가 얼마나 정확하게 예측하고 있는지를 반영합니다. 일단 신뢰도를 Pr(Object) * IOU(truth_pred) 로 정의하면, 물체가 셀에 존재하지 않는 경우 신뢰도 스코어는 0이 되겠습니다. 하지만 우리는 신뢰도 스코어가 예측된 박스와 그라운드 트루스 박스 사이의 IOU와 동일하기를 원했습니다.

 

 각 바운딩 박스는 5개의 예측치로 구성됩니다. x, y, w, h, 신뢰도. 여기서 (x, y)는 그리드 셀에서의 박스 중심점 위치를 나타내고, 폭과 높이는 전체 이미지에 대한 상대적인 예측 비율. 마지막으로 신뢰도 예측치는 예측 박스와 그라운드 트루스 박스 사이 IOU로 나타내겠습니다.

 

 그리고 각 그리드 셀은 C개의 조건부 클래스 확률들 Pr(Class_i | Object)를 예측 합니다. 이 확률들은 그리드 셀이 한 물체를 포함하고 있을지를 조건으로 하고 있습니다.  박스의 개수 B에 상관없이 각 그리드셀마다 클래스 확률을 예측한다고 할수 있겠습니다. 

 

 테스트 시에 조건부 클래스 확률과 개 개별 박스 신뢰도 예측치를 곱하여 정리하면, 각 박스당 클래스 신뢰도 스코어를 얻을수 있게 됩니다.

 이 스코어는 박스에 존재하는 클래스의 확률과 예측된 박스가 물체에 얼마나 적합한지를 인코드 합니다.

 

그림 2. 모델. 회귀 문제로서 검출 시스템이 설계 되었습니다. 이 모델은 이미지를 S x S 그리드로 나누고, 각 그리드 셀은 B개의 바운딩 박스들과 이 박스들의 신뢰도, C개의 클래스에 대한 확률들을 예측합니다. 이러한 예측 결과는 S X S X ( B * 5 + C) 텐서로 인코드 됩니다.

 YOLO로 PASCAL VOC셋을 평가하기 위해서 S = 7, B = 2로 설정시, PASCAL VOC는 20개의 라벨 클래스를 가지고 있으므로, C = 20으로 하겠습니다. 그 결과 최종 예측은 7 x 7 x 30 텐서가 나오게 됩니다.

 

300x250
728x90

[Submitted on 10 Jun 2014]

Generative Adversarial Networks

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

 

 

 

0. 초록

- 본 논문에서는 적대적인 처리 과정을 거치는 생성 모델들을 구하는 새로운 프레임워크를 소개합니다.

- 여기서 두 모델을 동시에 학습하는데, 생성 모델 G는 데이터 분포를 캡처하고, 판별 모델 D는 실제 훈련 데이터셋으로부터 얻은 샘플인지 G로부터 얻은 샘플인지에 대한 확률을 추정합니다.

- 생성 모델 G의 훈련 과정은 D가 실수할 확률을 최대화 시킵니다.

- 이 프레임워크는 두 선수의 최소 최대 게임이라 할수 있으며, G, D는 정답을 가지고 있는 함수가 되겠습니다. G는 훈련 데이터셋의 형태로 분포를 복원시켜야 하며, D는 1/2에 가까워져야 합니다. 

- G, D를 다층 퍼셉트론으로 구현시에 전체 시스템은 역전파 과정을 통해서 학습시킬수 있으며, 마르코브 체인이나 학습이나 샘플 생성하는 동안 근사 추론 과정을 펼칠 필요가 없겠습니다.

- 실험 결과를 보면 이 프레임 워크의 잠재력을 생성된 샘플의 질적 평가와 양적 평가를 통해 보여주고 있습니다.

 

 

 

 

 

300x250
728x90

arxiv.org/abs/1604.03540

[Submitted on 12 Apr 2016]

Training Region-based Object Detectors with Online Hard Example Mining

 

0. 초록

0.1 현황

- 물체 검출 분야에서 영역 기반 합성곱 신경망을 이용하여 많은 진보가 있어왔다. 하지만 이런 방법들의 학습과정은 여전히 많이 휴리스틱/경험적이며, 많은 조정해야할 하이퍼파라미터들을 가지고 있다.

 

0.2 특징

- 그래서 영역 기반 합성곱 신경망 검출기를 효율적으로 학습하기 위한 online hard example mining OHEM 알고리즘을 소개 한다.

- 이 방법은 검출 데이터셋은 대다수의 쉬운 예시와 소수의 어려운 예시들을 가지고 있다. 여기서 어려운 예시들만 자동적으로 선택하여 학습을 더 효과적이고 효율적으로 만들겠다.

- OHEM은 단순하고, 직관적인 알고리즘인데 흔하게 사용되는 경험적인 것들과 하이퍼 파미터들을 제거한다. 하지만 더 중요한것은 이렇게 함으로서 PASCAL VOC2007, 2012같은 벤치마크에서 검출 성능이 크게 뛰어올랐다.

 

0.3 결과

- 이 덕분에 데이터셋을 더 크게, 더 어렵게 만들수 있게 되었으며, MS COCO 데이터셋을 통해 결과를 확인하였다.

- OHEM을 물체 검출 분야에서 최신 기법들과 결합함으로서 PASCAL VOC 2007, 2012에서 각각 78.9%, 76.3% mAP 결과가 나왔다.

 

 

300x250
728x90

arxiv.org/abs/1406.4729

 

[Submitted on 18 Jun 2014 (v1), last revised 23 Apr 2015 (this version, v4)]

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

 

1. 요약

1.1 현황

- 현존하는 심층 합성곱 신경망들은 고정 크기의 (e.g 224 x 224) 입력 이미지를 받고 있습니다. 이러한 요구사항은 이미지 혹은 고정 크기/스케일 하부이미지의 인식 정확도를 떨어트릴수도 있습니다.

 

1.2 특징

- 이 연구에서는 이러한 요구 사항을 제거하기 위해 "공간 피라미드 풀링 Spatial Pyramid Pooling"이라고 부르는 조금 다른 풀링 방법을 사용한 신경망을 사용하였습니다.

- 이 새로운 신경망 구조를 SPP-net이라고 부르며, 이미지 크기와 스케일에 무관하게 고정된 길이의 표현 결과를 만들어 낼수가 있습니다.

- 피라미드 풀링은 물체 변형들에도 object deformation에 강인합니다.

 

1.3 연구

1.3.1 이미지 분류

- 이러한 장점으로 SPP-net은 CNN 기반 이미지 분류들을 개선 시킬수 있었습니다.

- 이미지넷 2012 데이터셋의 경우, SPP-net은 다르게 설계된 CNN 아키텍쳐들의 정확도를 끌어올릴수 있었습니다.

- PASCAL VOC 2007과 Caltech 101 데이터셋에서도, SPP-net은 단일 이미지 표현을 사용해서, 미세 조정없이 최신의 분류 성능을 얻어낼 수가 있었습니다.

 

1.3.2 물체 검출

- SPP-net은 물체 검출에도 큰 효과를 보였는데, SPP-net을 사용하여 전체 이미지로부터 특징맵을 구해내고, 검출기를 학습 시키기 위해서 고정 길이들의 표현들을 생성시키도록  특정 영역에서 특징들을 풀링 시킵니다.

- 이 방법은 합성곱 특징들을 반복적으로 계산하는 것을 방지시킵니다.

- 테스트 이미지를 처리할때 R-CNN보다 24-102배 더 빨라졌으며, PASCAL VOC 2007데이터에서 상당히 더 정확해졌습니다.

- 이미지넷 큰 규모의 시각 인식 대회 ILSVRC 2014에서 물체 검출에서 2등을, 이미지 분류에서 38팀 중에서 3등을 차지하였습니다.

 

 

300x250
728x90

arxiv.org/abs/1506.01497

[Submitted on 4 Jun 2015 (v1), last revised 6 Jan 2016 (this version, v3)]

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

 

 

 

1. 초록

1.1 현황

- 최신 물체 검출 신경망들은 물체의 위치를 구해내기 위해서 영역 제안 알고리즘들을 사용하고 있습니다.

- 기존의 SPPnet이나 Fast R-CNN과 같은 방법들은 신경망의 물체 검출 동작 시간을 줄여왔으나 제안 영역을 구하는 과정에 병목 현상이 발생되고 있습니다.

 

1.2 특징

- 그래서 이 논문에서는 영역 제안 신경망 Region Proposal Network RPN을 소개하고자 합니다. 이 RPN은 합성곱 특징들을 검출 신경망으로 나눔으로서 제안 영역을 구하는데 비용을 줄여내었습니다.

- RPN은 Fast R-CNN에서 물체 검출에 사용되었던 부분과 같이 고 품질의 제안 영역들을 생성하도록 학습 됩니다.

- 그 다음 RPN과 Fast R-CNN을 합성곱 특징들을 공유하도록하여 합쳐진 하나의 신경망으로 만들어 지는데, 여기서 어텐션 메커니즘이 사용되며 RPN이 어떤 부분을 보아야 하는지 알려주는것이 되겠습니다.

 

1.3 결과

- VGG-16 모델을 백본으로 사용하였을때, 검출 시스템은 GPU로 5fps의 속도를 보였으며, PASCAL VOC 2007, 2012, 그리고 MS COCO 데이터셋의 이미지 당 300 제안 영역을 구하도록  하였을때 물체 검출에 있어서 높은 정홧도를 보였습니다.

- ILSVRC와 COCO 2015년 대회에서 Faster R-CNN과 RPN은 여러 부문에서 1등을 수상할수 있엇습니다.

 

300x250

+ Recent posts