728x90

0. 초록

- 라벨되지 않은 큰 말뭉치로 학습된 연속적인 단어 표현들은 많은 자연어 처리 작업에서 유용합니다.

- 유용한 모델은 각 단어에 서로 구별되는 벡터를 줌으로서 단어의 형태를 무시하고 학습을 시킵니다.

- 이 점이 거대한 사전과 많은 드문 단어들로 언어를 다루는 경우 문제점이라 할수 있습니다.

- 본 논문에서는 스킵그램 모델에 기반한 새로운 방법을 소개하고자 하는데, 각 단어들은 n그램의 단어 가방으로 표현됩니다.

- 벡터 표현은 각 단어 n그램과 연관되어, 단어들은 이러한 표현의 합으로 나타내집니다.

- 이 방법으로 모델이 거대한 말뭉치를 빠르게 학습할수있게하며, 훈련 데이터에 나타나지 않는 단어들에 대한 단어 표현들도 계산할 수 있게됩니다.

- 또 우리의 단어 표현을 단어 유사도와 아날로그 작업에서 다른 9가지의 언어들에서도 평가해보았습니다.

- 최근 제안된 형태학적인 단어 표현들과 비교함으로서, 우리의 벡터가 이런 작업들을 하는데 좋은 성능을 내는것을 보여주고자 합니다.

300x250
728x90

0. 초록

- 본 논문에서는 (문법과 의미론적인) 단어 사용에 있어서 복잡한 특성과 다양한 언어적 컨텍스트를  어떻게 사용하는지를 고려한 새로운 타입의 심층 컨텍스트화된 단어 표현 deep contextualized word representation을 소개하고자 합니다.

- 우리의 단어 벡터는 많은 량의 텍스트 말뭉치로 학습된 심층 양방향 언어모델 deep bidirectional language model(biLM)의 내부 상태 함수로 학습됨.

- 이 표현은 기존의 현존하는 모델에 간단하게 추가시킬수가 있으며, 대표적인 NLP문제들 질의응답, 감정분석, 텍스처 분석 등에서 큰 성능 향상을 보였습니다.

- 우리는 또한 선학습된 신경망의 내부정보를 노출 시키는것이 중요하다는 사실과, 다운스트림 모델에 다른 타입의 준지도 신호들을 섞어본 결과를 분석하여 보여주고자 합니다.

300x250
728x90

0. 초록

- 심층 신경망을 잘 학습하기 위해서는 수 많은 훈련 샘플을 필요로 한다는 것에 많은 사람들이 동의를 하고 있다.

- 이 논문에서는 신경망과 훈련 방법을 소개하고자 하는데, 데이터 증강을 이용하여 더 효율적으로 샘플을 사용하고자 한다.

- 이 아키텍처는 컨텍스트를 찾아내기 위한 수축 경로와 이를 대칭적으로 정밀한 위치 추정을 하는 팽창 경로로 이루어져 있다.

- 이 신경망을 아주 적은 수의 이미지만으로 end-to-end로 학습하여, ISBI 대회의 미세 이미지를 이용한 세그먼테이션 분야에서 지난 최고의 방법을 능가하였고, 2015년 ISBI 세포 추적 대회에서 큰 격차로 우승하였다.

- 이 신경망은 빨라, 512 x 512 크기의 이미지도 GPU로 몇초안에  세그먼테이션을 수행할 수 있음.

 

1. 소개

- 최근 2년간 심층 신경망을 이용하는 방법이 많은 시각 인지 작업 분야에서 높은 성과를 보이고 있다.

- 합성곱 신경망은 나온지 오랜 시간이 지났지만, 사용 가능한 훈련셋의 크기와 신경망의 크기 때문에 잘 사용되지 못하였었다.

- 하지만 Krizhevsky가 100만개로 이루어진 이미지넷 데이터셋을 8계층의 수백만 파라미터로 구성된 신경망을 지도 학습을 함으로서 시발점이 되었고, 그 이래로 더 크고 깊어진 신경망이 나오고 있다.

 

- 기존의 합성곱 신경망은 이미지가 주어지면 단일 클래스 라벨을 출력하는 분류 작업에만 사용되어옴.

- 하지만 많은 시각 작업 분야에서, 특히 생체 이미지 처리에서는 위치에 대한 정보도 필요로 하고있는데, 예를 들어 클래스 라벨이 각 픽셀단위로 있어야 한다.

- 게다가 생명의악 분야에도 수많은 훈련할 이미지들이 있다. Ciresan은 슬라이딩 윈도우를 사용하여, 해당 로컬 지역(패치), 픽셀을 입력으로 주어 각 픽셀의 라벨을 예측하는 신경망을 학습하였는데, 이 신경망은 위치를 추정하고, 훈련 이미지의 수보다 패치 단위의 훈련 데이터가 훨씬 컸다. 이 신경망은 IBSI 2012  EM 세그먼테이션 대회에서 큰 격차로 우승하였다.

 

- Ciresan의 방법은 두가지 문제점이 있었는데, 신경망은 각 패치 단위를 개별적으로 돌리고, 패치들간에 어쩔수 없이 많은 부분이 겹치는 탓에 꽤 느렸다.

- 두번째로 위치 추정의 정확도와 컨텍스트 사용의 트레이드 오프가 있었는데, 큰 패치일 수록 위치 추정 정확도를 줄이는 형향을 주는 더 많은 맥스 풀링 레이어가 필요하였고, 작은 패치일경우 적은 컨택스트밖에 보지못하였다.

300x250
728x90

0. 초록

- 이 논문에서는 물체 검출을 위한 고속의 영역 기반 합성곱 신경망 Fast R-CNN을 소개함.

- Fast R-CNN은 기존의 작업을 기반으로 해서 심층 합성곱 신경망을 이용하여 효율적으로 물체 영역들을 분류함.

- 이전의 연구와 비교할때, Fast R-CNN은 여러 벼화를 통해 훈련과 테스트 속도는 빠르고, 검출 정확률을 더 높임.

- Fast R-CNN은  VGG16 신경망을 기반으로 R-CNN보다 훈련시에는 9배, 테스트시에는 213배 더 빨라졌으며, PASCAL VOC 2012에서 더 높은 mAP를 도달할 수 있었습니다.

- SPPnet과 비교할때 Fast R-CNN은 VGG16 신경망을 학습해서 3배 더 빨라지고, 훈련시에는 10배, 그리고 더 정확한 결과를 얻었습니다.

- Fast R-CNN은 카페를 이용해서 파이썬과 C++로 구현되었고, MIT License 오픈소스로 사용 가능합니다.

 

 

1. 소개

 

1.1 R-CNN과 SPPnet

 R-CNN은 합성곱 신경망으로 물체 제안 영역들을 높은 정확도로 분류할수 있었으나 아래와 같은 단점들을 가지고 있습니다.

 1. 훈련 과정이 여러 단계의 파이프라인으로 구성되어있음.

 - R-CNN은 먼저 합성곱 신경망을 로그 비용을 사용해서 물체 제안에 맞게 미세조정을 거칩니다.

 - 그 다음 SVM으로 합성곱 신경망 특징을 학습함. 이 SVM은 소프트맥스 분류기를 대신하여 물체검출기 역활을 함.

 - 세 번째 훈련 단계에서는 바운딩 박스 회귀기가 학습딤.

 2. 학습하는데 공간과 시간적 비용이 큼.

  - SVM과 바운딩 박스 회귀기를 돌리기 위해서, 매 이미지마다 제안 영역들의 특징들을 추출해서 디스크에 저장해야함.

  - VGG16 같은 심층 신경망의 경우 VOC07 훈련 셋 이미지 5K를 학습하는데만 2.5GPU-일이 걸림.

  - 특징들을 저장하는데만 수 백 기가바이트용량을 필요로함.

 3. 물체 검출이 느림

  - 테스트시 특징들을 테스트 이미지로부터 각 물체 제안 영역으로부터 추출이 되는데, 검출 과정만 이미지당 47초가 걸림(GPU)

 

1.2 개선점

 우리가 제안한 알고리즘은 R-CNN과 SPPnet의 단점들을 고쳐 더 높은 속도와 정확도를 얻어내었으며, 학습과 테스트가 더 빨라졌으므로 이 알고리즘 이름을 Fast R-CNN이라고 함. Fast R-CNN은 아래와 같은 이점을 가짐

 

 1. R-CNN, SPPnet보다 높은 검출 퀄리티 (mAP)

 2. 훈련이 다중 작업 비용을 사용하여 한 단계로 이루어짐

 3. 훈련 과정으로 모든 신경망 레이어가 갱신됨.

 4. 특징 캐싱에 디스크 공간을 필요로 하지 않음.

 

2. Fast R-CNN 아키텍처와 학습

그림 1. Fast R-CNN 아키텍처. 입력 이미지와 다중 관심 영역(ROI)이 완전 합성곱 신경망에 입력으로 들어갑니다. 각 ROI는 고정 크기의 특징 맵으로 풀되고, 완전 연결 레이어를 통해 특징 백터로 맵핑됩니다. 이 신경망은 ROI당 두 출력 벡터를 가집니다.

 

2.1 ROI Pooling Layer

 

2.2 선학습된 신경망으로 초기화

 

2.3 검출에 맞게 미세 조정하기

 

2.4 스케일 불변성

300x250
728x90

초록

- 합성곱 신경망은 계층화된 특징들을 구하는데 유용한 시각 모델임.

- end-to-end로 학습되고, 픽셀 대 픽셀로 최신 시멘틱 세그먼테이션을 능가하는 합성곱 신경망을 소개합니다.

- 우리 연구의 핵심은 완전 합성곱 신경망 fully convolutional network를 만든 것으로 일정 크기의 입력을 받아 추론과 학습에 효율적인 크기의 출력을 만들어 냅니다.

- 그리고 현세대의 분류 신경망인 AlexNet, VGG net, GoogleNet을 완전 연결 신경망에 적용하고, 세그먼테이션 작업에 맞게 미세 조정하여 학습된 표현들을 전이시키겠습니다.

- 심층, 거친 레이어에서의 시멘틱 정보와, 얕고 미세한 레이어로부터 얻은 외양 정보를 결합하여 정확하고, 세밀한 세그먼테이션을 구하는 새로운 아키텍처를 정의하였습니다.

- 우리의 완전 연결 합성곱 신경망은 PASCAL VOC 세그먼테이션에서 뛰어난 성능을 보였으며 2012년 62.2% mean IU와 비교하여 20%정도 성능 향상이 있었습니다.

 

 

 

300x250
728x90

 

 

 

 

 

 

300x250
728x90

arxiv.org/pdf/1706.03762.pdf

 

1. 초록

- 대부분의 시퀀스 변환 모델들은 인코더와 디코더로 구성된 복잡한 순환 혹은 합성곱 신경망을 기반으로 하고 있습니다.

- 가장 좋은 성능을 보이는 모델은 인코더와 디코더가 어텐션 메커니즘을 통해 연결되어 있음.

- 본 논문에서는 순환과 합성곱 연산을 수행하는 어텐션 기반의 간단한 신경망 아키텍처인 트랜스포머를 소개합니다.

- 두 기계 번역 작업 실험을 통해서 주어진 모델들 중에서 얼마나 잘 병렬화가 되고 학습 시간이 덜 솜모되는지를 보면서 어느것이 더 좋은지 보여주겠습니다.

- 우리의 모델은 WMT 2014 영어-to-독일어 번역 작업에서 28.4 BLEU의 성능을 얻었는데, 기존 최고 성능을 뛰어넘었으며 앙상블시 2 BLEU를 더 뛰어넘었습니다.

- WMT 2014 영어-to-프랑스어 번역 작업의 경우 우리가 만든 모델이 8개의 GPU로 3.5일간 학습을 하여 41.8 BLEU 스코어를 얻었습니다.

- 거기다가 트렌스포머가 모델이 크거나 작은 훈련 셋을 이용해서 영어 파싱하는것 같이 다른 작업에서도 일반화하여 로 잘 동작하였습니다.

300x250
728x90

초록

- 텍스트에서 이미지 생성은 주어진 데이터셋으로 학습 과정 중 더 나은 모델 가정을 찾아내는 것에 집중을 해 왔었다.

- 이러한 가정들로 복잡한 아키텍처나, 추가적인 비용 함수, 물체 일부 라벨이나 세그먼테이션 마스크 같은 보조적인 정보들이 있음.

- 이미지와 텍스트를 하나의 스트림 데이터로 자기회귀적으로 다루는 트랜스 포머를 기반으로하는 방법을 소개하겠다.

- 충분한 데이터와 량이 주어지면, 우리가 소개한 방법은 없는 학습 하지 않은 데이터도 평가시에 다른 도메인 특화 방법들과 경쟁할만함.

 

 

300x250
728x90

 

 

 

 

 

300x250
728x90

[Submitted on 8 Jun 2015 (v1), last revised 9 May 2016 (this version, v5)]

You Only Look Once: Unified, Real-Time Object Detection

 

 

0. 요약

0.1 소개

- 물체 검출을 위한 새로운 방법인 YOLO를 소개합니다. 이전의 물체 검출 연구에서는 분류기가 검출을 수행할 수 있도록 고쳤습니다.

- YOLO는 대신 물체 검출을 나눠진 바운딩 박스들과 이에 연관된 클래스 확률에 대한 회귀 문제로 만들었습니다.

- 하나의 신경망은 이미지로부터 바운딩 박스와 클래스 확률들을 예측하는데, 전체 검출 파이프라인이 하나의 신경망으로 이루어져 있으므로 end-to-end로 검출 성능을 최적화 시킬수가 있습니다.

 

0.2 속도

- 우리가 소개한 아키텍처는 매우 빠르며, YOLO 베이스 모델의 경우 초당 45프레임으로 실시간으로 이미지를 처리합니다. 

- 더 작아진 신경망 버전인 Fast YOLO는 초당 155 프레임의 처리속도를 가졌을 뿐더러 다른 실시간 물체 검출기의 mAP의 두배에 달하는 성능을 유지하고 있습니다.

 

0.3 특징

- 최신 검출 시스템과 비교해서 YOLO는 더 많은 위치 추정 에러를 가지고 있기는 하나 배경을 거짓 긍정으로 예측하는 경우를 줄였습니다.

- 마지막으로 YOLO는 물체의 일반적인 표현들을 학습하여, 일반 자연스러운 이미지에서 미술품 같은 특정 도메인까지 DPM과 R-CNN과 같은 다른 방법보다 우수한 성능을 보이고 있습니다.

 

 

 

 

 

1. 소개

 사람의 경우 이미지를 한번 보면 그 이미지에 있는 물체가 무엇이고, 어디에 있는지, 이들이 뭘하는지 한번에 알수 있습니다. 그래서 사람의 시각 시스템은 빠르고 정확하며 무의식적으로 복잡한 작업을 할수 있게 됩니다. 물체 검출을 위한 빠르고 정확한 알고리즘을 이용하면 컴퓨터가 특별한 센서 없이 차를 운전할수 있게 도우며, 사람에게 실시간 정보를 전달하거나, 더 범용적인 목적으로, 로봇 시스템 같은데 활용될 잠재력을 가지고 있습니다.

 

 현재 검출 시스템은 분류기를 검출을 수행할수 있도록 수정한 것입니다. 물체를 검출하기 위해서 이러한 시스템들은 물체의 분류기가 테스트 이미지의 어느 장소에, 스케일이 있는지 추정해 냅니다. 변환 파츠 모델 Deformable Parts Model DPM같은 시스템은 슬라이딩 윈도우 방법으로 분류기를 이미지 전체 위치에다가 동작시켰습니다.

 

 R-CNN같이 더 최근 방법의 경우 영역 제안 방법을 통해서 이미지의 첫번쨰 잠재 바운딩 박스들을 생성해내고, 주어진 바운딩 박스에다가 분류기를 동작시킵니다. 분류한 후에 후처리 과정을 통해 바운딩 박스의 위치를 고치고, 중복된 검출을 제거하고, 다시 박스에 다른 물체가 있는지 평가 합니다. 하지만 이런 복잡한 파이프라인은 각 요소들이 독립적으로 학습되어야 하다보니 느리고, 최적화하기가 어려운 문제가 있겠습니다.

 

 우리는 물체 검출을 하나의 회귀 문제로 봄으로서, 이미지 픽셀들로부터 바로 바운딩 박스의 좌표와 클래스 확률을 구해냅니다. 이 시스템을 사용해서 여러분은 이미지를 한번만 봄으로서 어떤 물체가 있고, 어디에 위치하는지 예측할수가 있겠습니다.

 

 

그림 1. YOLO 검출 시스템. YOLO를 이용한 이미지 처리는 단순하며 직관적입니다. 이 시스템은 (1)에서 입력 이미지를 448 x 448로 크기를 바꿉니다. (2)에서는 한 합성곱 신경망을 돌리고, (3)에서 모델의 신뢰도로 검출 결과들을 임계화 시킵니다.

 YOLO는 단순합니다. 그림 1을 보면 한 합성곱 신경망이 동시에 바운딩 박스들과 클래스 확률들을 예측해 냅니다. 욜라는 전체 이미지를 학습하고, 검출 성능을 최적화 시킬수가 있어요. 이 통합된 모델은 기존의 물체 검출기들보다 다양한 이점을 가질수가 있습니다.

 

 첫번째로, 우선 YOLO는 아주 빠릅니다. 검출을 회귀 문제로 만든 덕분에 복잡한 파이프 라인 필요없이 새로운 이미지를 신경망에다가 돌려서 검출 결과들을 예측하면 됩니다. 기본 신경망의 경우 Titan X GPU에서 배치 처리 없이 초당 45 프레임 속도로 동작하였으며, 빠른 버전의 경우 150 fps이상의 속도를 보였습니다. 이는 적어도 25ms 레이턴시 아래로 실시간으로 비디오 스트리밍을 처리할수 있겠습니다. 거기다가 YOLO는 다른 실시간 시스템보다 mAP가 2배 이상의 성능을 보이고 있습니다.

 

 두번쨰는, YOLO는 예측 할때 전역적으로 추론합니다. 슬라이딩 윈도우나 영역 제안 기법과는 달리 YOLO는 훈련과 테스트 시 전체 이미지를 보고, 묵시적으로 클래스 뿐만 아니라 외형에 대한 상황적인 정보를 인코드 합니다. 최고의 검출 방법이라 할 수 있는 Fast R-CNN은 더 큰 상황을 볼수 없기 때문에 이미지에 존재하는 물체에 대해서 잘못된 배경 패치를 구할수 있습니다. 하지만 YOLO는 Fast R-CNN과 비교하여 절반정도 안되는 배경 오류를 구합니다

 

 세번째는 YOLO는 물체의 일반화 시킨 표현들을 학습시킵니다. 자연스러운 이미지를 학습하고, 미술품으로 테스트시에 YOLO는 DPM이나 R-CNN같은 다른 방법들보다 큰 폭으로 높은 성능을 보입니다. YOLLO는 크게 일반화 할수 있기 때문에 새로운 분야나 예상치 못한 입력에도 오작동 할 가능성이 적겠습니다.

 

  하지만 YOLO는 여전히 최신 검출 시스템들과 비교할떄 정확성 면에서 여전히 뒤떨어 지고 있습니다. YOLO는 이미지 상에 존재하는 물체들을 빠르게 식별할수 있지만 작은 물체들의 경우 힘들게 찾아냅니다. 이에 대해 실험을 통해 트레이드 오프를 조사해보았습니다.

 

 우리의 훈련과 테스트 코드 전체는 오픈소스이며, 선학습된 모델 또한 다운받아서 사용할수 있습니다.

 

 

2.  통합된 검출 Unified Detection

 

  본 논문에서는 물체 검출의 다양한 요소들을 하나의 신경망으로 합쳤습니다. 우리의 신경망은 이미지 전체로부터 얻은 특징들을 각 바운딩 박스를 예측하는데 사용하였고, 모든 바운딩 박스와 동시에 클래스를 예측해내었습니다. 즉, 우리가 제안한 신경망은 이미지 전체를 전역적으로, 모든 물체들을 추론해낸다고 할수 있겠습니다. YOLO 디자인은 end-to-end 학습이 가능하며, 높은 평균 정밀도를 유지하면서 실시간성을 가지고 있습니다.

 

 이 시스템은 입력 이미지를 S x S 크기의 그리드로 분할 시킵니다. 물체의 중심이 그리드 셀에 있다면, 그 그리드 셀은 물체가 존재한다고 할수 있겠습니다.

 

 각 그리드셀은 B개의 바운딩 박스와 이 박스들의 신뢰도 스코어를 예측해냅니다. 이 신뢰도 스코어는 모델이 얼마나 신뢰할수 있게 박스가 물체를 포함하고 있는지, 그리고 그 박스가 얼마나 정확하게 예측하고 있는지를 반영합니다. 일단 신뢰도를 Pr(Object) * IOU(truth_pred) 로 정의하면, 물체가 셀에 존재하지 않는 경우 신뢰도 스코어는 0이 되겠습니다. 하지만 우리는 신뢰도 스코어가 예측된 박스와 그라운드 트루스 박스 사이의 IOU와 동일하기를 원했습니다.

 

 각 바운딩 박스는 5개의 예측치로 구성됩니다. x, y, w, h, 신뢰도. 여기서 (x, y)는 그리드 셀에서의 박스 중심점 위치를 나타내고, 폭과 높이는 전체 이미지에 대한 상대적인 예측 비율. 마지막으로 신뢰도 예측치는 예측 박스와 그라운드 트루스 박스 사이 IOU로 나타내겠습니다.

 

 그리고 각 그리드 셀은 C개의 조건부 클래스 확률들 Pr(Class_i | Object)를 예측 합니다. 이 확률들은 그리드 셀이 한 물체를 포함하고 있을지를 조건으로 하고 있습니다.  박스의 개수 B에 상관없이 각 그리드셀마다 클래스 확률을 예측한다고 할수 있겠습니다. 

 

 테스트 시에 조건부 클래스 확률과 개 개별 박스 신뢰도 예측치를 곱하여 정리하면, 각 박스당 클래스 신뢰도 스코어를 얻을수 있게 됩니다.

 이 스코어는 박스에 존재하는 클래스의 확률과 예측된 박스가 물체에 얼마나 적합한지를 인코드 합니다.

 

그림 2. 모델. 회귀 문제로서 검출 시스템이 설계 되었습니다. 이 모델은 이미지를 S x S 그리드로 나누고, 각 그리드 셀은 B개의 바운딩 박스들과 이 박스들의 신뢰도, C개의 클래스에 대한 확률들을 예측합니다. 이러한 예측 결과는 S X S X ( B * 5 + C) 텐서로 인코드 됩니다.

 YOLO로 PASCAL VOC셋을 평가하기 위해서 S = 7, B = 2로 설정시, PASCAL VOC는 20개의 라벨 클래스를 가지고 있으므로, C = 20으로 하겠습니다. 그 결과 최종 예측은 7 x 7 x 30 텐서가 나오게 됩니다.

 

300x250

+ Recent posts