728x90

요약

- 주가는 서로 다른 거래 패턴 주기로 반영하는 단기적인, 장기적인 상업 거래 활동을 통해 형성됩니다.

- 하지만 이런 패턴은 종종 실제 세계에서의 많은 불확실한 정치적, 경제적 요인들로부터 영향을 받아 예측하기가 어렵습니다.

- 그래서 주가의 타임시리즈는 비정상적이고, 비선형적이며 미래의 주가 트렌드를 예측하는것은 더 어렵게 됩니다.

- 이런 문제를 다루고자 우리는 이전 주가 데이터로부터 장, 단기 예측을 위해 다중 거래 패턴 주기를 찾아내는 새로운 상태 주기 메모리 State Frequency Memory SFM 순환 신경망을 제안하였습니다.

- 이산 푸리에 변환 DFT에서 영감을 받아 SFM은 은닉 상태 메모리 셀을 여러 주파수 요소로 분해하여, 각 각은 특정 주파수에서 잠재적인 주가 변동 거래 패턴을 반영하게 됩니다.

- 그래서 미래 주가는 이러한 요소들을 역 푸리에 변환 IFT로 비선형적으로 맵핑하여 예측할 수가 있겠습니다.

- 다중 주기 거래 패턴을 설계함으로서 더 다양한 시간대 범위에서 정확한 예측이 가능해졌습니다. 

- 단기 예측의 경우 고주파 거래 패턴에 달려있겠지만, 장기 예측의 경우 긴 기간 동안 저주파 거래 패턴에 초점을 맞춰 볼겁니다.

- 불행히도 동적인 예측을 하기 위해 다양한 거래 패턴 주기들을 명확하게 구분하는 모델은 없었습니다.

- 실제 거래 데이터를 이용한 실험에서 기존의 최신 방법들보다 SFM을 사용한 경우 더 좋은 성능을 보였습니다.

 

 

300x250
728x90

- 위성 이미지로부터 자동으로 도로 추출하는 작업은 넓은 방면에 활용될 만큼 중요함에도 불구하고, 크게 어려운 일이 많았다. 

- 그래서 최근에 나온 오픈소스와 고품질의 스페이스넷 데이터셋을 사용해서 넓은 범위로 도로 추출 신경망을 만들었으며, 이 방법을 위성 이미지를 이용한 도시 단위 도로 추출 City-scale Road Extraction from Satellite Imagery CRESI라고 불렀습니다.

- 우리는 도시 단위 영역 이미지로 도로를 직접 추출하는 신경망을 만들었는데, 길안내 목적으로 사용할 수 있겠습니다.

- 우리가 만든 알고리즘의 성능을 APLS와 TOPO 그래프 이론 척도를 이용해 608 제곱 키로미터의 테스트 지역을 정량화시켰음.

- 집계한 결과 APLS = 0.73, TOPO 0.58로 기존의 방법들보다 크게 개선되었습니다.

- 추론 속도는 일반 하드웨어로  160제곱 키러미터이상 영역에 1시간 정도 걸렸습니다.

- 마지막으로 이 도로 추출 신경망을 최적화된 경로 찾는 것과 같은 다양한 분야에 활용될 수 있음을 보여주었습니다.

300x250
728x90

GloVe: Global Vectors for Word Representation

글로브 : 단어 표현 용 전역적 벡터

 

요약

- 최근의 단어 벡터 공간을 학습하는 방법들로 이런 벡터 구조를 통해 성공적으로 미세한 의미와 문법적 일관성을 이룰수가 있었다. 하지만 원래의 일관성이 유지되는지는 불투명 하였다.

- 우리는 워드 벡터 상에서 이런 일관성을 위한 명시적인 모델 설정치들을 만들고 분석하음.

-  그 결과물은 새로운 전역적인 로그 양선형 회귀 모델로 전역적 행렬 요인화와 지역적 컨텍스트 윈도우 방법에 대한 모델의 이점들을 합쳐내었다.

- 우리가 만든 모델은 희소 행렬 전체나 큰 말뭉치에서 개별적인 컨텍스트 윈도우보다 단어에서 단어에 대한 동시 존재 행렬에서 영이 아닌 원소들만으로 학습함으로서 효율적으로 통게적 정보들을 늘려내었다.

- 이 모델은 중요한 의미를 갖는 하부구조를 가진 벡터 공간을 만들어 냄으로서 단어 아날로지 작업에서 75%의 성능을 내었으며, 비슷한 작업과 유명한 엔티티 인식 모델들을 능가하는 성능을 보였다.

300x250
728x90

요약

- 합성곱 신경망은 계층적 특징을 구하는 유용한 시각 모델인데, 이번에 end-to-end로 학습시켜 pixel-to-pixel의 결과를 내는 시멘틱세그먼테이션 분야의 최신 합성곱 신경망 모델을 소개하고자 한다.

- 여기서 중요한 개념으로 "완전 합성곱" 신경망을 만들었는데 임의의 크기의 입력을 받아 그 크기에 맞는 출력을 낸다.

- 여기서는 완전 합성곱 신경망에 대해서 자세히 소개하고, 공간적인 밀집 예측(픽셀 단위)에 사용하였습니다.

- 현세대의 분류 신경망인 알렉스넷, VGG, 구글넷을 완전 합성곱 신경망에 적용시켜, 세그먼테이션 작업에 미세조정시켰습니다.

- 그러고나서 심층의 시멘틱 정보와 깊고 거친 레이어로부터 얻은 시멘틱 정보와 얕고 미세한 층으로부터 얻은 외영 정보를 혼합하여 정확하고 자세한 세그먼테이션 결과를 만드는 새로운 아키텍처를 만들었습니다.

- 우리가 만든 완전 합성곱 신경망은 PASCAL VOC 세그먼테이션에서 최신 성능으로 2012년 62.2% mean IU보다 20%정도 개선되었으며(NYUDv2, SIFT Flow 에서도), 일반적인 이미지를 추론하는데 1/5초 이하로 처리하였습니다.

300x250
728x90

요약

- 자율 주행에서부터 의학 진단까지, 이미지 세그먼테이션은 모든 곳에서 필요로 하는 컴퓨터 비전의 중요한 영역 중 하나임.

- 이미지 세그먼테이션은 저 수준의 공간적 정보를 필요로하며, 다른 비전 작업들보다 상당히 복잡한 일이라 할수 있다.

- 이 작업을 시멘틱 세그먼테이션과 인스턴스 세그먼테이션으로 분류할 수가 있다.

- 최근에는 심층 합성곱 신경망 방법의 성공으로 세그먼테이션 분야에 크게 영향을 주었으며, 좋은 모델들이 나오게됨.

- 이 서베이 논문에서는 합성곱 신경망을 기반으로한 시멘틱/인스턴스 세그먼테이션 연구 결과의 발전과정을 살펴봄.

- 추가로 최신 모델에 대해서 자세히 살펴보고, 이 모델들의 하이퍼파라미터를 어떻게 튜닝하는지 다뤄봄.

- 그리고 이 모델들을 다른 데이터셋에다가 사용하여 성능도 비교해보았다. 

- 마지막으로 최신 파노라마 세그먼테이션 모델들을 간단하게 살펴봄.

 

 

300x250
728x90

 이번 시간에는 잔차 블록을 통해 훨씬 깊게 만들어진 신경망인 ResNet에 대한 논문을 정리해보고자 합니다. 매번 논문들을 번역하는 식으로만 공부했지만 이번에는 가능한 번역보다는 내용 흐름을 정리해보겠습니다.

 

 

1. 신경망의 층을 깊게 할 때 문제점.

1.1 신경망을 깊게 만드는 것의 중요성

 우선 심층 합성곱 신경망은 이미지 분류 작업을 시발점으로 널리 사용되었는데요. 이런 심층 신경망은 저수준/중수준/고수준 특징들을 모아서, 분류기로 end-to-end 학습을 시키게 됩니다. 여기서 특징의 복잡도는 층의 깊이에 따라 다양해질수가 있어요.

 

1.2 깊은 신경망의 문제 1 : 그라디언트 폭증/소실과 정규화

 그래서 신경망을 깊게 만드는건 중요하지만, 몇가지 문제가 발생하게 됩니다. 신경망 모델은 학습 과정에서 그라디언트로 기존의 파라미터들을 갱신하는데, 층이 깊어질수록 그라드언트가 사라지거나  폭증해서 최적의 파라미터를 찾도록 수렴하는걸 방해하거든요. 이 문제를 해결하기 위해서 파라미터를 정규화시켜 초기화 하거나 정규화 계층을 두어 풀수 있었습니다.

 

1.3 깊은 신경망의 문제 2 : 디그라데이션 degradation의 발생

 정규화 방법을 통해서 깊은 신경망도 수렴할 수 있게 되었으나 디그레디에이션 문제가 생겼습니다. 신경망의 깊이가 증가할 수록 정확도가 포화/더 이상 올라가지 않고 빠르게 감소하되는 문제가 생깁니다. 이런 디그라데이션 문제는 K. He at el와 이 논문에서의 실험 결과  신경망 모델을 더 깊게 할수록 훈련 에러가 더 높게나온다는 점에서  오버피팅에 의한 것이 아닌걸 알 수 있었습니다.

* 오버 피팅의 경우 학습 데이터에 과하게 학습된 것인데, 깊은 신경망이 더 훈련 에러가 낮아야 하지만 얕은 신경망이 훈련 에러가 더 낮다는 점에서 오버피팅이 아니라고 할 수 있습니다.

 

 

그림 1. CIFAR-10 데이터셋을 이용한 20, 56 계층의 일반 신경망의 훈련 에러(좌측), 테스트 에러(우측). 깊은 신경망일수록 훈련과 테스트 에러 둘다 높은걸 볼 수 있습니다. ImageNet 데이터셋을 이용한 실험결과는 그림 4에서 볼수 있습니다.

 

 

1.4 깊은 신경망의 문제 3 : 층을 깊이 쌓는다고 디그라이데이션을 해결 하기 어렵다!

 위 결과를 볼때 훈련 정확도의 저하, 디그라데이션 문제를 보면 모든 시스템들을 최적화 하기가 어렵다는 것을 알 수 있습니다. 얕은 신경망 아키텍처와 동일한 모델에 층을 추가해서 깊은 모델을 만들었다고 가정하면, 당연히 깊은 모델이 얕은 모델보다 훈련 에러율이 낮아야 할거에요. 하지만 위 실험 결과를 봤을때 단순히 층을 쌓는다고 해서 더 나은 결과가 나오지 않는 걸 알 수 있어요

 

300x250
728x90

[AlexNet] ImageNet Classification with Deep Convolutional Neural Networks

심층 합성곱 신경망을 이용한 이미지넷 데이터셋 분류

 

요약

 저희는 이미지넷 LSVRC-2010(ILSVRC: ImageNet Large Scale Visual Recognition Challenge) 대회에서 1.2만개의 고화질 이미지를 1000개의 클래스로 분류하는 거대하고 깊은 합성곱 신경망을 학습시켰습니다. 테스트 데이터를 사용하였을때, 우리의 모델은 top-1, top-5 에러 레이트를 각각 37.5%와 17.0%에 도달하였으며 이전의 최신 방법보다 상당히 크게 좋아진 결과를 얻었습니다. 우리의 신경망 모델은 6000만개의 파라미터와 65만개의 뉴런들을 가지고 있으며, 5개의 합성곱 계층과 몇몇 계층 뒤에는 맥스 풀링 레이어가 붙어있으며, 가장 마지막에 1000개의 소프트맥스 함수 결과를 내는 3개의 완전 연결 계층으로 이루어져있습니다. 학습 과정을 더 빠르게 하기 위해서, 뉴런들을 포화되지 않도록 했으며, 합성곱 연산을 효율적으로 수행하도록 GPU를 사용하였습니다. 그리고 완전 연결 계층에서 오버피팅 문제를 줄이기 위해서 최근 만들어진 규제 방법인 드롭아웃을 사용하였고, 훨씬 효율적임을 확인하였습니다. 또한 우리는 이 모델을 ILSVRC-2012 대회에도 참여하여 top-5 에러율을 15.3%로 두 번째 가장 좋은 성능인 26.2%보다 크게 앞서 우승하였습니다.

 

 

1. 소개

 현재 물체 인식에 있어서 머신 러닝을 활용한 방법이 필수적으로 사용되고 있습니다. 그리고 이러한 방법들의 성능을 높이기 위해서 우리는 많은 데이터셋을 모으고, 더 뛰어난 모델을 학습시켜야 하며, 오버피팅을 방지하는 좋은 방법들을 사용해야 합니다. 하지만 최근까지도 라벨링된 이미지 데이터셋은 수만개 정도로 작은 편이었습니다(NORB, Caltech-101/256, CIFAR-10/100). 간단한 인식 문제 같은 경우에는 이런 적은 크기의 데이터셋만으로도 라벨을 유지한체 약간의 변환으로 증강시켜 잘 풀수가 있었습니다. 예를들어, MNIST 손글씨 인식 문제에서 최고 에러율은 0.3%이하로 사람에 거의 근접하였습니다. 하지만 실제 환경의 물체들은 아주 다양하게 나올수 있다보니, 모델이 인식할수 있도록 학습시키려면 훨씬 많은 테스트 데이터셋이 필요하였습니다. 이런 적은 이미지 데이터셋의 문제는 널리 알려져 있었으나(Pinto et al), 최근에 수백만개의 라벨링된 이미지들을 사용할수 있게 되었습니다. 이런 훨씬 크고 새로운 데이터셋으로 LabeMe와 ImageNet이 나왔는데, LabelMe는 완전 세그먼트된(물체별로 구역이 분리된) 이미지가 수십만개가 있으며, ImageNet의 경우 22,000개 카테고리의 라벨링된 고해상도 이미지가 1500만개 넘개 가지고 있습니다.

 

 수백만개의 이미지로부터 수천가지의 물체를 학습하기 위해서는 아주 큰 학습 능력을 가진 모델이 필요합니다. 하지만 물체 인식의 엄청난 복잡성 때문에 ImageNet 만큼 거대한 데이터셋만으로 해결할 수 없습니다. 그래서 우리의 모델은 우리가 가지지 못한 모든 데이터를 고려/보완 할수 있도록 아주 많은 사전 지식또한 가지고 있어야 합니다. 합성곱 신경망(Convolutional Neural Network)로 다양한 모델들이 나왔는데 (논문 레퍼런스들이 있으나 생략), 이러한 모델들은 폭과 깊이를 조절하여 분류 능력을 조절 시킬수가 있으며, 그렇게 함으로서 통계학에서의 정상성(stationarity of statistics)와 인근 픽셀간의 의존성/연관성(locality of pixel dependencies *?) 같은 이미지의 성질에 대해서 강하고 명확한 가정들을 만들수가 있습니다 (의역:모델이 이미지에 관한 가정->지식들을 가질 수 있도록 할 수 있습니다.). 그래서 일반적인 비슷한 크기의 계층을 갖는 순전파 신경망과 비교했을때, CNN 모델들은 이론적인 최고 성능은 아주 약간은 나쁘더라도, 더 적은 연결과 파라미터 만으로도 쉽게 학습할수가 있습니다.

 

 CNN의 매력적인 성질과 아키텍처 효율성에도 불구하고, 여전히 합성곱 신경망은 아주 많은 량의 고해상도 이미지들을 처리하기에는 상당히 비용이 비싼 편입니다. 하지만 다행이도 지금의 GPU들은 2차원 합성곱 연산을 구현하는데 있어서 최적화되어있어 거대한 합성곱 신경망과 ImageNet같이 충분한 량의 라벨링된 데이터들을 가지고 있는 최근 데이터셋으로 모델을 심한 오버피팅 없이 학습하는데 유용합니다.

 

 본 논문이 기여한 사항으로는 다음이 있습니다. 우리는 ILSVRC-2010과 ILSVRC-2012에서 사용되던 이미지넷 데이터셋 일부로 가장큰 합성곱 신경망중 하나를 학습 시켜, 이전에 나온 최고 성능을 훨씬 뛰어넘었습니다. 그리고 GPU에 최적화 하여 2차원 합성곱 신경망 연산과 부차적인 연산들을 구현하여 공개시켰습니다. 그리고 우리가 만든 신경망은 여러가지 새롭고, 흔치 않은 특징->방법들을 사용하여 성능은 늘리고 학습 시간을 줄여내었고, 이 내용은 섹션 3에 자세히 서술되어 있습니다. 우리 신경망은 크기 때문에, 120만개의 라벨링된 이미지를 사용하였지만 오버 피팅이 큰 문제였습니다. 그래서 우리는 오버 피팅을 효과적으로 방지하는 여러가지 방법들을 사용하였고 섹션 4에 자세히 서술하였습니다.  그리고 우리의 최종 신경망은 5개의 합성곱 계층과 3개의 환전 연결 계층으로 이루어져 있는데, 신경망의 깊이가 중요한 것으로 보입니다. 한번 한 합성곱 신경망을 제거하였는데 (모델의 파라미터 중 1%도 안되는 양이었지만), 성능이 저하되는것을 확인하였습니다.

 

 마지막으로 우리 신경망의 크기는 현재 GPU에서 사용가능한 메모리 공간 부족과, 학습하는데 기다릴 수 있는 학습 시간 등으로 제한되어 있습니다. 그래서 우리가 만든 신경망은 2개의 GTX 580 3GB GPU를 가지고 5 ~ 6일간 학습시킨 결과이며, 우리의 모든 실험 결과 더 빠른 GPU로 더 기다리고, 더 큰 데이터셋을 사용한다면 성능이 더 좋아 질수 있다는 사실을 알 수 있었습니다.

 

 

2.  데이터셋

 ImageNet은 대략 22,000개의 카테고리를 가진 1500만개의 라벨링된 고해상도 이미지들로 이뤄진 데이터셋입니다. 이 이미지들은 웹에서 모았으며, 아마존 테크니컬 터크 크라우드 소싱 툴을 사용해서 사람이 직접 라벨링한 이미지입니다. 2010년부터 Pascal Visual Object Challenge 파스칼 시각 물체 대회의 한 파트로 시작되어 ImageNet Lager-Scale Visual Recognition Challenge(ILSVRC) 이미지넷 대용량 시각 인지 대회가 매년 개최되었습니다. ILSVRC는 ImageNet의 일부 데이터 셋을 사용하는대 대략 한 카테고리당 1000개의 이미지가 1000 카테고리로 이루어진 데이터셋을 이용합니다. 전체적으로, 대략 120만개의 훈련용 이미지와 5만개의 검증용이미지, 15만개의 테스트 이미지로 이뤄집니다.

 

 ILSVRC-2010은 ILSVRC에서 테스트셋에 라벨이 주어진 유일한 버전이었으며, 그래서 이 버전을 사용하여 실험을 진행해보았습니다. 그리고 우리는 ILSVRC-2012 대회에도 참여하였는데, 섹션 6에다가 이 때 데이터셋으로 결과를 내었으나 테스트셋 라벨은 사용할 수 없었습니다. ImageNet 데이터셋을 이용할때 관례적으로 2가지 에러 레이트로 top-1과 top-5 에러 레이트를 사용합니다. top-5 에러 레이트는 모델의 가장 가능성이 높다고 판단한 5가지 중에 올바른/실제 라벨이 존재하지 않았을때 오류의 비율을 의미합니다.

 

 ImageNet은 다양한 해상도의 이미지를 가지고 있으나, 우리 시스템의 경우 고정된 입력 차원/크기를 필요로 합니다. 그래서 우리는 이미지들을 고정 해상도 256 x 256으로 다운 샘플시켜 사용했습니다. 사각형의 이미지가 주어진다고 하면, 우선 이미지를 짧은 면의 길이가 256이 되도록 리스케일을 해주고, 리스케일된 이미지의 중앙을 256 x 256 크기 패치로 잘라내어 사용하였습니다. 그리고 각 픽셀들을 훈련셋 전체의 평균으로 빼주는것 이외에는 이미지에 별도 전처리 과정을 하지 않았습니다. 그래서 정리하자면 우리 신경망 모델은 (중앙화된) 처리되지 않은 RGB 픽셀값으로 학습되었습니다.

 

 

 

3.  아키텍처

 우리 신경망의 아키텍처는 그림 2에 정리되어 있습니다. 이 신경망 아키텍처는 8개의 학습된 레이어로 구성되어 있는데, 5개는 합성곱, 3개는 완전 연결 레이어 입니다.  그리고 그 아래에는 우리 신경망 아키텍처에 소개된 새롭고 특별한 특징들을 서술하였습니다. 섹션 3.1 - 3.4에는 우리 생각에 중요한 순서대로 나열해서 가장 중요한 것을 첫번째로 놓았습니다.

 

3.1  ReLu 비선형 함수

     

그림 1: ReLU를 이용한 4층 합성곱 신경망(그냥 선)은 CIFAR-10 데이터셋으로 학습할때 25% 학습 오류율 도달에까지 tanh를 사용한 뉴런들로 이뤄진 동일한 신경망(점선)보다 6배가 빨랐습니다. 각 신경망의 훈련률은 학습이 가장 빠르게 되도록 별도로 선정하였습니다. 여기서 규제 기법은 사용되지 않았으며, ReLU를 사용한 효과는 신경망 아키텍처에 따라서 달라지나 ReLU를 사용한 신경망이 포화 활성화 함수를 사용하는 뉴런으로 이뤄진 동일 모델보다 여러배 빠르게 학습합니다.

 

 입력 x가 주어질때 가장 기본적인 뉴런의 출력을 구하는 함수 f는 f(x) = tanh(x) [하이퍼볼릭 탄젠트 활성화 함수]나 f(x) = (1 + e^{-x})^{-1} [시그모이드 활성화 함수]가 있습니다. 하지만 훈련 중 경사 하강의 관점에서 보면 이러한 포화 활성화 함수는 비포화 활성화 함수 f(x) = max(0, x)보다 훨씬 느립니다. Nair와 Hinton의 연구에 이어서 우리는 이 활성화 함수를 사용하는 뉴런을 Rectified Linear Units(ReLUs) 개선된 선형 유닛이라 불렀습니다. ReLU를 사용하는 심층 합성곱 신경망은 tanh를 사용한 모델보 데이터셋다 여러배 빠르게 학습이 됩니다. 그림 1에 나타나 있는데, 어떤 4층 합성곱 신경망을 CIFAR-10 데이터셋으로 학습시킬떄 에러가 25%까지 도달하는데 반복 횟수를 보여주고 있습니다. 이 그림의 결과는 이번 연구에서 소개하고자 하는 거대한 신경망으로 실험을 진행할수가 없어 고전 포화 뉴런 모델을 사용하였습니다.

 

 하지만 우리가 첫 번째로 합성곱 신경망을 기존 뉴런 모델(sigmoid 비선형 함수를 얘기하는 듯) 대신 다른 뉴런 모델을 사용하는걸 고려한 사람들이 아닙니다. 예를들어 Jarrett et al은 f(x) = |tanh(x)| 비선형 함수가 Caltech-101 데이터셋에서 지역 평균 풀링을 추가 시킬때 잘 동작한다고 하였습니다. 하지만 그 데이터셋에서 오버피팅이 일어나지 않도록 고민한 것이라, Jarrett가 얻은 효과는 우리가 ReLU를 사용해서 훈련셋 학습을 가속화시킨 것과는 다르다고 할수 있겠습니다. 빠른 학습은 큰 데이터셋으로 학습된 거대한 모델의 성능에 중요한 영향을 가집니다.

 

 

3.2  여러 개의 GPU로 학습 하기

 하나의 GTX 580 GPU는 3GB 메모리 공간 뿐이라 학습시키고자 하는 신경망의 최대 크기를 제한하였습니다. 그렇다 보니 120만개의 훈련 데이터들은 신경망을 학습시키는데 충분한 양이었으나 GPU 하나만으로는 너무 많았습니다. 그래서 우리는 두 GPU를 사용하였는데, 현재 나온 GPU들이 병렬 작업을 하는데 적합하다보니, 호스트 컴퓨터의 메모리를 거쳐갈 필요 없이 GPU 메모리로부터 직접 읽고 쓰기를 할수 있었습니다. 우리가 사용한 병렬화 기법은 신경망(뉴런들) 절반을 각각의 GPU에다가 나누어줬는데, 트릭으로 GPU간에 일부 레이어들에서만 같이 연산할 수 있도록 만들었습니다. 정리를 하자면 3번째 커널/레이어는 2번째 레이어의 모든 커널/특징맵들을 입력으로 받을 수 있지만, 4번째 레이어는 같은 GPU에 있는 3번쨰 레이어의 특징맵들만을 입력으로 받을수가 있습니다. 어떤 연결 패턴을 사용할지 고르는건(? : 다양하게 연결시키는건) 교차 검증에 문제가 될수 있지만, 연산량 비중이 충분해 질때까지 GPU간의 소통량을 더 미세하게 조정할수 있도록 해줍니다. (? 일부 레이어들은 서로다른 GPU 레이어의 출력들을 사용가능한데, 연결패턴->어떻게 다른 GPU로부터 가져오는지에 따라서 미세 조정을 할수 있게 된다?? 정도로 이해됨.)

 

 우리가 만든 아키텍터 결과물은 (그림2를 보면) 컬럼들이 독립적이지 않다는 점만을 빼면 Ciresan et al의 columnar CNN과 비슷하다고 할수 있겠습니다. 이 방법으로 합성곱 레이어 절반을 GPU 하나에서만 학습하도록 시켰을때와 비교하여, top-1, top-5 에러 레이트를 각각 1.7%, 1.2% 정도 줄여내었습니다. 2개의 GPU를 사용하여 만든 신경망은 GPU 1개를 사용한 경우보다 학습 시간이 약간 적었습니다. 

 

 

 

 

 

300x250
728x90

0. 초록

- 하나의 심층 신경망으로 이미지에서 물체들을 검출하는 방법을 소개함.

- 우리가 고안한 SSD라는 방법은 바운딩 박스들의 출력 공간을 특징맵 위치 마다 다양한 종횡비와 스케일을 가지는 디폴트 박스들의 집합으로 이산화를 시킨다.

- 추정을 할때, 신경망은 각 디폴트 박스의 물체 카테고리에 대한 스코어를 만들어내고, 해당 박스가 물체 형태에 더 잘맞도록 조정치를 만들어 준다.

- 추가적으로 신경망은 다양한 크기의 물체들을 다루기 위해서 다양한 해상도에서의 특징맵으로부터 얻은 예측치를 혼합시킨다.

- SSD는 영역 제안 생성과 픽셀이나 특징 리샘플링 단계 등을 없앰으로서 비교적 간단하며, 하나의 신경망에 모든 연산과정을 담아내었다.

- 이렇게 하여  SSD는 쉽게 학습할수 있고, 직관적으로 검출 부분을 시스템에 합쳐내었다.

- PASCAL VOC, COCO, ILSVRC 데이터셋으로 실험한 결과 SSD는 훈련과 추론 시 물체 제안 단계에서 유용하고, 더 빨랐습니다

- 300 x 300 입력을 넣은경우 SSD는 74.3% mAP.(VOC2007 테스트), 59FPS(엔비디아 타이탄X)를 얻었으며, 512 x 512 입력시 Faster R-CNN을 능가하는 76.9% mAP를얻었습니다.

- 다른 단일 단계 방법들과 비교해서도 SSD가 입력 이미지가 더 작은 상황에서도 더 높은 정확도를 가졌습니다.

300x250
728x90

0. 초록

- 라벨되지 않은 큰 말뭉치로 학습된 연속적인 단어 표현들은 많은 자연어 처리 작업에서 유용합니다.

- 유용한 모델은 각 단어에 서로 구별되는 벡터를 줌으로서 단어의 형태를 무시하고 학습을 시킵니다.

- 이 점이 거대한 사전과 많은 드문 단어들로 언어를 다루는 경우 문제점이라 할수 있습니다.

- 본 논문에서는 스킵그램 모델에 기반한 새로운 방법을 소개하고자 하는데, 각 단어들은 n그램의 단어 가방으로 표현됩니다.

- 벡터 표현은 각 단어 n그램과 연관되어, 단어들은 이러한 표현의 합으로 나타내집니다.

- 이 방법으로 모델이 거대한 말뭉치를 빠르게 학습할수있게하며, 훈련 데이터에 나타나지 않는 단어들에 대한 단어 표현들도 계산할 수 있게됩니다.

- 또 우리의 단어 표현을 단어 유사도와 아날로그 작업에서 다른 9가지의 언어들에서도 평가해보았습니다.

- 최근 제안된 형태학적인 단어 표현들과 비교함으로서, 우리의 벡터가 이런 작업들을 하는데 좋은 성능을 내는것을 보여주고자 합니다.

300x250
728x90

0. 초록

- 본 논문에서는 (문법과 의미론적인) 단어 사용에 있어서 복잡한 특성과 다양한 언어적 컨텍스트를  어떻게 사용하는지를 고려한 새로운 타입의 심층 컨텍스트화된 단어 표현 deep contextualized word representation을 소개하고자 합니다.

- 우리의 단어 벡터는 많은 량의 텍스트 말뭉치로 학습된 심층 양방향 언어모델 deep bidirectional language model(biLM)의 내부 상태 함수로 학습됨.

- 이 표현은 기존의 현존하는 모델에 간단하게 추가시킬수가 있으며, 대표적인 NLP문제들 질의응답, 감정분석, 텍스처 분석 등에서 큰 성능 향상을 보였습니다.

- 우리는 또한 선학습된 신경망의 내부정보를 노출 시키는것이 중요하다는 사실과, 다운스트림 모델에 다른 타입의 준지도 신호들을 섞어본 결과를 분석하여 보여주고자 합니다.

300x250

+ Recent posts