- 심층 신경망을 잘 학습하기 위해서는 수 많은 훈련 샘플을 필요로 한다는 것에 많은 사람들이 동의를 하고 있다.
- 이 논문에서는 신경망과 훈련 방법을 소개하고자 하는데, 데이터 증강을 이용하여 더 효율적으로 샘플을 사용하고자 한다.
- 이 아키텍처는 컨텍스트를 찾아내기 위한 수축 경로와 이를 대칭적으로 정밀한 위치 추정을 하는 팽창 경로로 이루어져 있다.
- 이 신경망을 아주 적은 수의 이미지만으로 end-to-end로 학습하여, ISBI 대회의 미세 이미지를 이용한 세그먼테이션 분야에서 지난 최고의 방법을 능가하였고, 2015년 ISBI 세포 추적 대회에서 큰 격차로 우승하였다.
- 이 신경망은 빨라, 512 x 512 크기의 이미지도 GPU로 몇초안에 세그먼테이션을 수행할 수 있음.
1. 소개
- 최근 2년간 심층 신경망을 이용하는 방법이 많은 시각 인지 작업 분야에서 높은 성과를 보이고 있다.
- 합성곱 신경망은 나온지 오랜 시간이 지났지만, 사용 가능한 훈련셋의 크기와 신경망의 크기 때문에 잘 사용되지 못하였었다.
- 하지만 Krizhevsky가 100만개로 이루어진 이미지넷 데이터셋을 8계층의 수백만 파라미터로 구성된 신경망을 지도 학습을 함으로서 시발점이 되었고, 그 이래로 더 크고 깊어진 신경망이 나오고 있다.
- 기존의 합성곱 신경망은 이미지가 주어지면 단일 클래스 라벨을 출력하는 분류 작업에만 사용되어옴.
- 하지만 많은 시각 작업 분야에서, 특히 생체 이미지 처리에서는 위치에 대한 정보도 필요로 하고있는데, 예를 들어 클래스 라벨이 각 픽셀단위로 있어야 한다.
- 게다가 생명의악 분야에도 수많은 훈련할 이미지들이 있다. Ciresan은 슬라이딩 윈도우를 사용하여, 해당 로컬 지역(패치), 픽셀을 입력으로 주어 각 픽셀의 라벨을 예측하는 신경망을 학습하였는데, 이 신경망은 위치를 추정하고, 훈련 이미지의 수보다 패치 단위의 훈련 데이터가 훨씬 컸다. 이 신경망은 IBSI 2012 EM 세그먼테이션 대회에서 큰 격차로 우승하였다.
- Ciresan의 방법은 두가지 문제점이 있었는데, 신경망은 각 패치 단위를 개별적으로 돌리고, 패치들간에 어쩔수 없이 많은 부분이 겹치는 탓에 꽤 느렸다.
- 두번째로 위치 추정의 정확도와 컨텍스트 사용의 트레이드 오프가 있었는데, 큰 패치일 수록 위치 추정 정확도를 줄이는 형향을 주는 더 많은 맥스 풀링 레이어가 필요하였고, 작은 패치일경우 적은 컨택스트밖에 보지못하였다.