728x90

arxiv.org/pdf/1706.03762.pdf

 

1. 초록

- 대부분의 시퀀스 변환 모델들은 인코더와 디코더로 구성된 복잡한 순환 혹은 합성곱 신경망을 기반으로 하고 있습니다.

- 가장 좋은 성능을 보이는 모델은 인코더와 디코더가 어텐션 메커니즘을 통해 연결되어 있음.

- 본 논문에서는 순환과 합성곱 연산을 수행하는 어텐션 기반의 간단한 신경망 아키텍처인 트랜스포머를 소개합니다.

- 두 기계 번역 작업 실험을 통해서 주어진 모델들 중에서 얼마나 잘 병렬화가 되고 학습 시간이 덜 솜모되는지를 보면서 어느것이 더 좋은지 보여주겠습니다.

- 우리의 모델은 WMT 2014 영어-to-독일어 번역 작업에서 28.4 BLEU의 성능을 얻었는데, 기존 최고 성능을 뛰어넘었으며 앙상블시 2 BLEU를 더 뛰어넘었습니다.

- WMT 2014 영어-to-프랑스어 번역 작업의 경우 우리가 만든 모델이 8개의 GPU로 3.5일간 학습을 하여 41.8 BLEU 스코어를 얻었습니다.

- 거기다가 트렌스포머가 모델이 크거나 작은 훈련 셋을 이용해서 영어 파싱하는것 같이 다른 작업에서도 일반화하여 로 잘 동작하였습니다.

300x250

+ Recent posts