728x90
1. 초록
- 대부분의 시퀀스 변환 모델들은 인코더와 디코더로 구성된 복잡한 순환 혹은 합성곱 신경망을 기반으로 하고 있습니다.
- 가장 좋은 성능을 보이는 모델은 인코더와 디코더가 어텐션 메커니즘을 통해 연결되어 있음.
- 본 논문에서는 순환과 합성곱 연산을 수행하는 어텐션 기반의 간단한 신경망 아키텍처인 트랜스포머를 소개합니다.
- 두 기계 번역 작업 실험을 통해서 주어진 모델들 중에서 얼마나 잘 병렬화가 되고 학습 시간이 덜 솜모되는지를 보면서 어느것이 더 좋은지 보여주겠습니다.
- 우리의 모델은 WMT 2014 영어-to-독일어 번역 작업에서 28.4 BLEU의 성능을 얻었는데, 기존 최고 성능을 뛰어넘었으며 앙상블시 2 BLEU를 더 뛰어넘었습니다.
- WMT 2014 영어-to-프랑스어 번역 작업의 경우 우리가 만든 모델이 8개의 GPU로 3.5일간 학습을 하여 41.8 BLEU 스코어를 얻었습니다.
- 거기다가 트렌스포머가 모델이 크거나 작은 훈련 셋을 이용해서 영어 파싱하는것 같이 다른 작업에서도 일반화하여 로 잘 동작하였습니다.
300x250
'그외 > 논문' 카테고리의 다른 글
Fast R-CNN 재정리 (0) | 2021.04.26 |
---|---|
Fully Convolutional Networks for Semantic Segmentation (0) | 2021.04.22 |
Zero-Shot Text-to-Image Generation (0) | 2021.04.19 |
You Only Look Once: Unified, Real-Time Object Detection (0) | 2021.04.18 |
Generative Adversarial Networks (0) | 2021.04.18 |