Attention Is All You Need

2021. 4. 19. 16:55

728x90

1. 초록

- 대부분의 시퀀스 변환 모델들은 인코더와 디코더로 구성된 복잡한 순환 혹은 합성곱 신경망을 기반으로 하고 있습니다.

- 가장 좋은 성능을 보이는 모델은 인코더와 디코더가 어텐션 메커니즘을 통해 연결되어 있음.

- 본 논문에서는 순환과 합성곱 연산을 수행하는 어텐션 기반의 간단한 신경망 아키텍처인 트랜스포머를 소개합니다.

- 두 기계 번역 작업 실험을 통해서 주어진 모델들 중에서 얼마나 잘 병렬화가 되고 학습 시간이 덜 솜모되는지를 보면서 어느것이 더 좋은지 보여주겠습니다.

- 우리의 모델은 WMT 2014 영어-to-독일어 번역 작업에서 28.4 BLEU의 성능을 얻었는데, 기존 최고 성능을 뛰어넘었으며 앙상블시 2 BLEU를 더 뛰어넘었습니다.

- WMT 2014 영어-to-프랑스어 번역 작업의 경우 우리가 만든 모델이 8개의 GPU로 3.5일간 학습을 하여 41.8 BLEU 스코어를 얻었습니다.

- 거기다가 트렌스포머가 모델이 크거나 작은 훈련 셋을 이용해서 영어 파싱하는것 같이 다른 작업에서도 일반화하여 로 잘 동작하였습니다.

300x250

Fast R-CNN 재정리 (0)	2021.04.26
Fully Convolutional Networks for Semantic Segmentation (0)	2021.04.22
Zero-Shot Text-to-Image Generation (0)	2021.04.19
You Only Look Once: Unified, Real-Time Object Detection (0)	2021.04.18
Generative Adversarial Networks (0)	2021.04.18

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

집밖은 위험해