Enriching Word Vectors with Subword Information

2021. 4. 26. 17:09

728x90

0. 초록

- 라벨되지 않은 큰 말뭉치로 학습된 연속적인 단어 표현들은 많은 자연어 처리 작업에서 유용합니다.

- 유용한 모델은 각 단어에 서로 구별되는 벡터를 줌으로서 단어의 형태를 무시하고 학습을 시킵니다.

- 이 점이 거대한 사전과 많은 드문 단어들로 언어를 다루는 경우 문제점이라 할수 있습니다.

- 본 논문에서는 스킵그램 모델에 기반한 새로운 방법을 소개하고자 하는데, 각 단어들은 n그램의 단어 가방으로 표현됩니다.

- 벡터 표현은 각 단어 n그램과 연관되어, 단어들은 이러한 표현의 합으로 나타내집니다.

- 이 방법으로 모델이 거대한 말뭉치를 빠르게 학습할수있게하며, 훈련 데이터에 나타나지 않는 단어들에 대한 단어 표현들도 계산할 수 있게됩니다.

- 또 우리의 단어 표현을 단어 유사도와 아날로그 작업에서 다른 9가지의 언어들에서도 평가해보았습니다.

- 최근 제안된 형태학적인 단어 표현들과 비교함으로서, 우리의 벡터가 이런 작업들을 하는데 좋은 성능을 내는것을 보여주고자 합니다.

300x250

[AlexNet 1] ImageNet Classification with Deep Convolutional Neural Networks - 심층 합성곱 신경망을 이용한 이미지넷 데이터셋 분류 (0)	2021.04.29
SSD: Single Shot MultiBox Detector (0)	2021.04.27
Deep contextualized word representation (0)	2021.04.26
UNet: Convolutional Networks for Biomedical Image Segmentation (0)	2021.04.26
Fast R-CNN 재정리 (0)	2021.04.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

집밖은 위험해