728x90
0. 초록
- 라벨되지 않은 큰 말뭉치로 학습된 연속적인 단어 표현들은 많은 자연어 처리 작업에서 유용합니다.
- 유용한 모델은 각 단어에 서로 구별되는 벡터를 줌으로서 단어의 형태를 무시하고 학습을 시킵니다.
- 이 점이 거대한 사전과 많은 드문 단어들로 언어를 다루는 경우 문제점이라 할수 있습니다.
- 본 논문에서는 스킵그램 모델에 기반한 새로운 방법을 소개하고자 하는데, 각 단어들은 n그램의 단어 가방으로 표현됩니다.
- 벡터 표현은 각 단어 n그램과 연관되어, 단어들은 이러한 표현의 합으로 나타내집니다.
- 이 방법으로 모델이 거대한 말뭉치를 빠르게 학습할수있게하며, 훈련 데이터에 나타나지 않는 단어들에 대한 단어 표현들도 계산할 수 있게됩니다.
- 또 우리의 단어 표현을 단어 유사도와 아날로그 작업에서 다른 9가지의 언어들에서도 평가해보았습니다.
- 최근 제안된 형태학적인 단어 표현들과 비교함으로서, 우리의 벡터가 이런 작업들을 하는데 좋은 성능을 내는것을 보여주고자 합니다.
300x250
'그외 > 논문' 카테고리의 다른 글
[AlexNet 1] ImageNet Classification with Deep Convolutional Neural Networks - 심층 합성곱 신경망을 이용한 이미지넷 데이터셋 분류 (0) | 2021.04.29 |
---|---|
SSD: Single Shot MultiBox Detector (0) | 2021.04.27 |
Deep contextualized word representation (0) | 2021.04.26 |
UNet: Convolutional Networks for Biomedical Image Segmentation (0) | 2021.04.26 |
Fast R-CNN 재정리 (0) | 2021.04.26 |