728x90

0. 초록

- 라벨되지 않은 큰 말뭉치로 학습된 연속적인 단어 표현들은 많은 자연어 처리 작업에서 유용합니다.

- 유용한 모델은 각 단어에 서로 구별되는 벡터를 줌으로서 단어의 형태를 무시하고 학습을 시킵니다.

- 이 점이 거대한 사전과 많은 드문 단어들로 언어를 다루는 경우 문제점이라 할수 있습니다.

- 본 논문에서는 스킵그램 모델에 기반한 새로운 방법을 소개하고자 하는데, 각 단어들은 n그램의 단어 가방으로 표현됩니다.

- 벡터 표현은 각 단어 n그램과 연관되어, 단어들은 이러한 표현의 합으로 나타내집니다.

- 이 방법으로 모델이 거대한 말뭉치를 빠르게 학습할수있게하며, 훈련 데이터에 나타나지 않는 단어들에 대한 단어 표현들도 계산할 수 있게됩니다.

- 또 우리의 단어 표현을 단어 유사도와 아날로그 작업에서 다른 9가지의 언어들에서도 평가해보았습니다.

- 최근 제안된 형태학적인 단어 표현들과 비교함으로서, 우리의 벡터가 이런 작업들을 하는데 좋은 성능을 내는것을 보여주고자 합니다.

300x250

+ Recent posts