가중 임베딩(Weighted Embedding)은 단어 임베딩을 문장 수준 임베딩으로 확장하는 방법이다. 제안한 논문에서는 문서 내 단어의 등장은 저자가 생각한 주제에 의존한다고 가정한 후 분석을 수행한다. 즉, 주제에 따라 단어의 사용 양상이 달라진다는 것이다. 이를 위해 주제 벡터(Discourse vector)
이때
한국어를 예로 들자면 '은, 는, 이, 가'와 같은 조사의 경우 우변의 첫 번째 항인
그렇다면 문장 임베딩은 어떻게 할까? 문장은 단어들로 이루어진 시퀀스라고 볼 수 있다. 그렇기에 문장에 속한 모든 단어들이 등장할 확률의 누적 곱으로 표현할 수 있다. 그러나 문장의 길이가 길어질수록 확률값은 작아지기에 0에 가깝게 간다. 이러한 문제를 해결하기 위해 누적곱에
우리는 확률 값을 최대화하는 지점을 찾을 때 목적 함수는
수식으로는 복잡해 보이지만 매우 간단한 미분 방식이다.
테일러 급수는 n번째 항 까지만 써서 원래 함수를 근사하는 방식이며,
자주 사용되는 단어(
가중 임베딩을 구현한 코드는 여기를 참고하면 된다.
'Books > 한국어 임베딩' 카테고리의 다른 글
[Books] 행렬 분해 기반 언어 모델 (LSA, GloVe, Swivel) (0) | 2022.03.24 |
---|---|
[Books] 확률 기반 언어모델 (NPLM, Word2Vec, FastText) (0) | 2022.03.24 |
[Books] 한국어 전처리 (0) | 2022.03.07 |
[Books] 임베딩(embedding)의 종류 (5) | 2022.03.05 |
[Books] 한국어 임베딩 시작하기 (0) | 2022.03.05 |