[Books] Weighted Embedding

Books/한국어 임베딩

[Books] Weighted Embedding

언킴 2022. 3. 25. 00:17

가중 임베딩(Weighted Embedding)은 단어 임베딩을 문장 수준 임베딩으로 확장하는 방법이다. 제안한 논문에서는 문서 내 단어의 등장은 저자가 생각한 주제에 의존한다고 가정한 후 분석을 수행한다. 즉, 주제에 따라 단어의 사용 양상이 달라진다는 것이다. 이를 위해 주제 벡터(Discourse vector) $c_{s}$ 라는 개념을 도입했다. 본 논문에서는 $c_{s}$ 가 주어졌을 때 어떤 단어 $w$ 가 등장할 확률을 다음과 같이 정의했다.

$P (w | c_{s}) = α P (w) + (1 - α) \frac{\exp ({\tilde{c}}_{s} \cdot v_{w})}{Z}$

$where {\tilde{c}}_{s} = β c_{0} + (1 - β) c_{s}, c_{o} ⊥ c_{s}$

이때 $c_{0} \in R^{d}$ 는 common discourse vector를 의미하며, 가장 많은 빈도를 가진 주제 벡터다. $α$ 와 $β$ 는 scalar hyperparameters 이며, $Z_{{\tilde{c}}_{s}} = \sum_{w \in V} \exp (⟨ {\tilde{c}}_{s}, v_{w} ⟩)$ 은 우변 두번째 항이 확률 값으로 되도록 해주는normalizing constant이다.

한국어를 예로 들자면 '은, 는, 이, 가'와 같은 조사의 경우 우변의 첫 번째 항인 $α P (w)$ 가 높은 쪽으로 나가아겠지만 두 번째 항의 경우에는 주제 벡터 ${\tilde{c}}_{s}$ 와의 내적은 그다지 좋은 값을 가지지 않을 것이다. 다른 예로는 주제가 '학교'인 경우 '학생', '학식' 등의 단어는 우변의 첫 번째 항의 경우 상대적으로 낮은 $P (x)$ 를 가지지만, 두 번째 항의 경우 주제와 밀접한 관련이 있기에 높은 값을 지닐 것이다. 우변의 값들을 weighted sum 하여 결과를 산출한다. $⟨ {\tilde{c}}_{s}, v_{w} ⟩$ 과 ${\tilde{c}}_{s} \cdot v_{w}$ 와 ${\tilde{c}}_{s}^{T} v_{w}$ 는 모두 내적을 의미하기에 혼용해도 상관없다.

그렇다면 문장 임베딩은 어떻게 할까? 문장은 단어들로 이루어진 시퀀스라고 볼 수 있다. 그렇기에 문장에 속한 모든 단어들이 등장할 확률의 누적 곱으로 표현할 수 있다. 그러나 문장의 길이가 길어질수록 확률값은 작아지기에 0에 가깝게 간다. 이러한 문제를 해결하기 위해 누적곱에 $\log$ 를 적용하여 계산하며, 수식은 다음과 같다.

$p [s | c_{s}] = \prod_{w \in s} p (w | c_{s}) = \prod_{w \in s} [α p (w) + (1 + a) \frac{\exp (⟨ v_{w}, {\tilde{c}}_{s} ⟩)}{Z}]$

$f_{w} ({\tilde{c}}_{s}) = \log [α p (w) + (1 - α) \frac{\exp (⟨ v_{w}, {\tilde{c}}_{s} ⟩)}{Z}]$

우리는 확률 값을 최대화하는 지점을 찾을 때 목적 함수는 $MLE$ 를 사용하는 것을 알고 있다. 위 수식을 미분함으로써 변곡점을 찾아 확률이 최대가 되는 지점을 찾을 수 있을 것이다.

$\nabla f_{w} ({\tilde{c}}_{s}) = \frac{1}{α P (w) + (1 - α) \exp (⟨ v_{w}, {\tilde{c}}_{s} ⟩) / Z} \frac{1 - α}{Z} \exp (⟨ v_{w}, {\tilde{c}}_{s} ⟩) v_{w}$

수식으로는 복잡해 보이지만 매우 간단한 미분 방식이다. $α p (w) + (1 - α) \frac{\exp (⟨ v_{w}, {\tilde{c}}_{s} ⟩)}{Z}$ 를 $t$ 로 치환하면 $\log (t)$ 를 미분하는 것에 불과하다. $\log (t)$ 의 미분은 $\frac{1}{t}$ 이고, $t$ 에 대해서 속미분을 진행하면 위와 같은 수식으로 쉽게 도출된다. 이때 주의할 점은 ${\tilde{c}}_{s}$ 를 제외한 나머지 변수들은 전부 상수로 취급한다. 우리는 이때 테일러 전개를 사용할 수 있다. 테일러 전개에 대한 자세한 내용은 여기를 참고하면 된다.

$\begin{aligned} f_{w} ({\tilde{c}}_{s}) & \approx f_{w} (0) + \nabla f_{w} (0)^{T} {\tilde{c}}_{s} \\ = constant + \frac{(1 - α) / (α Z)}{p (w) + (1 - α) / (α Z)} ⟨ v_{w}, {\tilde{c}}_{s} ⟩ \end{aligned}$

테일러 급수는 n번째 항 까지만 써서 원래 함수를 근사하는 방식이며, ${\tilde{c}}_{s}$ 에 대한 MLE의 수식은 아래와 같다.

$argmax \sum_{w \in s} f_{w} ({\tilde{c}}_{s}) \propto \sum_{w \in s} \frac{a}{p (w) + a} v_{w}, where a = \frac{1 - α}{α Z}$

자주 사용되는 단어( $w$ )의 경우 $\frac{a}{p (w) + a}$ 이기에 가중치가 적게 부여되는 방식으로 학습된다. 이는 정보성이 높은 단어의 경우 가중치를 높게 주는 TF-IDF의 아이디어와 비슷하다.

가중 임베딩을 구현한 코드는 여기를 참고하면 된다.

저작자표시

'Books > 한국어 임베딩' 카테고리의 다른 글

[Books] 행렬 분해 기반 언어 모델 (LSA, GloVe, Swivel) (0)	2022.03.24
[Books] 확률 기반 언어모델 (NPLM, Word2Vec, FastText) (0)	2022.03.24
[Books] 한국어 전처리 (0)	2022.03.07
[Books] 임베딩(embedding)의 종류 (5)	2022.03.05
[Books] 한국어 임베딩 시작하기 (0)	2022.03.05

현재글[Books] Weighted Embedding

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ok-lab