embedding 2

Embedding을 활용한 Topic Modeling (이론을 기반으로)

Topic Modeling은 입력으로 들어오는 문장(Sentence) 혹은 문서(Document)를 임베딩(Embedding)하고, 입력값을 대표하는 토픽을 도출하는 분야다. 문장 내에 n-gram을 이용해, 반복적으로 언급되는 단어를 도출하는 경우도 있으며, 사전에 정의한 K개의 단어 중 가장 유사하다고 판단되는 단어를 대표 주제로 선정하는 경우도 있다. 비즈니스 관점으로 바라본다면, 두 가지를 모두 적절히 적용하여야 활용성이 높다고 생각한다. 전자의 경우에는 사전에 정의하지 않은 단어 외에도 새로운 단어들을 반영하여 주제를 선정할 수 있으나, 새로운 주제가 계속 나타날 수 있으며 이를 다시 군집화하는 것이 어려울 수 있다. 반면에, 후자의 경우에는 사전에 정의한 토픽을 명확하게 군집화하여 볼 수 있..

[Books] Weighted Embedding

가중 임베딩(Weighted Embedding)은 단어 임베딩을 문장 수준 임베딩으로 확장하는 방법이다. 제안한 논문에서는 문서 내 단어의 등장은 저자가 생각한 주제에 의존한다고 가정한 후 분석을 수행한다. 즉, 주제에 따라 단어의 사용 양상이 달라진다는 것이다. 이를 위해 주제 벡터(Discourse vector) $\text{c}_s$라는 개념을 도입했다. 본 논문에서는 $\text{c}_s$가 주어졌을 때 어떤 단어 $w$가 등장할 확률을 다음과 같이 정의했다. \[ \text{P}(w|\text{c}_s) = \alpha \text{P}(w) + (1-\alpha) \frac{\exp(\tilde{c}_s \cdot \text{v}_w)}{\text{Z}}\] \[ \text{where} \ \t..

반응형