BERTopic 2

Embedding을 활용한 Topic Modeling (이론을 기반으로)

Topic Modeling은 입력으로 들어오는 문장(Sentence) 혹은 문서(Document)를 임베딩(Embedding)하고, 입력값을 대표하는 토픽을 도출하는 분야다. 문장 내에 n-gram을 이용해, 반복적으로 언급되는 단어를 도출하는 경우도 있으며, 사전에 정의한 K개의 단어 중 가장 유사하다고 판단되는 단어를 대표 주제로 선정하는 경우도 있다. 비즈니스 관점으로 바라본다면, 두 가지를 모두 적절히 적용하여야 활용성이 높다고 생각한다. 전자의 경우에는 사전에 정의하지 않은 단어 외에도 새로운 단어들을 반영하여 주제를 선정할 수 있으나, 새로운 주제가 계속 나타날 수 있으며 이를 다시 군집화하는 것이 어려울 수 있다. 반면에, 후자의 경우에는 사전에 정의한 토픽을 명확하게 군집화하여 볼 수 있..

BERTopic: Neural topic modeling with a class-based TF-IDF procedure

Contents Abstract 토픽 모델링은 수집된 문서 내에서 잠재되어 있는 토픽을 추출하는 기법이다. 본 연구에서는 Clustering task를 기반으로 토픽을 추출하는 기법인 BERTopic 기법을 제안한다. BERTopic은 class-based TF-IDF 기법을 통해 토픽을 추출한다. 구체적으로 사전 학습된 트랜스포머 모델을 사용해 문서 임베딩을 생성한 후, class based TF-IDF 기법을 사용하여 토픽 representation을 생성한다. Introduction 전통적인 토픽 모델링 기법으로는 LDA(Latent Dirichlet Allocation)과 NMF(Non-Negative Matrix Factorization) 기법이 있다. 그러나 이와 같은 기법은 단어 간의 관계(..

반응형