Contents Abstract 토픽 모델링은 수집된 문서 내에서 잠재되어 있는 토픽을 추출하는 기법이다. 본 연구에서는 Clustering task를 기반으로 토픽을 추출하는 기법인 BERTopic 기법을 제안한다. BERTopic은 class-based TF-IDF 기법을 통해 토픽을 추출한다. 구체적으로 사전 학습된 트랜스포머 모델을 사용해 문서 임베딩을 생성한 후, class based TF-IDF 기법을 사용하여 토픽 representation을 생성한다. Introduction 전통적인 토픽 모델링 기법으로는 LDA(Latent Dirichlet Allocation)과 NMF(Non-Negative Matrix Factorization) 기법이 있다. 그러나 이와 같은 기법은 단어 간의 관계(..