KoNLPy 2

[Books] 한국어 전처리

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 영어의 경우 상대적으로 전처리하는 작업이 수월하다. 하지만 한국어의 경우 띄어쓰기가 사람마다 제각각일 수 있고, 단어의 순서가 바뀌더라도 해석하는데 있어 문제가 되지 않는다. 그로 인해 다른 언어에 비해 전처리하는 과정이 어렵다. 하지만 이 책에서는 한국어를 전처리하는 과정을 상세히 작성해주었기 때문에 많은 도움이 될 것이다. 본 책에서는 위키피디아, 네이버 영화 말뭉치 등 여러 오픈 데이터를 기반으로 한국어 전처리를 수행하였다. 한국어 형태소 분석기에는 은전한닢, 꼬꼬마, 한나눔, Okt, 코모란 등 5개의 오픈소스 형태소 분석기가 존재하는데 KoNLPy에서 모두 사용 가능하도록 제공해주고 있다. 또한, 형태소 분석기를 지도 학습 형태소 분석..

[Books] 한국어 임베딩 시작하기

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 한국어 임베딩은 한국어 자연어 처리를 하는 것에 있어 바이블과 같은 책이라고 말할 수 있다. 본 책의 내용을 간략하게 설명하고 본인의 스타일대로 추가 작성할 것이다. 일단 시작하기에 앞서 환경 설정 부터 진행할 것인데, 본인은 도커 환경에 컨테이너를 설치한 후 로컬 호스트에 연결시켜서 사용할 것이다. $ docker pull ratsgo/embedding-cpu docker run -it --rm --name ko_embedding \ -p 8888:8888 -v C:\[local directory]\:/notebook/embedding \ ratsgo/embedding-cpu:latest 로컬 호스트의 포트와 컨테이너의 포트를 연결시켜 준 후..

반응형