'한국어 자연어처리' 태그의 글 목록

한국어 자연어처리 2

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 컴퓨터는 사람이 사용하는 자연어를 제대로 이해할 수가 없다. 그렇기 때문에 기계가 이해할 수 있도록 변환해주는 작업이 필요하다. 자연어가 가지는 통계적인 패턴(statistical pattern)을 벡터로 변환해주는 것이다. 임베딩을 만들 때 쓰는 통계 정보는 단어의 빈도, 언어 모델, 분포 가정으로 총 세 가지가 존재한다. 단어의 빈도 단어의 빈도는 BoW(Bag of Words)라고도 부르며, 어떤 단어가 많이 쓰였는지를 중요시한다. 순서를 고려하지 않고 단어들을 파싱(parsing)해서 단어의 빈도 수만 확인하는 방법이며, 대표적인 기법으로는 TF-IDF(Term Frequency-Inverse Document Frequency)이다. 딥..

Books/한국어 임베딩 2022.03.05

[Books] 한국어 임베딩 시작하기

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 한국어 임베딩은 한국어 자연어 처리를 하는 것에 있어 바이블과 같은 책이라고 말할 수 있다. 본 책의 내용을 간략하게 설명하고 본인의 스타일대로 추가 작성할 것이다. 일단 시작하기에 앞서 환경 설정 부터 진행할 것인데, 본인은 도커 환경에 컨테이너를 설치한 후 로컬 호스트에 연결시켜서 사용할 것이다. $ docker pull ratsgo/embedding-cpu docker run -it --rm --name ko_embedding \ -p 8888:8888 -v C:\[local directory]\:/notebook/embedding \ ratsgo/embedding-cpu:latest 로컬 호스트의 포트와 컨테이너의 포트를 연결시켜 준 후..

Books/한국어 임베딩 2022.03.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ok-lab

한국어 자연어처리 2

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역