Tokenization. 토큰화라고 불리는 이것은 단어를 작은 단위로 쪼개주는 역할을 한다. 영어를 토큰화 할 때에는 nltk를 사용하고, 한국어를 토큰화 할 때에는 konlpy를 사용한다. from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer from torchtext.data import get_tokenizer sentence = "Don't be fooled by the dark sounding name, \ Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop." print('word_tokenize', word_tokenize(se..