nltk 썸네일형 리스트형 [python] 한글 토큰화 한국어는 교착어이다. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습 NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있습니다. 품사를 어떻게 명명하고, 태깅하는지의 기준은 여러가지가 있는데, NLTK에서는 Penn Treebank POS Tags라는 기준을 사용합니다. 실제로 NLTK를 사용해서 영어 코퍼스에 품사 태깅을 해보도록 하겠습니다. nltk 에러나면 CMD에서 pip install nltk >>> from nltk.tokenize import word_tokenize Traceback (most recent call last): File "", line 1, in from nltk.tokenize import word_tok.. 더보기 파이썬으로 영어와 한국어 텍스트 다루기 파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html TerminologiesEnglish한국어DescriptionDocument문서-Corpus말뭉치A set of documentsToken토큰Meaningful elements in a text such as words or phrases or symbolsMorphemes형태소Smallest meaningful unit in a languagePOS품사Part-of-speech (ex: Nouns)Text analysis process 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다.Load textTokenize text (ex: stemming, morp.. 더보기 이전 1 다음