본문 바로가기

반응형

word_tokenize

[python] 한글 토큰화 한국어는 교착어이다. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습 NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있습니다. 품사를 어떻게 명명하고, 태깅하는지의 기준은 여러가지가 있는데, NLTK에서는 Penn Treebank POS Tags라는 기준을 사용합니다. 실제로 NLTK를 사용해서 영어 코퍼스에 품사 태깅을 해보도록 하겠습니다. nltk 에러나면 CMD에서 pip install nltk >>> from nltk.tokenize import word_tokenize Traceback (most recent call last): File "", line 1, in from nltk.tokenize import word_tok.. 더보기
[python] Word Tokenization 단어 토큰화 Word Tokenization 단어 토큰화 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 이번 챕터에서는 그 중에서도 토큰화에 대해서 배우도록 합니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 이 챕터에서는 토큰화에 대한 발생할 수 있는 여러가지 상황에 대해서 언급하여 토큰화에 대한 개념을 이해합니다. 뒤에서 파이썬과 NLTK 패키지,.. 더보기

반응형