한국어는 교착어이다. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습 NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있습니다. 품사를 어떻게 명명하고, 태깅하는지의 기준은 여러가지가 있는데, NLTK에서는 Penn Treebank POS Tags라는 기준을 사용합니다. 실제로 NLTK를 사용해서 영어 코퍼스에 품사 태깅을 해보도록 하겠습니다. nltk 에러나면 CMD에서 pip install nltk >>> from nltk.tokenize import word_tokenize Traceback (most recent call last): File "", line 1, in from nltk.tokenize import word_tok..
Word Tokenization 단어 토큰화 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 이번 챕터에서는 그 중에서도 토큰화에 대해서 배우도록 합니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 이 챕터에서는 토큰화에 대한 발생할 수 있는 여러가지 상황에 대해서 언급하여 토큰화에 대한 개념을 이해합니다. 뒤에서 파이썬과 NLTK 패키지,..
맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지입니다. 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용됩니다. 아나콘다를 설치하지 않았다면 아래의 커맨드로 Matplotlib를 별도 설치할 수 있습니다. pip install matplotlib > ipython ... In [1]: import matplotlib as mpl In [2]: mpl.__version__ Out[2]: '2.2.3' Matplotlib을 다 설치하였다면 Matplotlib의 주요 모듈인 pyplot을 임포트할 수 있습니다. 해당 모듈을 임포트할 때는 주로 plt..
외부 데이터 읽기 Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있습니다. 예를 들어 csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있습니다. 다음과 같은 example.csv 파일이 있다고 합시다. df=pd.read_csv('example.csv 파일의 경로') # example.csv 파일 읽기 # 예를 들어 윈도우 바탕화면에서 작업한 저자의 경우 # df=pd.read_csv(r'C:\Users\USER\Desktop\example.csv')였습니다. print(df) 이 경우 인덱스가 자동으로 부여된 것을 볼 수 있습니다. 인덱스를 출력해보도록 하겠습니다. > print(df.index..
online python compiler : www.onlinegdb.com/online_python_compiler Online Python Compiler - online editor OnlineGDB is online IDE with python compiler. Quick and easy way to compile python program online. It supports python3. www.onlinegdb.com python 공식홈페이지 온라인 쉘 : www.python.org/shell/ Welcome to Python.org The official home of the Python Programming Language www.python.org
데이터 분석을 위한 필수 패키지 삼대장이 있습니다. 바로 Pandas와 Numpy 그리고 Matplotlib입니다. CMD는 "관리자 권한으로 실행" 하시오. 판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리입니다. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있습니다. 참고 할 수 있는 Pandas 링크는 다음과 같습니다. 링크 : http://pandas.pydata.org/pandas-docs/stable/ 아나콘다를 설치하지 않았다면 아래의 커맨드로 Pandas를 별도 설치할 수 있습니다. pip install pandas pip uninstall pandas >import pandas as pd >pd.__version__ Pandas는 총 세 가지의 데이터 구..