본문 바로가기

2020/12/01

[python] Word Tokenization 단어 토큰화 Word Tokenization 단어 토큰화 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 이번 챕터에서는 그 중에서도 토큰화에 대해서 배우도록 합니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 이 챕터에서는 토큰화에 대한 발생할 수 있는 여러가지 상황에 대해서 언급하여 토큰화에 대한 개념을 이해합니다. 뒤에서 파이썬과 NLTK 패키지,.. 더보기
[python] matplotlib test 맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지입니다. 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용됩니다. 아나콘다를 설치하지 않았다면 아래의 커맨드로 Matplotlib를 별도 설치할 수 있습니다. pip install matplotlib > ipython ... In [1]: import matplotlib as mpl In [2]: mpl.__version__ Out[2]: '2.2.3' Matplotlib을 다 설치하였다면 Matplotlib의 주요 모듈인 pyplot을 임포트할 수 있습니다. 해당 모듈을 임포트할 때는 주로 plt.. 더보기
[python] pandas 외부csv 파일 읽기 외부 데이터 읽기 Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있습니다. 예를 들어 csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있습니다. 다음과 같은 example.csv 파일이 있다고 합시다. df=pd.read_csv('example.csv 파일의 경로') # example.csv 파일 읽기 # 예를 들어 윈도우 바탕화면에서 작업한 저자의 경우 # df=pd.read_csv(r'C:\Users\USER\Desktop\example.csv')였습니다. print(df) 이 경우 인덱스가 자동으로 부여된 것을 볼 수 있습니다. 인덱스를 출력해보도록 하겠습니다. > print(df.index.. 더보기
'나중에'는 없다 "나중에" "나중에 한번 보자"라고 말하며 전화를 끊었다. 그래서 한번 볼 날을 기대했다. 그러나 한번 볼 날이 없었다. 그렇게 "나중에"는 없었다. 오로지 "지금"만 있을 뿐 - 박영신의《옹달샘에 던져보는 작은 질문들》중에서 - * 너무 쉽게 흔히 하는 말이 있습니다. "나중에 보자", "나중에 하자" 그러고는 끝입니다. '나중에'는 없습니다. 더보기