pytagcloud에서 한글 에러날때. python 설치폴더 아래 /Lib/site-packages/pytagcloud/font/font.json 에 아래와 같이 나눔고딕을 추가하고 .ttf 파일도 넣어두자. -- 나눔고딕이 나눔고딕코딩보다 좋아보인다. { "name": "Nanum Gothic", "ttf": "NanumGothic.ttf", "web": "http://fonts.googleapis.com/earlyaccess/nanumgothic.css" }, { "name": "Nanum Gothic Coding", "ttf": "NanumGothic_Coding.ttf", "web": "http://fonts.googleapis.com/earlyaccess/nanumgothiccoding.css"..
파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html TerminologiesEnglish한국어DescriptionDocument문서-Corpus말뭉치A set of documentsToken토큰Meaningful elements in a text such as words or phrases or symbolsMorphemes형태소Smallest meaningful unit in a languagePOS품사Part-of-speech (ex: Nouns)Text analysis process 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다.Load textTokenize text (ex: stemming, morp..
[python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네. https://www.lucypark.kr/courses/2015-dm/text-mining.html 맥북에서 그래프에 한글 계속 안나오다가, 오늘 해보니까 또 나오네. 뭔 조화인가? 오타인가? Troubleshooting: For those who see rectangles instead of letters in the saved plot file, include the following configurations before drawing the plot:from matplotlib import font_manager, rc font_fname = 'c:/windows/fonts/gulim.ttc' # A fon..
파이썬으로 영어와 한국어 텍스트 다루기https://www.lucypark.kr/courses/2015-dm/text-mining.html 문서 전처리 https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/ 모든 데이터 분석 모형은 숫자로 구성된 고정 차원 벡터를 독립 변수로 하고 있으므로 문서(document)를 분석을 하는 경우에도 숫자로 구성된 특징 벡터(feature vector)를 문서로부터 추출하는 과정이 필요하다. 이러한 과정을 문서 전처리(document preprocessing)라고 한다. BOW (Bag of Words) 문서를 숫자 벡터로 변환하는 가장 기본적인 방법은 BOW (Bag of Words)..
konlpy 한국어 처리 패키지 https://datascienceschool.net/view-notebook/70ce46db4ced4a999c6ec349df0f4eb0/ konlpy는 한국어 정보처리를 위한 파이썬 패키지이다. http://konlpy.org/ko/latest/https://github.com/konlpy/konlpykonlpy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다. Kkmahttp://kkma.snu.ac.kr/Hannanumhttp://semanticweb.kaist.ac.kr/hannanum/Twitterhttps://github.com/twitter/twitter-korean-text/Komoranhttp://www.s..
[Python] 그래프에서 한글 깨질때 bar 차트를 그리기 위해서 먼저 필요한 모듈을 import합니다. matplotlib.pyplot과 numpy 모듈은 기존에도 자주 사용했지만 font_manager와 rc 모듈은 처음으로 import하는 모듈입니다. 해당 모듈은 그래프를 그릴 때 한글 폰트를 설정하기 위해 사용합니다.import matplotlib.pyplot as plt import numpy as np from matplotlib import font_manager, rc 그림 15.23을 참조하면 업종명이 한글로 출력됨을 확인할 수 있습니다. matplotlib는 한글 폰트를 설정해주지 않으면 기본적으로 한글이 제대로 출력되지 않습니다. 따라서 데이터에 한글이 포함되어 있다면 다음과 같이 ..