본문 바로가기

반응형

konlpy

[python] 큰 파일 분할해서 만들기 큰 txt파일을 읽으면 메모리 문제 발생하기때문에 분할해서 단어장 처리. import os import sys import konlpy import pandas as pd import numpy as np os.environ['JAVA_OPTS'] = 'Xmx4096M' import itertools import mr #local module file_name = "test_export_mentions_2020-11-17_title.txt" #file_name = "test_export_mentions_2020-11-17_title_utf8.txt" #test file_out = "outputfile" lines_tot = mr.file_len(file_name) filesize = mr.getfiles.. 더보기
[python] konlpy - Okt, komoran, Pykomoran komorandocs.readthedocs.io/ko/latest/pykomoran/installation.html PyKomoran 설치하기 — KOMORAN documentation 이 문서에서는 Python에서 KOMORAN을 사용하기 위해 PyKOMORAN을 설치하는 방법을 살펴보도록 하겠습니다. 주석 PyKOMORAN은 KOMORAN을 Python에서 사용할 수 있도록 하는 프로젝트입니다. 이는 KOMORAN을 Python komorandocs.readthedocs.io konlpy-ko.readthedocs.io/ko/latest/api/konlpy.tag/#okt-class tag Package — KoNLPy 0.5.2 documentation 매개 변수: jvmpath -- The pat.. 더보기
[python] 한글 토큰화 한국어는 교착어이다. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습 NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있습니다. 품사를 어떻게 명명하고, 태깅하는지의 기준은 여러가지가 있는데, NLTK에서는 Penn Treebank POS Tags라는 기준을 사용합니다. 실제로 NLTK를 사용해서 영어 코퍼스에 품사 태깅을 해보도록 하겠습니다. nltk 에러나면 CMD에서 pip install nltk >>> from nltk.tokenize import word_tokenize Traceback (most recent call last): File "", line 1, in from nltk.tokenize import word_tok.. 더보기
[python] Pycon2017 koreannlp - 노가다 없는 텍스트 분석을 위한 한국어 NLP 노가다 없는 텍스트 분석을 위한 한국어 NLP - pycon kr 2017 Pycon2017 koreannlp from Hyunjoong Kim 파이콘 2017 에서 발표할 한국어 자연어처리 문서입니다. 확률 모델이 아닌, 분석하려는 데이터 기반으로 단어 추출 / 명사 추출 / 토크나이징 / 사용자 사전 + KoNLPy 응용의 내용이 담겨 있습니다. Soy Korean Natural Language Processing Toolkits https://github.com/lovit/soynlp customized KoNLPy - KoNLPy + 사용자사전https://github.com/lovit/customized_konlpy ... 더보기
[NLPY] twitter-korean-text - 트위터에서 만든 오픈소스 한국어 처리기 twitter-korean-text - 트위터에서 만든 오픈소스 한국어 처리기 https://github.com/twitter/twitter-korean-text 트위터에서 만든 오픈소스 한국어 처리기2017년 4.4 버전 이후의 개발은 http://openkoreantext.org 에서 진행됩니다.We now started an official fork at http://openkoreantext.org as of early 2017. All the development after version 4.4 will be done in open-korean-text.Scala/Java library to process Korean text with a Java wrapper. twitter-korean-te.. 더보기
[python] Wordcloud 만들기 Wordcloud 만들기 from collections import Counterfrom konlpy.tag import Twitterimport pytagcloud f = open('blog_data.txt')data = f.read() nlp = Twitter()nouns = nlp.nouns(data) count = Counter(nouns)tags2 = count.most_common(40)taglist = pytagcloud.make_tags(tags2, maxsize=80)pytagcloud.create_tag_image(taglist, 'wordcloud.jpg', size=(900, 600), fontname='korean', rectangular=False) f.close() 더보기
파이썬으로 영어와 한국어 텍스트 다루기 파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html TerminologiesEnglish한국어DescriptionDocument문서-Corpus말뭉치A set of documentsToken토큰Meaningful elements in a text such as words or phrases or symbolsMorphemes형태소Smallest meaningful unit in a languagePOS품사Part-of-speech (ex: Nouns)Text analysis process 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다.Load textTokenize text (ex: stemming, morp.. 더보기
[python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네 [python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네. https://www.lucypark.kr/courses/2015-dm/text-mining.html 맥북에서 그래프에 한글 계속 안나오다가, 오늘 해보니까 또 나오네. 뭔 조화인가? 오타인가? Troubleshooting: For those who see rectangles instead of letters in the saved plot file, include the following configurations before drawing the plot:from matplotlib import font_manager, rc font_fname = 'c:/windows/fonts/gulim.ttc' # A fon.. 더보기

반응형