python

[python] konlpy - Okt, komoran, Pykomoran 2020.12.14
[python] Customized Konlpy 사용하기 2020.12.09
konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(ja.. 2020.12.09
[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법 2020.12.08
[python] seaborn 2020.12.08
[public-google-sheets-parser] - gspread를 이용하여 Python에서 구글 시트 연동하기 2020.12.03

[python] konlpy - Okt, komoran, Pykomoran

홍반장水_ 2020. 12. 14. 16:06

2020. 12. 14. 16:06

komorandocs.readthedocs.io/ko/latest/pykomoran/installation.html

PyKomoran 설치하기 — KOMORAN documentation

이 문서에서는 Python에서 KOMORAN을 사용하기 위해 PyKOMORAN을 설치하는 방법을 살펴보도록 하겠습니다. 주석 PyKOMORAN은 KOMORAN을 Python에서 사용할 수 있도록 하는 프로젝트입니다. 이는 KOMORAN을 Python

komorandocs.readthedocs.io

konlpy-ko.readthedocs.io/ko/latest/api/konlpy.tag/#okt-class

tag Package — KoNLPy 0.5.2 documentation

매개 변수: jvmpath -- The path of the JVM passed to init_jvm(). userdic -- The path to the user dictionary. This enables the user to enter custom tokens or phrases, that are mandatorily assigned to tagged as a particular POS. Each line of the dictionar

konlpy-ko.readthedocs.io

konlpy-ko.readthedocs.io/ko/latest/api/konlpy.tag/#module-konlpy.tag._komoran

tag Package — KoNLPy 0.5.2 documentation

konlpy-ko.readthedocs.io

> pip install PyKomoran

> python

>>> from PyKomoran import *
>>> komoran = Komoran(DEFAULT_MODEL['FULL'])
>>>
>>> from konlpy.tag import Okt
>>> okt = Okt()

>>> okt.nouns(u'오픈소스에 관심 많은 ')
['오픈소스', '관심']

>>> komoran.nouns(u'오픈소스에 관심 많은 ')
['오픈', '소스', '관심']
>>>

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] sorted, 문자열 길이로 정렬, 한글 정렬 (0)	2020.12.15
[python] 큰 파일 분할해서 만들기 (0)	2020.12.14
[python] Customized Konlpy 사용하기 (0)	2020.12.09
konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(ja.. (0)	2020.12.09
[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법 (0)	2020.12.08

[python] Customized Konlpy 사용하기

홍반장水_ 2020. 12. 9. 17:17

2020. 12. 9. 17:17

Customized Konlpy 사용하기

okt 에 dict 추가하기

https://inspiringpeople.github.io/data%20analysis/ckonlpy/

Customized Konlpy 사용하기

Text Mining 데이터 분석은 다른 데이터 종류 분석보다 손이 많이 가고 데이터를 더 많이 들여다보아야 한다.특히, 한국어 Text Mining은 같은 의미 단어라도 뒤에 붙는 조사/어미에 따라 변형될 수 있

inspiringpeople.github.io

Ckonlpy로 전처리하고 형태소 분석하기

전처리 단에서는 단어 추가, 치환, 필터, 복합명사 변환 작업 등을 하면서 data cleansing 작업을 한다.
Ckonlpy에서는 add_dictionary 함수와 Postprocessor 모듈을 통해서 이와 같은 작업을 할 수 있다.

단어 추가 : domain specific한 단어 추가 (ex. 아이오아이, 트와이스 ..)
단어 치환 : 오타 관련 cleansing 작업 (ex. 잇다 -> 있다 ..)
단어 선택 : 선택한 단어/품사만 추출
단어 필터 : 너무 general 데이터 분석에 도움이 안되는 단어들 삭제 (ex. 나, 너..)
단어 결합 : n-gram 이상의 단어를 한 단어로 결합

단어 추가 (add_dictionary)

기존 트위터 분석기 사전에 존재하지 않는 단어를 추가할 때 사용한다.
자신이 분석하는 domain specific 단어를 추가할 때 유용하다.

add_dictionary 함수 사용 : 단어 또는 단어 리스트 단위로 등록
사전 파일 등록 : 파일 단위로 단어 뭉치 등록
위치 : customized_konlpy/ckonlpy/data/twitter (자신이 등록하는 파일의 품사에 따라 등록)

주의사항 !!!
파일 단위로 단어를 등록하는 경우에는 등록한 이후 pip install customized_konlpy를 다시 실행시켜줘야 반영이 된다.

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] 큰 파일 분할해서 만들기 (0)	2020.12.14
[python] konlpy - Okt, komoran, Pykomoran (0)	2020.12.14
konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(ja.. (0)	2020.12.09
[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법 (0)	2020.12.08
[python] seaborn (0)	2020.12.08

konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(ja..

홍반장水_ 2020. 12. 9. 16:11

2020. 12. 9. 16:11

konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(java.lang.String,java.lang.Boolean,java.lang.Boolean)

`from konlpy.tag import Okt
from konlpy import jvm
from konlpy.corpus import kolaw
import nltk
from collections import Counter

twitter=Okt()

file = open("d:/study/test.txt", 'r')
data = file.readlines()
file.close()
data

news_word=twitter.nouns(data)`

news_word=twitter.nouns(data)

이 부분에서 자꾸 에러가 나는데요.

현재 data는 test.txt의 각 줄을 원소로 하는 문자열 배열입니다.

Konlpy의 함수는 배열을 인자로 받지 않고, 보통 문자열을 받습니다.
이 경우에는 data를 for문을 돌면서 사용하셔야 합니다.

for data in line:
   news_word = twitter.nouns(line)

이렇게 얻은 news_word를 적절히 활용하시면 됩니다.

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] konlpy - Okt, komoran, Pykomoran (0)	2020.12.14
[python] Customized Konlpy 사용하기 (0)	2020.12.09
[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법 (0)	2020.12.08
[python] seaborn (0)	2020.12.08
[public-google-sheets-parser] - gspread를 이용하여 Python에서 구글 시트 연동하기 (0)	2020.12.03

[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법

홍반장水_ 2020. 12. 8. 12:04

2020. 12. 8. 12:04

fontpath = "C:/Windows/Fonts/NanumBarunGothic.ttf"

[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법

\를 /로 변경해서 적용하니까 에러 안남.

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] Customized Konlpy 사용하기 (0)	2020.12.09
konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(ja.. (0)	2020.12.09
[python] seaborn (0)	2020.12.08
[public-google-sheets-parser] - gspread를 이용하여 Python에서 구글 시트 연동하기 (0)	2020.12.03
[Python] Jupyter 영화 리뷰 분류: 이진 분류 문제, 네이버 영화 리뷰 감성 분류 (0)	2020.12.02

[python] seaborn

홍반장水_ 2020. 12. 8. 10:16

2020. 12. 8. 10:16

seaborn: statistical data visualization

seaborn.pydata.org/examples/index.html

Example gallery — seaborn 0.11.0 documentation

seaborn.pydata.org

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(ja.. (0)	2020.12.09
[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법 (0)	2020.12.08
[public-google-sheets-parser] - gspread를 이용하여 Python에서 구글 시트 연동하기 (0)	2020.12.03
[Python] Jupyter 영화 리뷰 분류: 이진 분류 문제, 네이버 영화 리뷰 감성 분류 (0)	2020.12.02
[python] 한글 토큰화 (0)	2020.12.02

[public-google-sheets-parser] - gspread를 이용하여 Python에서 구글 시트 연동하기

홍반장水_ 2020. 12. 3. 12:05

2020. 12. 3. 12:05

gspread를 이용하여 Python에서 구글 시트 연동하기

public-google-sheets-parser

yurimkoo.github.io/python/2019/07/20/link-with-googlesheets-for-Python.html

유림's Blog

베짱이가 되고 싶은 개미의 기술 블로그

yurimkoo.github.io

googlesheets를 이용하여 R에서 구글 시트 연동하기

yurimkoo.github.io/r/2019/07/20/link-with-googlesheets-for-R.html

유림's Blog

베짱이가 되고 싶은 개미의 기술 블로그

yurimkoo.github.io

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법 (0)	2020.12.08
[python] seaborn (0)	2020.12.08
[Python] Jupyter 영화 리뷰 분류: 이진 분류 문제, 네이버 영화 리뷰 감성 분류 (0)	2020.12.02
[python] 한글 토큰화 (0)	2020.12.02
[python] Word Tokenization 단어 토큰화 (0)	2020.12.01

PREV 이전 1 ···36 37 38 39 40 41 42 ···60 NEXT 다음

긍정적 사고, 음식의 절제, 규칙적인 운동

python

[python] konlpy - Okt, komoran, Pykomoran

'프로그래밍 > Python' 카테고리의 다른 글

[python] Customized Konlpy 사용하기

Ckonlpy로 전처리하고 형태소 분석하기

단어 추가 (add_dictionary)

'프로그래밍 > Python' 카테고리의 다른 글

konlpy에서 다음과 같은 에러가 나옵니다. TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(list,java.lang.Boolean,java.lang.Boolean), options are: public java.util.List kr.lucypark.okt.OktInterface.tokenize(ja..

'프로그래밍 > Python' 카테고리의 다른 글

[python] SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러 해결법

'프로그래밍 > Python' 카테고리의 다른 글

[python] seaborn

seaborn: statistical data visualization

'프로그래밍 > Python' 카테고리의 다른 글

[public-google-sheets-parser] - gspread를 이용하여 Python에서 구글 시트 연동하기

gspread를 이용하여 Python에서 구글 시트 연동하기

googlesheets를 이용하여 R에서 구글 시트 연동하기

'프로그래밍 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바