Jupyter 영화 리뷰 분류: 이진 분류 문제

nbviewer.jupyter.org/github/cyc1am3n/Deep-Learning-with-Python/blob/master/Chap03-getting_started_with_neural_networks/Chap03-4-classifying_movie_reviews.ipynb

 

Jupyter Notebook Viewer

마지막으로 손실함수와 옵티마이저를 선택하면 학습 할 준비가 끝납니다. 이 문제는 이진 분류 문제이고 신경망의 출력이 확률이기 때문에, binary_crossentropy손실이 적합합니다.(mean_squared_error도

nbviewer.jupyter.org

네이버 영화 리뷰 감성 분류

github.com/rickiepark/python-machine-learning-book-3rd-edition/blob/master/ch08/naver_movie_review.ipynb

 

rickiepark/python-machine-learning-book-3rd-edition

"머신 러닝 교과서"(길벗, 2020) 2판의 코드 저장소. Contribute to rickiepark/python-machine-learning-book-3rd-edition development by creating an account on GitHub.

github.com

 

Posted by 홍반장水 홍반장水

댓글을 달아 주세요

한국어는 교착어이다.

한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있습니다. 품사를 어떻게 명명하고, 태깅하는지의 기준은 여러가지가 있는데, NLTK에서는 Penn Treebank POS Tags라는 기준을 사용합니다. 실제로 NLTK를 사용해서 영어 코퍼스에 품사 태깅을 해보도록 하겠습니다.

nltk 에러나면  CMD에서 pip install nltk

>>> from nltk.tokenize import word_tokenize
Traceback (most recent call last):
  File "<pyshell#19>", line 1, in <module>
    from nltk.tokenize import word_tokenize
ModuleNotFoundError: No module named 'nltk'

>>> from nltk.tokenize import word_tokenize

>>> text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
>>> print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']

>>> from nltk.tag import pos_tag
>>> x=word_tokenize(text)
>>> pos_tag(x)

[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]

영어 문장에 대해서 토큰화를 수행하고, 이어서 품사 태깅을 수행하였습니다. Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미합니다.

한국어 자연어 처리를 위해서는 KoNLPy("코엔엘파이"라고 읽습니다)라는 파이썬 패키지를 사용할 수 있습니다. 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.

 

한국어 자연어 처리를 위해서는 KoNLPy("코엔엘파이"라고 읽습니다)라는 파이썬 패키지를 사용할 수 있습니다. 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.

한국어 NLP에서 형태소 분석기를 사용한다는 것은 단어 토큰화가 아니라 정확히는 형태소(morpheme) 단위로 형태소 토큰화(morpheme tokenization)를 수행하게 됨을 뜻합니다. 여기선 이 중에서 Okt와 꼬꼬마를 통해서 토큰화를 수행해보도록 하겠습니다. (Okt는 기존에는 Twitter라는 이름을 갖고있었으나 0.5.0 버전부터 이름이 변경되어 인터넷에는 아직 Twitter로 많이 알려져있으므로 학습 시 참고바랍니다.)

 

>>> from konlpy.tag import Okt
>>> okt=Okt()

>>> print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

>>> print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]

>>> print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']

위의 예제는 Okt 형태소 분석기로 토큰화를 시도해본 예제입니다.

1) morphs : 형태소 추출
2) pos : 품사 태깅(Part-of-speech tagging)
3) nouns : 명사 추출

위 예제에서 사용된 각 메소드는 이런 기능을 갖고 있습니다. 앞서 언급한 코엔엘파이의 형태소 분석기들은 공통적으로 이 메소드들을 제공하고 있습니다. 위 예제에서 형태소 추출과 품사 태깅 메소드의 결과를 보면, 조사를 기본적으로 분리하고 있음을 확인할 수 있습니다. 그렇기 때문에 한국어 NLP에서 전처리에 형태소 분석기를 사용하는 것은 꽤 유용합니다.

 

이번에는 꼬꼬마 형태소 분석기를 사용하여 같은 문장에 대해서 토큰화를 진행해볼 것입니다.

>>> from konlpy.tag import Kkma
>>> kkma=Kkma()
>>> print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

>>> print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]

>>> print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']

앞서 사용한 Okt 형태소 분석기와 결과가 다른 것을 볼 수 있습니다. 각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됩니다. 예를 들어서 속도를 중시한다면 메캅을 사용할 수 있습니다.

 

 

출처 : wikidocs.net/21698

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

Posted by 홍반장水 홍반장水

댓글을 달아 주세요

 [JAVA] jdk8 다운로드,  Konlpy jvm 에러 해결. 

 

> from konlpy.tag import Kkma
> tokenizer = Kkma()
 

이러면 jvm 에러 계속 발생했는데... 

 

No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly
, line 91, in __init__
jvm.init_jvm(jvmpath, max_heap_size)

, line 55, in init_jvm
jvmpath = jvmpath or jpype.getDefaultJVMPath()

, line 74, in getDefaultJVMPath
return finder.get_jvm_path()

, line 212, in get_jvm_path
raise JVMNotFoundException("No JVM shared library file ({0}) "

jpype._jvmfinder.JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

 

기존 java를 다 삭제하고. 다시 아래에서 다운받아서 설치. 

jdk-8u271-windows-x62

JAVA_HOME도 다시 설정. 

CLASSPATH - C:\Program Files\Java\jdk1.8.0_271\lib\tools.jar

JAVA_HOME - C:\Program Files\Java\jdk1.8.0_271\jre\bin\server

 

CLASSPATH
JAVA_HOME

www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

www.oracle.com/java/technologies/javase-jre8-downloads.html

 

In [1]: from konlpy.tag import Kkma

In [2]: tokenizer = Kkma()

In [3]: tokenizer.morphs("카페에서의 여유 참 좋네요")
Out[3]: ['카페', '에서', '의', '여유', '참', '좋', '네요']

Posted by 홍반장水 홍반장水

댓글을 달아 주세요

필요한 정보의 약 70%를 얻게 되면 대부분의 사항을 결정해야 한다.
90%까지 기다리면 결정이 늦어진다.
또한 잘못된 결정을 빨리 인식하고 바로잡는데 능숙해져야한다.
만약 잘못된 결정을 하더라도 진로를 올바르게 수정한다면
시행착오 비용이 생각보다 덜 들어간다.
반면 결정이 느려지면 치러야 할 대가가 상당하다.
- 제프 베조스 아마존 회장


아마존 리더십 원칙 중 ‘과감한 행동’에 관한 내용 함께 보내드립니다.
“비즈니스는 속도가 생명입니다. 의사결정과 행동이 잘못되었다 하더라도
대부분은 나중에 되돌릴 수 있으니 지나치게 심사숙고할 필요 없습니다.
리더는 예측된 위험을 과감하게 받아들입니다.”

Posted by 홍반장水 홍반장水

댓글을 달아 주세요

35년 동안
9조 원을 익명으로 기부한
'행복한 거지' 찰스 F 피니는 이렇게 말했다.
"돈이 많아도 두 켤레의 신발을 동시에
신을 수는 없으니까요."
어느 날 나는 이런 생각을 했다.
기부를 받는 사람이 더 행복할까
아니면 주는 사람이 더 행복할까?


- 김효진의《굿머니》중에서 -


* 근래 766억 원의 거액을
카이스트에 기부한 광원산업의 이수영 회장이
한 방송에서 "기부하면 얼마나 행복한지 아느냐"라고
묻는 말을 들었습니다. 답은 분명합니다.
주는 사람이 더 행복합니다. 그리고
그 행복은 세상으로 번집니다.
행복도 전염됩니다.

'생활의 발견 > 아침편지' 카테고리의 다른 글

누가 더 행복할까?  (0) 08:37:05
'나중에'는 없다  (0) 2020.12.01
아이들이 번쩍 깨달은 것  (0) 2020.11.30
길을 잃으면 길이 찾아온다  (0) 2020.11.30
절대 잊을 수 없는 날  (0) 2020.11.27
'그저 건강하게 있어달라'  (0) 2020.11.26
Posted by 홍반장水 홍반장水

댓글을 달아 주세요

나쁜 운명을 깨울까봐 살금살금 걷는다면
좋은 운명도 깨우지 못할 것 아닌가.
난 나쁜 운명, 좋은 운명 모조리 다 깨워가며 저벅 저벅,
당당하게 큰 걸음으로 걸으며 살 것이다.
- 故 장영희 서강대 교수


“이미 행동한 것에 대한 후회는 시간이 가면서 조금씩 줄어든다.
그러나 행동하지 못한 것에 대한 후회는 시간이 갈수록 커질 뿐이다.”
시드니 해리스 글 함께 보내드립니다.

Posted by 홍반장水 홍반장水

댓글을 달아 주세요

Word Tokenization 단어 토큰화

 

자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 이번 챕터에서는 그 중에서도 토큰화에 대해서 배우도록 합니다.

주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다.

이 챕터에서는 토큰화에 대한 발생할 수 있는 여러가지 상황에 대해서 언급하여 토큰화에 대한 개념을 이해합니다. 뒤에서 파이썬과 NLTK 패키지, KoNLPY를 통해 실습을 진행하며 직접 토큰화를 수행해보겠습니다.

 

 


## word_tokenize는 Don't를 Do와 n't로 분리하였으며, 
## 반면 Jone's는 Jone과 's로 분리한 것을 확인할 수 있습니다.
>from nltk.tokenize import word_tokenize  
>print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  
['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']  


## WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기때문에, 앞서 확인했던
## word_tokenize와는 달리 Don't를 Don과 '와 t로 분리하였으며, 
## 이와 마찬가지로 Jone's를 Jone과 '와 s로 분리한 것을 확인할 수 있습니다.
>from nltk.tokenize import WordPunctTokenizer  
>print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']  


## 케라스 또한 토큰화 도구로서 text_to_word_sequence를 지원합니다. 이번에는 케라스로 토큰화를 수행해봅시다.
## 케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 온점이나 
## 컴마, 느낌표 등의 구두점을 제거합니다. 하지만 don't나 jone's와 같은 경우 아포스트로피는 보존하는 것을 볼 수 있습니다.
>from tensorflow.keras.preprocessing.text import text_to_word_sequence
>print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙에 대해서 소개하고, 토큰화의 결과를 보도록 하겠습니다.
## 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
## 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다. 
>from nltk.tokenize import TreebankWordTokenizer
>tokenizer=TreebankWordTokenizer()
>text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
>print(tokenizer.tokenize(text))
['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']
Posted by 홍반장水 홍반장水

댓글을 달아 주세요

맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지입니다. 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용됩니다.

아나콘다를 설치하지 않았다면 아래의 커맨드로 Matplotlib를 별도 설치할 수 있습니다.

pip install matplotlib
> ipython
...
In [1]: import matplotlib as mpl
In [2]: mpl.__version__
Out[2]: '2.2.3'

Matplotlib을 다 설치하였다면 Matplotlib의 주요 모듈인 pyplot을 임포트할 수 있습니다. 해당 모듈을 임포트할 때는 주로 plt라는 이름으로 사용합니다. 또한 주피터 노트북으로 matplotlib을 실습하기 위해서는 주피터 노트북에 그림을 표시하도록 지정하는 %matplotlib inline 또한 우선 수행해야 합니다. 아래의 모든 실습들은 아래 내용을 임포트하였다고 가정합니다.

pyplot의 경우, 주로 plt라는 명칭으로 임포트하는 것이 관례입니다.

%matplotlib inline
import matplotlib.pyplot as plt

라인 플롯 그리기

plot()은 라인 플롯을 그리는 기능을 수행합니다. plot() X축과 Y축의 값을 기재하고 그림을 표시하는 show()를 통해서 시각화해봅시다. 그래프에는 제목을 지정해줄 수 있는데 이 경우에는 title('원하는 제목')을 사용합니다. 여기서는 그래프에 'test'라는 제목을 넣어봅시다.

사실 주피터 노트북에서는 show()를 사용하지 않더라도 그래프가 자동으로 렌더링 되므로 그래프가 시각화가 되는 것을 확인할 수 있지만, 여기서는 다른 개발 환경에서 사용할 때 또한 가정하여 show()를 실습 코드에 삽입하였습니다.

plt.title('students')
plt.plot([1,2,3,4],[2,4,8,6])
plt.plot([1.5,2.5,3.5,4.5],[3,5,8,10]) #라인 새로 추가
plt.xlabel('hours')
plt.ylabel('score')
plt.legend(['A student', 'B student']) #범례 삽입
plt.show()

 

 

Posted by 홍반장水 홍반장水

댓글을 달아 주세요

 

 외부 데이터 읽기

Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있습니다.

예를 들어 csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있습니다.
다음과 같은 example.csv 파일이 있다고 합시다.

 

df=pd.read_csv('example.csv 파일의 경로') # example.csv 파일 읽기
# 예를 들어 윈도우 바탕화면에서 작업한 저자의 경우
# df=pd.read_csv(r'C:\Users\USER\Desktop\example.csv')였습니다.
print(df)

이 경우 인덱스가 자동으로 부여된 것을 볼 수 있습니다. 인덱스를 출력해보도록 하겠습니다.

> print(df.index)
RangeIndex(start=0, stop=6, step=1)
Posted by 홍반장水 홍반장水

댓글을 달아 주세요

"나중에"
"나중에 한번 보자"라고 말하며 전화를 끊었다.
그래서 한번 볼 날을 기대했다.
그러나 한번 볼 날이 없었다.

그렇게 "나중에"는 없었다.
오로지 "지금"만 있을 뿐


- 박영신의《옹달샘에 던져보는 작은 질문들》중에서 -


* 너무 쉽게
흔히 하는 말이 있습니다.
"나중에 보자", "나중에 하자"
그러고는 끝입니다.
'나중에'는 없습니다.

'생활의 발견 > 아침편지' 카테고리의 다른 글

누가 더 행복할까?  (0) 08:37:05
'나중에'는 없다  (0) 2020.12.01
아이들이 번쩍 깨달은 것  (0) 2020.11.30
길을 잃으면 길이 찾아온다  (0) 2020.11.30
절대 잊을 수 없는 날  (0) 2020.11.27
'그저 건강하게 있어달라'  (0) 2020.11.26
Posted by 홍반장水 홍반장水

댓글을 달아 주세요