반응형

딥러닝 자연어처리 - RNN에서 BERT까지

 

< 딥러닝 자연어처리 - RNN에서 BERT까지 >
- RNN/LSTM
- Seq2Seq
- 어텐션
- 트랜스포머
- BERT

< 챗봇 개발자 모임 >
- https://www.facebook.com/groups/ChatbotDevKR/

.

반응형
반응형

딥 러닝을 이용한 자연어 처리 입문

wikidocs.net/book/2155

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

반응형
반응형

데이터 분석을 위한 필수 패키지 삼대장이 있습니다. 바로 Pandas와 Numpy 그리고 Matplotlib입니다. 

 

CMD는 "관리자 권한으로 실행" 하시오. 

 

판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리입니다. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있습니다. 참고 할 수 있는 Pandas 링크는 다음과 같습니다.

링크 : http://pandas.pydata.org/pandas-docs/stable/

아나콘다를 설치하지 않았다면 아래의 커맨드로 Pandas를 별도 설치할 수 있습니다.

pip install pandas
pip uninstall pandas

>import pandas as pd
>pd.__version__



Pandas는 총 세 가지의 데이터 구조를 사용합니다.
1. 시리즈(Series)
2. 데이터프레임(DataFrame)
3. 패널(Panel)

 

 

1. 시리즈(Series)

sr = pd.Series([17000, 18000, 1000, 5000],
       index=["피자", "치킨", "콜라", "맥주"])
print(sr)
피자    17000
치킨    18000
콜라     1000
맥주     5000
dtype: int64
print(sr.values)
[17000 18000  1000  5000]
print(sr.index)
Index(['피자', '치킨', '콜라', '맥주'], dtype='object')

2) 데이터프레임(DataFrame)

데이터프레임은 2차원 리스트를 매개변수로 전달합니다. 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재합니다. 즉, 행과 열을 가지는 자료구조입니다. 시리즈가 인덱스(index)와 값(values)으로 구성된다면, 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성됩니다.

values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
print(df)
       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9
print(df.index) # 인덱스 출력
Index(['one', 'two', 'three'], dtype='object')
print(df.columns) # 열 출력
Index(['A', 'B', 'C'], dtype='object')
print(df.values) # 값 출력
[[1 2 3]
 [4 5 6]
 [7 8 9]]

 

넘파이(Numpy)는 수치 데이터를 다루는 파이썬 패키지입니다. Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용됩니다. Numpy는 편의성뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다는 장점이 있습니다.

pip install numpy
> ipython
...
In [1]: import numpy as np
In [2]: np.__version__
Out[2]: '1.16.5'

Numpy의 주요 모듈은 아래와 같습니다.
1. np.array() # 리스트, 튜플, 배열로 부터 ndarray를 생성
2. np.asarray() # 기존의 array로 부터 ndarray를 생성
3. np.arange() # range와 비슷
4. np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성
5. np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성

 

 

맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지입니다. 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용됩니다.

%matplotlib inline
import matplotlib.pyplot as plt

plt.title('test')
plt.plot([1,2,3,4],[2,4,8,6])
plt.show()

 

wikidocs.net/32829

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

반응형
반응형
https://www.facebook.com/groups/TensorFlowKR/permalink/650448208629574/


안녕하세요!
지난 달부터 개발하기 시작했던 한국어 오픈소스 자연어처리 라이브러리 프로젝트 Koshort(코숏, 한국 길고양이를 부르는 애칭일지도..)을 소개합니다! Koshort은 현재 총 3가지 파이썬 패키지로 이루어져있으며, 다음과 같은 특징을 공통으로 가집니다.

- Windows, Linux, Mac에서 모두 사용이 가능하도록 노력합니다. (호환성 문제에 관해서는 github issue나 pull request로 알려주세요!)
- 손쉬운 설치 (코드 1줄 내지 2줄)
- Python3를 권장합니다. (pyeunjeon, goorm은 python2에서도 잘 동작합니다!)
- 쉽고 배우기 쉬운 고수준(High-level) API를 제공합니다.

프로젝트 홈페이지:
https://koshort.github.io/

#Koshort (코숏): 파이썬 한국어 온라인 트렌드 스트리밍(현재 네이버 검색어, 트위터 실시간 트윗 지원, 디시인사이드 검토중!)
https://github.com/koshort/koshort

#Pyeunjeon (파이은전): 은전한닢 프로젝트와 mecab 기반의 한국어 형태소 분석기의 독립형 python 인터페이스
https://github.com/koshort/pyeunjeon

#Goorm (구름): 한국어 워드 클라우드를 위한 wordcloud 패키지 wrapper
https://github.com/koshort/goorm

현재 부족한 점이 많습니다. 깃허브 이슈나 pull-request를 통한 많은 참여 부탁드립니다 🙂

개발자 깃허브: https://github.com/nyanye

...
반응형
반응형

노가다 없는 텍스트 분석을 위한 한국어 NLP - pycon kr 2017



파이콘 2017 에서 발표할 한국어 자연어처리 문서입니다. 확률 모델이 아닌, 분석하려는 데이터 기반으로 단어 추출 / 명사 추출 / 토크나이징 / 사용자 사전 + KoNLPy 응용의 내용이 담겨 있습니다.


Soy Korean Natural Language Processing Toolkits 

customized KoNLPy - KoNLPy + 사용자사전


 

...


반응형
반응형

챗봇 시작해보기   https://www.slideshare.net/ssusercf5d12/ss-69518853


Python 으로 Slackbot 개발하기   https://www.slideshare.net/ssusercf5d12/python-slackbot


20170227 파이썬으로 챗봇_만들기     https://www.slideshare.net/KimSungdong1/20170227-72644192


머신러닝의 자연어 처리기술(I)    https://www.slideshare.net/ssuser06e0c5/i-64267027


인공지능, 기계학습 그리고 딥러닝  https://www.slideshare.net/JinwonLee9/ss-70446412  


[F2]자연어처리를 위한 기계학습 소개   https://www.slideshare.net/deview/f2-14341235





.

반응형
반응형

NLP란 무엇인가요?


http://konlpy.org/ko/v0.4.4/start/








Python package for Korean natural language processing. 

https://github.com/konlpy/konlpy



NLP (Natural Language Processing, 자연어처리)는 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합입니다.

우리 일상에도 다양한 NLP 응용사례가 있습니다. 가령:

그리고 물론, 검색엔진과 같은 정보검색 시스템 등이 있습니다. NLP의 기초에 대해 더 자세히 알기 위해서는 아래 책들을 참고하시기 바랍니다.

KoNLPy는 여러분이 한국어 텍스트를 이용하여 기초적인 NLP 작업을 수행하는데 도움을 드릴 것입니다. 영어 텍스트를 다루는 것에 관심 있으신 경우, NLTK 를 참고해주시기 바랍니다.

이제 무엇을 준비하면 되나요?

KoNLPy를 사용하기 전에 다음의 몇 가지 준비가 필요합니다.

  1. 언어에 대한 깊은 관심과 한국어에 대한 어느 정도의 이해

  2. 기본적인 파이썬 프로그래밍 방법 [1]

  3. 좋은 텍스트 에디터와 터미널 (또는 파이썬 IDE) [2]

  4. 파이썬이 설치된 컴퓨터

  5. 파이썬 패키지 매니저 pip

준비되셨나요? 이제 시작해봅시다.


반응형

+ Recent posts