파이썬

[python] Scikit-Learn 을 이용한 전처리 2017.07.25
[python] 문자열 비교 2017.07.17
[python] 파이썬에서 유니코드 스트림 다루기 2017.06.22
[Python] python matplotlib 에서 한글폰트 사용하기. font_manager 의 폰트 리스트 확인 2017.06.21
[python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네 2017.06.16
[python] 파이썬으로 영어와 한국어 텍스트 다루기, 문서 전처리 2017.06.15

[python] Scikit-Learn 을 이용한 전처리

홍반장水_ 2017. 7. 25. 14:43

2017. 7. 25. 14:43

Scikit-Learn 을 이용한 전처리

문서 전처리 - Scikit-Learn 의 문서 전처리 기능 https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/

도서 카테고리 예측하기 프로젝트 #1 데이터 수집 및 전처리하기

- http://www.sturdylad.co.kr/%EB%8F%84%EC%84%9C-%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%A0%84%EC%B2%98%EB%A6%AC/

도서 카테고리 예측하기 프로젝트 #2 데이터 학습 시키기

- http://www.sturdylad.co.kr/%EB%8F%84%EC%84%9C-%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EB%AA%A8%EB%8D%B8%ED%95%99%EC%8A%B5/

도서 카테고리 예측하기 프로젝트 #3 생성된 모델로 텍스트 데이터 카테고리 예측해보기

- http://www.sturdylad.co.kr/%EB%8F%84%EC%84%9C-%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0/

...

저작자표시 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] PyCon kr 2017 - 왜 연휴에 진행하는가? (0)	2017.08.14
[Python] 파이썬으로 크롤러 만들기 - 박승규 @wapj - 이모콘 EMOCON 2016 F/W (0)	2017.08.11
[python] 파일을 입맛대로(pickle, glob, os.path) (0)	2017.07.25
[python] 단어 리스트 단어길이순, 단어순 정렬하기 (0)	2017.07.21
[python] Python Numpy Tutorial (0)	2017.07.20

[python] 문자열 비교

홍반장水_ 2017. 7. 17. 17:42

2017. 7. 17. 17:42

문자열 비교

string1 = 'Hello'

string2 = 'hello'

if string1.lower() == string2.lower():

print "같은 스트링"

else:

print "다른 스트링"

저작자표시 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] 최규민: 추천시스템이 word2vec을 만났을때 - PyCon Korea 2015 (0)	2017.07.20
[python] regex install - 한국어 어절 분리 (0)	2017.07.19
[python] Python List sort() Method (0)	2017.07.17
[python] 단어 임베딩의 원리와 gensim.word2vec 사용법¶ (0)	2017.07.12
[python] gensim.models.Word2Vec.train (0)	2017.07.12

[python] 파이썬에서 유니코드 스트림 다루기

홍반장水_ 2017. 6. 22. 15:13

2017. 6. 22. 15:13

파이썬에서 유니코드 스트림 다루기

# 입력 스트림과 출력 스트림을 연다

input = open("input.txt", "rt", encoding="utf-16")

output = open("output.txt", "wt", encoding="utf-8")

# 유니코드 데이터 조각들을 스트리밍한다

with input, output:

while True:

# 데이터 조각을 읽고

chunk = input.read(4096)

if not chunk:

break

# 수직 탭을 삭제한다

chunk = chunk.replace("\u000B", "")

# 데이터 조각을 쓴다

output.write(chunk)

저작자표시 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] Unofficial Windows Binaries for Python Extension Packages (0)	2017.06.27
[Python] matplotlib의 scatter 만들기 . 그래프 (0)	2017.06.26
[python] 응용: 쉘 스크립트를 이용해 해당 디렉토리의 파일들 모두 변경 (0)	2017.06.22
[Python] python matplotlib 에서 한글폰트 사용하기. font_manager 의 폰트 리스트 확인 (0)	2017.06.21
[Python] .py 파일 실핼시 날짜(파라미터)입력 받아서 쓰기 (0)	2017.06.21

[Python] python matplotlib 에서 한글폰트 사용하기. font_manager 의 폰트 리스트 확인

홍반장水_ 2017. 6. 21. 18:20

2017. 6. 21. 18:20

[Python] python matplotlib 에서 한글폰트 사용하기. font_manager 의 폰트 리스트 확인

아래 구문에서 에러 빵빵나오면 font_manager의 폰트 리스트 확인해서 잘 적용하는 거로!

from matplotlib import font_manager, rc

#font_fname = '/Library/Fonts/AppleGothic.ttf' # A font of your choice

#font_fname = 'C:/Windows/Fonts/NanumGothic.ttf'

#font_name = font_manager.FontProperties(fname=font_fname).get_name()

font_name = 'Nanum Gothic Coding'

rc('font', family=font_name)

>>> import matplotlib.font_manager

>>> [f.name for f in matplotlib.font_manager.fontManager.ttflist]

['cmb10', 'cmex10', 'STIXNonUnicode', 'STIXNonUnicode', 'STIXSizeThreeSym', 'STIXSizeTwoSym', 'cmtt10', 'STIXGeneral', 'STIXSizeThreeSym', 'STIXSizeFiveSym', 'STIXSizeOneSym', 'STIXGeneral', 'cmr10', 'STIXSizeTwoSym', ...]

>>> [f.name for f in matplotlib.font_manager.fontManager.afmlist]

['Helvetica', 'ITC Zapf Chancery', 'Palatino', 'Utopia', 'Helvetica', 'Helvetica', 'ITC Bookman', 'Courier', 'Helvetica', 'Times', 'Courier', 'Helvetica', 'Utopia', 'New Century Schoolbook', ...]

저작자표시 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] 파이썬에서 유니코드 스트림 다루기 (0)	2017.06.22
[python] 응용: 쉘 스크립트를 이용해 해당 디렉토리의 파일들 모두 변경 (0)	2017.06.22
[Python] .py 파일 실핼시 날짜(파라미터)입력 받아서 쓰기 (0)	2017.06.21
[Python] 어제 날짜 구하기 (0)	2017.06.21
[python] pytagcloud에서 한글 안될때, font.json (0)	2017.06.21

[python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네

홍반장水_ 2017. 6. 16. 15:25

2017. 6. 16. 15:25

[python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네.

https://www.lucypark.kr/courses/2015-dm/text-mining.html

맥북에서 그래프에 한글 계속 안나오다가, 오늘 해보니까 또 나오네. 뭔 조화인가? 오타인가?

Troubleshooting: For those who see rectangles instead of letters in the saved plot file, include the following configurations before drawing the plot:

from matplotlib import font_manager, rc
font_fname = 'c:/windows/fonts/gulim.ttc'     # A font of your choice
font_name = font_manager.FontProperties(fname=font_fname).get_name()
rc('font', family=font_name)

Some example fonts:

Mac OS: /Library/Fonts/AppleGothic.ttf

저작자표시 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] pytagcloud에서 한글 안될때, font.json (0)	2017.06.21
파이썬으로 영어와 한국어 텍스트 다루기 (0)	2017.06.21
[python] 파이썬으로 영어와 한국어 텍스트 다루기, 문서 전처리 (0)	2017.06.15
konlpy 한국어 처리 패키지 (0)	2017.06.15
[Python] 그래프에서 한글 깨질때 (0)	2017.06.15

[python] 파이썬으로 영어와 한국어 텍스트 다루기, 문서 전처리

홍반장水_ 2017. 6. 15. 17:38

2017. 6. 15. 17:38

파이썬으로 영어와 한국어 텍스트 다루기

https://www.lucypark.kr/courses/2015-dm/text-mining.html

문서 전처리

https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/

모든 데이터 분석 모형은 숫자로 구성된 고정 차원 벡터를 독립 변수로 하고 있으므로 문서(document)를 분석을 하는 경우에도 숫자로 구성된 특징 벡터(feature vector)를 문서로부터 추출하는 과정이 필요하다. 이러한 과정을 문서 전처리(document preprocessing)라고 한다.

BOW (Bag of Words)

문서를 숫자 벡터로 변환하는 가장 기본적인 방법은 BOW (Bag of Words) 이다. BOW 방법에서는 전체 문서 {D1,D2,…,Dn}{D1,D2,…,Dn} 를 구성하는 고정된 단어장(vocabulary) {W1,W2,…,Wm}{W1,W2,…,Wm} 를 만들고 DiDi 라는 개별 문서에 단어장에 해당하는 단어들이 포함되어 있는지를 표시하는 방법이다.

만약 단어 Wj가 문서Di 안에 있으면 ,→xij=1

Scikit-Learn 의 문서 전처리 기능

Scikit-Learn 의 feature_extraction.text 서브 패키지는 다음과 같은 문서 전처리용 클래스를 제공한다.

CountVectorizer:

문서 집합으로부터 단어의 수를 세어 카운트 행렬을 만든다.

TfidfVectorizer:

문서 집합으로부터 단어의 수를 세고 TF-IDF 방식으로 단어의 가중치를 조정한 카운트 행렬을 만든다.

HashingVectorizer:

hashing trick 을 사용하여 빠르게 카운트 행렬을 만든다.

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

'This is the first document.',

'This is the second second document.',

'And the third one.',

'Is this the first document?',

'The last document?',

]

vect = CountVectorizer()

vect.fit(corpus)

vect.vocabulary_

저작자표시 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

파이썬으로 영어와 한국어 텍스트 다루기 (0)	2017.06.21
[python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네 (0)	2017.06.16
konlpy 한국어 처리 패키지 (0)	2017.06.15
[Python] 그래프에서 한글 깨질때 (0)	2017.06.15
[python] CMD에서 tensorflow 설치 유무 확인 (0)	2017.03.27

PREV 이전 1 ···26 27 28 29 30 31 32 ···34 NEXT 다음

긍정적 사고, 음식의 절제, 규칙적인 운동

파이썬

[python] Scikit-Learn 을 이용한 전처리

'프로그래밍 > Python' 카테고리의 다른 글

[python] 문자열 비교

'프로그래밍 > Python' 카테고리의 다른 글

[python] 파이썬에서 유니코드 스트림 다루기

파이썬에서 유니코드 스트림 다루기

'프로그래밍 > Python' 카테고리의 다른 글

[Python] python matplotlib 에서 한글폰트 사용하기. font_manager 의 폰트 리스트 확인

'프로그래밍 > Python' 카테고리의 다른 글

[python] konlpy 하다가 그래프에 한글 안나올때, 어제는 안되고 오늘은 되네

'프로그래밍 > Python' 카테고리의 다른 글

[python] 파이썬으로 영어와 한국어 텍스트 다루기, 문서 전처리

'프로그래밍 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바