2017/07/12

[python] 단어 임베딩의 원리와 gensim.word2vec 사용법¶ 2017.07.12
[python] gensim.models.Word2Vec.train 2017.07.12
[TEDx] 왜 내가 하루에 책을 읽어야하는지(그리고 왜 그렇게해야하는지) 33 % 법칙 - 타이 로페즈 2017.07.12
책을 읽어야 하는 이유 (영화 '디테치먼트') 2017.07.12
[2017 GSC] 스타트업, 겁먹지 말고 도전하라 메가스터디 그룹 손주은 회장 2017.07.12
2017년 전국연합학력평가 2017.07.12
리더가 결코 잊어서는 안되는 한 단어, 겸손 2017.07.12
땅속의 보물 2017.07.12

[python] 단어 임베딩의 원리와 gensim.word2vec 사용법¶

홍반장水_ 2017. 7. 12. 17:54

2017. 7. 12. 17:54

단어 임베딩(Word Embedding)이란 텍스트를 구성하는 하나의 단어를 수치화하는 방법의 일종이다.

텍스트 분석에서 흔히 사용하는 방식은 단어 하나에 인덱스 정수를 할당하는 Bag of Words 방법이다. 이 방법을 사용하면 문서는 단어장에 있는 단어의 갯수와 같은 크기의 벡터가 되고 단어장의 각 단어가 그 문서에 나온 횟수만큼 벡터의 인덱스 위치의 숫자를 증가시킨다.

즉 단어장이 "I", "am", "a", "boy", "girl" 다섯개의 단어로 이루어진 경우 각 단어에 다음과 같이 숫자를 할당한다.

"I": 0
"am": 1
"a": 2
"boy": 3 
"girl": 4

이 때 "I am a girl" 이라는 문서는 다음과 같이 벡터로 만들 수 있다.

[1 1 1 0 1]

단어 임베딩은 하나의 단어를 하나의 인덱스 정수가 아니라 실수 벡터로 나타낸다. 예를 들어 2차원 임베딩을 하는 경우 다음과 같은 숫자 벡터가 될 수 있다.

"I": (0.3, 0.2)
"am": (0.1, 0.8)
"a": (0.5, 0.6)
"boy": (0.2, 0.9) 
"girl": (0.4, 0.7)

단어 임베딩이 된 경우에는 각 단어 벡터를 합치거나(concatenation) 더하는(averaging, normalized Bag of Words) 방식으로 전체 문서의 벡터 표현을 구한다.

Feed-Forward 신경망 언어 모형 (Neural Net Language Model)¶

이러한 단어 임베딩은 신경망을 이용하여 언어 모형을 만들려는 시도에서 나왔다. 자세한 내용은 다음 논문을 참고한다.

"A Neural Probabilistic Language Model", Bengio, et al. 2003
- http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf
"Efficient Estimation of Word Representations in Vector Space", Mikolov, et al. 2013
- https://arxiv.org/pdf/1301.3781v3.pdf
"word2vec Parameter Learning Explained", Xin Rong,
- http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf

V개의 단어를 가지는 단어장이 있을 때, 단어를 BOW 방식으로 크기 V인 벡터로 만든 다음 다음 그림과 같이 하나의 은닉층(Hidden Layer)을 가지는 신경망을 사용하여 특정 단어 열(word sequence)이 주어졌을 때 다음에 나올 단어를 예측하는 문제를 생각해 보자. 입력과 출력은 모두 BOW 방식으로 인코딩되어 있다.

이미지 출처: "word2vec Parameter Learning Explained", Xin Rong

입력 $x$ 가 들어가면 입력 가중치 행렬 $W^{T}$ 이 곱해져서 은닉층 벡터 $h$ 가 되는데 $x$ 가 one-hot-encoding 된 값이므로 $h$ 벡터는 입력 가중치 행렬 $W$ 의 행 하나가 된다.

h = W^{T} x = v_{i}^{T}

여기에서 $i$ 는 입력 벡터 $x$ 의 값이 1인 원소의 인덱스이다. 즉, BOW 단어장에서 $i$ 번째 단어를 뜻한다.

벡터 $h$ 는 다시 출력 가중치 행렬 $W^{' T}$ 와 곱해져서 출력 벡터 $y$ 가 된다.

y = W^{' T} h

출력 가중치 행렬 $W^{'}$ 의 $j$ 번째 열을 $v_{j}$ 라고 하면 출력 벡터 $y$ 의 $j$ 번째 원소의 값은 다음과 같다.

y_{j} = v_{j}^{' T} h

가중치 행렬을 갱신하는 최적화 공식을 살펴본다. 자세한 유도과정은 논문을 참조한다.

우선 출력 가중치 행렬의 갱신 공식은 다음과 같다.

v_{j}^{' (new)} = v_{j}^{' (old)} - η \cdot e_{j} \cdot h = v_{j}^{' (old)} - η \cdot e_{j} \cdot v_{i}^{T}

이 식에서 $η$ 는 최적화 스텝 사이즈, $e_{j}$ 는 출력 오차가 된다. 이 공식에 따르면 벡터 $v_{j}^{'}$ 는 $v_{j}$ 방향으로 수렴해 간다. 즉, $i$ 번째 단어와 $j$ 번째 단어가 연속하는 관계라면 $v_{j}^{'}$ 가 $v_{i}$ 와 유사한 위치로 수렴한다는 뜻이다.

다음으로 입력 가중치 행렬의 갱신 공식은 다음과 같다.

v_{i}^{(new)} = v_{i}^{(old)} - η \sum_{k} e_{j} \cdot w_{i k}^{'}

이 공식에 따르면 벡터 $v_{i}$ 는 여러 $v_{k}^{'}$ 벡터의 가중합으로 수렴해 간다. 이렇게 단어간의 관계에 의해 $i$ 번째 단어를 뜻하는 $v_{i}$ 의 값들이 연관성을 가지게 되는데 이 $v_{i}$ 벡터 값을 해당 단어에 대한 분산 표현 (distributed representation) , 벡터 표현 (vector representation) 또는 단어 임베딩 (word embedding)이라고 한다.

이미지 출처: https://www.tensorflow.org/versions/master/tutorials/word2vec/index.html

CBOW (Continuous Bag of Words) Embedding¶

위의 방식은 하나의 단어로부터 다음에 오는 단어를 예측하는 문제였다. 이러한 문제를 단어 하나짜리 문맥(single-word context)를 가진다고 한다.

CBOW (Continuous Bag of Words) 방식은 복수 단어 문맥(multi-word context)에 대한 문제 즉, 여러개의 단어를 나열한 뒤 이와 관련된 단어를 추정하는 문제이다. 즉, 문자에서 나오는 $n$ 개의 단어 열로부터 다음 단어를 예측하는 문제가 된다. 예를 들어

the quick brown fox jumped over the lazy dog

라는 문장에서 (the, quick, brown) 이라는 문맥이 주어지면 fox라는 단어를 예측해야 한다.

CBOW는 다음과 같은 신경망 구조를 가진다. 여기에서 각 문맥 단어를 은닉층으로 투사하는 가중치 행렬은 모든 단어에 대해 공통으로 사용한다.

이미지 출처: "word2vec Parameter Learning Explained", Xin Rong

Skip-Gram Embedding¶

Skip-Gram 방식은 CBOW 방식과 반대로 특정한 단어로부터 문맥이 될 수 있는 단어를 예측한다. 보통 입력 단어 주변의 $k$ 개 단어를 문맥으로 보고 예측 모형을 만드는데 이 $k$ 값을 window size 라고 한다.

위 문장에서 window size $k = 1$ 인 경우,

quick -> the
quick -> brown
brown -> quick
brown -> fox

과 같은 관계를 예측할 수 있어야 한다.

이미지 출처: "word2vec Parameter Learning Explained", Xin Rong

word2vec¶

word2vec은 CBOW 방식과 Skip-Gram 방식의 단어 임베딩을 구현한 C++ 라이브러리로 구글에 있던 Mikolov 등이 개발하였다.

파이썬에서는 gensim이라는 패키지에 Word2Vec이라는 클래스로 구현되어 있다. nltk의 영화 감상 corpus를 기반으로 Word2Vec 사용법을 살펴보자.

우선 단어 임베딩을 위한 코퍼스를 만든다. 코퍼스는 리스트의 리스트 형태로 구현되어야 한다. 내부 리스트는 하나의 문장을 이루는 단어 열이 된다.

from nltk.corpus import movie_reviews
sentences = [list(s) for s in movie_reviews.sents()]

sentences[0]

[u'plot',
 u':',
 u'two',
 u'teen',
 u'couples',
 u'go',
 u'to',
 u'a',
 u'church',
 u'party',
 u',',
 u'drink',
 u'and',
 u'then',
 u'drive',
 u'.']

다음으로 이 코퍼스를 입력 인수로 하여 Word2Vec 클래스 객체를 생성한다. 이 시점에 트레이닝이 이루어진다.

from gensim.models.word2vec import Word2Vec

%%time
model = Word2Vec(sentences)

CPU times: user 12.2 s, sys: 400 ms, total: 12.6 s
Wall time: 7.33 s

트레이닝이 완료되면 init_sims 명령으로 필요없는 메모리를 unload 시킨다.

model.init_sims(replace=True)

이제 이 모형에서 다음과 같은 메서드를 사용할 수 있다. 보다 자세한 내용은 https://radimrehurek.com/gensim/models/word2vec.html 를 참조한다.

similarity : 두 단어의 유사도 계산
most_similar : 가장 유사한 단어를 출력

model.similarity('actor', 'actress')

0.87472425755991945

model.similarity('he', 'she')

0.85470770334392587

model.similarity('actor', 'she')

0.21756392610362227

model.most_similar("villain")

[(u'hero', 0.7978197932243347),
 (u'doctor', 0.7952470779418945),
 (u'actress', 0.7806568145751953),
 (u'performer', 0.775442361831665),
 (u'charming', 0.7602461576461792),
 (u'impression', 0.7583950757980347),
 (u'commoner', 0.7538788318634033),
 (u'janitor', 0.7536816000938416),
 (u'dude', 0.7528475522994995),
 (u'genius', 0.7506694793701172)]

most_similar 메서드는 positive 인수와 negative 인수를 사용하여 다음과 같은 단어간 관계도 찾을 수 있다.

he + (actress - actor) = she

model.most_similar(positive=['actor', 'he'], negative='actress', topn=1)

[(u'she', 0.2471558153629303)]

이번에는 네이버 영화 감상 코퍼스를 사용하여 한국어 단어 임베딩을 해보자.

import codecs

def read_data(filename):
    with codecs.open(filename, encoding='utf-8', mode='r') as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        data = data[1:]   # header 제외
    return data

train_data = read_data('/home/dockeruser/data/nsmc/ratings_train.txt')

from konlpy.tag import Twitter
tagger = Twitter()

def tokenize(doc):
    return ['/'.join(t) for t in tagger.pos(doc, norm=True, stem=True)]

train_docs = [row[1] for row in train_data]
sentences = [tokenize(d) for d in train_docs]

from gensim.models import word2vec
model = word2vec.Word2Vec(sentences)
model.init_sims(replace=True)

model.similarity(*tokenize(u'악당 영웅'))

0.6062297706048696

model.similarity(*tokenize(u'악당 감동'))

-0.0041346659756955097

from konlpy.utils import pprint
pprint(model.most_similar(positive=tokenize(u'배우 남자'), negative=tokenize(u'여배우'), topn=1))

[(여자/Noun, 0.6258430480957031)]

더 많은 한국어 코퍼스를 사용한 단어 임베딩 모형은 다음 웹사이트에서 테스트해 볼 수 있다.

http://w.elnn.kr/

저작자표시

'프로그래밍 > Python' 카테고리의 다른 글

[python] 문자열 비교 (0)	2017.07.17
[python] Python List sort() Method (0)	2017.07.17
[python] gensim.models.Word2Vec.train (0)	2017.07.12
[python] Wordcloud 만들기 (0)	2017.07.11
[Python] Join, Split 리스트를 문자열로, 문자열을 리스트로 변환 (0)	2017.07.07

[python] gensim.models.Word2Vec.train

홍반장水_ 2017. 7. 12. 17:42

2017. 7. 12. 17:42

gensim.models.Word2Vec.train

Word2Vec.train(sentences, total_words=None, word_count=0, total_examples=None, queue_factor=2, report_delay=1.0)

Update the model’s neural weights from a sequence of sentences (can be a once-only generator stream). For Word2Vec, each sentence must be a list of unicode strings. (Subclasses may accept other examples.)

문장의 시퀀스에서 모델의 신경 가중치를 업데이트하십시오 (한 번만 생성기 스트림 일 수 있음). Word2Vec의 경우 각 문장은 유니 코드 문자열 목록이어야합니다. 서브 클래스는 다른 예를 받아들이는 일이 있습니다.

To support linear learning-rate decay from (initial) alpha to min_alpha, either total_examples (count of sentences) or total_words (count of raw words in sentences) should be provided, unless the sentences are the same as those that were used to initially build the vocabulary.

(초기) alpha에서 min_alpha까지의 선형 학습 률 감소를 지원하려면, 문장이 처음 빌드에 사용 된 것과 같지 않으면 total_examples (문장의 수) 또는 total_words (문장의 원시 단어의 수)가 제공되어야합니다 어휘.

https://tedboy.github.io/nlps/generated/generated/gensim.models.Word2Vec.train.html#gensim.models.Word2Vec.train

GEMSIM , gensim.models.word2vec

*** 한국어 Word2Vec, train

import gensim

sentences = [["my", "name", "is", "jamie"], ["jamie", "is", "cute"]]

model = gensim.models.Word2Vec(sentences)

#----------------------------------------------------------------------

sentences_vocab = SentenceReader('corpus.txt')

sentences_train = SentenceReader('corpus.txt')

model = gensim.models.Word2Vec()

model.build_vocab(sentences_vocab)

model.train(sentences_train)

#----------------------------------------------------------------------

class SentenceReader:

def __init__(self, filepath):

self.filepath = filepath

def __iter__(self):

for line in codecs.open(self.filepath, encoding='utf-8'):

yield line.split(' ')

#----------------------------------------------------------------------

model.save('model')

model = gensim.models.Word2Vec.load('model')

model.most_similar(positive=["한국/Noun", "도쿄/Noun"], negative=["서울/Noun"], topn=1)

# [("일본/Noun", 0.6401702165603638)]

#----------------------------------------------------------------------

import multiprocessing

config = {

'min_count': 5, # 등장 횟수가 5 이하인 단어는 무시

'size': 300, # 300차원짜리 벡터스페이스에 embedding

'sg': 1, # 0이면 CBOW, 1이면 skip-gram을 사용한다

'batch_words': 10000, # 사전을 구축할때 한번에 읽을 단어 수

'iter': 10, # 보통 딥러닝에서 말하는 epoch과 비슷한, 반복 횟수

'workers': multiprocessing.cpu_count(),

}

model = gensim.models.Word2Vec(**config)

#----------------------------------------------------------------------

...

저작자표시

'프로그래밍 > Python' 카테고리의 다른 글

[python] Python List sort() Method (0)	2017.07.17
[python] 단어 임베딩의 원리와 gensim.word2vec 사용법¶ (0)	2017.07.12
[python] Wordcloud 만들기 (0)	2017.07.11
[Python] Join, Split 리스트를 문자열로, 문자열을 리스트로 변환 (0)	2017.07.07
[python] gensim + word2vec 모델 만들어서 사용하기 (0)	2017.06.28

[TEDx] 왜 내가 하루에 책을 읽어야하는지(그리고 왜 그렇게해야하는지) 33 % 법칙 - 타이 로페즈

홍반장水_ 2017. 7. 12. 13:42

2017. 7. 12. 13:42

[TEDx] 왜 내가 하루에 책을 읽어야하는지(그리고 왜 그렇게해야하는지) 33 % 법칙 - 타이 로페즈

저작자표시

'여행_사진_영상 > MV_VOD' 카테고리의 다른 글

[MV] IU(아이유) _ Through the Night(밤편지) (0)	2017.07.25
The BMW Motorrad Int. GS Trophy 2018 - Official Teaser (0)	2017.07.20
책을 읽어야 하는 이유 (영화 '디테치먼트') (0)	2017.07.12
[2017 GSC] 스타트업, 겁먹지 말고 도전하라 메가스터디 그룹 손주은 회장 (0)	2017.07.12
[Youtube] 유튜브 레드 드디어 가입 (0)	2017.06.20

책을 읽어야 하는 이유 (영화 '디테치먼트')

홍반장水_ 2017. 7. 12. 13:41

2017. 7. 12. 13:41

책을 읽어야 하는 이유 (영화 '디테치먼트')

저작자표시

'여행_사진_영상 > MV_VOD' 카테고리의 다른 글

The BMW Motorrad Int. GS Trophy 2018 - Official Teaser (0)	2017.07.20
[TEDx] 왜 내가 하루에 책을 읽어야하는지(그리고 왜 그렇게해야하는지) 33 % 법칙 - 타이 로페즈 (0)	2017.07.12
[2017 GSC] 스타트업, 겁먹지 말고 도전하라 메가스터디 그룹 손주은 회장 (0)	2017.07.12
[Youtube] 유튜브 레드 드디어 가입 (0)	2017.06.20
full metal jeju 2017-06-03 공연 (0)	2017.06.13

[2017 GSC] 스타트업, 겁먹지 말고 도전하라 메가스터디 그룹 손주은 회장

홍반장水_ 2017. 7. 12. 13:21

2017. 7. 12. 13:21

[2017 GSC] 스타트업, 겁먹지 말고 도전하라 메가스터디 그룹 손주은 회장

저작자표시

'여행_사진_영상 > MV_VOD' 카테고리의 다른 글

[TEDx] 왜 내가 하루에 책을 읽어야하는지(그리고 왜 그렇게해야하는지) 33 % 법칙 - 타이 로페즈 (0)	2017.07.12
책을 읽어야 하는 이유 (영화 '디테치먼트') (0)	2017.07.12
[Youtube] 유튜브 레드 드디어 가입 (0)	2017.06.20
full metal jeju 2017-06-03 공연 (0)	2017.06.13
상어가족 (0)	2017.05.23

2017년 전국연합학력평가

홍반장水_ 2017. 7. 12. 09:54

2017. 7. 12. 09:54

구분	일정	대상	시행처

구분	일정	대상	시행처
3월	2017년 3월 9일 (목)	고등학교 1, 2학년	서울특별시교육청 (경기, 광주 미실시)
3월	2017년 3월 9일 (목)	고등학교 3학년	서울특별시교육청
4월	2017년 4월 12일 (수)	고등학교 3학년	경기도교육청
6월	2017년 6월 1일 (목)	고등학교 1, 2학년	부산광역시교육청 (서울, 세종 미실시)
6월	2017년 6월 1일 (목)	고등학교 3학년 - 대수능 모의평가	한국교육과정평가원
7월	2017년 7월 12일 (수)	고등학교 3학년	인천광역시교육청
9월	2017년 9월 6일 (수)	고등학교 1, 2학년	인천광역시교육청 (경기, 세종 미실시)
9월	2017년 9월 6일 (수)	고등학교 3학년 - 대수능 모의평가	한국교육과정평가원
10월	2017년 10월 17일 (화)	고등학교 3학년	서울특별시교육청
11월	2017년 11월 22일 (수)	고등학교 1, 2학년	경기도교육청

시행지역 및 일정은 각 지역교육청 및 시행처 사정에 따라 변경 될 수 있습니다.

저작자표시

'프로그래밍 > Architect' 카테고리의 다른 글

Install curl on Mac OSX (0)	2017.07.24
인맥관리? 인맥의 함정 (0)	2017.07.24
[Mobile] 여행 서비스도 모바일 퍼스트 (0)	2017.07.06
인터넷나야나, “3차 협상 준비 중…OTP·리눅스 도입 검토” (0)	2017.06.22
개발자의 평생공부 - 실력은 고통의 총합이다 (0)	2017.06.16

리더가 결코 잊어서는 안되는 한 단어, 겸손

홍반장水_ 2017. 7. 12. 09:11

2017. 7. 12. 09:11

리더는 겸손해야 한다.

직원에게 기회를 주기 위해서다.

리더가 할 일은 직원들이 편하게 아이디어를 나누고,

어떤 ‘미친’ 생각이라도 표현할 수 있도록 하는 것이다.

- 조 앤드루 (법률회사 덴턴스 회장)

실패하는 리더는 대부분 ‘능력 부족’이 아닌,

‘자만’ 때문에 망합니다.

어렵게 쌓아올린 성공의 탑을 일순간의 자만으로

무너뜨리는 것은 참으로 안타까운 일입니다.

리더가 결코 잊어서는 안될 단 하나의 단어,

바로 ‘겸손’입니다.

...

저작자표시

'생활의 발견 > 행복한 경영' 카테고리의 다른 글

위험을 감수하지 않으면 서서히 사라지게 된다 (0)	2017.07.14
인생에 트러블이 없으면 그게 더 문제다 (0)	2017.07.13
남 탓을 자주하면 불운이 따라온다 (0)	2017.07.11
직원을 보살피는 것이 사장의 첫 번째 업무다 (0)	2017.07.10
바보라는 말의 어원 (0)	2017.07.07

땅속의 보물

홍반장水_ 2017. 7. 12. 09:10

2017. 7. 12. 09:10

나는 소설이란

땅 속의 화석처럼 발굴되는 것이라고

믿는다. 소설은 이미 존재하고 있으나

아직 발견되지 않은 어떤 세계의 유물이다.

작가가 해야 할 일은 자기 연장통 속의

연장들을 사용하여 각각의 유물을

최대한 온전하게 발굴하는

것이다.

- 스티븐 킹의《유혹하는 글쓰기》중에서 -

* 화석.

땅속에 묻혀 있으면

한낱 돌조각에 불과합니다.

그러나 누군가에 의해 발굴되면

지구 역사를 밝히는 값진 보물이 됩니다.

누구에게나 무궁한 이야기가 삶 속에 있습니다.

글이라는 연장으로 쪼아낸 것이 소설입니다.

당신도 보물을 캘 수 있습니다.

...

저작자표시

'생활의 발견 > 아침편지' 카테고리의 다른 글

돈은 왜 벌까? (0)	2017.07.14
'늙은 피부'는 존재하지 않는다 (0)	2017.07.13
열렬한 사랑 (0)	2017.07.11
아름다움을 아름답게 가꾸려면 (0)	2017.07.10
야금야금 (0)	2017.07.10

PREV 이전 1 NEXT 다음

긍정적 사고, 음식의 절제, 규칙적인 운동

2017/07/12

[python] 단어 임베딩의 원리와 gensim.word2vec 사용법¶

Feed-Forward 신경망 언어 모형 (Neural Net Language Model)¶

CBOW (Continuous Bag of Words) Embedding¶

Skip-Gram Embedding¶

word2vec¶

'프로그래밍 > Python' 카테고리의 다른 글

[python] gensim.models.Word2Vec.train

'프로그래밍 > Python' 카테고리의 다른 글

[TEDx] 왜 내가 하루에 책을 읽어야하는지(그리고 왜 그렇게해야하는지) 33 % 법칙 - 타이 로페즈

[TEDx] 왜 내가 하루에 책을 읽어야하는지(그리고 왜 그렇게해야하는지) 33 % 법칙 - 타이 로페즈

'여행_사진_영상 > MV_VOD' 카테고리의 다른 글

책을 읽어야 하는 이유 (영화 '디테치먼트')

책을 읽어야 하는 이유 (영화 '디테치먼트')

'여행_사진_영상 > MV_VOD' 카테고리의 다른 글

[2017 GSC] 스타트업, 겁먹지 말고 도전하라 메가스터디 그룹 손주은 회장

[2017 GSC] 스타트업, 겁먹지 말고 도전하라 메가스터디 그룹 손주은 회장

'여행_사진_영상 > MV_VOD' 카테고리의 다른 글

2017년 전국연합학력평가

2017년 전국연합학력평가

'프로그래밍 > Architect' 카테고리의 다른 글

리더가 결코 잊어서는 안되는 한 단어, 겸손

'생활의 발견 > 행복한 경영' 카테고리의 다른 글

땅속의 보물

'생활의 발견 > 아침편지' 카테고리의 다른 글

+ Recent posts

티스토리툴바