본문 바로가기

gensim

[python] 단어 임베딩의 원리와 gensim.word2vec 사용법¶ 단어 임베딩의 원리와 gensim.word2vec 사용법 단어 임베딩(Word Embedding)이란 텍스트를 구성하는 하나의 단어를 수치화하는 방법의 일종이다.텍스트 분석에서 흔히 사용하는 방식은 단어 하나에 인덱스 정수를 할당하는 Bag of Words 방법이다. 이 방법을 사용하면 문서는 단어장에 있는 단어의 갯수와 같은 크기의 벡터가 되고 단어장의 각 단어가 그 문서에 나온 횟수만큼 벡터의 인덱스 위치의 숫자를 증가시킨다.즉 단어장이 "I", "am", "a", "boy", "girl" 다섯개의 단어로 이루어진 경우 각 단어에 다음과 같이 숫자를 할당한다."I": 0 "am": 1 "a": 2 "boy": 3 "girl": 4이 때 "I am a girl" 이라는 문서는 다음과 같이 벡터로 만들 .. 더보기
[python] gensim.models.Word2Vec.train gensim.models.Word2Vec.train Word2Vec.train(sentences, total_words=None, word_count=0, total_examples=None, queue_factor=2, report_delay=1.0) Update the model’s neural weights from a sequence of sentences (can be a once-only generator stream). For Word2Vec, each sentence must be a list of unicode strings. (Subclasses may accept other examples.)문장의 시퀀스에서 모델의 신경 가중치를 업데이트하십시오 (한 번만 생성기 스트림 일 수 있음).. 더보기
[python] gensim + word2vec 모델 만들어서 사용하기 gensim + word2vec 모델 만들어서 사용하기 참고 : https://www.lucypark.kr/courses/2015-ba/text-mining.html #Load datafrom konlpy.corpus import kobilldocs_ko = [kobill.open(i).read() for i in kobill.fileids()] #Tokenizefrom konlpy.tag import Twitter; t = Twitter()pos = lambda d: ['/'.join(p) for p in t.pos(d)]texts_ko = [pos(doc) for doc in docs_ko] #Trainfrom gensim.models import word2vecwv_model_ko = word2ve.. 더보기
파이썬으로 영어와 한국어 텍스트 다루기 파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html TerminologiesEnglish한국어DescriptionDocument문서-Corpus말뭉치A set of documentsToken토큰Meaningful elements in a text such as words or phrases or symbolsMorphemes형태소Smallest meaningful unit in a languagePOS품사Part-of-speech (ex: Nouns)Text analysis process 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다.Load textTokenize text (ex: stemming, morp.. 더보기