본문 바로가기

반응형

gensim

[python] 영어/한국어 Word2Vec 실습 영어/한국어 Word2Vec 실습 wikidocs.net/50739 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 더보기
[python] Word2Vec 모델 만들기 Word2Vec 모델 만들기 sdc-james.gitbook.io/onebook/5./6.1./6.1.3.-word2vec 6.1.3. Word2Vec 모델 만들기 sdc-james.gitbook.io 다음 예제는 네이버 영화 리뷰를 정리해둔 Naver sentiment movie corpus v1.0(https://github.com/e9t/nsmc) 를 사용하여 Word Embedding Model (Word2Vec)을 빌드하는 것입니다. 일단 다음 명령으로 genism 라이브러리를 설치합니다. NLTK는 자연어 처리를 위해 광범위하게 쓰이는 Python library입니다. (onebook) > pip install lxml (onebook) > pip install utils (onebook) >.. 더보기
[python] Gensim을 사용하여 Python에서 Word 임베딩을 개발하는 방법 Gensim을 사용하여 Python에서 Word 임베딩을 개발하는 방법 단어 임베딩은 자연어 처리에서 텍스트를 표현하기위한 현대적인 접근 방식입니다. word2vec 및 GloVe와 같은 단어 임베딩 알고리즘 은 기계 번역과 같은 자연어 처리 문제에 대한 신경망 모델을 통해 얻은 최첨단 결과의 핵심입니다. 이 튜토리얼에서는 Gensim을 사용하여 Python에서 자연어 처리 애플리케이션을위한 단어 임베딩 모델을 학습하고로드하는 방법을 알아 봅니다. 이 자습서를 완료하면 다음을 알게됩니다. 텍스트 데이터에서 자신 만의 word2vec 단어 임베딩 모델을 훈련하는 방법. 주성분 분석을 사용하여 훈련 된 단어 임베딩 모델을 시각화하는 방법. 사전 훈련 된 word2vec 및 GloVe 단어 임베딩 모델을 Go.. 더보기
[python] 단어 임베딩의 원리와 gensim.word2vec 사용법¶ 단어 임베딩의 원리와 gensim.word2vec 사용법 단어 임베딩(Word Embedding)이란 텍스트를 구성하는 하나의 단어를 수치화하는 방법의 일종이다.텍스트 분석에서 흔히 사용하는 방식은 단어 하나에 인덱스 정수를 할당하는 Bag of Words 방법이다. 이 방법을 사용하면 문서는 단어장에 있는 단어의 갯수와 같은 크기의 벡터가 되고 단어장의 각 단어가 그 문서에 나온 횟수만큼 벡터의 인덱스 위치의 숫자를 증가시킨다.즉 단어장이 "I", "am", "a", "boy", "girl" 다섯개의 단어로 이루어진 경우 각 단어에 다음과 같이 숫자를 할당한다."I": 0 "am": 1 "a": 2 "boy": 3 "girl": 4이 때 "I am a girl" 이라는 문서는 다음과 같이 벡터로 만들 .. 더보기
[python] gensim.models.Word2Vec.train gensim.models.Word2Vec.train Word2Vec.train(sentences, total_words=None, word_count=0, total_examples=None, queue_factor=2, report_delay=1.0) Update the model’s neural weights from a sequence of sentences (can be a once-only generator stream). For Word2Vec, each sentence must be a list of unicode strings. (Subclasses may accept other examples.)문장의 시퀀스에서 모델의 신경 가중치를 업데이트하십시오 (한 번만 생성기 스트림 일 수 있음).. 더보기
[python] gensim + word2vec 모델 만들어서 사용하기 gensim + word2vec 모델 만들어서 사용하기 참고 : https://www.lucypark.kr/courses/2015-ba/text-mining.html #Load datafrom konlpy.corpus import kobilldocs_ko = [kobill.open(i).read() for i in kobill.fileids()] #Tokenizefrom konlpy.tag import Twitter; t = Twitter()pos = lambda d: ['/'.join(p) for p in t.pos(d)]texts_ko = [pos(doc) for doc in docs_ko] #Trainfrom gensim.models import word2vecwv_model_ko = word2ve.. 더보기
파이썬으로 영어와 한국어 텍스트 다루기 파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html TerminologiesEnglish한국어DescriptionDocument문서-Corpus말뭉치A set of documentsToken토큰Meaningful elements in a text such as words or phrases or symbolsMorphemes형태소Smallest meaningful unit in a languagePOS품사Part-of-speech (ex: Nouns)Text analysis process 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다.Load textTokenize text (ex: stemming, morp.. 더보기

반응형