본문 바로가기

전처리

[python] Customized Konlpy 사용하기 Customized Konlpy 사용하기 okt 에 dict 추가하기 https://inspiringpeople.github.io/data%20analysis/ckonlpy/ Customized Konlpy 사용하기 Text Mining 데이터 분석은 다른 데이터 종류 분석보다 손이 많이 가고 데이터를 더 많이 들여다보아야 한다.특히, 한국어 Text Mining은 같은 의미 단어라도 뒤에 붙는 조사/어미에 따라 변형될 수 있 inspiringpeople.github.io Ckonlpy로 전처리하고 형태소 분석하기 전처리 단에서는 단어 추가, 치환, 필터, 복합명사 변환 작업 등을 하면서 data cleansing 작업을 한다. Ckonlpy에서는 add_dictionary 함수와 Postprocesso.. 더보기
파이썬으로 영어와 한국어 텍스트 다루기 파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html TerminologiesEnglish한국어DescriptionDocument문서-Corpus말뭉치A set of documentsToken토큰Meaningful elements in a text such as words or phrases or symbolsMorphemes형태소Smallest meaningful unit in a languagePOS품사Part-of-speech (ex: Nouns)Text analysis process 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다.Load textTokenize text (ex: stemming, morp.. 더보기
[python] 파이썬으로 영어와 한국어 텍스트 다루기, 문서 전처리 파이썬으로 영어와 한국어 텍스트 다루기https://www.lucypark.kr/courses/2015-dm/text-mining.html 문서 전처리 https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/ 모든 데이터 분석 모형은 숫자로 구성된 고정 차원 벡터를 독립 변수로 하고 있으므로 문서(document)를 분석을 하는 경우에도 숫자로 구성된 특징 벡터(feature vector)를 문서로부터 추출하는 과정이 필요하다. 이러한 과정을 문서 전처리(document preprocessing)라고 한다. BOW (Bag of Words) 문서를 숫자 벡터로 변환하는 가장 기본적인 방법은 BOW (Bag of Words).. 더보기