Customized Konlpy 사용하기
okt 에 dict 추가하기
https://inspiringpeople.github.io/data%20analysis/ckonlpy/
Ckonlpy로 전처리하고 형태소 분석하기
전처리 단에서는 단어 추가, 치환, 필터, 복합명사 변환 작업 등을 하면서 data cleansing 작업을 한다.
Ckonlpy에서는 add_dictionary 함수와 Postprocessor 모듈을 통해서 이와 같은 작업을 할 수 있다.
- 단어 추가 : domain specific한 단어 추가 (ex. 아이오아이, 트와이스 ..)
- 단어 치환 : 오타 관련 cleansing 작업 (ex. 잇다 -> 있다 ..)
- 단어 선택 : 선택한 단어/품사만 추출
- 단어 필터 : 너무 general 데이터 분석에 도움이 안되는 단어들 삭제 (ex. 나, 너..)
- 단어 결합 : n-gram 이상의 단어를 한 단어로 결합
단어 추가 (add_dictionary)
기존 트위터 분석기 사전에 존재하지 않는 단어를 추가할 때 사용한다.
자신이 분석하는 domain specific 단어를 추가할 때 유용하다.
- add_dictionary 함수 사용 : 단어 또는 단어 리스트 단위로 등록
- 사전 파일 등록 : 파일 단위로 단어 뭉치 등록
위치 : customized_konlpy/ckonlpy/data/twitter (자신이 등록하는 파일의 품사에 따라 등록)
주의사항 !!!
파일 단위로 단어를 등록하는 경우에는 등록한 이후 pip install customized_konlpy를 다시 실행시켜줘야 반영이 된다.