본문 바로가기

한국어

한국어 오픈소스 자연어처리 라이브러리 프로젝트 Koshort(코숏, 한국 길고양이를 부르는 애칭일지도..)을 소개합니다! https://www.facebook.com/groups/TensorFlowKR/permalink/650448208629574/ 안녕하세요! 지난 달부터 개발하기 시작했던 한국어 오픈소스 자연어처리 라이브러리 프로젝트 Koshort(코숏, 한국 길고양이를 부르는 애칭일지도..)을 소개합니다! Koshort은 현재 총 3가지 파이썬 패키지로 이루어져있으며, 다음과 같은 특징을 공통으로 가집니다. - Windows, Linux, Mac에서 모두 사용이 가능하도록 노력합니다. (호환성 문제에 관해서는 github issue나 pull request로 알려주세요!) - 손쉬운 설치 (코드 1줄 내지 2줄) - Python3를 권장합니다. (pyeunjeon, goorm은 python2에서도 잘 동작합니다!) -.. 더보기
[AI] 구글 어시스턴트, 한국어도 “오케이, 구글” 구글 어시스턴트, 한국어도 “오케이, 구글” http://www.bloter.net/archives/290622 구글은 9월21일 인공지능(AI) 기반의 음성비서 기술인 구글 어시스턴트의 한국어 서비스를 출시했다. 구글 어시스턴트는 머신러닝을 기반으로 한 자연어 처리, 음성인식, 번역 등과 같은 기술을 바탕으로 사용자의 질문에 대답하고 정보를 찾는 등 맞춤형 서비스를 제공한다. AI 스피커 등에서 쓰이다가 스마트폰에는 올해 3월 처음으로 탑재됐다. 구글 어시스턴트의 한국어 서비스는 LG전자가 최근 출시한 ‘V30’에서 우선 만나볼 수 있다. 몇 주 내로 안드로이드 6.0 이상(마시멜로, 누가, 오레오)을 사용하는 LG폰 외 여타 안드로이드 스마트폰에서도 구글 어시스턴트를 이용할 수 있다. 구글 어시스턴트.. 더보기
인공지능 씨앗 한글 말뭉치, 2007년 멈춰선 까닭 인공지능 씨앗 한글 말뭉치, 2007년 멈춰선 까닭 http://www.bloter.net/archives/260569 자연어 처리는 인공지능 기술에서 중요한 축을 담당한다. 인간의 말을 인식해 메시지를 분석하고 다시 답변을 내놓으려면 자연어를 처리할 수 있는 향상된 기술이 필요하다. 현재 많은 연구들이 인간의 눈을 대체하는 ‘비전 인식’에 몰두하고 있다. 이미지나 영상을 기계가 인식해 사물을 분별하고 나누고 예측하는 다양한 기술들이 선보이고 있다. 인간의 입과 귀를 보완하거나 대신하기 위한 연구도 한창이긴 하다. 애플이 시리나 썸리와 같은 기사 요약 서비스 등이 여기에 해당한다. 번역에서도 자연어 처리는 필수적이다. 하지만 비전 인식에 비해 더딜 수밖에 없다. 문자 언어가 깊숙이 관여돼있기 때문이다. .. 더보기
[python] Pycon2017 koreannlp - 노가다 없는 텍스트 분석을 위한 한국어 NLP 노가다 없는 텍스트 분석을 위한 한국어 NLP - pycon kr 2017 Pycon2017 koreannlp from Hyunjoong Kim 파이콘 2017 에서 발표할 한국어 자연어처리 문서입니다. 확률 모델이 아닌, 분석하려는 데이터 기반으로 단어 추출 / 명사 추출 / 토크나이징 / 사용자 사전 + KoNLPy 응용의 내용이 담겨 있습니다. Soy Korean Natural Language Processing Toolkits https://github.com/lovit/soynlp customized KoNLPy - KoNLPy + 사용자사전https://github.com/lovit/customized_konlpy ... 더보기
[NLPY] twitter-korean-text - 트위터에서 만든 오픈소스 한국어 처리기 twitter-korean-text - 트위터에서 만든 오픈소스 한국어 처리기 https://github.com/twitter/twitter-korean-text 트위터에서 만든 오픈소스 한국어 처리기2017년 4.4 버전 이후의 개발은 http://openkoreantext.org 에서 진행됩니다.We now started an official fork at http://openkoreantext.org as of early 2017. All the development after version 4.4 will be done in open-korean-text.Scala/Java library to process Korean text with a Java wrapper. twitter-korean-te.. 더보기
[python] regex install - 한국어 어절 분리 It's Easy (On Mac):Install easy_install curl https://bootstrap.pypa.io/ez_setup.py -o - | sudo python Install pip sudo easy_install pip Install regex module pip install regex https://www.lucypark.kr/blog/2013/03/21/chunking-korean-one-liner/ 한국어처럼 Unicode가 사용된 경우에는 위 방법을 이용할 수 없다. 대신 한국어 어절을 분리하고 싶을 때는 regex를 쓰면 편하다.2>>> import regex >>> regex.findall(ur'\p{Hangul}+', u'다람쥐 헌 쳇바퀴에 타고파.') [u'\ub2.. 더보기
[python] 파이썬으로 영어와 한국어 텍스트 다루기, 문서 전처리 파이썬으로 영어와 한국어 텍스트 다루기https://www.lucypark.kr/courses/2015-dm/text-mining.html 문서 전처리 https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/ 모든 데이터 분석 모형은 숫자로 구성된 고정 차원 벡터를 독립 변수로 하고 있으므로 문서(document)를 분석을 하는 경우에도 숫자로 구성된 특징 벡터(feature vector)를 문서로부터 추출하는 과정이 필요하다. 이러한 과정을 문서 전처리(document preprocessing)라고 한다. BOW (Bag of Words) 문서를 숫자 벡터로 변환하는 가장 기본적인 방법은 BOW (Bag of Words).. 더보기
MS, 신경망 번역에 ‘한국어’ 추가…11개 언어 지원 MS, 신경망 번역에 ‘한국어’ 추가…11개 언어 지원 마이크로소프트(MS)가 인공지능(AI) 기반으로 개발한 자사 신경망 기반 번역 서비스에 한국어를 추가했다. 최대 1만자까지 신경망 기술을 이용해 번역한다. 신경망 기반 번역은 단편적인 단어에 대한 직역이 아닌, 문장 전체의 맥락을 파악해 사람이 말하는 것처럼 자연스러운 번역이 특징이다. 구글과 네이버도 최근 신경망 기술을 이용한 번역 서비스인 ‘구글 번역’과 ‘파파고’를 선보였다. 구글 신경망 번역은 7가지 언어, 네이버 파파고는 한영 번역을 최대 200자 이내 번역한다. MS는 지난해 11월 처음으로 신경망 기반 번역 서비스를 공개했다. 당시 영어, 독일어, 아랍어, 중국어, 일본어를 포함한 10가지 언어를 지원했다. 이번에 한국어가 추가하면서 총.. 더보기