반응형
반응형

한국어는 교착어이다.

한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있습니다. 품사를 어떻게 명명하고, 태깅하는지의 기준은 여러가지가 있는데, NLTK에서는 Penn Treebank POS Tags라는 기준을 사용합니다. 실제로 NLTK를 사용해서 영어 코퍼스에 품사 태깅을 해보도록 하겠습니다.

nltk 에러나면  CMD에서 pip install nltk

>>> from nltk.tokenize import word_tokenize
Traceback (most recent call last):
  File "<pyshell#19>", line 1, in <module>
    from nltk.tokenize import word_tokenize
ModuleNotFoundError: No module named 'nltk'

>>> from nltk.tokenize import word_tokenize

>>> text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
>>> print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']

>>> from nltk.tag import pos_tag
>>> x=word_tokenize(text)
>>> pos_tag(x)

[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]

영어 문장에 대해서 토큰화를 수행하고, 이어서 품사 태깅을 수행하였습니다. Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미합니다.

한국어 자연어 처리를 위해서는 KoNLPy("코엔엘파이"라고 읽습니다)라는 파이썬 패키지를 사용할 수 있습니다. 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.

 

한국어 자연어 처리를 위해서는 KoNLPy("코엔엘파이"라고 읽습니다)라는 파이썬 패키지를 사용할 수 있습니다. 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.

한국어 NLP에서 형태소 분석기를 사용한다는 것은 단어 토큰화가 아니라 정확히는 형태소(morpheme) 단위로 형태소 토큰화(morpheme tokenization)를 수행하게 됨을 뜻합니다. 여기선 이 중에서 Okt와 꼬꼬마를 통해서 토큰화를 수행해보도록 하겠습니다. (Okt는 기존에는 Twitter라는 이름을 갖고있었으나 0.5.0 버전부터 이름이 변경되어 인터넷에는 아직 Twitter로 많이 알려져있으므로 학습 시 참고바랍니다.)

 

>>> from konlpy.tag import Okt
>>> okt=Okt()

>>> print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

>>> print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]

>>> print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']

위의 예제는 Okt 형태소 분석기로 토큰화를 시도해본 예제입니다.

1) morphs : 형태소 추출
2) pos : 품사 태깅(Part-of-speech tagging)
3) nouns : 명사 추출

위 예제에서 사용된 각 메소드는 이런 기능을 갖고 있습니다. 앞서 언급한 코엔엘파이의 형태소 분석기들은 공통적으로 이 메소드들을 제공하고 있습니다. 위 예제에서 형태소 추출과 품사 태깅 메소드의 결과를 보면, 조사를 기본적으로 분리하고 있음을 확인할 수 있습니다. 그렇기 때문에 한국어 NLP에서 전처리에 형태소 분석기를 사용하는 것은 꽤 유용합니다.

 

이번에는 꼬꼬마 형태소 분석기를 사용하여 같은 문장에 대해서 토큰화를 진행해볼 것입니다.

>>> from konlpy.tag import Kkma
>>> kkma=Kkma()
>>> print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

>>> print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]

>>> print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']

앞서 사용한 Okt 형태소 분석기와 결과가 다른 것을 볼 수 있습니다. 각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됩니다. 예를 들어서 속도를 중시한다면 메캅을 사용할 수 있습니다.

 

 

출처 : wikidocs.net/21698

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

반응형
반응형

JSP, Servlet, Spring으로 웹 제작시 가장 필요한 기본중에 기본인 톰캣 환경 구성은 필수!!!


1. 자바 버전 확인

터미널 창에서 java -version을 쳐본다.
혹은 왼쪽 상단의 시스템환경설정에서 자바를 찾아서 클릭한 후 '정보'를 누르면 자바 번전을 확인 할 수 있다.


2.아파치 톰캣(Tomcat)을 다운 받는다.

http://tomcat.apache.org/


다운로드에서 tomcat7.0 / Tomcat9.0 등에서 원하는 버전을 골라서 tar.gz 다운 한다.

Tomcat 7 버전을 다운받았다.


3. 다운로드 폴더에 받아진 톰캣 압축파일을 풀고 이름을 알기 쉽게 'tomcat7'로 바꿔준다.
 그리고 이 폴더를 바탕화면으로 옮겨준다.
 터미널을 켜고 

$>sudo mv ~/Desktop/tomcat7 /usr/local


4. 새로 만든 톰캣 폴더를 언제든지 업데이트 하여도 변경하지 않고 간편하게 쓸 수 있게 하도록 해준다.
심볼릭 링크를 걸어준다.
$>sudo ln -s /usr/local/tomcat7 /Library/Tomcat


5. 내 계정이 폴더를 사용할 수 있도록 권한을 수정해 준다.

$>sudo chwon -R  /Library/Tomcat


6. 쉘을 실행할 수 있도록 권한을 설정해 준다.

$>sudo chmod +x /Library/Tomcat/bin/*.sh



6.쉘을 통해 톰캣을 시작, 중지해 본다.

$>sudo /Library/Tomcat/bin/startup.sh
$>sudo /Library/Tomcat/bin/shutdown.sh




이클립스 설정 과정

1.이클리스 Java EE를 열어보면 하단에 Markers/Properties/Servers/ ... 이 있는 것을 확인 할 수 있다.
그중에 Servers 탭을 열어본다.
그럼 파란 글씨로 No servers are available. Click this link to create a new server. 라는 글씨를 볼 수 있다.
이 파란 링크를 클릭해 준다.

2.맨위 폴더에 Apache 폴더를 열어보면 Tomcat v8.0 Server(우리가 설치한 톰캣이 8.x버전이므로)가 있는데
이를 클릭하고 Next로 넘어간다.

3.Name : ApacheTomcat v8.0
Tomcat installation directory : /usr/local/Tomcat8 으로 옆에 Browse... 을 눌러 설정해준다.
JRE : Java SE 8 [1.8.xxx] 로 설정해준다.

4.위의 과정이 완료되면 아무것도 없던 왼쪽 사이드에 Servers 라고 폴더가 생겼을 것이다.
그리고 밑에 Servers 탭을 보면 Tomcat v8.0 Server at localhost [Stopped, Republish]
아직 서버가 시작되지 않은 상태이다.

5.맨 오른쪽에 파란색 화살표를 눌러주면 서버가 시작된다.
그리고 다시 빨간네모를 눌러주면 서버가 멈춘다.

 

출처 :  https://joonyon.tistory.com/15?category=720949

 

아파치 톰캣(Tomcat) 설치/설정 및 이클립스 설정 // 맥에서(for mac)

JSP, Servlet, Spring으로 웹 제작시 가장 필요한 기본중에 기본인 톰캣 환경 구성은 필수!!! 1. 자바 버전 확인 터미널 창에서 java -version을 쳐본다. 혹은 왼쪽 상단의 시스템환경설정에서 자바를 찾아서 클릭..

joonyon.tistory.com

 

반응형
반응형

[ChatScript]  ChatScript 를 Mac에 설치하기.


https://sourceforge.net/projects/chatscript/ 에서 다운받아서 설치. 


* 설치 설명 : http://exagen.tistory.com/42


맥에서 설치하면 기존 컴파일이 안되기 때문에 다른 방법이 필요함. 실행파일이 바이너리라 별도 작업 필요. 


폴더에 압축을 풀거나 직접 github에서 cloing을 한 후에는 src를 SRC로 컴파일해야합니다.

예제 / 기본 명령 줄 컴파일은 NON-WINDOWS NON-C / MAC / MacCompile.sh에 있습니다. 자세한 내용은 해당 디렉토리의 compile-on-osx.html을 읽으십시오.



mac install & run  참조 : https://github.com/bwilcox-1234/ChatScript/blob/master/WIKI/OVERVIEWS-AND-TUTORIALS/ChatScript-on-a-Mac.md





...


반응형
반응형

Install curl on Mac OSX

About the App

  • App name: curl
  • App description: Get a file from an HTTP HTTPS or FTP server
  • App websitehttp://curl.haxx.se/

Install the App

  1. Press Command+Space and type Terminal and press enter/return key.
  2. Run in Terminal app:
    ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" < /dev/null 2> /dev/null
    and press enter/return key. Wait for the command to finish.
  3. Run:
    brew install curl

Done! You can now use curl.


반응형
반응형

cordova ionic install 중 권한에러 발생시


http://ionicframework.com/getting-started/ 에서  


> npm -g install cordova ionic 


이었는데, 에러 발생 - code: 'EACCES'




그런데, 권한문제인거같아 찾아보니 sudo 권한으로 실행하면 성공.


> sudo npm -g install cordova ionic


stackoverflow 참조 :  Fail to install cordova with npm on Mac os x



반응형
반응형

Install Ubuntu 13.10

 

http://www.ubuntu.com/download/desktop/install-desktop-latest

 

 

반응형

+ Recent posts