반응형


It's Easy (On Mac):

  1. Install easy_install  curl https://bootstrap.pypa.io/ez_setup.py -o - | sudo python
  2. Install pip  sudo easy_install pip
  3. Install regex module  pip install regex



한국어처럼 Unicode가 사용된 경우에는 위 방법을 이용할 수 없다. 대신 한국어 어절을 분리하고 싶을 때는 regex를 쓰면 편하다.2

>>> import regex
>>> regex.findall(ur'\p{Hangul}+', u'다람쥐 헌 쳇바퀴에 타고파.')
[u'\ub2e4\ub78c\uc950', u'\ud5cc', u'\uccc7\ubc14\ud034\uc5d0', u'\ud0c0\uace0\ud30c']

한국어, 영어, 한자어 등 여러 언어가 혼재된 경우에는 아래와 같이 어절을 분리할 수 있다.

>>> import regex
>>> regex.findall(ur'[\p{Hangul}|\p{Latin}|\p{Han}]+', u'동틀녘 sunlight이 作品!')
>>> [u'\ub3d9\ud2c0\ub158', u'sunlight\uc774', u'\u4f5c\u54c1']


반응형

+ Recent posts