한글

[python] 한글 자음, 모음, 초성 추출하기 2024.03.20
한글 자음, 모음 설명 2024.03.15
[python] 한글 자음 모음 분리하기, jamo, jamotools 2024.03.15
pandas dataframe을 csv 한글깨짐. Pandas df.to_csv("file.csv" encode="utf-8") still gives trash characters for minus sign 2022.02.14
[tensorflow] 한글 음절 인식기 2021.11.04
[python] 영어/한국어 Word2Vec 실습 2021.02.15

[python] 한글 자음, 모음, 초성 추출하기

홍반장水_ 2024. 3. 20. 17:34

2024. 3. 20. 17:34

[python] 한글 자음, 모음, 초성 추출하기

# pip install jamotools 
# https://pypi.org/project/jamotools/
# A library for Korean Jamo split and vectorize. 
#
# 음절 분할 및 jamos를 음절에 결합하는 API는 hangul-utils 를 기반으로 합니다 .
# 
# Split_syllables : 음절 문자열을 jamos 문자열로 변환하고 유니코드 유형을 변환하도록 선택할 수 있습니다.
# Join_jamos : jamos 문자열을 음절 문자열로 변환합니다.
# Normalize_to_compat_jamo : jamos 문자열을 한글 호환성 Jamo 문자열로 정규화합니다 .
import jamotools

print(jamotools.split_syllable_char(u"안"))
#('ㅇ', 'ㅏ', 'ㄴ')

print(jamotools.split_syllables(u"안녕하세요"))
# ㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛ


sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
s = jamotools.split_syllables(sentence)
print(s, '\n')

""" ㅇㅏㅍ ㅈㅣㅂ ㅍㅏㅌㅈㅜㄱㅇㅡㄴ ㅂㅜㄺㅇㅡㄴ ㅍㅏㅌ ㅍㅜㅅㅍㅏㅌㅈㅜㄱㅇㅣㄱㅗ,
ㄷㅟㅅㅈㅣㅂ ㅋㅗㅇㅈㅜㄱㅇㅡㄴ ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ.ㅇㅜㄹㅣ
ㅈㅣㅂ ㄲㅐㅈㅜㄱㅇㅡㄴ ㄱㅓㅁㅇㅡㄴ ㄲㅐ ㄲㅐㅈㅜㄱㅇㅣㄴㄷㅔ ㅅㅏㄹㅏㅁㄷㅡㄹㅇㅡㄴ
ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ ㄲㅐㅈㅜㄱ ㅈㅜㄱㅁㅓㄱㄱㅣㄹㅡㄹ
ㅅㅣㅀㅇㅓㅎㅏㄷㅓㄹㅏ. """

sentence2 = jamotools.join_jamos(s)
print(sentence2)
""" 앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집 깨죽은 검은 깨
깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라. """

print(sentence == sentence2)
# True


# 자음만 추출
def extract_vowels(text):
    vowels = set(['ㅏ', 'ㅑ', 'ㅓ', 'ㅕ', 'ㅗ', 'ㅛ', 'ㅜ', 'ㅠ', 'ㅡ', 'ㅣ', 'ㅐ', 'ㅒ', 'ㅔ', 'ㅖ', 'ㅘ', 'ㅙ', 'ㅚ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅢ'])
    result = ''
    for char in text:
        if '가' <= char <= '힣':  # Check if the character is Hangul
            syllables = jamotools.split_syllables(char)
            for syllable in syllables:
                if syllable in vowels:
                    result += syllable
    return result

sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
vowels_only = extract_vowels(sentence)
print(vowels_only)
# ㅏㅣㅏㅜㅡㅜㅡㅏㅜㅏㅜㅣㅗㅟㅣㅗㅜㅡㅐㅗㅏㅗㅗㅜㅜㅣㅣㅐㅜㅡㅓㅡㅐㅐㅜㅣㅔㅏㅏㅡㅡㅐㅗㅏㅗㅗㅜㅐㅜㅜㅓㅣㅡㅣㅓㅏㅓㅏ


# 모음만 추출 
def extract_consonants(text):
    consonants = set(['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ'])
    result = ''
    for char in text:
        if '가' <= char <= '힣':  # Check if the character is Hangul
            syllables = jamotools.split_syllables(char)
            for syllable in syllables:
                if syllable in consonants:
                    result += syllable
    return result

sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
consonants_only = extract_consonants(sentence)
print(consonants_only)
# ㅇㅍㅈㅂㅍㅌㅈㄱㅇㄴㅂㅇㄴㅍㅌㅍㅅㅍㅌㅈㄱㅇㄱㄷㅅㅈㅂㅋㅇㅈㄱㅇㄴㅎㅅㅋㅇㄷㄴㅋㅇㅋㅇㅈㄱㅇㄹㅈㅂㄲㅈㄱㅇㄴㄱㅁㅇㄴㄲㄲㅈㄱㅇㄴㄷㅅㄹㅁㄷㄹㅇㄴㅎㅅㅋㅇㄷㄴㅋㅇㅋㅇㅈㄱㄲㅈㄱㅈㄱㅁㄱㄱㄹㄹㅅㅇㅎㄷㄹ


# 초성만 추출 
def extract_initial_consonants(text):
    result = ''
    for char in text:
        if '가' <= char <= '힣':  # Check if the character is Hangul
            initial_consonant = jamotools.split_syllable_char(char)[0]
            result += initial_consonant
    return result

sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
initial_consonants_only = extract_initial_consonants(sentence)
print(initial_consonants_only)

저작자표시 비영리 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] 문자열 인코딩 확인하기. chardet (0)	2024.03.22
[python] 엑셀 읽고 쓰기 openpyxl (0)	2024.03.20
[python] 한글 자음 모음 분리하기, jamo, jamotools (0)	2024.03.15
[python] gTTS 한글 speak (0)	2024.03.12
[python] pyttsx3, TTS, AudioBook, gTTS (0)	2024.03.12

한글 자음, 모음 설명

홍반장水_ 2024. 3. 15. 17:16

2024. 3. 15. 17:16

https://namu.wiki/w/%ED%95%9C%EA%B8%80/%EC%9E%90%EB%AA%A8

한글/자모

현재 사전이나 컴퓨터 한글 코드에서 한글 자모는 다음 순으로 배열한다. 한글 맞춤법 제4항 붙임 2와 그 해설에 따

namu.wiki

한글을 이루는 낱글자. '자모'라고 하여 ' 자음'과 ' 모음'의 약자로 알고 있는 경우가 많으나, 한자를 보면 子母가 아닌 字母이다. '글자(字)를 이루는 모(母)체'라는 뜻.

자음(19자) : ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ
모음(21자) : ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ
받침(27자) : ㄱ ㄲ ㄳ ㄴ ㄵ ㄶ ㄷ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅄ ㅅ ㅆ ㅇ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ

저작자표시 비영리 (새창열림)

'프로그래밍' 카테고리의 다른 글

애플, 자율주행차 버리고 ‘로봇’ 택했다...프로젝트 스컹크웍스 시동 (0)	2024.04.05
취약층 의대 보낸 '서울런' 인강…"AI로 맞춤 학습 강화"(종합) (1)	2024.03.29
[VSCODE] vscode-pdf (0)	2024.03.07
프리랜서를 위한 종합소득세 신고 Q&A (0)	2024.02.05
Meta의 무료 Code Llama AI 프로그래밍 도구로 GPT-4와의 격차 해소 (0)	2024.01.31

[python] 한글 자음 모음 분리하기, jamo, jamotools

홍반장水_ 2024. 3. 15. 16:41

2024. 3. 15. 16:41

[python] 한글 자음 모음 분리하기

pip install jamo

https://pypi.org/project/jamo/

jamo

A Hangul syllable and jamo analyzer.

pypi.org

https://github.com/jdongian/python-jamo

------------

pip install jamotools

https://pypi.org/project/jamotools/

A library for Korean Jamo split and vectorize. 한국어 Jamo를 분할하고 벡터화하는 라이브러리입니다.

>>> import jamotools
>>> print(jamotools.split_syllable_char(u"안"))
('ㅇ', 'ㅏ', 'ㄴ')

>>> print(jamotools.split_syllables(u"안녕하세요"))
ㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛ

>>> sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집
    깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
>>> s = jamotools.split_syllables(sentence)
>>> print(s)
ㅇㅏㅍ ㅈㅣㅂ ㅍㅏㅌㅈㅜㄱㅇㅡㄴ ㅂㅜㄺㅇㅡㄴ ㅍㅏㅌ ㅍㅜㅅㅍㅏㅌㅈㅜㄱㅇㅣㄱㅗ,
ㄷㅟㅅㅈㅣㅂ ㅋㅗㅇㅈㅜㄱㅇㅡㄴ ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ.ㅇㅜㄹㅣ
ㅈㅣㅂ ㄲㅐㅈㅜㄱㅇㅡㄴ ㄱㅓㅁㅇㅡㄴ ㄲㅐ ㄲㅐㅈㅜㄱㅇㅣㄴㄷㅔ ㅅㅏㄹㅏㅁㄷㅡㄹㅇㅡㄴ
ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ ㄲㅐㅈㅜㄱ ㅈㅜㄱㅁㅓㄱㄱㅣㄹㅡㄹ
ㅅㅣㅀㅇㅓㅎㅏㄷㅓㄹㅏ.

>>> sentence2 = jamotools.join_jamos(s)
>>> print(sentence2)
앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집 깨죽은 검은 깨
깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라.

>>> print(sentence == sentence2)
True

저작자표시 비영리 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] 엑셀 읽고 쓰기 openpyxl (0)	2024.03.20
[python] 한글 자음, 모음, 초성 추출하기 (0)	2024.03.20
[python] gTTS 한글 speak (0)	2024.03.12
[python] pyttsx3, TTS, AudioBook, gTTS (0)	2024.03.12
[python] Pandas tutorial (0)	2024.03.08

pandas dataframe을 csv 한글깨짐. Pandas df.to_csv("file.csv" encode="utf-8") still gives trash characters for minus sign

홍반장水_ 2022. 2. 14. 14:17

2022. 2. 14. 14:17

Pandas df.to_csv("file.csv" encode="utf-8") still gives trash characters for minus sign

I've read something about a Python 2 limitation with respect to Pandas' to_csv( ... etc ...). Have I hit it? I'm on Python 2.7.3 This turns out trash characters for ≥ and - when they appear in st...

stackoverflow.com

https://stackoverflow.com/questions/25788037/pandas-df-to-csvfile-csv-encode-utf-8-still-gives-trash-characters-for-min
pandas dataframe을 csv 형태로, to_csv

utf-8 encoding으로 저장하면
내용 중 한글이 깨지는 문제 발생
euc-kr 로 저장할 때는 문제 없음
df.to_csv('file.csv',encoding='euc-kr')

df.to_csv('file.csv',encoding='utf-8')
한글 깨짐

해결책: df.to_csv('file.csv',encoding='utf-8-sig')

windows 환경 (정확히는 win7)
Python 3.6.4 :: Anaconda custom (64-bit)
pandas==0.23.4

저작자표시 비영리 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] pandas.DataFrame.to_csv 쉼표로 구분된 값(csv) 파일에 DataFrame 쓰기, 매개 변수 (0)	2022.02.14
[Python] Pandas .Series 의 item , to_CSV (0)	2022.02.14
KoNLPy 한국어 처리 패키지. OSS project 한나눔(Hannanum) , 한국어 형태소 분석시 + 음차표기 (0)	2022.02.14
[python] anaconda에 wordcloud module 설치하기 (0)	2022.02.09
[Python] Konlpy - 가상환경, os.getcwd(), os.path.realpath(__file__) (0)	2022.02.07

[tensorflow] 한글 음절 인식기

홍반장水_ 2021. 11. 4. 12:11

2021. 11. 4. 12:11

[tensorflow] 한글 음절 인식기 - hangul-syllable-recognition

https://github.com/junstar92/hangul-syllable-recognition

GitHub - junstar92/hangul-syllable-recognition: hangul syllable recognition 한글 음절 인식기

hangul syllable recognition 한글 음절 인식기. Contribute to junstar92/hangul-syllable-recognition development by creating an account on GitHub.

github.com

Introduction

한글은 조합이 다양하기 때문에 영어에 비해서 OCR 성능이 조금 떨어진다고 알고 있다.

다양한 폰트와 손글씨 데이터를 가지고, 얼마나 한글을 잘 인식하는지 확인하기 위해서 프로젝트를 진행했다.

Getting started

python and pakage version

python3 == 3.8.3

tensorflow_gpu == 2.3.0

numpy == 1.19.5

argparse == 1.1

pandas == 1.2.0

cv2 == 4.5.1

streamlit == 0.74.1

streamlit_drawable_canvas

저작자표시 비영리 (새창열림)

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

ChatGPT: OptimizingLanguage Modelsfor Dialogue (0)	2022.12.20
[모두의 말뭉치 활용 방법] 모두의 말뭉치 소개 및 파일 신청하기 (1회차) (0)	2022.10.17
BERT 톺아보기 (0)	2021.02.17
‘감성 분석 뜬다는데 해볼까’는 위험 어떤 문제에 왜 필요한지 정의 먼저 (0)	2021.02.16
딥러닝 자연어처리 - RNN에서 BERT까지 (0)	2021.02.03

[python] 영어/한국어 Word2Vec 실습

홍반장水_ 2021. 2. 15. 17:27

2021. 2. 15. 17:27

영어/한국어 Word2Vec 실습

wikidocs.net/50739

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

저작자표시 비영리 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[PYTHON] jupyter를 완전히 제거 (0)	2021.04.22
[VSCode] Python 가상환경(venv) 쉽게 설정하기 (0)	2021.02.16
[python] Word2Vec 모델 만들기 (0)	2021.02.15
[python] Gensim을 사용하여 Python에서 Word 임베딩을 개발하는 방법 (0)	2021.02.15
[python] TypeError: expected string or bytes-like object (0)	2021.02.15

PREV 이전 1 2 3 NEXT 다음

긍정적 사고, 음식의 절제, 규칙적인 운동

한글

[python] 한글 자음, 모음, 초성 추출하기

'프로그래밍 > Python' 카테고리의 다른 글

한글 자음, 모음 설명

'프로그래밍' 카테고리의 다른 글

[python] 한글 자음 모음 분리하기, jamo, jamotools

'프로그래밍 > Python' 카테고리의 다른 글

pandas dataframe을 csv 한글깨짐. Pandas df.to_csv("file.csv" encode="utf-8") still gives trash characters for minus sign

Pandas df.to_csv("file.csv" encode="utf-8") still gives trash characters for minus sign

'프로그래밍 > Python' 카테고리의 다른 글

[tensorflow] 한글 음절 인식기

[tensorflow] 한글 음절 인식기 - hangul-syllable-recognition

Introduction

Getting started

python and pakage version

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

[python] 영어/한국어 Word2Vec 실습

영어/한국어 Word2Vec 실습

'프로그래밍 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바