프로그래밍

[python] 문자열 인코딩 확인하기. chardet 2024.03.22
[python] 엑셀 읽고 쓰기 openpyxl 2024.03.20
[python] 한글 자음, 모음, 초성 추출하기 2024.03.20
[HTML] sns 용 META tag 2024.03.18
한글 자음, 모음 설명 2024.03.15
[python] 한글 자음 모음 분리하기, jamo, jamotools 2024.03.15
문학/예술 업계 현직자의 AI에 대한 솔직한 이야기 || 시인 '하상욱' 초대석 2부 2024.03.13
[MSSQL] varchar nvarchar 차이점과 검색시 유리한 형태 2024.03.12

[python] 문자열 인코딩 확인하기. chardet

홍반장水_ 2024. 3. 22. 14:25

2024. 3. 22. 14:25

https://pypi.org/project/chardet/

Project description

Chardet: The Universal Character Encoding Detector

Detects

ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants)
Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese)
EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (Japanese)
EUC-KR, ISO-2022-KR, Johab (Korean)
KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (Cyrillic)
ISO-8859-5, windows-1251 (Bulgarian)
ISO-8859-1, windows-1252, MacRoman (Western European languages)
ISO-8859-7, windows-1253 (Greek)
ISO-8859-8, windows-1255 (Visual and Logical Hebrew)
TIS-620 (Thai)

Note

Our ISO-8859-2 and windows-1250 (Hungarian) probers have been temporarily disabled until we can retrain the models.

Requires Python 3.7+.

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] pip install prettytable, 표 형태로 데이터를 보여준다. (0)	2024.03.25
[python] 한글 자음 확인해서 치환하기 (0)	2024.03.22
[python] 엑셀 읽고 쓰기 openpyxl (0)	2024.03.20
[python] 한글 자음, 모음, 초성 추출하기 (0)	2024.03.20
[python] 한글 자음 모음 분리하기, jamo, jamotools (0)	2024.03.15

[python] 엑셀 읽고 쓰기 openpyxl

홍반장水_ 2024. 3. 20. 17:43

2024. 3. 20. 17:43

[python] 엑셀 읽고 쓰기

https://pypi.org/project/openpyxl/

openpyxl

A Python library to read/write Excel 2010 xlsx/xlsm files

pypi.org

pip install openpyxl

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] 한글 자음 확인해서 치환하기 (0)	2024.03.22
[python] 문자열 인코딩 확인하기. chardet (0)	2024.03.22
[python] 한글 자음, 모음, 초성 추출하기 (0)	2024.03.20
[python] 한글 자음 모음 분리하기, jamo, jamotools (0)	2024.03.15
[python] gTTS 한글 speak (0)	2024.03.12

[python] 한글 자음, 모음, 초성 추출하기

홍반장水_ 2024. 3. 20. 17:34

2024. 3. 20. 17:34

[python] 한글 자음, 모음, 초성 추출하기

# pip install jamotools 
# https://pypi.org/project/jamotools/
# A library for Korean Jamo split and vectorize. 
#
# 음절 분할 및 jamos를 음절에 결합하는 API는 hangul-utils 를 기반으로 합니다 .
# 
# Split_syllables : 음절 문자열을 jamos 문자열로 변환하고 유니코드 유형을 변환하도록 선택할 수 있습니다.
# Join_jamos : jamos 문자열을 음절 문자열로 변환합니다.
# Normalize_to_compat_jamo : jamos 문자열을 한글 호환성 Jamo 문자열로 정규화합니다 .
import jamotools

print(jamotools.split_syllable_char(u"안"))
#('ㅇ', 'ㅏ', 'ㄴ')

print(jamotools.split_syllables(u"안녕하세요"))
# ㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛ


sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
s = jamotools.split_syllables(sentence)
print(s, '\n')

""" ㅇㅏㅍ ㅈㅣㅂ ㅍㅏㅌㅈㅜㄱㅇㅡㄴ ㅂㅜㄺㅇㅡㄴ ㅍㅏㅌ ㅍㅜㅅㅍㅏㅌㅈㅜㄱㅇㅣㄱㅗ,
ㄷㅟㅅㅈㅣㅂ ㅋㅗㅇㅈㅜㄱㅇㅡㄴ ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ.ㅇㅜㄹㅣ
ㅈㅣㅂ ㄲㅐㅈㅜㄱㅇㅡㄴ ㄱㅓㅁㅇㅡㄴ ㄲㅐ ㄲㅐㅈㅜㄱㅇㅣㄴㄷㅔ ㅅㅏㄹㅏㅁㄷㅡㄹㅇㅡㄴ
ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ ㄲㅐㅈㅜㄱ ㅈㅜㄱㅁㅓㄱㄱㅣㄹㅡㄹ
ㅅㅣㅀㅇㅓㅎㅏㄷㅓㄹㅏ. """

sentence2 = jamotools.join_jamos(s)
print(sentence2)
""" 앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집 깨죽은 검은 깨
깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라. """

print(sentence == sentence2)
# True


# 자음만 추출
def extract_vowels(text):
    vowels = set(['ㅏ', 'ㅑ', 'ㅓ', 'ㅕ', 'ㅗ', 'ㅛ', 'ㅜ', 'ㅠ', 'ㅡ', 'ㅣ', 'ㅐ', 'ㅒ', 'ㅔ', 'ㅖ', 'ㅘ', 'ㅙ', 'ㅚ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅢ'])
    result = ''
    for char in text:
        if '가' <= char <= '힣':  # Check if the character is Hangul
            syllables = jamotools.split_syllables(char)
            for syllable in syllables:
                if syllable in vowels:
                    result += syllable
    return result

sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
vowels_only = extract_vowels(sentence)
print(vowels_only)
# ㅏㅣㅏㅜㅡㅜㅡㅏㅜㅏㅜㅣㅗㅟㅣㅗㅜㅡㅐㅗㅏㅗㅗㅜㅜㅣㅣㅐㅜㅡㅓㅡㅐㅐㅜㅣㅔㅏㅏㅡㅡㅐㅗㅏㅗㅗㅜㅐㅜㅜㅓㅣㅡㅣㅓㅏㅓㅏ


# 모음만 추출 
def extract_consonants(text):
    consonants = set(['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ'])
    result = ''
    for char in text:
        if '가' <= char <= '힣':  # Check if the character is Hangul
            syllables = jamotools.split_syllables(char)
            for syllable in syllables:
                if syllable in consonants:
                    result += syllable
    return result

sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
consonants_only = extract_consonants(sentence)
print(consonants_only)
# ㅇㅍㅈㅂㅍㅌㅈㄱㅇㄴㅂㅇㄴㅍㅌㅍㅅㅍㅌㅈㄱㅇㄱㄷㅅㅈㅂㅋㅇㅈㄱㅇㄴㅎㅅㅋㅇㄷㄴㅋㅇㅋㅇㅈㄱㅇㄹㅈㅂㄲㅈㄱㅇㄴㄱㅁㅇㄴㄲㄲㅈㄱㅇㄴㄷㅅㄹㅁㄷㄹㅇㄴㅎㅅㅋㅇㄷㄴㅋㅇㅋㅇㅈㄱㄲㅈㄱㅈㄱㅁㄱㄱㄹㄹㅅㅇㅎㄷㄹ


# 초성만 추출 
def extract_initial_consonants(text):
    result = ''
    for char in text:
        if '가' <= char <= '힣':  # Check if the character is Hangul
            initial_consonant = jamotools.split_syllable_char(char)[0]
            result += initial_consonant
    return result

sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집  깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
initial_consonants_only = extract_initial_consonants(sentence)
print(initial_consonants_only)

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] 문자열 인코딩 확인하기. chardet (0)	2024.03.22
[python] 엑셀 읽고 쓰기 openpyxl (0)	2024.03.20
[python] 한글 자음 모음 분리하기, jamo, jamotools (0)	2024.03.15
[python] gTTS 한글 speak (0)	2024.03.12
[python] pyttsx3, TTS, AudioBook, gTTS (0)	2024.03.12

[HTML] sns 용 META tag

홍반장水_ 2024. 3. 18. 10:39

2024. 3. 18. 10:39

[HTML] sns 용 META tag

저작자표시 비영리

'프로그래밍 > Web' 카테고리의 다른 글

Frontend Masters: Feature-Sliced Design (FSD) Pattern (0)	2024.05.17
[Chrome] 크롬 브라우저의 읽기 모드 (0)	2023.08.03
PHP 프레임워크: 생산성 및 품질 향상. PHP는 그렇게 나쁘지 않은데 왜 싫어할까요? (0)	2023.08.03
[HTML] details summary , jquery로 open 제어 (0)	2023.07.14
Web Speech API - TTS , not API (0)	2023.06.12

한글 자음, 모음 설명

홍반장水_ 2024. 3. 15. 17:16

2024. 3. 15. 17:16

https://namu.wiki/w/%ED%95%9C%EA%B8%80/%EC%9E%90%EB%AA%A8

한글/자모

현재 사전이나 컴퓨터 한글 코드에서 한글 자모는 다음 순으로 배열한다. 한글 맞춤법 제4항 붙임 2와 그 해설에 따

namu.wiki

한글을 이루는 낱글자. '자모'라고 하여 ' 자음'과 ' 모음'의 약자로 알고 있는 경우가 많으나, 한자를 보면 子母가 아닌 字母이다. '글자(字)를 이루는 모(母)체'라는 뜻.

자음(19자) : ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ
모음(21자) : ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ
받침(27자) : ㄱ ㄲ ㄳ ㄴ ㄵ ㄶ ㄷ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅄ ㅅ ㅆ ㅇ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ

저작자표시 비영리

'프로그래밍' 카테고리의 다른 글

애플, 자율주행차 버리고 ‘로봇’ 택했다...프로젝트 스컹크웍스 시동 (0)	2024.04.05
취약층 의대 보낸 '서울런' 인강…"AI로 맞춤 학습 강화"(종합) (1)	2024.03.29
[VSCODE] vscode-pdf (0)	2024.03.07
프리랜서를 위한 종합소득세 신고 Q&A (0)	2024.02.05
Meta의 무료 Code Llama AI 프로그래밍 도구로 GPT-4와의 격차 해소 (0)	2024.01.31

[python] 한글 자음 모음 분리하기, jamo, jamotools

홍반장水_ 2024. 3. 15. 16:41

2024. 3. 15. 16:41

[python] 한글 자음 모음 분리하기

pip install jamo

https://pypi.org/project/jamo/

jamo

A Hangul syllable and jamo analyzer.

pypi.org

https://github.com/jdongian/python-jamo

------------

pip install jamotools

https://pypi.org/project/jamotools/

A library for Korean Jamo split and vectorize. 한국어 Jamo를 분할하고 벡터화하는 라이브러리입니다.

>>> import jamotools
>>> print(jamotools.split_syllable_char(u"안"))
('ㅇ', 'ㅏ', 'ㄴ')

>>> print(jamotools.split_syllables(u"안녕하세요"))
ㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛ

>>> sentence = u"앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집
    깨죽은 검은 깨 깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라."
>>> s = jamotools.split_syllables(sentence)
>>> print(s)
ㅇㅏㅍ ㅈㅣㅂ ㅍㅏㅌㅈㅜㄱㅇㅡㄴ ㅂㅜㄺㅇㅡㄴ ㅍㅏㅌ ㅍㅜㅅㅍㅏㅌㅈㅜㄱㅇㅣㄱㅗ,
ㄷㅟㅅㅈㅣㅂ ㅋㅗㅇㅈㅜㄱㅇㅡㄴ ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ.ㅇㅜㄹㅣ
ㅈㅣㅂ ㄲㅐㅈㅜㄱㅇㅡㄴ ㄱㅓㅁㅇㅡㄴ ㄲㅐ ㄲㅐㅈㅜㄱㅇㅣㄴㄷㅔ ㅅㅏㄹㅏㅁㄷㅡㄹㅇㅡㄴ
ㅎㅐㅅㅋㅗㅇ ㄷㅏㄴㅋㅗㅇ ㅋㅗㅇㅈㅜㄱ ㄲㅐㅈㅜㄱ ㅈㅜㄱㅁㅓㄱㄱㅣㄹㅡㄹ
ㅅㅣㅀㅇㅓㅎㅏㄷㅓㄹㅏ.

>>> sentence2 = jamotools.join_jamos(s)
>>> print(sentence2)
앞 집 팥죽은 붉은 팥 풋팥죽이고, 뒷집 콩죽은 햇콩 단콩 콩죽.우리 집 깨죽은 검은 깨
깨죽인데 사람들은 햇콩 단콩 콩죽 깨죽 죽먹기를 싫어하더라.

>>> print(sentence == sentence2)
True

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] 엑셀 읽고 쓰기 openpyxl (0)	2024.03.20
[python] 한글 자음, 모음, 초성 추출하기 (0)	2024.03.20
[python] gTTS 한글 speak (0)	2024.03.12
[python] pyttsx3, TTS, AudioBook, gTTS (0)	2024.03.12
[python] Pandas tutorial (0)	2024.03.08