본문 바로가기

반응형

Encoding

[python] 큰 파일 분할해서 만들기 큰 txt파일을 읽으면 메모리 문제 발생하기때문에 분할해서 단어장 처리. import os import sys import konlpy import pandas as pd import numpy as np os.environ['JAVA_OPTS'] = 'Xmx4096M' import itertools import mr #local module file_name = "test_export_mentions_2020-11-17_title.txt" #file_name = "test_export_mentions_2020-11-17_title_utf8.txt" #test file_out = "outputfile" lines_tot = mr.file_len(file_name) filesize = mr.getfiles.. 더보기
sublime text3 , encoding, 한글인코딩 적용하기. ST3에서 Ctrl + Shift + P로 패키지 팔렛트를 호출한 다음에 팔렛트 창에 install을 입력하면 Package Control: Install Package만 보이고 (위에 그림 참고), Package Control: Install Package를 선택한 다음에 CovertToUTF8을 찾아서 설치한다. 더보기
[python] 파이썬에서 유니코드 스트림 다루기 파이썬에서 유니코드 스트림 다루기 # 입력 스트림과 출력 스트림을 연다input = open("input.txt", "rt", encoding="utf-16") output = open("output.txt", "wt", encoding="utf-8") # 유니코드 데이터 조각들을 스트리밍한다with input, output: while True: # 데이터 조각을 읽고 chunk = input.read(4096) if not chunk: break # 수직 탭을 삭제한다 chunk = chunk.replace("\u000B", "") # 데이터 조각을 쓴다 output.write(chunk) 더보기
[M/L] tensorflow - Module: tf.compat 문자 인코딩 https://www.tensorflow.org/api_docs/python/tf/compat Module: tf.compatModule tf.compatFunctions for Python 2 vs. 3 compatibility.Conversion routinesIn addition to the functions below, as_str converts an object to a str.TypesThe compatibility module also provides the following types:bytes_or_text_typescomplex_typesintegral_typesreal_typesMembersas_bytes(...): 바이트 또는 유니 코드를 bytesutf-8 인코딩을 사용하여 텍스.. 더보기

반응형