[python] Pandas cheat sheet

Pandas는 데이터 분석, 조작 및 시각화를 위한 인기 있는 Python 라이브러리입니다. 구조화된 데이터와 구조화되지 않은 데이터를 포함하여 다양한 형식의 데이터를 쉽고 효과적으로 작업할 수 있는 풍부한 도구와 기능을 제공합니다. 이 문서에서는 Python에서 빠르고 효율적으로 데이터 분석을 수행하는 데 사용할 수 있는 일반적인 pandas 작업과 함수에 대한 치트시트를 제공합니다.

 

import pandas as pd

 

 

Pandas 라이브러리를 가져온 후에는 다음 작업과 함수를 사용하여 일반적인 데이터 분석 작업을 수행할 수 있습니다.

  • pd.read_csv(filename): CSV 파일에서 데이터를 로드합니다.
  • data.head(): 데이터 프레임의 처음 몇 행을 봅니다.
  • data.tail(): 데이터 프레임의 마지막 몇 행을 봅니다.
  • data.describe(): 숫자 열에 대한 요약 통계를 계산합니다.
  • data.info(): 데이터 프레임의 데이터 유형과 메모리 사용량을 확인합니다.
  • data.columns: 데이터 프레임의 열을 봅니다.
  • data['column']: 데이터 프레임의 열을 선택합니다.
  • data.loc[row_index]: 인덱스를 기준으로 데이터 프레임의 행을 선택합니다.
  • data.iloc[row_index]: 위치를 기준으로 데이터 프레임의 행을 선택합니다.
  • data.dropna(): 값이 누락된 행을 삭제합니다.
  • data.fillna(value): 누락된 값을 주어진 값으로 채웁니다.
  • data.rename(columns={'old': 'new'}): 데이터 프레임의 열 이름을 바꿉니다.
  • data.sort_values(by='column'): 열의 값을 기준으로 데이터 프레임을 정렬합니다.
  • data.groupby('column')['column'].mean(): 열의 값으로 데이터 프레임을 그룹화하고 다른 열의 평균을 계산합니다.
  • data.plot.hist(): 수치적 히스토그램을 그리다