Pandas는 데이터 분석, 조작 및 시각화를 위한 인기 있는 Python 라이브러리입니다. 구조화된 데이터와 구조화되지 않은 데이터를 포함하여 다양한 형식의 데이터를 쉽고 효과적으로 작업할 수 있는 풍부한 도구와 기능을 제공합니다. 이 문서에서는 Python에서 빠르고 효율적으로 데이터 분석을 수행하는 데 사용할 수 있는 일반적인 pandas 작업과 함수에 대한 치트시트를 제공합니다.
import pandas as pd
Pandas 라이브러리를 가져온 후에는 다음 작업과 함수를 사용하여 일반적인 데이터 분석 작업을 수행할 수 있습니다.
pd.read_csv(filename): CSV 파일에서 데이터를 로드합니다.
data.head(): 데이터 프레임의 처음 몇 행을 봅니다.
data.tail(): 데이터 프레임의 마지막 몇 행을 봅니다.
data.describe(): 숫자 열에 대한 요약 통계를 계산합니다.
data.info(): 데이터 프레임의 데이터 유형과 메모리 사용량을 확인합니다.
data.columns: 데이터 프레임의 열을 봅니다.
data['column']: 데이터 프레임의 열을 선택합니다.
data.loc[row_index]: 인덱스를 기준으로 데이터 프레임의 행을 선택합니다.
data.iloc[row_index]: 위치를 기준으로 데이터 프레임의 행을 선택합니다.
data.dropna(): 값이 누락된 행을 삭제합니다.
data.fillna(value): 누락된 값을 주어진 값으로 채웁니다.
data.rename(columns={'old': 'new'}): 데이터 프레임의 열 이름을 바꿉니다.
data.sort_values(by='column'): 열의 값을 기준으로 데이터 프레임을 정렬합니다.
data.groupby('column')['column'].mean(): 열의 값으로 데이터 프레임을 그룹화하고 다른 열의 평균을 계산합니다.
"""_summary_
얕은 복사(shallow copy)
list의 슬라이싱을 통한 새로운 값을 할당해봅니다.
아래의 결과와 같이 슬라이싱을 통해서 값을 할당하면 새로운 id가 부여되며, 서로 영향을 받지 않습니다
"""
print("\n","*" * 30, "\n 얕은 복사(shallow copy) \n","*" * 30)
a = [1, 2, 3]
b = a[:]
print(" a = ", a)
print(" b = ", b)
print(" id(a) : ", id(a)) #다른 주소
print(" id(b) : ", id(b))
print(" a == b : ", a == b)
print(" a is b : ", a is b)
b[0] = 5
print(a)
print(b)
"""
하지만, 이러한 슬라이싱 또한 얕은 복사에 해당합니다.
리스트안에 리스트 mutable객체 안에 mutable객체인 경우 문제가 됩니다.
id(a) 값과 id(b) 값은 다르게 되었지만, 그 내부의 객체 id(a[0])과 id(b[0])은 같은 주소를 바라보고 있습니다
"""
a = [[1,2],[3,4]]
b = a[:]
print(" id(a) : ", id(a)) #다른 주소
print(" id(b) : ", id(b))
print(" id(a[0]) : ",id(a[0])) #같은 주소
print(" id(b[0]) : ",id(b[0]))
"""깊은 복사(deep copy)
깊은 복사는 내부에 객체들까지 모두 새롭게 copy 되는 것입니다.
copy.deepcopy메소드가 해결해줍니다
"""
print("\n","*" * 30, "\n deepcopy \n","*" * 30)
import copy
a = [[1,2],[3,4]]
b = copy.deepcopy(a)
a[1].append(5)
print(" a : ", a)
print(" b : ", b)
print(" id(a) : ", id(a)) #다른 주소
print(" id(b) : ", id(b))
>>> x = {1, 2, 3}
>>> x
{1, 2, 3}
>>> id(x)
4396095304
>>> x|={4,5,6}
>>> x
{1, 2, 3, 4, 5, 6}
>>> id(x)
4396095304
str은 immutable 입니다.
s 변수에 첫번째 글자를 변경 시도하면 에러가 발생합니다.
s에 다른 값을 할당하면, id가 변경됩니다. 재할당은 애초에 변수를 다시할당하는 것이므로 mutable과 immutable과는 다른 문제입니다. list또한 값을 재할당하면 id가 변경됩니다.
>>> s= "abc"
>>> s
'abc'
>>> id(s)
4387454680
>>> s[0]
'a'
>>> s[0] = 's'
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'str' object does not support item assignment
>>> s = 'def'
>>> s
'def'
>>> id(s)
4388970768
2. 변수 간 대입
2-1 mutable한 객체의 변수 간 대입
list의 얕은 복사를 확인 해봅니다.
b 에 a를 할당하면 값이 할당되는 것이 아니라 같은 메모리 주소를 바라봅니다.
b를 변경하면 같이 a도 바뀝니다.
mutable한 다른 객체 또한 똑같은 현상이 나타납니다.
>>> a = [1, 2, 3]
>>> b = a # shallow copy
>>> b[0]= 5
>>> a
[5, 2, 3]
>>> b
[5, 2, 3]
>>> id(a)
4396179528
>>> id(b)
4396179528
2-2 immutable한 객체의 변수간 대입
str 문자열의 얕은 복사를 확인해봅니다.
list와 똑같이 b를 a에 할당하면 같은 메모리 주소를 바라보게 됩니다.
하지만 b에 다른 값을 할당하면 재할당이 이루어지며 메모리 주소가 변경됩니다.
고로 a와 b는 다른 값을 가집니다.
>>> a = "abc"
>>> b = a
>>> a
'abc'
>>> b
'abc'
>>> id(a)
4387454680
>>> id(b)
4387454680
>>> b = "abcd"
>>> a
'abc'
>>> b
'abcd'
>>> id(a)
4387454680
>>> id(b)
4396456400
3. 얕은 복사(shallow copy)
list의 슬라이싱을 통한 새로운 값을 할당해봅니다.
아래의 결과와 같이 슬라이싱을 통해서 값을 할당하면 새로운 id가 부여되며, 서로 영향을 받지 않습니다.
>>> a = [1,2,3]
>>> b = a[:]
>>> id(a)
4396179528
>>> id(b)
4393788808
>>> a == b
True
>>> a is b
False
>>> b[0] = 5
>>> a
[1, 2, 3]
>>> b
[5, 2, 3]
하지만, 이러한 슬라이싱 또한 얕은 복사에 해당합니다.
리스트안에 리스트 mutable객체 안에 mutable객체인 경우 문제가 됩니다.
id(a)값과id(b)값은 다르게 되었지만, 그 내부의 객체id(a[0])과id(b[0])은 같은 주소를 바라보고 있습니다.
클라우드 컴퓨팅, 모바일 개발, AI의 발전에도 전 세계 기업의 일상적인 비즈니스는 여전히 1990년대에 등장한 3가지 프로그래밍 언어를 기반으로 운영되고 있다. 거의 모든 언어 순위 조사에서 최상위를 차지하는 자바스크립트와 파이썬 그리고 자바다. 깃허브의 연례 옥토버스 현황(State of the Octoverse) 보고서를 보면, 2014년부터 매년 상위 4개 언어 중 3개를 이들 언어가 차지한다. 이들 프로그래밍 강자가 거의 30년 동안 개발자에게 최고의 선택지로 남으며 마땅한 경쟁자조차 없는 이유가 무엇일까?
자바스크립트(사용자 580만 명)
자바가 백엔드를 움직인다면, 자바스크립트(이름과는 달리 실제로는 자바와는 아무런 관련이 없다)는 애플리케이션의 프론트엔드를 구동한다. 웹 페이지의 모든 상호작용은 자바스크립트로 작성, 제어되며,깃허브의 프로그래밍 언어 순위에서 10년 동안 1위를 차지하고 있다.
자바스크립트와 서버 측 짝꿍인 Node.js는 단순하면서도 다양한 용도로 쓸 수 있어 1995년 데뷔 직후부터 인기를 얻었다. 웹 페이지를 만드는 데 사용하는 언어인 HTML과 원활하게 작동하는 자바스크립트는 모바일 앱 개발이 등장하면서 웹 개발 표준으로 자리 잡았다. 현재는 구글부터 유튜브, 페이스북에 이르기까지 모든 곳에서 자바스크립트를 찾을 수 있으며,세인트루이스 브라운스 야구팀 사이트부터인기 있는 디자인 매터스 팟캐스트 사이트까지 놀라운 디자인 작업을 구현한다.
파이썬(사용자 520만 명)
스크립팅 언어인 파이썬의 강점은 쿼리 작성, 작업 자동화, 데이터 분석이다. 빅데이터와 분석 애플리케이션용 프로그래밍 언어로 최근 들어 인기가 급상승했지만, 의외로 파이썬은 1991년에 데뷔했다. 즉, 여기서 살펴보는 빅 3 언어 중 가장 오래됐다. 아마존, 넷플릭스, 스포티파이, 인스타그램의 애플리케이션은 모두 파이썬으로 작성됐다. 2019년 깃허브 보고서에서 자바를 제치고 2위를 차지했으며, 2022년에는 22.5%로 인기가 더 올라갔다.
파이썬은 일회성 범용 작업에는 탁월하지만, 반면 가장 큰 단점이 속도다. 밀리초가 중요한 실시간 작업이나 금융 거래를 지원하는 데는 자바에 미치지 못합니다. 그럼에도 여전히 소프트웨어 개발자가 가장 많이 선택하는 언어이자 기업이 가장 선호하는 기술이다.
자바(사용자 320만 명)
자바는 대부분의 엔터프라이즈 애플리케이션의 기본 프로그래밍 아키텍처다. 인증, 스토리지, 배송 등에 로직과 인텔리전스를 제공하는 등 보이지 않는 곳에서 많은 작업을 수행한다.아줄(Azul)의 자바 현황 조사 보고서에 따르면, 압도적인 98%의 기업이 소프트웨어 애플리케이션 또는 인프라에서 자바를 사용하고 있다. 이들 중 57%는 자바가 대부분 애플리케이션(60% 이상)의 근간이라고 답했다.
자바는 잘 정립된 언어일 뿐만 아니라 '플라이휠' 효과로 되어 지속적인 인기를 얻고 있다. 자바로 애플리케이션을 만드는 것은 빠르고 쉬우며, 자바로 구축된 애플리케이션이 많을수록 개발 프로세스가 더 단순하고 빨라진다. 일반적으로 애플리케이션은 처음부터 코딩하는 경우는 거의 없다. 특정 기능과 기능을 구현하기 위해 다양한 기술을 조합해 만든다. 자바의 진정한 장점은 수많은 프레임워크, 라이브러리, 오픈소스 자료를 통해 모든 구성 요소가 실전에서 테스트를 거쳤다는 사실이다. 덕분에 개발자는 이런 조합이 잘 작동한다는 것을 신뢰하고 빠르게 애플리케이션을 만들 수 있다.
자바가 인기 언어 상위권에 머무는 이유는 단지 역사적인 힘뿐만이 아니다. 자바는 6개월마다 중요한 기능 업데이트를 제공하며, 분기별로 사소한 개선 사항, 버그 수정, 보안 업데이트가 포함된 릴리스가 나온다. 또한 새로운 기술에 유연하게 적응할 수 있다. 최신 버전인 자바 22는 대형 언어 모델과 생성형 AI를 엔터프라이즈 애플리케이션에 적용하는 데 사용될 가능성이 높다.
인기는 계속된다
물론 이들 언어에도 한계가 있다. 가트너 부사장 겸 리서치 디렉터인 린다 아이비 로서는 "(이들 언어로 만들어진) 엔터프라이즈 소프트웨어는 오랜 기간 일종의 지원 기능으로 인식됐다. 혁신이 부족하고, 잘 만들어진 애플리케이션 전략의 이점을 누리는 데 오랜 시간이 걸린다"라고 지적했다. 숙련된 개발자가 부족하고 IT 예산이 빠듯한 상황에서 기업이 당장 문제가 되지 않는 오래된 소프트웨어를 빠르게 수정하지 않는 것이 이해되는 측면도 있다.
언어 측면에서 보면, 오늘날 소프트웨어 개발의 기본 구성 요소인 자바, 파이썬, 자바스크립트를 뒤집을 만한 추진력과 힘을 가진 다른 프로그래밍 언어는 아직 등장하지 않았다. 이들 3가지 언어는 현재 디지털 비즈니스 운영 방식에 필수적인 요소이며 앞으로도 당분간 이 자리를 계속 유지할 것으로 보인다.