[python] ‘얼리또라이’의 데이터 공부 도전기
지난주 2천여명이 참석했던 파이썬 컨퍼런스 ‘파이콘’이 성황리에 끝났다.
60여개의 다양한 발표가 진행된 가운데 눈에 띄는 발표가 하나 있었다.
바로 ‘파이썬 입문자의 데이터 사이언스(Kaggle)’라는 발표다.
발표 시작 10분 전부터 이미 좌석은 꽉찼다. 무대 앞과 뒤, 통로까지 참석자로 빽빽했다.
발표자는 박미정 아이오 최고기술책임자(CTO).
스타트업 혹은 개발자 행사에서는 흔하게 볼 수 없는 여성 CTO였다.
발표가 끝나고 “데이터에 대한 관심도 많고, 입문자용 콘텐츠라 많은 분이 오신것 같다”라고 소감을 전하던 박미정 CTO로부터 스타트업에 유용한 몇가지 팁을 좀더 들어보았다.
데이터 공부, 캐글로 시작해보세요
캐글은 데이터 과학 및 머신러닝을 학습하는 플랫폼이자 온라인 경연 대회를 운영하는 곳이다.
기업이나 특정 사용자가 데이터를 첨부해 문제를 내면 누구나 이 문제에 답을 제출 할 수 있다.
참가자는 문제를 풀면서 데이터 분석을 경험하고 공부한다.
예를 들어, 미국 국토안보부는 캐글에 위험 감지 알고리즘을 향상할 수 있는 방안을 묻는 문제를 제출하면서 데이터 약 10기가바이트(DB)도 함께 제공했다. 현재까지 199팀이 여기에 참여했으며, 향후 가장 좋은 답안을 제출한 참가자가 상금을 받는다. 캐글은 지난 3월 구글에 인수됐다.
“제 회사 차기 제품에선 고객한테 더 많은 서비스, 적합한 서비스를 추천해야 해요. 그럴려면 고객 환경 정보를 센서나 제품 등에서 수집해야 하거든요. 그런데 저는 통계나 데이터쪽으로 전공하지 않았어요. 당장 개발은 해야겠는데 뭐부터 해야 할지 막막하더군요. 그래서 일단 오프라인 학원 수업을 들었고, 그때 캐글을 처음 접했어요.
처음에는 문제를 푸는 건지 알고 재밌었는데 시간이 지나니 이거를 우리 서비스에 어떻게 녹일지 고민할 수 있더라구요.”
박미정 개발자는 캐글에 공개된 자료 중에 타이타닉 생존자 예측 문제와 자전거 공유 시스템 예측 문제를 풀면서 데이터과학을 익혔다고 한다. 처음 데이터를 시작하는 사람이라면 이 두 문제를 살펴보면 좋다. 만약 어떤 알고리즘을 적용할지 고민된다면,
‘사이키트런 치트시트‘을 참고하자. 자세한 과정은 이번 발표자료에도 공개됐다.
...