발표 시작 10분 전부터 이미 좌석은 꽉찼다. 무대 앞과 뒤, 통로까지 참석자로 빽빽했다.
발표자는 박미정 아이오 최고기술책임자(CTO).
스타트업 혹은 개발자 행사에서는 흔하게 볼 수 없는 여성 CTO였다.
발표가 끝나고 “데이터에 대한 관심도 많고, 입문자용 콘텐츠라 많은 분이 오신것 같다”라고 소감을 전하던 박미정 CTO로부터 스타트업에 유용한 몇가지 팁을 좀더 들어보았다.
데이터 공부, 캐글로 시작해보세요
캐글은 데이터 과학 및 머신러닝을 학습하는 플랫폼이자 온라인 경연 대회를 운영하는 곳이다.
기업이나 특정 사용자가 데이터를 첨부해 문제를 내면 누구나 이 문제에 답을 제출 할 수 있다.
참가자는 문제를 풀면서 데이터 분석을 경험하고 공부한다.
예를 들어, 미국 국토안보부는 캐글에 위험 감지 알고리즘을 향상할 수 있는 방안을 묻는 문제를 제출하면서 데이터 약 10기가바이트(DB)도 함께 제공했다. 현재까지 199팀이 여기에 참여했으며, 향후 가장 좋은 답안을 제출한 참가자가 상금을 받는다. 캐글은 지난 3월 구글에 인수됐다.
“제 회사 차기 제품에선 고객한테 더 많은 서비스, 적합한 서비스를 추천해야 해요. 그럴려면 고객 환경 정보를 센서나 제품 등에서 수집해야 하거든요. 그런데 저는 통계나 데이터쪽으로 전공하지 않았어요. 당장 개발은 해야겠는데 뭐부터 해야 할지 막막하더군요. 그래서 일단 오프라인 학원 수업을 들었고, 그때 캐글을 처음 접했어요.
처음에는 문제를 푸는 건지 알고 재밌었는데 시간이 지나니 이거를 우리 서비스에 어떻게 녹일지 고민할 수 있더라구요.”
박미정 개발자는 캐글에 공개된 자료 중에 타이타닉 생존자 예측 문제와 자전거 공유 시스템 예측 문제를 풀면서 데이터과학을 익혔다고 한다. 처음 데이터를 시작하는 사람이라면 이 두 문제를 살펴보면 좋다. 만약 어떤 알고리즘을 적용할지 고민된다면, ‘사이키트런 치트시트‘을 참고하자. 자세한 과정은 이번 발표자료에도 공개됐다.
scikit-learn is a Python module for machine learning built on top of SciPy and distributed under the 3-Clause BSD license.
The project was started in 2007 by David Cournapeau as a Google Summer of Code project, and since then many volunteers have contributed. See the AUTHORS.rst file for a complete list of contributors.
It is currently maintained by a team of volunteers.
For running the examples Matplotlib >= 1.1.1 is required.
scikit-learn also uses CBLAS, the C interface to the Basic Linear Algebra Subprograms library. scikit-learn comes with a reference implementation, but the system CBLAS will be detected by the build system and used if present. CBLAS exists in many implementations; see Linear algebra libraries for known issues.
User installation
If you already have a working installation of numpy and scipy, the easiest way to install scikit-learn is using pip
We welcome new contributors of all experience levels. The scikit-learn community goals are to be helpful, welcoming, and effective. The Development Guide has detailed information about contributing code, documentation, tests, and more. We've included some basic information in this README.
After installation, you can launch the test suite from outside the source directory (you will need to have the nose package installed):
nosetests -v sklearn
Under Windows, it is recommended to use the following command (adjust the path to the python.exe program) as using the nosetests.exe program can badly interact with tests that use multiprocessing:
The project was started in 2007 by David Cournapeau as a Google Summer of Code project, and since then many volunteers have contributed. See the AUTHORS.rst file for a complete list of contributors.
The project is currently maintained by a team of volunteers.
Note: scikit-learn was previously referred to as scikits.learn.