반응형
반응형

[python] PYCON KR 2017: 처음부터 알아보는 웹 크롤러

 

 

 

 

PYCON KR 2017 (2017. 08. 13) 처음부터 알아보는 웹 크롤러 세션 발표자료

 

...

반응형
반응형

[python] PyCon kr 2017 -왜 연휴에 진행하는가? 

역시 뭔가 하려면 휴가는 반납해야하는걸까? 가고싶었는데 아깝다.

 

https://www.pycon.kr/2017/

 

Slack channel : 퍼블릭 파이콘 슬랙 채널

 

 

행사개요

이콘은 세계 각국의 파이썬 프로그래밍 언어 커뮤니티에서 주관하는 비영리 컨퍼런스입니다.

한국에서는 처음으로 열린 파이콘 한국 2014를 시작으로 파이콘 한국 준비위원회는 건강한 국내 파이썬 생태계에 지속적인 보탬이 되고자, 커뮤니티 멤버들의 자발적인 봉사로 운영되고 있습니다. 이번에 4년째 열리는 파이콘 한국 2017은, Back To The Basic "처음의 마음가짐으로" 라는 주제로 준비하였습니다. 더욱 다양한 참가자들과 함께 새로운 기술과 정보를 공유하고 서로 교류할 수 있는 행사가 되기를 희망합니다.

파이콘 한국 2017 티켓은 현장판매를 진행하지 않습니다. 꼭 파이콘 한국 공식홈페이지에서 구매해주세요.

  • 일정 : 2017년 8월 12일(토) ~ 15일(화)
    • 컨퍼런스 세션 : 8월 12일(토) ~ 8월 13일(일)
    • 스프린트와 튜토리얼 : 8월 14일(월) ~ 8월 15일(화)
  • 장소 : 강남구 코엑스 전시장
  • 인원 : 2,000명
  • 주최 : 파이콘 한국 준비위원회
  • 대상 : 국내외 파이썬 개발자 혹은 관심이 있는 분이라면 누구나
  • 발표 : 25분 또는 40분 길이의 발표

티켓 판매 일정

  • 얼리버드 판매 : 2017년 5월 16일 오후 1시 (UTC+9) ~ 매진 시 까지
  • 일반티켓 판매 : 2017년 6월 19일 오후 1시 (UTC+9)  ~ 매진 시 까지
  • 패트론티켓 판매 : 2017년 5월 16일 오후 1시 (UTC+9) ~ 매진 시 까지

퍼블릭 파이콘 슬랙

참가자분들을 위한 퍼블릭 슬랙을 오픈하였습니다.
더 재미있는 파이콘을 위해 퍼블릭 파이콘 슬랙 채널 을 이용해 보세요 :)

다양한 프로그램

  • 열린공간: 열린공간은 원하는 주제나 아이디어에 대해서 참가자들끼리 자유롭게 모여 이야기하는 프로그램입니다. '열린공간'은 어떤 주제라도 상관없이 사람들이 모여서 이야기할 수 있습니다.
  • 라이트닝토크: 라이트닝 토크는 그날의 프로그램이 모두 끝나고, 모든 참석자가 모여 5분 이내의 가벼운 이야기를 하는 행사입니다. 누구나 발표자가 될 수 있습니다.
  • 영코더: 미래의 파이썬 꿈나무들을 위한 교육 프로그램으로서 파이콘 티켓 구매자의 자녀, 조카, 이웃 등을 대상으로 합니다. 프로그래밍을 전혀 몰라도 처음부터 차근차근 흥미를 가질수 있게 해줍니다.
  • 아이돌봄: 파이콘 본 세션이 있는 8월 12일 토요일과 13일 일요일에 육아로 인해 파이콘에 참여가 어려운 분들을 위해  위해 `아이 돌봄`을 운영합니다.
  • 튜토리얼: 튜토리얼은 초보자들을 위해, 또는 새로운 것을 접하는 사람들을 위해 진행하는 교육 프로그램입니다.
  • 스프린트: 관심있는 오픈소스 프로젝트를 같은 장소에 모여 집중적으로 배우고 개발하는 자리입니다. 새로운 동료를 만나고, 오픈소스에서 얻을 수 있는 경험과 지식을 나눌 수 있습니다.

 

 

 

...

반응형
반응형

[Python] 파이썬으로 크롤러 만들기 - 박승규 @wapj - 이모콘 EMOCON 2016 F/W


게시일: 2016. 10. 19.

# 파이썬으로 크롤러 만들기 - 박승규 @wapj
requests와 BeautifulSoup을 이용해서 구글의 이미지를 긁어오는 내용을 만드는 과정을 발표합니다.


----------------------------

이 영상은 2016년 10월 7일~8일 양일간, 집에서 참여하는 이상한 컨퍼런스, 이모콘 2016 F/W에서 진행된 세션 영상입니다. 영상 목록은 아래 재생 목록에서 확인할 수 있습니다.

https://www.youtube.com/playlist?list...

----------------------------
이상한모임의 다양하고 재미있는 이야기를 빠르게 접하는 방법, 이상한모임의 Youtube 채널을 구독하세요!

https://www.youtube.com/channel/UCtzn...

이모콘 2016 F/W 페이지: http://emocon.weirdx.io/2016fw/
이상한모임 블로그: http://blog.weirdx.io
이상한모임 트위터: http://twitter.com/we_weirdmeetup
이상한모임 트위터: https://www.facebook.com/weweirdmeetup




...

반응형
반응형


Scikit-Learn 을 이용한 전처리


문서 전처리 - Scikit-Learn 의 문서 전처리 기능 https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/

 

 


도서 카테고리 예측하기 프로젝트 #1 데이터 수집 및 전처리하기

 - http://www.sturdylad.co.kr/%EB%8F%84%EC%84%9C-%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%A0%84%EC%B2%98%EB%A6%AC/


 도서 카테고리 예측하기 프로젝트 #2 데이터 학습 시키기

  - http://www.sturdylad.co.kr/%EB%8F%84%EC%84%9C-%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EB%AA%A8%EB%8D%B8%ED%95%99%EC%8A%B5/


 도서 카테고리 예측하기 프로젝트 #3 생성된 모델로 텍스트 데이터 카테고리 예측해보기

 - http://www.sturdylad.co.kr/%EB%8F%84%EC%84%9C-%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EC%98%88%EC%B8%A1%ED%95%98%EA%B8%B0/



...



반응형
반응형



6.2. 파일을 입맛대로(pickle, glob, os.path)

파일을 입맛대로 요리할 수 있도록 여러 가지 비법을 전수해드리지요. 먼저 조금 복잡한 자료를 파일에 쓰고 읽는 방법부터 알아봅시다. 이럴 때는 pickle(피클)이란 모듈을 사용합니다. 왜 피자 먹을 때 나오는 반찬을 이름으로 붙였는지…

예제로는 회원의 ID와 비밀번호를 파일에 저장하는 것을 생각해보았습니다.

>>> users = {'kim':'3kid9', 'sun80':'393948', 'ljm':'py90390'}
>>> f = open('d:/python21/exam/users.txt', 'w')
>>> import pickle
>>> pickle.dump(users, f)
>>> f.close()

처음에 ID와 비밀번호를 users라는 사전에 담았습니다. 그리고 users.txt라는 파일을 새로 열어서 f라고 했구요. 그 다음에는 오이지(pickle^^;) 모듈의 덤프(dump)를 사용했습니다.

여러분 덤프 트럭 다 아시죠? 왜 공사장에서 흙 싣고 다니는 무지 큰 트럭 있잖아요. 그런 차는 뒤쪽 짐칸을 들어올려서 흙을 와르르 쏟아내지 않습니까? 여기서 보시는 dump도 마찬가지입니다. users라는 리스트의 내용을 파일 f에 와르르 쏟아붓는 거지요. 음, 이렇게까지 설명할 필요는 없을 텐데… 오늘 쓸 것이 없다보니…

이제 메모장으로 users.txt 파일을 열어보시면 모양이 좀 지저분하긴 해도 데이터가 다 들어있는 걸 보실 수 있을 거예요.

그렇다면 이 파일에 들어있는 것을 원래대로 돌려볼까요? 원래대로 돌리는 것도 역시 오이지 모듈이 할 일이겠죠.

>>> f = open('d:/python21/exam/users.txt')
>>> a = pickle.load(f)
>>> print a
{'sun80': '393948', 'kim': '3kid9', 'ljm': 'py90390'}

사실 방금 보여드린 것은 그리 복잡할 것도 없지만 pickle 모듈은 파이썬에서 만들어지는 것은 뭐든지 다 파일에 적을 수 있다고 합니다. '그게 뭐 어때서'라고 생각하실지 모르겠지만 이건 놀라운 기능이라고 튜토리얼에 쓰여있습니다.

오이지는 이쯤 해두고, 전에 잠깐 구경했던 glob 모듈에 대해 알아보도록 하죠. glob는 파일들의 목록을 뽑을 때 사용하는데, 파일의 경로명을 이용해서 입맛대로 요리할 수 있답니다.

>>> import glob
>>> glob.glob('*.*')
['INSTALL.LOG', 'LICENSE.txt', 'NEWS.txt', 'py.ico', 'pyc.ico',
'pycon.ico', 'python.exe', 'pythonw.exe', 'readme.txt',
'UNWISE.EXE', 'w9xpopen.exe']
>>> glob.glob('*.txt')
['LICENSE.txt', 'NEWS.txt', 'readme.txt']

위의 별표(*)는 무슨 글자든, 몇 글자든 상관 없다는 뜻으로, 디렉토리(폴더)에 들어있는 파일들을 그냥 다 보려면 *.*라고 해주면 됩니다. 파일명에 상관 없이 확장자가 txt인 파일을 모두 보고 싶으면 *.txt라고 하면 되지요.

다음은 glob과 함께 os.path 모듈을 사용한 예제입니다.

>>> import os.path
>>> files = glob.glob('*')
>>> for x in files:
...     print x,
...     if os.path.isdir(x):                  # 디렉토리인가?
...             print '<DIR>'
...     else:
...             print ''

스크립트만 보고 어떤 일을 하는건지 짐작이 가시는지요?

둘째줄에서 glob.glob('*')를 해서 얻어진 파일 목록들을 files라는 리스트로 넣어줬습니다. 그 다음부터는 for 문을 통해서 파일명을 하나씩 출력한 다음 그것이 디렉토리이면 <DIR>이라고 출력해주고, 그렇지 않으면 그냥 줄만 넘겨주도록 했지요.



...


반응형
반응형

단어 리스트 단어길이순, 단어순 정렬하기


txt = 'but soft what light in yonder window breaks'

words = txt.split()

t = list()

for word in words:

   t.append((len(word), word))


t.sort(reverse=True)


res = list()

for length, word in t:

    res.append(word)


print res



단어를 리스트에 담을때 길이도 같이 담는다. 


.sort() 는 첫번째 요소를 정렬하고 첫번째 요소가 동일하면 두번째 요소를 정렬한다. 


reverse=True 는 내림차순(큰것에서 작은것)으로 정렬해준다. 


 * 파일에 저장하기

with open( "./단어장파일.txt", "w", encoding='utf-8' ) as file_con:

    for length, word in t:

        file_con.append(word)


        


...

반응형

+ Recent posts