반응형
반응형



데이터 저널리즘을 돕는 구글 도구 7선




1. 구글 검색

기자가 자료를 찾기 위해 검색할 때는 일반인이 사용할 때와는 다르다. 전문적인 자료여야 하며, 구체적이고 명시적인 데이터를 찾아야 한다. 정교한 검색이 필요한 이유다. 몇 가지 검색 연산자를 사용하면 검색 범위를 구체적으로 특정하거나, 파일 확장자를 지정하거나, 필요 없는 정보를 걸러낼 수 있다. 다음과 같은 것들이다. 구글 고급 검색( https://www.google.ca/advanced_search )에서 활용해도 된다.

2. 구글 트렌드

구글 트렌드는 사람들이 구글에서 무엇을 어떻게 검색하는지에 대한 정보를 담고 있다. 하루 30억개, 1년이면 1.3조개의 데이터가 담긴다. 유튜브나 구글 뉴스에서 검색한 정보도 포함돼 있다. 검색은 소셜미디어와 달리 솔직해서 사용자의 흥미를 솔직하게 파악하는 데 도움이 된다. 아이린은 “설문조사는 시간이 오래 걸리는데 구글 트렌드는 데이터를 즉각적으로 파악할 수 있다는 점에서 좋다”라고 말했다.

3. 오픈리파인

오픈리파인은 데이터를 정제하는 도구다. 대부분 데이터는 깔끔하게 다듬어야 분석이나 시각화 등에서 활용할 수 있다. 일종의 밑손질과 같다. 원래 이름은 ‘구글 리파인’이었는데 오픈소스로 공개되면서 이름도 바뀌었다. 텍스트 데이터를 다루거나 전반적인 데이터 경향성을 볼 때 편리하다.

4. 스프레드시트

엑셀과 거의 같은 기능을 지원한다. 온라인에서 작업하기 때문에 협업도 가능하다. 간편한 데이터 시각화 도구를 제공한다는 것도 장점이다. 인터랙티브한 맵도 바로 만들 수 있다.

5. 퍼블릭 데이터 익스플로러 ( https://www.google.com/publicdata/ )

퍼블릭 데이터 익스플로러는 유럽연합 통계청이나 세계은행 등 다양한 데이터 제공 기관의 데이터를 바탕으로 인터랙티브한 차트를 제작할 수 있게 지원한다. 예컨대 세계은행의 데이터를 바탕으로 나라별 기대수명의 증가와 출산울의 변화를 파악하는 차트를 만들 수 있는 식이다. 언어별로 지원되는 데이터가 다르다. 영어가 가장 많다.

6. 마이맵

구글 마이맵은 사용자가 원하는 정보를 지도에 추가할 수 있는 시각화 도구다. 예컨대 특정 범죄가 일어난 곳의 주소 목록을 스프레드시트로 작성하고 바로 지도로 시각화할 수 있다. 사용자는 지도에 위치를 표시하는 것 외에 경로를 표시하거나 특정 건물을 색칠할 수도 있고, 여러 장소를 하나의 목록으로 묶을 수도 있다.


7. 퓨전테이블

데이터 수집, 시각화, 공유를 돕는다. 데이터를 입력하고 간단한 수준에서 정제해 차트를 만들거나, 지도를 그리는 등의 시각화를 수행할 수 있다.



.


반응형
반응형

TensorFlow-Tutorials

Introduction to deep learning based on Google's TensorFlow framework. These tutorials are direct ports of Newmu's Theano Tutorials.

Topics

Dependencies

  • TensorFlow 1.0 alpha
  • Numpy
  • matplotlib



# TensorFlow-Tutorials

[![Build Status](https://travis-ci.org/nlintz/TensorFlow-Tutorials.svg?branch=master)](https://travis-ci.org/nlintz/TensorFlow-Tutorials)

[![Codacy Badge](https://api.codacy.com/project/badge/grade/2d3ed69cdbec4249ab5c2f7e4286bb8f)](https://www.codacy.com/app/hunkim/TensorFlow-Tutorials)


Introduction to deep learning based on Google's TensorFlow framework. These tutorials are direct ports of

Newmu's [Theano Tutorials](https://github.com/Newmu/Theano-Tutorials).


***Topics***

* [Simple Multiplication](00_multiply.py)

* [Linear Regression](01_linear_regression.py)

* [Logistic Regression](02_logistic_regression.py)

* [Feedforward Neural Network (Multilayer Perceptron)](03_net.py)

* [Deep Feedforward Neural Network (Multilayer Perceptron with 2 Hidden Layers O.o)](04_modern_net.py)

* [Convolutional Neural Network](05_convolutional_net.py)

* [Denoising Autoencoder](06_autoencoder.py)

* [Recurrent Neural Network (LSTM)](07_lstm.py)

* [Word2vec](08_word2vec.py)

* [TensorBoard](09_tensorboard.py)

* [Save and restore net](10_save_restore_net.py)

* [Generative Adversarial Network](11_gan.py)


***Dependencies***

* TensorFlow 1.0 alpha

* Numpy

* matplotlib



.

반응형
반응형

https://www.tensorflow.org/api_docs/python/tf/compat


Module: tf.compat

Module tf.compat

Functions for Python 2 vs. 3 compatibility.

Conversion routines

In addition to the functions below, as_str converts an object to a str.

Types

The compatibility module also provides the following types:

  • bytes_or_text_types
  • complex_types
  • integral_types
  • real_types

Members

as_bytes(...): 바이트 또는 유니 코드를 bytesutf-8 인코딩을 사용하여 텍스트 로 변환합니다 .

as_str(...): 바이트 또는 유니 코드를 bytesutf-8 인코딩을 사용하여 텍스트 로 변환합니다 .

as_str_any(...)str와 같이 변환 str(value)하지만 as_strfor를 사용 합니다 bytes.

as_text(...): 주어진 인수를 유니 코드 문자열로 반환합니다.


Constant bytes_or_text_types

Constant complex_types

Constant integral_types

Constant real_types

Defined in tensorflow/python/util/compat.py.


반응형
반응형

scikit-learn: machine learning in Python 


https://github.com/scikit-learn/scikit-learn


scikit-learn

scikit-learn is a Python module for machine learning built on top of SciPy and distributed under the 3-Clause BSD license.

The project was started in 2007 by David Cournapeau as a Google Summer of Code project, and since then many volunteers have contributed. See the AUTHORS.rst file for a complete list of contributors.

It is currently maintained by a team of volunteers.

Website: http://scikit-learn.org

Installation

Dependencies

scikit-learn requires:

  • Python (>= 2.7 or >= 3.3)
  • NumPy (>= 1.6.1)
  • SciPy (>= 0.9)

For running the examples Matplotlib >= 1.1.1 is required.

scikit-learn also uses CBLAS, the C interface to the Basic Linear Algebra Subprograms library. scikit-learn comes with a reference implementation, but the system CBLAS will be detected by the build system and used if present. CBLAS exists in many implementations; see Linear algebra libraries for known issues.

User installation

If you already have a working installation of numpy and scipy, the easiest way to install scikit-learn is using pip

pip install -U scikit-learn

or conda:

conda install scikit-learn

The documentation includes more detailed installation instructions.

Development

We welcome new contributors of all experience levels. The scikit-learn community goals are to be helpful, welcoming, and effective. The Development Guide has detailed information about contributing code, documentation, tests, and more. We've included some basic information in this README.

Important links

Source code

You can check the latest sources with the command:

git clone https://github.com/scikit-learn/scikit-learn.git

Setting up a development environment

Quick tutorial on how to go about setting up your environment to contribute to scikit-learn: https://github.com/scikit-learn/scikit-learn/blob/master/CONTRIBUTING.md

Testing

After installation, you can launch the test suite from outside the source directory (you will need to have the nose package installed):

nosetests -v sklearn

Under Windows, it is recommended to use the following command (adjust the path to the python.exe program) as using the nosetests.exe program can badly interact with tests that use multiprocessing:

C:\Python34\python.exe -c "import nose; nose.main()" -v sklearn

See the web page http://scikit-learn.org/stable/developers/advanced_installation.html#testing for more information.

Random number generation can be controlled during testing by setting the SKLEARN_SEED environment variable.

Submitting a Pull Request

Before opening a Pull Request, have a look at the full Contributing page to make sure your code complies with our guidelines: http://scikit-learn.org/stable/developers/index.html

Project History

The project was started in 2007 by David Cournapeau as a Google Summer of Code project, and since then many volunteers have contributed. See the AUTHORS.rst file for a complete list of contributors.

The project is currently maintained by a team of volunteers.

Note: scikit-learn was previously referred to as scikits.learn.

Help and Support

Documentation

Communication

Citation

If you use scikit-learn in a scientific publication, we would appreciate citations: http://scikit-learn.org/stable/about.html#citing-scikit-learn





.

반응형
반응형

NLP란 무엇인가요?


http://konlpy.org/ko/v0.4.4/start/








Python package for Korean natural language processing. 

https://github.com/konlpy/konlpy



NLP (Natural Language Processing, 자연어처리)는 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합입니다.

우리 일상에도 다양한 NLP 응용사례가 있습니다. 가령:

그리고 물론, 검색엔진과 같은 정보검색 시스템 등이 있습니다. NLP의 기초에 대해 더 자세히 알기 위해서는 아래 책들을 참고하시기 바랍니다.

KoNLPy는 여러분이 한국어 텍스트를 이용하여 기초적인 NLP 작업을 수행하는데 도움을 드릴 것입니다. 영어 텍스트를 다루는 것에 관심 있으신 경우, NLTK 를 참고해주시기 바랍니다.

이제 무엇을 준비하면 되나요?

KoNLPy를 사용하기 전에 다음의 몇 가지 준비가 필요합니다.

  1. 언어에 대한 깊은 관심과 한국어에 대한 어느 정도의 이해

  2. 기본적인 파이썬 프로그래밍 방법 [1]

  3. 좋은 텍스트 에디터와 터미널 (또는 파이썬 IDE) [2]

  4. 파이썬이 설치된 컴퓨터

  5. 파이썬 패키지 매니저 pip

준비되셨나요? 이제 시작해봅시다.


반응형
반응형



** 설치된 모듈의 위치정보 등 알아내기


    --  pip show  설치된모듈이름



 



TensorFlow on Windows: “Couldn't open CUDA library cudnn64_5.dll”




First of all, note that cuDNN is not distributed with the rest of the CUDA toolkit, so you will need to download it separately from the NVIDIA website. On Windows, it is distributed as a ZIP archive, so you must extract it and find the directory containing cudnn64_5.dll. For example, if you extract it to C:\tools\cuda, the DLL will be in C:\tools\cuda\bin\cudnn64_5.dll. Finally, you can add it to your path by typing the following at the command prompt:


C:\> set PATH=%PATH%;C:\tools\cuda\bin

C:\> python

...

>>> import tensorflow as tf


 

 I didn't have such issues with TensorFlow 0.12.1 (installed with pip install tensorflow==0.12.1):

 



---------------------------------------------------------------------------------

KNL

---------------------------------------------------------------------------------


matplotlib install  -  http://matplotlib.org/faq/installing_faq.html


> pip install matplotlib


or 


> git clone git://github.com/matplotlib/matplotlib.git

> cd matplotlib

> python setup.py install

> python setup.py develop


matplotlib test 

http://matplotlib.org/faq/howto_faq.html#how-to-search-examples


---------------------------------------------------------------------------------


konlpy install - http://konlpy.org/ko/v0.4.3/install/


> pip install --upgrade pip

> pip install JPype1-0.5.7-cp27-none-win_amd64.whl


> pip install konlpy


Binary Install

Ensure you have installed Anaconda/Miniconda. Instructions can be found here.

Install from the conda-forge software channel:


conda install -c conda-forge jpype1


$ pip install wheel


jpype  download : http://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype


---------------------------------------------------------------------------------


JAVA_HOME 설정 

java 설치 - http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html


환경변수 - JAVA_HOME  C:\Program Files\Java\jdk1.8.0_121


---------------------------------------------------------------------------------


To install this package with conda run: https://anaconda.org/anaconda/gensim


> conda install -c anaconda gensim=1.0.1


To install this package with conda run: https://anaconda.org/anaconda/scipy


> conda install -c anaconda scipy=0.19.0



---------------------------------------------------------------------------------


sklearn install


https://sourceforge.net/projects/scikit-learn/files/


sklearn test 

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html


---------------------------------------------------------------------------------


Activate the conda environment by issuing the following command:


C:> activate tensorflow

 (tensorflow)C:>  # Your prompt should change 




예제 :: 

Saved model checkpoint to D:\PythonProject\cnn-text-classification-tf-master\runs\1490667625\checkpoints\model-1000



word2vec_example - https://gist.github.com/solaris33/8ce9913dea1aa4225876cbcfdd2963be#file-word2vec_example-py



Pycharm & tensorflow & Anaconda = http://yeramee.tistory.com/1


anaconda > tensorflow install : http://www.lfd.uci.edu/~gohlke/pythonlibs/#tensorflow





starting jupyter notebook

> jupyter notebook 

or 

> jupyter notebook --port 9999





5-1. 텐서플로우(TensorFlow)를 이용해 자연어를 처리하기(NLP) – Word Embedding(Word2vec) :: http://solarisailab.com/archives/374


jupyter notebook 사용하기 : http://goodtogreate.tistory.com/entry/IPython-Notebook-%EC%84%A4%EC%B9%98%EB%B0%A9%EB%B2%95




.

반응형

+ Recent posts