반응형
반응형

“컴퓨터가 당신의 이메일을 읽을까 봐 걱정하는 것은 개가 당신의 벗은 몸을 볼까 봐 걱정하는 것이나 마찬가집니다.”

컴퓨터가 당신의 데이터를 보관하고 있다면, 그것이 폭로될 위험은 늘 존재한다. 프라이버시 정책이 내일 당장 바뀌어서 당사자의 명시적 동의 없이도 과거의 데이터를 새로이 이용할 수 있게 허용할 수도 있다. 또 해커나 범죄자가 데이터를 훔쳐갈 수도 있다. 당신의 데이터를 갖고 있는 기관이 새롭고 공개적인 방식으로 그것을 사용할 수도 있고, 다른 조직에 팔아넘길 수도 있다. FBI는 데이터 주인에게 국가안보서신을 제시할 수 있는 반면, 개에게 주인의 벗은 모습을 설명하게 만들 수 있는 법정은 이 세상에 없다. 

『당신은 데이터의 주인이 아니다』 P. 203






...

반응형
반응형

베이즈 확률  http://hamait.tistory.com/742


확률


확률은 매우 간단합니다. 주사위로 생각해 봅시다.


주사위 1개를 던저 나오는 눈의 수를 생각 할때 , 주사위 던지는 조작을 "시행"이라고 합니다.


이 시행으로 얻어진 결과 중에서 조건에 맞는 결과 집합을 "사상" 이라고 합니다.


만약 홀수가 나오는 사상이라면 시행의 결과가 1,3,5 인 눈의 집합이 됩니다.


결국 공식을 다음과 같이 정의 할 수 있습니다.


확률 P =   문제 삼고 있는 사상이 일어나는 경우의 수 (A) /  일어날 수 있는 모든 경우의 수 (U) 



곱사상


두 사상 A,B 가 있다고 합시다.


- A 는 4 이하의 눈이 나오는 사상 


- B 는 짝수가 나오는 사상 


A 와 B 가 동시에 일어나는 "동시확률" 은 ?


A 는 4/6 


B 는 3/6  


A * B = 1/3     즉 두개의 사상이 함께 일어날 확률은 두 사상을 곱하여 계산합니다. 




조건부 확률


어떤 사상 A 가 일어났다고 하는 조건 아래서 사상 B 가 일어나는 확률을 , A 의 조건 아래서 B 가 일어나는 "조건부 확률" 이라고 합니다.


P(B|A) 라고 합니다. ( A 가 일어난 후에 B가 일어날 확률 ) 




P(B | A)    =  '4 이하의 눈이 나왔을 때 그 눈이 짝수 일 확률' =   2/4 


P(A | B)    = '짝수의 눈이 나왔을때 그 눈이 4이하일 확률' = 2/3




승법정리


P(A∩B) = P(A)P(B|A) = P(B)P(A|B) 


검증해볼가요?  (위의 주사위 확률을 문제로 삼고 진행해 봅시다) 


A 사상과 B 의 사상이 함께 일어날 확률은?  위 곱사상 편에서 보면  1/3 이었습니다.


P(A) 는 ?  4/6  이 었지요.


P(B|A) 는 ? 2/4 였습니다 ( 위의 조건부 확률에서 확인) 


P(A)와 P(B|A) 를 곱하면 ?   네 1/3 이 됩니다. 




베이즈 정리는 이 승법정리에서 간단히 유도 됩니다. 


베이즈 정리 


위의 승법정리를 토대로 간단히 다음과 같은 식이 얻어집니다.

 

P(AB)=P(B)P(A)P(BA)

​ 


위에서 A 나 B 로 하면 먼가 이해하기 힘들거 같아서 

A 를 H 로 바꾸고 (Hypothesis :  '원인' 혹은 '가정' )

B 를 D 로 바꾸어 보겠습니다. ( Data :  '결과' 혹은 '데이터') 


P(HD)=P(D)P(H)P(DH)

​ 

위의 정리는 이렇게 말하고 있습니다.


P(H | D) :   결과 데이터가 이렇게 이렇게 나왔는데 , 이렇게 결과 나오려면 어떤 원인이 있었던 것일까??

P(D)    :      모든 결과 (어떤 가설에든 포함되는 데이터의 비율로 , 한정 상수라고도 한다) 

P (H)   :    (결과 데이터 D 를 얻기 전에)  원인인 H가 성립될 확률 

P(D | H) : 원인 H 가 일어났을때 데이터 D 가 얻어질 확률 


.

반응형
반응형



데이터 저널리즘을 돕는 구글 도구 7선




1. 구글 검색

기자가 자료를 찾기 위해 검색할 때는 일반인이 사용할 때와는 다르다. 전문적인 자료여야 하며, 구체적이고 명시적인 데이터를 찾아야 한다. 정교한 검색이 필요한 이유다. 몇 가지 검색 연산자를 사용하면 검색 범위를 구체적으로 특정하거나, 파일 확장자를 지정하거나, 필요 없는 정보를 걸러낼 수 있다. 다음과 같은 것들이다. 구글 고급 검색( https://www.google.ca/advanced_search )에서 활용해도 된다.

2. 구글 트렌드

구글 트렌드는 사람들이 구글에서 무엇을 어떻게 검색하는지에 대한 정보를 담고 있다. 하루 30억개, 1년이면 1.3조개의 데이터가 담긴다. 유튜브나 구글 뉴스에서 검색한 정보도 포함돼 있다. 검색은 소셜미디어와 달리 솔직해서 사용자의 흥미를 솔직하게 파악하는 데 도움이 된다. 아이린은 “설문조사는 시간이 오래 걸리는데 구글 트렌드는 데이터를 즉각적으로 파악할 수 있다는 점에서 좋다”라고 말했다.

3. 오픈리파인

오픈리파인은 데이터를 정제하는 도구다. 대부분 데이터는 깔끔하게 다듬어야 분석이나 시각화 등에서 활용할 수 있다. 일종의 밑손질과 같다. 원래 이름은 ‘구글 리파인’이었는데 오픈소스로 공개되면서 이름도 바뀌었다. 텍스트 데이터를 다루거나 전반적인 데이터 경향성을 볼 때 편리하다.

4. 스프레드시트

엑셀과 거의 같은 기능을 지원한다. 온라인에서 작업하기 때문에 협업도 가능하다. 간편한 데이터 시각화 도구를 제공한다는 것도 장점이다. 인터랙티브한 맵도 바로 만들 수 있다.

5. 퍼블릭 데이터 익스플로러 ( https://www.google.com/publicdata/ )

퍼블릭 데이터 익스플로러는 유럽연합 통계청이나 세계은행 등 다양한 데이터 제공 기관의 데이터를 바탕으로 인터랙티브한 차트를 제작할 수 있게 지원한다. 예컨대 세계은행의 데이터를 바탕으로 나라별 기대수명의 증가와 출산울의 변화를 파악하는 차트를 만들 수 있는 식이다. 언어별로 지원되는 데이터가 다르다. 영어가 가장 많다.

6. 마이맵

구글 마이맵은 사용자가 원하는 정보를 지도에 추가할 수 있는 시각화 도구다. 예컨대 특정 범죄가 일어난 곳의 주소 목록을 스프레드시트로 작성하고 바로 지도로 시각화할 수 있다. 사용자는 지도에 위치를 표시하는 것 외에 경로를 표시하거나 특정 건물을 색칠할 수도 있고, 여러 장소를 하나의 목록으로 묶을 수도 있다.


7. 퓨전테이블

데이터 수집, 시각화, 공유를 돕는다. 데이터를 입력하고 간단한 수준에서 정제해 차트를 만들거나, 지도를 그리는 등의 시각화를 수행할 수 있다.



.


반응형

+ Recent posts