통계의 거짓말... 많은 학교에서 아이들에게 가르쳤으면 좋겠다.
물론 성인들도 통계에 대해서 더 공부하고...
다음 1-2번은 오래전에 읽은 책. 3번은 지난 연휴에 읽은 책.
(1) How to Lie with Statistics: https://www.amazon.com/How-Lie-Statistics.../dp/0393310728
(2) Naked Statistics: https://www.amazon.com/Naked-Statistics.../dp/039334777X
(3) Daniel J. Levitin - A Field Guide to Lies: Critical Thinking with Statistics and the Scientific Method: https://www.amazon.com/Field-Guide-Lies.../dp/0593182510
3번 책에 나오는 한가지 트릭. (뭐 이렇게 하라는 얘기가 아니라...)
이번 분기에 어떤 제품의 세일이 감소했을 때, 아래 첫번째 그래프처럼 분기별 세일 그래프를 그리면 세일 감소가 눈에 쉽게 띄니까, 이것을 감추기 위해서 두번째 그래프처럼 누적 세일 그래프를 그린다는... 애플에서 한 것처럼... 이렇게 그리면 세일이 계속 증가하는 것처럼 보이고 (사실은 기울기가 커져야 세일이 증가한 것임), 기울기가 줄어든 것은 별로 눈에 띄지 않기 때문에...
다른 그래프의 첫번째 것은 미 하원 회의에서 국회의원이 Planned Parenthood를 비난하기 위해서 보여준 그래프로, Abortion이 매우 많이 늘어난 것처럼 보이게 하기 위해서, 한 그래프에서 두 라인의 scale을 다르게 그렸다. 이렇게 데이타를 왜곡하지 않고, 실제 scale에 맞게 그리면 두번째 그래프가 된다.
그리고, 이 책에 나오는 확률 문제 하나. (편의상 여기에 약간 다르게 썼음)
3장의 카드가 있는데, 첫번째는 양면이 빨간색이고, 두번째는 양면이 파란색, 세번째는 한면은 빨간색이고 다른 한면은 파란색으로 되어 있다. (양면에 아무런 무늬가 없이 그냥 단순히 색만 칠해져 있음.)
이 3장의 카드 중 한장을 임의로 (randomly) 선택해서 임의의 한면을 위로 책상 위에 놓았다.
만약 보이는 카드의 색이 빨간색일 때, 이 카드 뒷면의 색도 빨간색일 확률은?
--> 답은 가장 아래에...
-------
통계의 거짓말에 대해서 유명한 말: "There are three kinds of lies: lies, damned lies, and statistics"
* 인터넷 검색으로 본 페이지:
Lessons on How to Lie with Statistics
The simple truth about statistics
이 기사에 나오는, 비슷한 시기에 발표된 통계 얘기.
(1) 영국의 유방암 비율이 동부 아프리카의 4배가 넘는다.
(2) 유방암에 의한 사망률이 다른 유럽 국가들보다 영국에서 훨씬 많이 감소했다.
-->
뭔가 상반된 내용처럼 보이지 않는가?
(1)에서, 아프리카 지역에서는 의료혜택을 많이 받지 못해서 유방암 진단을 받지 못한 경우가 많고, 그러므로 통계에 잡히지 않은 숫자가 많고,
영국의 평균 수명이 아프리카의 평균 수명보다 훨씬 길기 때문에, 영국 노인들이 유방암이 걸리 확률이 더 높은 것. (일반적으로 노인이 젊은 사람보다 암에 걸리 확률이 훨씬 높기 때문에)
즉, 사실 직접 비교할 수 없는 통계를 비교한 것이다.
(2)는 1980년에서 2006년 사이의 변화를 비교한 것인데, 예전에 영국의 사망률이 유럽 30개 국에서 가장 높았다가, 이제 많이 줄어들었다는 것. 그래도 영국의 사망률이 유럽에서 높은 편 (30개국 중 7위)이라고 한다.
------------
카드 확률 문제는 일종의 조건부확률 문제인데, 다음과 같이 생각하는 것이 쉬울 수 있다.
설명을 위해서, 이 3장의 카드 앞뒤 색을 다음과 같이 쓰면
Card1: R11, R12 (빨간색, 빨간색)
Card2: B21, B22 (파란색, 파란색)
Card3: R31, B32 (빨간색, 파란색)
책상 위에 Random하게 보인 카드의 색이 빨간색일 때라고 했으니, 그것이 가능한 경우를 나열해 보면 된다.
즉, 이 빨간색은 R11, R12, R31 중의 하나이다. 그러므로, 이들 각각의 뒷면에는 R12, R11, B32가 있게 된다. --> 윗면에 빨간색이 나오는 3가지 경우 중에서, 뒷면에 빨간색이 나오는 것은 두가지 (R12, R11)로, 확률은 2/3.
이 문제의 트릭은 'Card1'이 한장이지만, 이 카드에 의해 우리가 보는 빨간색 event는 두가지라는 것. 그래서, 그냥 단순히 직관적으로는 1/2 같지만, 실제로는 2/3가 된다.
No comments:
Post a Comment