관리 메뉴

통계 & 데이터 그리고 이야기

총선 특집 통계 활용 로또 통계 지표 만들기(feat, 로또 통계, 중앙값(median), 평균(mean), 비율(퍼센트)지표 비교 분석) 본문

분석/동행복권(로또, 연금복권) 분석

총선 특집 통계 활용 로또 통계 지표 만들기(feat, 로또 통계, 중앙값(median), 평균(mean), 비율(퍼센트)지표 비교 분석)

NoMadikia 2020. 5. 5. 16:11
728x90
반응형
SMALL





지난 주(2020년 4월 15일 수요일)에는 제 21대 국회의원 선거가 있었다. 그리고 지역구 국회의원선거와 함께...

비례대표 국회의원 선거 용지의 길이를 보고 흠칫했을지도 모르겠다.

출처 - https://www.nec.go.kr/cmm/dozen/view.do?atchFileId=cd6beff6b4f4e23cf3ba8f107724ecb78a7d520b9b20613b53793bf894d1ab26&fileSn=1&hwpViewer=Y



구글링을 검색하여 모형으로 가져왔다. 어마무시한 당들의 목록 중에 하나를 골라야한다.


그리고...

출처 - 구글링 : 비례대표제



지역구 국회의원 선거나 대통령 선거와 같이 상대 후보들보다 높은 득표를 한(다수결과 같은) 후보를 당선시키는 것이 아닌...

비례 대표제는 다음과 같이 국민들 개개인의 투표가 반영이 될 수 있도록 후보들이 정당을 찍은 비율을 활용해 당선자 수(의석 수)를 결정하는 방식이다.

(다음과 같은 방식을 고려하므로 21대 총선에서도 사상 최대의 득표율이 나왔지만 다음에는 더 많은 국민들이 투표를 하러 가기를 바란다)



필자가 비례 대표제 이야기를 꺼낸 이유는 위의 내용에서 정당을 찍은 것을 활용해 각 정당의 당선자수를 결정하는데 다양한 수학적인 방법이 존재하기 때문이다.

수학적 방법은 실생활에서 문제를 해결하는데 있어 유용한 도구가 될 수 있다.

본 포스팅에서는 총선 특집으로 많은 사람들에게 익숙한 로또와 연계하여 활용가능한 수학, 통계 지표를 만들어 보려고 한다.


(필자가 작성했던 이전 포스팅의 합계 및 중간값 지표와 비교)

https://datacenter-nmworld.tistory.com/entry/906%ED%9A%8C%EC%B0%A8-%EB%A1%9C%EB%98%90%EB%B6%84%EC%84%9Dfeat-%EA%B7%A0%EB%93%B1%EB%B6%84%ED%8F%AC-%EC%A4%91%EC%95%99%EA%B0%92-%ED%8F%89%EA%B7%A0-%ED%86%B5%EA%B3%84-%EC%9D%B8%EC%82%AC%EC%9D%B4%ED%8A%B8-2020-04-12

 

906회차 로또분석(feat, 균등분포, 중앙값, 평균, 통계 데이터 분석 인사이트)_2020-04-18(907회) 로또 대비

필자가 로또 분석을 하면서 느끼는 점은 (1) 데이터 분석에 중요한 것은 이미 데이터가 잘 정리, 시각화 되어 있는 플랫폼을 이용하는 것이다. - 플랫폼을 이용하지 않고 엑셀 등 본인이 직접 제작하는 툴을 사용..

datacenter-nmworld.tistory.com



필자는 스포츠 통계를 통해 통계, 수학의 활용에 대해 큰 감명을 받은 적이 있다. 그리고 로또는 우리가 일상생활에서 쉽게 접할 수 있는 통계, 데이터, 분석 공부 도구라고 생각한다.

(아쉽게도, 로또는 청소년에게는 제한사항이 있으며 블로그에서도 작성을 하면 제한사항이 생긴다. 따라서 필자도 최대한 이를 감안하며 통계적인 요인에 포커스를 맞춰 작성하려고 한다.)


로또가 통계 분석에 활용성이 좋은 이유는?


다음과 같이 공에 색깔과 번호를 부여할 수 있기 때문이다. 물론 이러한 반론이 나올 수 있다.


(1) 번호는 그렇다치고 색깔은 당첨에 아무런 영향을 미치지 않으며

(2) 사용자에 따라 다른 방식으로 색을 부여할 수 있는게 아니냐고



일리가 있지만, 통계를 사용함에 있어서 중요한 것은

평균, 중앙값, 대푯값은 불완전하다. 그래서 독자는 평생 이 유용한 무기를 쓰지 않을 것인가?



수학적 지식을 활용해 만들어진 논리적이고 그 개념 형성에 있어서는 결함이 없는 완벽한 도구를

어떻게 사용할까

에 대한 고민에 시간을 투자하는 것이다.


해당 내용에 대한 고찰에 관심이 있으신 독자는 필자의 이전 포스팅(위에 언급)을 참고하길 바란다.
(중앙값 관련 내용 참조)



이제 본론인 실생활에 활용 가능한(특히 특정 요소에 대한 평가) 수학, 통계 지표 제작에 들어가보자.



합계 통계 지표와 중앙값 통계 지표(이전 포스팅)

당첨번호의 결과를 지표로 측정하기 위한 방법(1) - 합계 통계 지표(공의 숫자 활용)

기준치


다음과 같이 당첨이 나온 각 번호의 합을 통해 나오는 합계 지수를 당첨번호가 나올 가능성의 최소, 최대 수치를 기준으로 지표로써 사용하고 평가하는 것

이른바,

(1) 합계 통계 지표(공의 숫자 활용)

가 첫번째 방법이다.


두번째 방법은

당첨번호의 결과를 지표로 측정하기 위한 방법(2) - 중간값 통계 지표(공의 번호 + 공의 색상 활용)



(2) 중간값 지표이다.

통계에서 데이터들의 나열되어 있을 때, 중간에 있다는 위치적 요인을 고려한 중간값을 활용하여 지표를 제작하는 방법이다.



지표를 제시했으면 활용법에 대해서도 설명을 해야한다고 생각한다.
상위 필자의 이전 포스팅에서 간단히 활용법을 설명을 했지만 중요한 것은

지표 두 개를 따로 보지 말고 함께 활용할 수 있어야 한다는 점이다.


(1) 905회의 906회의 중간값 지표는 동일하다 = 공의 분포가 동일하게 나왔다 = 공의 색이 동일하다.


그렇지만


(2) 합계 통계 지표는

905회가 128점이고 906회가 112점(위로 다시 올려서 확인)으로 905회가 16점 높다.


(3) 공의 색이 동일하지만 합계가 높으면 같은 번호 구간에서 후반대 번호(높은 수치)가 많이 나왔다.(예 - 905회의 추첨번호가 38, 40번이 나왔음을 참조)


(4) 중간값을 기준으로 후반대 번호(높은 수치)가 나온 정도를 평가할 수 있다.




생각해 봐야 할 점


통계 지표를 활용할 때는 한 가지 수치, 지표가 모든 것을 해결해 줄 것이라는 기대를 접어야 할지도 모른다.(아직까지는?)

학생들의 성적표, 취준생들의 스펙이 직장인, 실무자로서 그 사람의 가치를 평가하는데 무리가 있다. 농구에서 굉장히 복잡한 방식으로 제작되어 분당 생산성으로 활용되는 PER라는 수치가 선수의 모든 것을 설명해주지는 않는다. 주식투자에서 PER/PBR/ROE가 실제 우리가 주식을 구매하는데 있어 반드시 수익을 벌어다 준다면

출처 - https://www.ddengle.com/gallery/11594952


아마 커뮤니티에 옹기종기 모여서 이러고 있는 재미가 없지 않았을까


그렇지만, 지표가 지나치게 많은 경우 간단명료하지 못하고 효율성이 떨어지는 문제가 발생할 수 있기 때문에

수학, 통계를 활용하여 하나의 지표를 만들어보려고 시도해 보려고 한다.




본격적으로 지표를 만들어보자.




먼저, 지표를 만들기 위한 도구로 총선 특집으로 비례대표제에서 사용하는 방법을 기반으로 아이디어를 뽑아보자.


비례 대표제의 다양한 방식 중 국내에서 사용하고 있는 헤어 쿼터식을 보자.

출처 - http://www.newstof.com/news/articleView.html?idxno=1399(준연동형 비례제 어렵다? 해외 선거엔 '수학'이 판친다


필자 기준으로 가장 비례대표제 방식들을 수학적으로 어려운 내용이지만 쉽게 설명해 주고 있는 것 같아서 가져왔다.


여기서 필자는 로또가 가진 두 가지 특성을 활용하여 상위 내용처럼 점수를 배분하려고 한다.
(여기서 최종 의석수를 점수로 보고 높은 득표 점수를 얻은 정당이 총점(총의석수)에서 높은 점수를 가져간다고 생각한다.)


두 가지 특성은 설명한대로 (1) 공의 색깔 (2) 공의 번호 이다.





906회 당첨번호를 활용하여 지표를 만들어보자.



보너스 번호를 제외하고

(1) 평균 활용 지표 (2) 합계 비율 지표

지표 (1)번 지표(평균 활용) (2)번 지표(합계 비율 활용)
공의 색깔 공의 번호의 평균 * 공의 갯수  (공의 번호 합계/공의 번호 구간 합계) * 공의 개수(동일 색)

노란색

(3.5) * 2 = 7

(7/55) * 2 = 0.26

파란색

14 * 1 = 14 (14/155) * 1 = 0.09

빨간색

28 * 1 = 28 (28/255) * 1 = 0.11

회색

31.5 * 2 = 63 (63/355) * 2 = 0.36

전체 계산(합계)

18.67 * 6 = 112.02 (112/820) * 6 = 0.82

최대값

(40~45의 최대 숫자들이 모두 추첨된 경우)

42.5 * 6 = 255 (255/820) * 6 = 1.87

최소값

(1~6의 6개 최소 숫자들이 모두 추첨된 경우)

3.5 * 6 = 21 (21/820) * 6 = 0.03



먼저, (1)번 지표를 보자.


평균만 활용해서 (2) 중간값지표 를 활용했던 것 처럼 나온 공의 갯수를 가중치로 각각의 점수를 계산해본다.


그렇지만, 해당 지표 하나만 가지고 해석하기에는 활용성이 떨어진다.



이유는

(1) 공의 갯수가 많이 나온 것이 지표에 반영이 안됨.(예 - 노란색이 파란색과 빨간색보다 1개 더 나왔지만 번호 숫자 크기가 작은 구간(단위가 작음)에 속하기 때문에 상대적으로 점수가 작게 나올 수 밖에 없음)

(2) 번호 숫자 크기가 구간마다 다르기 때문에(예 - 노란색은 1~10번대, 회색은 30~40번대이기 때문에 단순 평균은 회색 점수를 높게 나오게 만듬) 높은 번호가 나왔는지도 확인이 어려움.




따라서, 비교에 전혀 사용할 수 없음.
(중간값 지표도 합계에서는 활용이 가능하지만, 해당 문제로 번호 구간을 나눠서 비교하기에 힘든 점이 있음.)




여기서 (1), (2)번의 공통점은 번호 숫자 구간의 범위가 다르다는 점이다. (크기가 달라짐)


따라서, 단위가 달라지는 것과 같이(예 - 1kg과 1g은 단위 없이 숫자로만 계산했을 때 동일한 숫자를 가지고 있어 비교를 하기에 어려움이 있음.)




그래서 (2)번 지표를 하나의 대안으로 생각할 수 있음.


각 추첨된 번호들의 합계를 해당 번호 색깔 구간의 합계(예 - 노란색 공의 범위(1~10번대)는 총 합계가 55임) 안의 공간안에 가둬서(퍼센트 혹은 비율을 구하듯이)

55에 해당하는 구간에서 7의 점수를 할당받았다.

라고 의미를 부여할 수 있음.

같은 색 공의 갯수를 가중치로 부여하는 것은 동일하다.




이렇게 하면..





범위가 달라서 값들의 크기를 비교하기가 힘들었던 지표들을 비율의 구간(0~1)사이로 집어넣는 효과를 주면서

서로의 데이터를 비교할 수 있는 지표를 생성할 수 있음.




예를 들어,

906회의 당첨결과에서 노란색 공이 2개(2, 5) 회색 공이 2개(31, 32)가 나왔다. 공의 갯수를 가중치로 곱해주고 가중치는 0~1의 구간이 아닌 1에서 최대 6개의 구간에 있다보니 지표의 수치를 높게 만들어줌.



그래서




노란색 공과 회색 공의 지표가 파란색 공과 빨간색 공 지표보다 수치가 높게 나온 것을 확인할 수 있음


=> 906회 추첨에서는 노란색 공과 회색공의 영향력이 컸다.




또한, 파란색 공과 빨간색 공에서도 희망적인 수치가 나왔는데,

파란색 공의 결과는 14(평균, 중앙값 : 15.5), 빨간색 공의 결과는 28(평균, 중앙값 : 25.5)로 해당 구간의 평균 혹은 중앙값을 기준으로 빨간공의 추첨번호 크기가 높아 수치가 높게 나왔다고 해석할 수 있다.


그리고 이전 (1) 합계 지표 와 (2) 중앙값 지표와 같이 합계를 통해서

전체 합계도 같이 비교를 할 수 있는 통계 지표가 형성됨
(예 - 112(추첨번호합계)/820(전체번호합계)를 통해 906회의 추첨번호 합계 지수는 0.82이며 다음에는 이보다 높거나 낮을 수 있다.)



이를 여러 개의 회차와 비교하여 데이터로써

(1) 어떤 구간 대의 번호가 높게 나왔는지

(2) 어떤 색깔의 공이 많이 나왔는지

분석에 활용할 수 있음.


굉장히 유용할 것 같아 보이는 지표가 형성되었지만 해당 지표에는 단점이 존재함.

(1) 왜 노란색 공보다 회색 공의 수치가 높은건가?

노란색 공(2,5)보다 회색 공(31,32)이 30번~40번대 구간에서 낮은 위치에 있음에도 해당 지표는 노란색 공의 점수보다 회색공의 점수를 더 높게 책정하였다.

=> 여러 개의 회차를 가지고 분석을 해야겠지만, 해당 포스팅에서는 일단 단위를 완전히 통일하기에 어려움이 있어서 회색 공의 점수가 높게 나왔을 것이라는 가설을 세우고 마무리 하겠음.



결론 - 합계 지표, 중간값 지표도 유용하지만 비율을 활용해 각 공의 색깔 구간 대 별로 공의 갯수와 번호 크기를 평가할 수 있는 다소 불완전한 지표를 형성
해당 지표는 합계 지표와 중간값 지표에서는 공의 번호를 일일이 비교해 봐야하는 피곤함(?)을 줄여주고 효율적으로 지표의 수치만 보고

비교분석

이 가능함을 확인 할 수 있었음.


다음 포스팅에서는 이러한 수학, 통계적 활용을 계속 확장하여 해당 지표가 신뢰성이 있는지 여러 회차를 통해 실제 비교해보고 문제점을 보완할 수 있는 지표를 만들어 보도록 하겠음.

728x90
Comments