관리 메뉴

통계 & 데이터 그리고 이야기

2020-04-25코로나 통계 현황 분석(FEAT, 코로나 통계 증가량 및 통계 변동성(분포), 미국, 싱가포르, 한국 코로나 통계, 정규분포, 균등분포 해석, 데이터 전처리의 중요성(모수, 표본), 통계 인사이트 본문

분석/통계와 데이터 분석

2020-04-25코로나 통계 현황 분석(FEAT, 코로나 통계 증가량 및 통계 변동성(분포), 미국, 싱가포르, 한국 코로나 통계, 정규분포, 균등분포 해석, 데이터 전처리의 중요성(모수, 표본), 통계 인사이트

NoMadikia 2020. 5. 23. 13:51
728x90
반응형
SMALL

 

 

 

 

 

출처 : https://coronaboard.kr/ (2020.03.28일자 코로나 통계)

 

 

 

 

 

필자가 작성한 과거 블로그에서 가져온 2020년 3월 28일자 코로나 바이러스 데이터와 현재 코로나 현황을 비교해보자.

 

 

 

 

출처 : https://coronaboard.kr/ (2020.04.25일자 코로나 통계)

 

 

세계적으로는 확진자 증가량이 많아지고 있는 것으로 보아 코로나 사태가 아직 진행중인 것을 알 수 있다.

 

 

반면에 우리나라는 확진자를 포함해 전체적인 수치에서 변동성이 크게 줄어들고 있어 코로나에 대한 영향력이 줄어들고 있는 것을 짐작해 볼 수 있다.

 

여기서 변동성이란 확진자, 사망자, 격리해제, 총검사, 검사중, 결과음성 통계의 증감량((+),(-))에 대한 변동성의 크기를 의미한다.

 

 

 

관련 통계로 일자 별 통계를 가져와 보자.

 

일별 대한민국 코로나19(COVID-19) 추이

 

 

 

해당 통계를 보면 3월초에 높은 수치를 보이는 확진자(붉은색) 수치들과 3월에서 4월초에 격리해제(초록색)된 인원이 많으면서

 

그 분포가 주식의 상승과 하락처럼 변동성이 큰 것에 비해 현재는 수치 자체도 매우 낮아졌으며 그 변동이 굳이 말하자면 정규분포보다는 균등분포에 가까워졌다고 볼 수 있다.

 

 

 

 

 

 

 

 

여기서 중요한 것은 굳이 말하자면이다.

 

 

해당 통계는 정규분포라고 보기 힘든 부분이 많은데 대한민국의 코로나 확진자는 총 10,718명으로 모수라고 할 수 있는 대략 5천만에 비해서는 매우 작은 인원이라고 할 수 있다. 

 

 

전 인구기준으로 확진자의 상승과 하락이 균등분포보다 정규분포라고 말할 수 있는 정도의 추이를 보이는가 따져보면 그렇지 않을 수도 있다는 것이다.

 

 

여기에 대해 생각할 기회를 제공하기 위해 싱가포르, 대한민국의 데이터에 미국 데이터를 추가해서 가져와 보자.

 

 

 

 

전세계 국가별 누적 추이 - 미국(붉은색), 싱가포르(검은색), 대한민국(에메랄드?)

 

해당 통계는 미국의 코로나에 대한 심각성을 알려주는 통계임과 동시에 그 곡선의 규모와 형태가 매우 커서 싱가포르와 대한민국과 같이 놓고 비교를 했을 때 두 통계를 감춰버리는 것을 확인할 수 있다.

 

 

 

독자는 해당 통계를 통해 하위 두가지 항목에 대해 생각해 보는 시간을 가져보길 바란다.

 

 

(1) 데이터의 규모(표본의 크기)에 따른 정규분포와 균등분포의 해석 차이
(2) 서로 각기 다른 데이터의 규모 차(예- 상위 통계에서는 인구 수)에 따른 해석을 하기위한 데이터 선택의 중요성

 

 

 

데이터의 분포를 확인하기 위해 미국, 싱가포르, 대한민국의 각기 다른 상황(인구 수, 면적 등)을 표준화 시켜줄 수 있는 자료로는

 

 

인구밀도

 

 

데이터가 될 것이라고 필자는 생각한다.

 

 

(1) 인구밀도 대비 확진자 수

 

 

를 다양한 분류 기준(예 - 지역 별, 일자 별 등)으로 나눠 그 분포를 확인해 보는 것이 인사이트를 주기에 도움이 될 것으로 생각된다.

 

 

 

출처 - 구글링 : 싱가포르 코로나

 

 

미국을 제외하고,

초기에 방역 모법국으로 평가받았던 싱가포르를 기준으로 통계와 비교해보자.

 

 

 

출처 - 전세계 국가별 누적 추이

대한민국(검은색)이 2월 말에 백 단위의 확진자 수치를 내고 있던 것과 달리 싱가포르(빨간색)은 데이터를 눈으로 확인하기도 쉽지 않을 정도의 확진자를 내고 있었다.(자세히 보면 약간의 눈금이 올라온게 보인다.)

 

 

 

그렇지만 4월을 기점으로 싱가포르의 확진자 수치는 급격하게 상승선을 그린다.

 

 

상위 통계만 보고는 싱가포르의 심각성이 대한민국보다 심한 것이 아니냐고 하지만

 

 

 

 

누적확진자 통계를 살펴보면 대한민국의 확진자 누적을 넘어선 싱가포르의 모습이다. 상황이 호전되기를 기대해본다.

 

 

해당 통계를 대략적으로 살펴보면

 

 

 

대한민국은 2월 말에서 3월 중순(2.26 ~ 3.12)

 

싱가포르는 4월 중순(4.14 ~ 현재)

 

 

 

에 코로나 확진자에 대해 가파른 상승곡선을 그리고 있는 것을 할 수 있다.

 

출처 - 구글링 : 대한민국 신천지 코로나 감염 시기

 

 

 

이미 다들 알고 있는 사실이지만 언급한 대한민국의 코로나 확진 상승시기는 신천지와 맞물려있다.

 

 

 

대한민국 소재별 확진자 현황

 

 

그리고 파이차트(원차트)를 통해 확인해보면 신천지 관련 인원(대구만 검색)만 해도 4510명인 것을 확인할 수 있다. 

 

 

대한민국의 확진자가 현재(2020.04.25)까지 총 10,708명인 것을 보면 대한민국의 코로나 사태는 이 종교의 영향이 컸다고 증명할 수 있다.

 

 

싱가포르의 상승곡선에 대한 세부통계는 찾아보지 못했다. 

 

 

통계를 통해 싱가포르의 상승곡선의 원인을 추적하기 어렵기 때문에 필자의 방식대로 한 번 추적을 해보도록 하겠다.

 

 

출처 - https://blog.naver.com/saranginc/221526251692 (싱가포르 vs 서울, 비교해보자)

 

 

 

 

 

싱가포르의 면적은 서울과 비슷하고 인구밀도는 서울이 2배가량 넓다. 

 

 

 

 

 

출처 - 구글링 : 대구 면적

그리고 대구 면적이다.

 

 

 

 

응?

 

 

 

대구의 면적(883.5 km^2)이 서울과 싱가포르의 면적보다 넓다.

 

 

해당 면적이 산지 등을 포함하고 있는지 세세히 살펴보지는 않겠지만

 

 

우리나라에서 가장 많은 확진자를 낸 대구보다 작은 면적의 우리나라의 수도 및 광역시 만큼의 면적에 해당하는 국가에 

 

 

확진자가 들어온다면??

 

 

 

 

 

코로나의 확산력이 높다는 것을 알고 있기에 싱가포르의 저런 확진자 증가 수치의 원인을 우선적으로 면적 수치와 연관지어볼 수 있겠다.

 

 

이에 대해 분석을 진행하려고 하였으나, 최근 엑셀의 구독시스템화로 사용의 어려움과 데이터 플랫폼을 찾지 못한 문제로 관련 상관분석은 보류하겠다.

 

 

 

 

출처 - https://www.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6

http:// 출처 - https://www.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6

 

 

 

물론 세계적인 추이를 보면 해당 상관관계는 별로 없을 가능성이 많다.

 

 

 

필자가 그렇게 생각하는 이유는

 

 

 

붉은 색 지점(확진자 통계, 원이 클수록 확진자 인원이 많다.)이 많은 지역은 국가의 면적이 큰 지역이라기보다는

 

 

 

인구가 많은 지역이라고 볼 수 있겠다.

 

 

 

관련하여 세부적인 분석을 하기 위해서는 미국 및 중국의 면적이 큰 나라들은 인구밀도가 높은 특정 지역이 있으며

 

 

 

인구밀도와 코로나 통계를 연관지어 분석(예 - 상관분석)하려면 세부적인 지역들에 대한 데이터들을 이용하여 분석을 시행하여야 한다고 생각한다.

 

 

아쉽지만 상위 작업은 시간이 매우 오래 걸릴 것으로 생각되어 인구와 인구밀도가 높은 지역에서 코로나 발병 위험이 높지 않을까 추측해보며 다음 포스팅에서 국가 별 통계를 가지고 대략적으로만 다뤄보도록 하겠다.

 

 

 

 

 

결론 - 데이터 플랫폼에 제공되어 있는 통계는 확진자, 사망자, 격리해제 등의 기본적 데이터의 시각화 뿐만 아니라 각기 다른 국가, 지역적 상황이 다른 만큼 이를 표준화 시켜줄 수 있는 데이터와 병합하여 해석되는 것이 실제 비즈니스 및 실생활 활용에 인사이트를 제공해주데 있어 중요한 접근법이다.

(예 - 인구 통계, 인구 밀도, 면적 등)

 

해당 내용과 관련하여 각기 다른 국가 별 상황을 표준화하여 동등한 평가를 내리기에 도움이 되는 자료가 될 수 있으며 관련 통계로 알려진 것은 발생율 통계가 있음(100만명 당 발생률, 아래 이미지 참조)

 

 

 

 

다음 포스팅에서는 대한민국의 코로나 완치율(필자는 코로나 종식율이라고 언급)이 80%가 넘어가지 못하는 현상과 코로나 종식율 통계를 완치율에서 발전시켜 지표화하는 과정에 도전해 보고자 한다.

728x90
Comments