일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 로또 통계 분석
- 빅데이터 공모전
- 포켓몬고 배틀 공략
- 코로나 종식율
- 공모전
- 코로나 데이터 분석
- 로또 중앙값
- 포켓몬고 데이터 분석
- 스펙
- 로또 빅데이터
- 2020-03-21 로또
- 포켓몬고 타입 별 분석
- 코로나 심각 분석
- 코로나 예측
- 코로나 통계
- 로또 통계
- 포켓몬고 배틀 데이터 분석
- 코로나 통계 분석
- 긍정적인 마음가짐
- 코로나 분석
- 데이터 공모전
- 코로나 데이터
- 삼프로
- 동행복권 분석
- 포켓몬고 데이터 분석 활용
- 로또 균등분포
- 코로나 심각
- 대한민국 코로나 통계 분석
- 포켓몬고 그림자 포켓몬 사용법
- 로또 분석
- Today
- Total
통계 & 데이터 그리고 이야기
코로나 현황 분석(FEAT, 빅데이터 시대에서의 데이터 특성 이해, 실시간 데이터 등, 간단한 사칙연산에서의 통계 분석,총합 내부의 데이터, 검사중 데이터)2020-05-04 본문
코로나 현황 분석(FEAT, 빅데이터 시대에서의 데이터 특성 이해, 실시간 데이터 등, 간단한 사칙연산에서의 통계 분석,총합 내부의 데이터, 검사중 데이터)2020-05-04
NoMadikia 2020. 5. 23. 13:48
이전 포스팅에서는 현저하게 감소한 코로나의 심각성을 나타내는 수치(확진자, 사망자)들을 확인할 수 있었다.
전 세계를 기준으로 확진자, 사망자의 증가량 데이터는 오히려 증가하는 모습을 보이고 있다.
격리해제인원 또한 증가(+23,776 -> +35,842)한 모습을 보이고 있지만 여전히 확진자 증가량의 절반에 해당하는 양이기에 세부적인 데이터를 살펴봐야 하겠지만 특정 국가는 코로나의 영향력에서 벗어나지 못하고 있다고 볼 수 있다.
반면, 대한민국의 데이터는 4월 25일 기준 일주일이 지난 데이터를 가져왔을 때 해당 수치들에서 균등한 모습을 유지하고 있는 것으로 보인다. 시각화된 자료가 아닌 단순히 수치로만 확인하였을 때
오른쪽 하단에 위치한 총검서자 수치, 검사중, 결과음성 수치의 증가량이 뚜렷하다.
총검사자 및 결과음성(결과가 음성으로 판명된 환자의 수)의 전체 증가량은 현저하게(거의 3~5배) 감소한 모습을 확인할 수 있다.
총검사자 = 확진자 + 검사중 + 결과 음성
이라고 할 수 있으며,
(1) 총검사자(총합)가 증가하고 있는 상황에서 검사중 인원이 감소하면 확진자와 결과 음성 데이터 중 하나가 증가해야 한다.
(2) 그리고 검사 중 인원은 확진자 인원에 의해 많은 영향을 받을 수 있음을 추측할 수 있다.
(2)번과 관련하여 해당 포스팅의 가장 오래된 코로나 데이터인 2020년 3월 28일자를 살펴보면
기준 확진자가 +146의 증가세를 보일 때
검사중인 인원이 +1345를 보이는 것으로 보아
대한민국 확진자의 확진자 증가량과 검사중 인원의 증가량은 양의 상관관계(확진자가 증가할 때 검사 중 인원이 증가한다.)가 있다고 생각해 볼 수 있다.
해당 상관관계에 대해 확신을 가지기 위해서는 대한민국의 경우가 아닌 다양한 나라의 경우와 지속적인 양데이터의 증가세를 확인할 수 있어야 할 것이다.
일단 필자의 포스팅의 데이터만으로는 최근 일주일 데이터인 2020년 4월 25일과 2020년 05월 04일에서 확진자의 증가가 +10대 일 때 검사 중 인원이 감소하는 모습을 보이고 있다.
확진자의 증가량은 음수(마이너스)가 될 수 없다.
총검사자 = 확진자 + 검사중 + 결과 음성
해당 총합을 다시 가져와보면 총검사자 데이터라는 총량에서 확진자와 결과 음성은 누적데이터에 해당하는 해당 데이터에 해당될 때마다 지속적으로 축적되는 데이터이다.
해당 데이터에 한 번 소속되면 해당 데이터에 소속된 사람은 그 집단에서 벗어날 수 없다.
그렇지만 검사 중 데이터는 조금 다르다.
검사중 데이터는 총검사자의 데이터에 포함되면서 코로나의 확진 여부를 판단하기 위해 진단키트를 사용하여 확진자와 결과 음성 중 한 집단으로 분류되기 전에 대기하는 일시적인 집단에 해당한다. 해당 데이터가 다른 데이터(확진자, 결과 음성)와 차이가 있음을 3월 28일, 4월 25일의 데이터와 5월 4일의 데이터의 변동 추이에서 확인할 수 있다.
확진자와 결과음성 데이터에서는 볼 수 없는 증가가 아닌 (-)의 감소량을 확인할 수 있으며, 총량도 감소하는 누적데이터가 아님을 확인할 수 있다. 실제 데이터의 이름에서도 그 특징을 확인할 수 있다.
검사중(검사 ~ing)
확진자, 결과음성 데이터와 검사중 데이터의 차이는 빅데이터 시대에서 분석 및 활용에서 데이터를 사용할 때 더욱 주목해야 할 점이라고 생각한다.
필자는 프로그래밍을 공부하면서 데이터베이스(DB)에 저장하면서 자바(JAVA)의 프로그래밍 특성 상 데이터에 접근하고 저장하고 추출하는 객체(코딩 영역?)를 달리하는 것에서 이미 그 중요성을 인식하고 활용하고 있다고 생각하고 있다.(예 - 실시간 데이터와 누적 데이터의 차이)
아마 아래 포스팅은 프로그래밍(데이터베이스 관련)을 공부하고 있는 상황이 아니라면 이해가 잘 안가실 수 있다. 참조하길 바란다.
https://genesis8.tistory.com/214
추가적으로 수학의 간단한 사칙연산을 활용하여
대한민국 확진자의 현황을 살펴보면...
대한민국의 확진자 증가량은 최근 일당 10명대를 유지하고 있다.
총검사자 = 확진자 + 검사중 + 결과 음성
확진자의 증가량이 +10대이면서 검사중인 인원의 증가량이 마이너스이면?
결과가 음성인 데이터가 증가하고 있다는 것을 실제 육안으로 혹은 다른 데이터를 통해서도 확인할 수 있다.
단순한 총합 아래에서 덧셈과 뺄셈에 의한 연산이며, 여러 데이터의 합계에 해당하는 데이터와 그 요소의 데이터의 상승과 하락을 통해 다른 데이터의 변화를 판단할 수 있음을 생각해 보길 바란다.
(매우 간단해 보이지만 실제 현장에서 특정 수치의 반대 상황에 해당하는 부분이라 고려하지 않는 부분이거나 가려진 부분에 해당한다. 해당 부분에서 통찰력을 얻을 수 있는 경우가 있을 것이라 생각한다.)
결론
(1) 간단한 사칙연산을 통해 통계 데이터는 집단으로 분류되어지고 세분화 되어진다.
(2) 빅데이터 시대에서 실시간에 얻을 수 있는 데이터의 종류와 양이 많아지는 만큼 그 데이터의 특성 및 기술을 이해하는 역량이 요구될 것이다.