Bing 코로나19

Bing 코로나19 데이터에는 모든 지역의 확진, 사망 및 완치 사례가 포함되며, 이 데이터는 매일 업데이트됩니다. 이 데이터는 Bing 코로나19 추적기에 반영됩니다.

Bing은 WHO(세계 보건 기구), CDC(미국 질병통제예방센터), 국가/지역 및 주 공중 위생 관련 부서, BNO News, 24/7 Wall St., Wikipedia 등의 신뢰할 수 있는 여러 출처의 데이터를 수집합니다.

참고 항목

Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.

이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.

데이터 집합

수정된 데이터 세트는 CSV, JSON, JSON-Lines 및 Parquet 형식으로 사용 가능합니다.

모든 수정된 데이터 세트는 ISO 3166 하위 코드와 추가된 로드 시간이 있고, 밑줄 구분 기호가 있는 소문자 형식의 열 이름을 사용합니다.

원시 데이터: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/bing_covid-19_data/latest/Bing-COVID19-Data.csv

수정된 원시 데이터의 이전 버전: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/

데이터 볼륨

모든 데이터 세트는 매일 업데이트됩니다. 2020년 5월 11일 기준, 125,576개 행을 포함합니다(CSV 16.1MB, JSON 40.0MB, JSONL 39.6MB, Parquet 1.1MB).

라이선스 및 사용 권한 표시

이 데이터는 사용 약관에 따라 의학 연구, 정부 기관, 교육 기관과 같은 교육 및 학문적 목적으로만 사용할 수 있습니다.

게시물에 사용되거나 인용된 데이터는 ‘Bing 코로나19 추적기’에 대한 표시와 함께 www.bing.com/covid에 대한 링크를 포함해야 합니다.

연락처

이 데이터 세트나 코로나19 데이터 레이크의 다른 데이터 세트에 대한 질문이나 피드백이 있는 경우 askcovid19dl@microsoft.com으로 문의하세요.

이름 데이터 형식 고유한 값(샘플) 설명
admin_region_1 string 864 Texas Georgia country_region 내의 지역
admin_region_2 string 3,143 Washington County Jefferson County admin_region_1 내의 지역
confirmed int 120,692 1 2 지역의 확진 사례 수치
confirmed_change int 12,120 1 2 전날에서의 확진 사례 수치 변화
country_region string 237 United States India 국가/지역
deaths int 20,616 1 2 지역의 사망 사례 수치
deaths_change smallint 1,981 1 2 전날에서의 사망 수치 변화
id int 1,783,534 742546 69019298 고유 식별자
iso_subdivision string 484 US-TX US-GA 두 부분으로 구성된 ISO 하위 코드
iso2 string 226 US IN 2자로 된 국가 코드 식별자
iso3 string 226 USA IND 3자로 된 국가 코드 식별자
latitude double 5,675 42.28708 19.59852 지역의 중심 위도
load_time timestamp 1 2021-04-26 00:06:34.719000 GitHub에서 Bing 원본으로부터 파일이 로드된 날짜 및 시간
longitude double 5,693 -2.5396 -155.5186 지역의 중심 경도
recovered int 73,287 1 2 지역의 완치 수치
recovered_change int 10,441 1 2 전날에서의 완치 사례 수치 변화
업데이트됨 날짜 457 2021-04-23 2021-04-22 레코드의 기준 날짜

미리 보기를

id 업데이트됨 confirmed deaths iso2 iso3 country_region admin_region_1 iso_subdivision admin_region_2 load_time confirmed_change deaths_change
338995 2020-01-21 262 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM
338996 2020-01-22 313 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 51 0
338997 2020-01-23 578 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 265 0
338998 2020-01-24 841 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 263 0
338999 2020-01-25 1320 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 479 0
339000 2020-01-26 2014 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 694 0
339001 2020-01-27 2798 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 784 0
339002 2020-01-28 4593 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 1795 0
339003 2020-01-29 6065 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 1472 0
339004 2020-01-30 7818 0 null null 전 세계 null null null 4/26/2021 12:06:34 AM 1753 0

데이터 액세스

Azure Notebooks

이 Notebook은 Bing 코로나19 데이터 세트에 액세스하기 위한 URL과 샘플 코드를 문서화합니다.

다음 URL을 사용하여 Azure Blob Storage에서 호스트되는 특정 파일 형식을 가져옵니다.

CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv

JSON: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.json

JSONL: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.jsonl

Parquet: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet

Pandas의 기본 제공 기능인 http URL에서 다운로드를 사용하여 데이터 세트 파일을 다운로드합니다. Pandas에는 다양한 파일 형식을 위한 읽기 프로그램이 있습니다.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet")
df.head(10)

다양한 필드의 데이터 형식을 확인하고 업데이트된 열이 datetime 형식인지 확인하겠습니다.

df.dtypes

이제 전 세계 데이터를 살펴보고 데이터를 시각화하는 몇 가지 간단한 차트를 그립니다.

df_Worldwide=df[df['country_region']=='Worldwide']
df_Worldwide_pivot=df_Worldwide.pivot_table(df_Worldwide, index=['country_region','updated'])

df_Worldwide_pivot
df_Worldwide.plot(kind='line',x='updated',y="confirmed",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="deaths",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="confirmed_change",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="deaths_change",grid=True)

Azure Databricks

이 플랫폼/패키지 조합에는 샘플을 사용할 수 없습니다.

Azure Synapse

이 플랫폼/패키지 조합에는 샘플을 사용할 수 없습니다.

다음 단계

Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.