你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

欧洲疾病预防与控制中心 (ECDC) 新冠肺炎病例

来自欧洲疾病预防控制中心 (ECDC) 的关于全球新冠肺炎病例地理分布情况的最新可用公共数据。 每行/每个条目包含各国家/地区每天报告的新增病例数。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

数据集

修改后的数据集版本现提供 CSV、JSON、JSON-Lines 和 Parquet 格式,该数据集每日更新:

已修改的所有数据集都添加了 iso_country_region 代码和加载时间,还使用了带下划线分隔符、采用小写字母格式的列名称。

原始数据: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/latest/ECDCCases.csv

已修改的数据和原始数据的历史版本:https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/

数据量

截至 2020 年 5 月 28 日,它们包含 19,876 行(CSV 1.5 MB、JSON 4.9 MB、JSONL 4.9 MB、Parquet 54.1 KB)。

数据源

原始数据每日从 ECDC csv 文件中引入。 有关此数据集(包括其来源)的详细信息,请参阅 ECDC 数据集合页

数据质量

ECDC 不保证数据的准确性和时效性。 阅读免责声明

许可和使用权归属

此数据根据此处的 ECDC 版权政策提供并许可使用。 对于版权属于第三方的任何文档,必须获得版权所有者的复制许可。

必须始终确认 ECDC 是此数据的原始来源。 材料的每个副本中都必须包含此类确认。

联系人

如果对新冠肺炎数据湖中的此数据集或其他数据集有任何疑问或反馈,请联系 askcovid19dl@microsoft.com。

名称 数据类型 唯一 值(示例) 说明
cases smallint 5,515 1 2 报告的病例数
continent_exp string 6 Europe Africa 大洲名称
countries_and_territories string 214 Canada Belgium 国家或地区名称
country_territory_code string 213 KOR ISL 国家或地区的三字母代码
date_rep date 350 2020-12-11 2020-11-22 报告日期
day smallint 31 14 13 几月几日
deaths smallint 1,049 1 2 报告的死亡人数
geo_id string 214 CA SE 地域标识符
iso_country string 214 SE US ISO 3166 国家或地区代码
load_date timestamp 1 2021-04-26 00:06:22.123000 数据加载到 Azure 的日期
月份 smallint 12 10 8 月份
year smallint 2 2020 2019 年龄

预览

date_rep day 月份 year cases deaths countries_and_territories geo_id country_territory_code continent_exp load_date iso_country
2020-12-14 14 12 2020 746 6 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-13 13 12 2020 298 9 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-12 12 12 2020 113 11 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-11 11 12 2020 63 10 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-10 10 12 2020 202 16 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-09 9 12 2020 135 13 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-08 8 12 2020 200 6 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-07 7 12 2020 210 26 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-06 6 12 2020 234 10 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF
2020-12-05 5 12 2020 235 18 阿富汗 AF AFG 亚洲 4/26/2021 12:06:22 AM AF

数据访问

Azure Notebooks

此笔记本记录了用于访问“欧洲疾病预防与控制中心 (ECDC) 新冠肺炎病例”数据集的 URL 和示例代码。Azure Blob 存储中存放的不同数据集文件格式的 URL:¶ CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv

JSON: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json

JSONL: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl

Parquet: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet

使用 Pandas 中的内置功能从 http URL 下载数据集文件。 Pandas 具有各种文件格式的读取器:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet")
df.head(10)

df.dtypes

df.groupby('countries_and_territories').first().filter(['continent_exp','cases', 'deaths','date_rep'])

df.groupby('continent_exp').agg({'countries_and_territories': 'count','cases': 'count','deaths': 'count'})

import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt

df.loc[: , ['countries_and_territories', 'cases', 'deaths']].groupby(['countries_and_territories'
         ]).max().sort_values(by='cases',ascending=False).reset_index()[:15].style.background_gradient(cmap='rainbow')

df_Worldwide=df[df['countries_and_territories']=='United_States_of_America']

df.plot(kind='line',x='date_rep',y="cases",grid=True)
df.plot(kind='line',x='date_rep',y="deaths",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="confirmed_change",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="deaths_change",grid=True)

Azure Databricks

没有适用于此平台/包组合的示例。

Azure Synapse

没有适用于此平台/包组合的示例。

示例

参阅此数据集的用法示例:

后续步骤

查看开放数据集目录中的其余数据集。