Поделиться через


Данные по случаям заболевания Covid-19 от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ)

Новые общедоступные данные о географии распространения случаев заболевания COVID-19 по всему миру, полученные от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ). Каждая строка или запись содержит количество новых случаев заболевания за день по отдельным странам или регионам.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Наборы данных

Измененные версии набора данных доступны в форматах CSV, JSON, JSON Lines и Parquet (обновляются ежедневно):

Все измененные наборы данных включают коды iso_country_region. Также были добавлены сведения о времени загрузки. Для имен столбцов теперь используется нижний регистр и нижнее подчеркивание в качестве разделителя.

Необработанные данные: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/latest/ECDCCases.csv

Предыдущие версии измененных и необработанных данных: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/.

Объем данных

По состоянию на 28 мая 2020 г. они содержат 19 876 строк (CSV: 1,5 МБ, JSON: 4,9 МБ, JSONL: 4,9 МБ, Parquet: 54,1 КБ).

Источник данных

Необработанные данные поступают ежедневно из CSV-файла OxCGRT. Дополнительные сведения об этом наборе данных, включая его источники, см. на странице сбора данных ЕЦПКЗ.

Качество данных

ЕЦПКЗ не гарантирует точность и актуальность этих данных. Прочтите заявление об отказе от ответственности.

Лицензия и права использования; определение принадлежности

Эти данные предоставляются и могут использоваться в соответствии с политикой авторских прав ЕЦПКЗ, с которой можно ознакомиться здесь. В отношении любых документов, авторские права на которые принадлежат третьим лицам, необходимо получать разрешение на воспроизведение у обладателя авторских прав.

В качестве первоисточника этих данных всегда следует указывать ЕЦПКЗ. Такую ссылку необходимо добавлять в каждую копию материалов.

Контакт

Все вопросы или отзывы, связанные с этими или другими наборами данных в озере данных Lake COVID-19, отправляйте на адрес askcovid19dl@microsoft.com.

Столбцы

Имя. Тип данных Уникальный Значения (пример) Description
cases smallint 5515 1 2 Число зарегистрированных случаев.
continent_exp строка 6 Европа, Африка Название континента.
countries_and_territories строка 214 Канада, Бельгия Название страны или территории.
country_territory_code строка 213 KOR ISL Трехбуквенный код страны или территории.
date_rep Дата 350 2020-12-11 2020-11-22 Дата отчета.
дн. smallint 31 14 13 День месяца.
deaths smallint 1,049 1 2 Число зарегистрированных летальных случаев.
geo_id строка 214 CA SE Географический идентификатор.
iso_country строка 214 SE US Код страны или региона согласно стандарту ISO 3166.
load_date TIMESTAMP 1 2021-04-26 00:06:22.123000 Дата загрузки данных в Azure.
Месяц smallint 12 10 8 Номер месяца.
год smallint 2 2020 2019 Год

Предварительный просмотр

date_rep дн. Месяц год cases deaths countries_and_territories geo_id country_territory_code continent_exp load_date iso_country
2020-12-14 14 12 2020 746 6 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-13 13 12 2020 298 9 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-12 12 12 2020 113 11 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-11 11 12 2020 63 10 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-10 10 12 2020 202 16 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-09 9 12 2020 135 13 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-08 8 12 2020 200 6 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
07.12.2020 7 12 2020 210 26 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-06 6 12 2020 234 10 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF
2020-12-05 5 12 2020 235 18 Афганистан AF AFG Азия 4/26/2021 12:06:22 AM AF

Доступ к данным

Записные книжки Azure

В этой записной книжке документируются URL-адреса и примеры кода для доступа к набору данных по случаям заболевания Covid-19 от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ). URL-адреса наборов данных для различных форматов файлов наборов данных размещены в Хранилище BLOB-объектов Azure:¶ CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv

JSON: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json

JSONL: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl

Parquet: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet

Скачайте файл набора данных, используя встроенные возможности, по URL-адресу HTTP в Pandas. У Pandas есть средства чтения различных форматов файлов:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet")
df.head(10)

df.dtypes

df.groupby('countries_and_territories').first().filter(['continent_exp','cases', 'deaths','date_rep'])

df.groupby('continent_exp').agg({'countries_and_territories': 'count','cases': 'count','deaths': 'count'})

import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt

df.loc[: , ['countries_and_territories', 'cases', 'deaths']].groupby(['countries_and_territories'
         ]).max().sort_values(by='cases',ascending=False).reset_index()[:15].style.background_gradient(cmap='rainbow')

df_Worldwide=df[df['countries_and_territories']=='United_States_of_America']

df.plot(kind='line',x='date_rep',y="cases",grid=True)
df.plot(kind='line',x='date_rep',y="deaths",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="confirmed_change",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="deaths_change",grid=True)

Azure Databricks

Образец для комбинации платформа/пакет недоступен.

Azure Synapse

Образец для комбинации платформа/пакет недоступен.

Примеры

См. примеры использования этого набора данных:

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.