Данные по случаям заболевания Covid-19 от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ)
Новые общедоступные данные о географии распространения случаев заболевания COVID-19 по всему миру, полученные от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ). Каждая строка или запись содержит количество новых случаев заболевания за день по отдельным странам или регионам.
Примечание.
Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.
Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.
Наборы данных
Измененные версии набора данных доступны в форматах CSV, JSON, JSON Lines и Parquet (обновляются ежедневно):
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet
Все измененные наборы данных включают коды iso_country_region. Также были добавлены сведения о времени загрузки. Для имен столбцов теперь используется нижний регистр и нижнее подчеркивание в качестве разделителя.
Необработанные данные: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/latest/ECDCCases.csv
Предыдущие версии измененных и необработанных данных: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/.
Объем данных
По состоянию на 28 мая 2020 г. они содержат 19 876 строк (CSV: 1,5 МБ, JSON: 4,9 МБ, JSONL: 4,9 МБ, Parquet: 54,1 КБ).
Источник данных
Необработанные данные поступают ежедневно из CSV-файла OxCGRT. Дополнительные сведения об этом наборе данных, включая его источники, см. на странице сбора данных ЕЦПКЗ.
Качество данных
ЕЦПКЗ не гарантирует точность и актуальность этих данных. Прочтите заявление об отказе от ответственности.
Лицензия и права использования; определение принадлежности
Эти данные предоставляются и могут использоваться в соответствии с политикой авторских прав ЕЦПКЗ, с которой можно ознакомиться здесь. В отношении любых документов, авторские права на которые принадлежат третьим лицам, необходимо получать разрешение на воспроизведение у обладателя авторских прав.
В качестве первоисточника этих данных всегда следует указывать ЕЦПКЗ. Такую ссылку необходимо добавлять в каждую копию материалов.
Контакт
Все вопросы или отзывы, связанные с этими или другими наборами данных в озере данных Lake COVID-19, отправляйте на адрес askcovid19dl@microsoft.com.
Столбцы
Имя. | Тип данных | Уникальный | Значения (пример) | Description |
---|---|---|---|---|
cases | smallint | 5515 | 1 2 | Число зарегистрированных случаев. |
continent_exp | строка | 6 | Европа, Африка | Название континента. |
countries_and_territories | строка | 214 | Канада, Бельгия | Название страны или территории. |
country_territory_code | строка | 213 | KOR ISL | Трехбуквенный код страны или территории. |
date_rep | Дата | 350 | 2020-12-11 2020-11-22 | Дата отчета. |
дн. | smallint | 31 | 14 13 | День месяца. |
deaths | smallint | 1,049 | 1 2 | Число зарегистрированных летальных случаев. |
geo_id | строка | 214 | CA SE | Географический идентификатор. |
iso_country | строка | 214 | SE US | Код страны или региона согласно стандарту ISO 3166. |
load_date | TIMESTAMP | 1 | 2021-04-26 00:06:22.123000 | Дата загрузки данных в Azure. |
Месяц | smallint | 12 | 10 8 | Номер месяца. |
год | smallint | 2 | 2020 2019 | Год |
Предварительный просмотр
date_rep | дн. | Месяц | год | cases | deaths | countries_and_territories | geo_id | country_territory_code | continent_exp | load_date | iso_country |
---|---|---|---|---|---|---|---|---|---|---|---|
2020-12-14 | 14 | 12 | 2020 | 746 | 6 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-13 | 13 | 12 | 2020 | 298 | 9 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-12 | 12 | 12 | 2020 | 113 | 11 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-11 | 11 | 12 | 2020 | 63 | 10 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-10 | 10 | 12 | 2020 | 202 | 16 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-09 | 9 | 12 | 2020 | 135 | 13 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-08 | 8 | 12 | 2020 | 200 | 6 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
07.12.2020 | 7 | 12 | 2020 | 210 | 26 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-06 | 6 | 12 | 2020 | 234 | 10 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
2020-12-05 | 5 | 12 | 2020 | 235 | 18 | Афганистан | AF | AFG | Азия | 4/26/2021 12:06:22 AM | AF |
Доступ к данным
Записные книжки Azure
В этой записной книжке документируются URL-адреса и примеры кода для доступа к набору данных по случаям заболевания Covid-19 от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ). URL-адреса наборов данных для различных форматов файлов наборов данных размещены в Хранилище BLOB-объектов Azure:¶ CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
Скачайте файл набора данных, используя встроенные возможности, по URL-адресу HTTP в Pandas. У Pandas есть средства чтения различных форматов файлов:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet")
df.head(10)
df.dtypes
df.groupby('countries_and_territories').first().filter(['continent_exp','cases', 'deaths','date_rep'])
df.groupby('continent_exp').agg({'countries_and_territories': 'count','cases': 'count','deaths': 'count'})
import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt
df.loc[: , ['countries_and_territories', 'cases', 'deaths']].groupby(['countries_and_territories'
]).max().sort_values(by='cases',ascending=False).reset_index()[:15].style.background_gradient(cmap='rainbow')
df_Worldwide=df[df['countries_and_territories']=='United_States_of_America']
df.plot(kind='line',x='date_rep',y="cases",grid=True)
df.plot(kind='line',x='date_rep',y="deaths",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="confirmed_change",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="deaths_change",grid=True)
Azure Databricks
Образец для комбинации платформа/пакет недоступен.
Azure Synapse
Образец для комбинации платформа/пакет недоступен.
Примеры
См. примеры использования этого набора данных:
- Анализ данных о COVID с помощью бессерверной конечной точки Synapse SQL
- Линейный регрессионный анализ данных о COVID с помощью конечной точки SQL в Azure Synapse Analytics
Следующие шаги
Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.