Проект по отслеживанию распространения COVID

Набор данных отслеживания COVID предоставляет новейшие показатели по тестам, подтвержденным случаям, госпитализации и результатам лечения пациентов для каждого штата и региона США.

Дополнительные сведения об этом наборе данных см. в репозитории проекта на GitHub.

Примечание

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Наборы данных

Измененные версии набора данных доступны в форматах CSV, JSON, JSON Lines и Parquet.

Все измененные версии включают коды административно-территориального деления ISO 3166. Также были добавлены сведения о времени загрузки. Для имен столбцов теперь используется нижний регистр и нижнее подчеркивание в качестве разделителя.

Необработанные данные: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/latest/daily.json

Предыдущие версии измененных и необработанных данных: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/.

https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/

Объем данных

Все наборы данных обновляются ежедневно. По состоянию на 13 мая 2020 г. они содержат 4100 строк (CSV: 574 КБ, JSON: 1,8 МБ, JSONL: 1,8 МБ, Parquet: 334 КБ).

Источник данных

Изначально эти данные были опубликованы в рамках COVID Tracking Project (Проект по отслеживанию распространения COVID) в журнале The Atlantic. Необработанные данные принимаются из репозитория проекта по отслеживанию распространения COVID на GitHub с помощью файла states_daily_4p_et.csv. Дополнительные сведения об этом наборе данных, в том числе его источниках из API проекта по отслеживанию распространения COVID, см. в репозитории проекта на GitHub.

Качество данных

В рамках проекта отслеживания COVID данные для каждого штата распределяются по уровню качества, а также предоставляются дополнительные сведения об оценке качества данных. Дополнительные сведения см. на странице данных проекта по отслеживанию распространения COVID. Данные в репозитории GitHub могут на час отставать от данных API. Для доступа к самым актуальным данным необходимо использовать API.

Лицензия и права на использование

Эти данные предоставляются на условиях лицензии Apache 2.0.

При любом использовании данных необходимо сохранять все уведомления об авторском праве, патентах, торговых марках и авторстве.

Contact

Вопросы и отзывы об этом и других наборах данных в озере данных COVID-19 можно направлять по адресу askcovid19dl@microsoft.com.

Столбцы

Имя Тип данных Уникальная идентификация Значения (пример) Описание
Дата Дата 420 2020-11-10 2021-01-30 Дата сбора ежедневных итоговых данных.
date_checked строка 9,487 2020-12-01T00:00:00Z 2020-09-01T00:00:00Z Не рекомендуется
death smallint 7,327 2 5 Общее число умерших от COVID-19 за все время.
death_increase smallint 429 1 2 Не рекомендуется
fips smallint 56 26 55 Код переписи населения FIPS для штата.
fips_code строка 60 53 25 Код переписи населения FIPS для штата.
hash строка 20 780 63df8cccd23a5476bab2d8111b138e4c9becd35e c606cd6990f16086b5382e12d84f6206172d493d Хэш-код записи.
hospitalized INT 7,641 89995 4 Не рекомендуется
hospitalized_cumulative INT 7,641 89995 4 Общее число госпитализированных с диагнозом "COVID-19" за все время (включая выздоровевших и умерших).
hospitalized_currently smallint 3,886 8 13 Число госпитализированных с диагнозом "COVID-19" на данный момент.
hospitalized_increase smallint 615 1 2 Не рекомендуется
in_icu_cumulative smallint 2,295 990 220 Общее число людей с диагнозом "COVID-19", переведенных в реанимационные отделения, за все время (включая выздоровевших и умерших).
in_icu_currently smallint 1,643 2 8 Общее число людей с диагнозом "COVID-19" в реанимационных отделениях на данный момент.
iso_country строка 1 США Код страны или региона согласно стандарту ISO 3166.
iso_subdivision строка 57 US-UM US-WA Код страны или административно-территориальной единицы согласно ISO 3166.
last_update_et TIMESTAMP 9,487 2020-12-01 00:00:00 2020-09-01 00:00:00 Время последнего обновления данных за день
load_time TIMESTAMP 1 2021-04-26 00:06:49.883000 Дата и время загрузки данных в Azure из источника.
негативная тональность INT 10 864 305972 2140 Общее число людей с отрицательными результатами теста на COVID-19 за все время.
negative_increase INT 7,328 6 17 Не рекомендуется
on_ventilator_cumulative smallint 677 411 412 Общее число людей с диагнозом "COVID-19", подключенных к аппаратам ИВЛ, за все время (включая выздоровевших и умерших).
on_ventilator_currently smallint 837 4 10 Число людей с диагнозом "COVID-19", подключенных к аппаратам ИВЛ, на данный момент.
ожидание smallint 944 2 17 Число тестов, результаты которых подлежат уточнению.
pos_neg INT 18 282 2140 2 Не рекомендуется
позитивная тональность INT 16 837 2 1 Общее число людей с положительными результатами теста на COVID-19 за все время.
positive_increase smallint 4,754 1 2 Не рекомендуется
recovered INT 8,286 29 19 Общее число людей, выздоровевших от COVID-19, за все время.
Состояние строка 56 MI PA Двухбуквенный код штата.
total INT 18 283 2140 2 Не рекомендуется
total_test_results INT 18 648 2140 3 Общее число результатов тестов, проведенных в штате.
total_test_results_increase INT 13 463 1 2 Не рекомендуется

Предварительный просмотр

Дата Состояние позитивная тональность hospitalized_currently hospitalized_cumulative on_ventilator_currently data_quality_grade last_update_et hash date_checked death hospitalized total total_test_results pos_neg fips death_increase hospitalized_increase negative_increase positive_increase total_test_results_increase fips_code iso_subdivision load_time iso_country негативная тональность in_icu_cumulative on_ventilator_cumulative recovered in_icu_currently
2021-03-07 AK 56886 33 1293 2 null 3/5/2021 3:59:00 AM dc4bccd4bb885349d7e94d6fed058e285d4be164 3/5/2021 3:59:00 AM 305 1293 56886 1731628 56886 2 0 0 0 0 0 2 US-AK 4/26/2021 12:06:49 AM США
2021-03-07 AL 499819 494 45976 null 3/7/2021 11:00:00 AM 997207b430824ea40b8eb8506c19a93e07bc972e 3/7/2021 11:00:00 AM 10148 45976 2431530 2323788 2431530 1 -1 0 2087 408 2347 1 US-AL 4/26/2021 12:06:49 AM США 1931711 2676 1515 295690
2021-03-07 AR 324818 335 14926 65 null 3/7/2021 12:00:00 AM 50921aeefba3e30d31623aa495b47fb2ecc72fae 3/7/2021 12:00:00 AM 5319 14926 2805534 2736442 2805534 5 22 11 3267 165 3380 5 US-AR 4/26/2021 12:06:49 AM США 2480716 1533 315517 141
2021-03-07 AS 0 null 12/1/2020 12:00:00 AM 96d23f888c995b9a7f3b4b864de6414f45c728ff 12/1/2020 12:00:00 AM 0 2140 2140 2140 60 0 0 0 0 0 60 US-AS 4/26/2021 12:06:49 AM США 2140
2021-03-07 AZ 826454 963 57907 143 null 3/7/2021 12:00:00 AM 0437a7a96f4471666f775e63e86923eb5cbd8cdf 3/7/2021 12:00:00 AM 16328 57907 3899464 7908105 3899464 4 5 44 13678 1335 45110 4 US-AZ 4/26/2021 12:06:49 AM США 3073010 273
2021-03-07 CA 3501394 4291 null 3/7/2021 2:59:00 AM 63c5c0fd2daef2fb65150e9db486de98ed3f7b72 3/7/2021 2:59:00 AM 3501394 49646014 3501394 6 258 0 0 3816 133186 6 US-CA 4/26/2021 12:06:49 AM США 1159
2021-03-07 CO 436602 326 23904 null 3/7/2021 1:59:00 AM 444746cda3a596f183f3fa3269c8cab68704e819 3/7/2021 1:59:00 AM 5989 23904 2636060 6415123 2636060 8 3 18 0 840 38163 8 US-CO 4/26/2021 12:06:49 AM США 2199458
2021-03-07 CT 285330 428 12257 null 3/4/2021 11:59:00 PM bcc0f7bc8c2bf77eec31b25f8b59d510f679d3e7 3/4/2021 11:59:00 PM 7704 12257 285330 6520366 285330 9 0 0 0 0 0 9 US-CT 4/26/2021 12:06:49 AM США
2021-03-07 DC 41419 150 16 null 3/6/2021 12:00:00 AM a3aa0d623d538807fb9577ad64354f48cf728cc8 3/6/2021 12:00:00 AM 1030 41419 1261363 41419 11 0 0 0 146 5726 11 US-DC 4/26/2021 12:06:49 AM США 29570 38
2021-03-07 DE 88354 104 null 3/6/2021 6:00:00 PM 059d870e689d5cc19c35f5eb398214d7d9856373 3/6/2021 6:00:00 PM 1473 633424 1431942 633424 10 9 0 917 215 5867 10 US-DE 4/26/2021 12:06:49 AM США 545070 13

Доступ к данным

Записные книжки Azure

URL-адреса файлов различных форматов из набора данных, размещенных в Хранилище BLOB-объектов Azure:

CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.csv

JSON: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.json

JSONL: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.jsonl

Parquet: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet

Скачайте файл набора данных, используя встроенные возможности, по URL-адресу HTTP в Pandas. У Pandas есть средства чтения различных форматов файлов:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet ")
df.head(10)

df.dtypes

df.groupby('state').first().filter(['date','positive', 'death'])

df.groupby(df.state).agg({'state': 'count','positive_increase': 'sum','death_increase': 'sum'})

df_NY=df[df['state'] == 'NY']
df_NY.plot(kind='line',x='date',y="positive",grid=True)
df_NY.plot(kind='line',x='date',y="positive_increase",grid=True)
df_NY.plot(kind='line',x='date',y="death",grid=True)
df_NY.plot(kind='line',x='date',y="death_increase",grid=True)

df_US=df.groupby(df.date).agg({'positive': 'sum','positive_increase': 'sum','death':'sum','death_increase': 'sum'}).reset_index()

df_US.plot(kind='line',x='date',y="positive",grid=True)
df_US.plot(kind='line',x='date',y="positive_increase",grid=True)
df_US.plot(kind='line',x='date',y="death",grid=True)
df_US.plot(kind='line',x='date',y="death_increase",grid=True)



Azure Databricks

Образец для комбинации платформа/пакет недоступен.

Azure Synapse

Пример для этого сочетания платформы и пакета недоступен.

Дальнейшие действия

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.