Проект по отслеживанию распространения COVID
Набор данных отслеживания COVID предоставляет новейшие показатели по тестам, подтвержденным случаям, госпитализации и результатам лечения пациентов для каждого штата и региона США.
Дополнительные сведения об этом наборе данных см. в репозитории проекта на GitHub.
Примечание
Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.
Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.
Наборы данных
Измененные версии набора данных доступны в форматах CSV, JSON, JSON Lines и Parquet.
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.csv
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.json
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.jsonl
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet
Все измененные версии включают коды административно-территориального деления ISO 3166. Также были добавлены сведения о времени загрузки. Для имен столбцов теперь используется нижний регистр и нижнее подчеркивание в качестве разделителя.
Необработанные данные: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/latest/daily.json
Предыдущие версии измененных и необработанных данных: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/.
https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/
Объем данных
Все наборы данных обновляются ежедневно. По состоянию на 13 мая 2020 г. они содержат 4100 строк (CSV: 574 КБ, JSON: 1,8 МБ, JSONL: 1,8 МБ, Parquet: 334 КБ).
Источник данных
Изначально эти данные были опубликованы в рамках COVID Tracking Project (Проект по отслеживанию распространения COVID) в журнале The Atlantic. Необработанные данные принимаются из репозитория проекта по отслеживанию распространения COVID на GitHub с помощью файла states_daily_4p_et.csv. Дополнительные сведения об этом наборе данных, в том числе его источниках из API проекта по отслеживанию распространения COVID, см. в репозитории проекта на GitHub.
Качество данных
В рамках проекта отслеживания COVID данные для каждого штата распределяются по уровню качества, а также предоставляются дополнительные сведения об оценке качества данных. Дополнительные сведения см. на странице данных проекта по отслеживанию распространения COVID. Данные в репозитории GitHub могут на час отставать от данных API. Для доступа к самым актуальным данным необходимо использовать API.
Лицензия и права на использование
Эти данные предоставляются на условиях лицензии Apache 2.0.
При любом использовании данных необходимо сохранять все уведомления об авторском праве, патентах, торговых марках и авторстве.
Contact
Вопросы и отзывы об этом и других наборах данных в озере данных COVID-19 можно направлять по адресу askcovid19dl@microsoft.com.
Столбцы
Имя | Тип данных | Уникальная идентификация | Значения (пример) | Описание |
---|---|---|---|---|
Дата | Дата | 420 | 2020-11-10 2021-01-30 | Дата сбора ежедневных итоговых данных. |
date_checked | строка | 9,487 | 2020-12-01T00:00:00Z 2020-09-01T00:00:00Z | Не рекомендуется |
death | smallint | 7,327 | 2 5 | Общее число умерших от COVID-19 за все время. |
death_increase | smallint | 429 | 1 2 | Не рекомендуется |
fips | smallint | 56 | 26 55 | Код переписи населения FIPS для штата. |
fips_code | строка | 60 | 53 25 | Код переписи населения FIPS для штата. |
hash | строка | 20 780 | 63df8cccd23a5476bab2d8111b138e4c9becd35e c606cd6990f16086b5382e12d84f6206172d493d | Хэш-код записи. |
hospitalized | INT | 7,641 | 89995 4 | Не рекомендуется |
hospitalized_cumulative | INT | 7,641 | 89995 4 | Общее число госпитализированных с диагнозом "COVID-19" за все время (включая выздоровевших и умерших). |
hospitalized_currently | smallint | 3,886 | 8 13 | Число госпитализированных с диагнозом "COVID-19" на данный момент. |
hospitalized_increase | smallint | 615 | 1 2 | Не рекомендуется |
in_icu_cumulative | smallint | 2,295 | 990 220 | Общее число людей с диагнозом "COVID-19", переведенных в реанимационные отделения, за все время (включая выздоровевших и умерших). |
in_icu_currently | smallint | 1,643 | 2 8 | Общее число людей с диагнозом "COVID-19" в реанимационных отделениях на данный момент. |
iso_country | строка | 1 | США | Код страны или региона согласно стандарту ISO 3166. |
iso_subdivision | строка | 57 | US-UM US-WA | Код страны или административно-территориальной единицы согласно ISO 3166. |
last_update_et | TIMESTAMP | 9,487 | 2020-12-01 00:00:00 2020-09-01 00:00:00 | Время последнего обновления данных за день |
load_time | TIMESTAMP | 1 | 2021-04-26 00:06:49.883000 | Дата и время загрузки данных в Azure из источника. |
негативная тональность | INT | 10 864 | 305972 2140 | Общее число людей с отрицательными результатами теста на COVID-19 за все время. |
negative_increase | INT | 7,328 | 6 17 | Не рекомендуется |
on_ventilator_cumulative | smallint | 677 | 411 412 | Общее число людей с диагнозом "COVID-19", подключенных к аппаратам ИВЛ, за все время (включая выздоровевших и умерших). |
on_ventilator_currently | smallint | 837 | 4 10 | Число людей с диагнозом "COVID-19", подключенных к аппаратам ИВЛ, на данный момент. |
ожидание | smallint | 944 | 2 17 | Число тестов, результаты которых подлежат уточнению. |
pos_neg | INT | 18 282 | 2140 2 | Не рекомендуется |
позитивная тональность | INT | 16 837 | 2 1 | Общее число людей с положительными результатами теста на COVID-19 за все время. |
positive_increase | smallint | 4,754 | 1 2 | Не рекомендуется |
recovered | INT | 8,286 | 29 19 | Общее число людей, выздоровевших от COVID-19, за все время. |
Состояние | строка | 56 | MI PA | Двухбуквенный код штата. |
total | INT | 18 283 | 2140 2 | Не рекомендуется |
total_test_results | INT | 18 648 | 2140 3 | Общее число результатов тестов, проведенных в штате. |
total_test_results_increase | INT | 13 463 | 1 2 | Не рекомендуется |
Предварительный просмотр
Дата | Состояние | позитивная тональность | hospitalized_currently | hospitalized_cumulative | on_ventilator_currently | data_quality_grade | last_update_et | hash | date_checked | death | hospitalized | total | total_test_results | pos_neg | fips | death_increase | hospitalized_increase | negative_increase | positive_increase | total_test_results_increase | fips_code | iso_subdivision | load_time | iso_country | негативная тональность | in_icu_cumulative | on_ventilator_cumulative | recovered | in_icu_currently |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2021-03-07 | AK | 56886 | 33 | 1293 | 2 | null | 3/5/2021 3:59:00 AM | dc4bccd4bb885349d7e94d6fed058e285d4be164 | 3/5/2021 3:59:00 AM | 305 | 1293 | 56886 | 1731628 | 56886 | 2 | 0 | 0 | 0 | 0 | 0 | 2 | US-AK | 4/26/2021 12:06:49 AM | США | |||||
2021-03-07 | AL | 499819 | 494 | 45976 | null | 3/7/2021 11:00:00 AM | 997207b430824ea40b8eb8506c19a93e07bc972e | 3/7/2021 11:00:00 AM | 10148 | 45976 | 2431530 | 2323788 | 2431530 | 1 | -1 | 0 | 2087 | 408 | 2347 | 1 | US-AL | 4/26/2021 12:06:49 AM | США | 1931711 | 2676 | 1515 | 295690 | ||
2021-03-07 | AR | 324818 | 335 | 14926 | 65 | null | 3/7/2021 12:00:00 AM | 50921aeefba3e30d31623aa495b47fb2ecc72fae | 3/7/2021 12:00:00 AM | 5319 | 14926 | 2805534 | 2736442 | 2805534 | 5 | 22 | 11 | 3267 | 165 | 3380 | 5 | US-AR | 4/26/2021 12:06:49 AM | США | 2480716 | 1533 | 315517 | 141 | |
2021-03-07 | AS | 0 | null | 12/1/2020 12:00:00 AM | 96d23f888c995b9a7f3b4b864de6414f45c728ff | 12/1/2020 12:00:00 AM | 0 | 2140 | 2140 | 2140 | 60 | 0 | 0 | 0 | 0 | 0 | 60 | US-AS | 4/26/2021 12:06:49 AM | США | 2140 | ||||||||
2021-03-07 | AZ | 826454 | 963 | 57907 | 143 | null | 3/7/2021 12:00:00 AM | 0437a7a96f4471666f775e63e86923eb5cbd8cdf | 3/7/2021 12:00:00 AM | 16328 | 57907 | 3899464 | 7908105 | 3899464 | 4 | 5 | 44 | 13678 | 1335 | 45110 | 4 | US-AZ | 4/26/2021 12:06:49 AM | США | 3073010 | 273 | |||
2021-03-07 | CA | 3501394 | 4291 | null | 3/7/2021 2:59:00 AM | 63c5c0fd2daef2fb65150e9db486de98ed3f7b72 | 3/7/2021 2:59:00 AM | 3501394 | 49646014 | 3501394 | 6 | 258 | 0 | 0 | 3816 | 133186 | 6 | US-CA | 4/26/2021 12:06:49 AM | США | 1159 | ||||||||
2021-03-07 | CO | 436602 | 326 | 23904 | null | 3/7/2021 1:59:00 AM | 444746cda3a596f183f3fa3269c8cab68704e819 | 3/7/2021 1:59:00 AM | 5989 | 23904 | 2636060 | 6415123 | 2636060 | 8 | 3 | 18 | 0 | 840 | 38163 | 8 | US-CO | 4/26/2021 12:06:49 AM | США | 2199458 | |||||
2021-03-07 | CT | 285330 | 428 | 12257 | null | 3/4/2021 11:59:00 PM | bcc0f7bc8c2bf77eec31b25f8b59d510f679d3e7 | 3/4/2021 11:59:00 PM | 7704 | 12257 | 285330 | 6520366 | 285330 | 9 | 0 | 0 | 0 | 0 | 0 | 9 | US-CT | 4/26/2021 12:06:49 AM | США | ||||||
2021-03-07 | DC | 41419 | 150 | 16 | null | 3/6/2021 12:00:00 AM | a3aa0d623d538807fb9577ad64354f48cf728cc8 | 3/6/2021 12:00:00 AM | 1030 | 41419 | 1261363 | 41419 | 11 | 0 | 0 | 0 | 146 | 5726 | 11 | US-DC | 4/26/2021 12:06:49 AM | США | 29570 | 38 | |||||
2021-03-07 | DE | 88354 | 104 | null | 3/6/2021 6:00:00 PM | 059d870e689d5cc19c35f5eb398214d7d9856373 | 3/6/2021 6:00:00 PM | 1473 | 633424 | 1431942 | 633424 | 10 | 9 | 0 | 917 | 215 | 5867 | 10 | US-DE | 4/26/2021 12:06:49 AM | США | 545070 | 13 |
Доступ к данным
Записные книжки Azure
URL-адреса файлов различных форматов из набора данных, размещенных в Хранилище BLOB-объектов Azure:
Скачайте файл набора данных, используя встроенные возможности, по URL-адресу HTTP в Pandas. У Pandas есть средства чтения различных форматов файлов:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet ")
df.head(10)
df.dtypes
df.groupby('state').first().filter(['date','positive', 'death'])
df.groupby(df.state).agg({'state': 'count','positive_increase': 'sum','death_increase': 'sum'})
df_NY=df[df['state'] == 'NY']
df_NY.plot(kind='line',x='date',y="positive",grid=True)
df_NY.plot(kind='line',x='date',y="positive_increase",grid=True)
df_NY.plot(kind='line',x='date',y="death",grid=True)
df_NY.plot(kind='line',x='date',y="death_increase",grid=True)
df_US=df.groupby(df.date).agg({'positive': 'sum','positive_increase': 'sum','death':'sum','death_increase': 'sum'}).reset_index()
df_US.plot(kind='line',x='date',y="positive",grid=True)
df_US.plot(kind='line',x='date',y="positive_increase",grid=True)
df_US.plot(kind='line',x='date',y="death",grid=True)
df_US.plot(kind='line',x='date',y="death_increase",grid=True)
Azure Databricks
Образец для комбинации платформа/пакет недоступен.
Azure Synapse
Пример для этого сочетания платформы и пакета недоступен.
Дальнейшие действия
Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.