你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
新冠肺炎跟踪项目
新冠肺炎跟踪项目数据集提供了美国各州和各区域有关测试、确诊病例、住院数和患者结果的最新数字。
有关此数据集的详细信息,请参阅项目 GitHub 存储库。
注意
Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。
此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。
数据集
修改后的数据集版本现提供 CSV、JSON、JSON-Lines 和 Parquet 格式。
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.csv
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.json
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.jsonl
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet
所有修改版本都添加了 ISO 3166 细分代码和加载时间,还使用了带下划线分隔符、采用小写字母格式的列名称。
原始数据:“https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/latest/daily.json”
已修改的数据和原始数据的历史版本: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/
https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/
数据量
所有数据集都是每日更新。 截至 2020 年 5 月 13 日,它们包含 4,100 行(CSV 574 KB、JSON 1.8 MB、JSONL 1.8 MB、Parquet 334 KB)。
数据源
此数据最初由 The Atlantic 的新冠肺炎跟踪项目发布。 原始数据是通过 states_daily_4p_et.csv 文件从新冠肺炎跟踪 GitHub 存储库引入的。 有关此数据集的详细信息(包括其在新冠肺炎跟踪项目 API 中的来源),请参阅项目 GitHub 存储库。
数据质量
新冠肺炎跟踪项目会对各州的数据质量进行评分,并提供有关其数据质量评估结果的进一步信息。 有关详细信息,请参阅新冠肺炎跟踪项目数据页。 GitHub 存储库中的数据可能比 API 晚一个小时;必须使用 API 才能访问最新数据。
许可和使用权归属
此数据根据 Apache License 2.0 的条款和条件授权。
无论何时使用此数据都必须保留所有版权、专利、商标和归属声明。
联系人
如有关于新冠肺炎数据湖中此数据集或其他数据集的任何问题或反馈,请联系 askcovid19dl@microsoft.com。
列
名称 | 数据类型 | 唯一 | 值(示例) | 说明 |
---|---|---|---|---|
date | date | 420 | 2020-11-10 2021-01-30 | 每日总计的收集日期。 |
date_checked | string | 9,487 | 2020-12-01T00:00:00Z 2020-09-01T00:00:00Z | 已放弃 |
death | smallint | 7,327 | 2 5 | 截至目前,因新冠肺炎死亡的总人数。 |
death_increase | smallint | 429 | 1 2 | 已放弃 |
fips | smallint | 56 | 26 55 | 国家/地区人口普查 FIPS 代码。 |
fips_code | string | 60 | 53 25 | 国家/地区人口普查 FIPS 代码。 |
hash | 字符串 | 20,780 | 63df8cccd23a5476bab2d8111b138e4c9becd35e c606cd6990f16086b5382e12d84f6206172d493d | 该记录的哈希代码 |
hospitalized | int | 7,641 | 89995 4 | 已放弃 |
hospitalized_cumulative | int | 7,641 | 89995 4 | 截至目前,因新冠肺炎到医院就诊的总人数,包括已康复或死亡的人数。 |
hospitalized_currently | smallint | 3,886 | 8 13 | 当天因新冠肺炎入院的人数。 |
hospitalized_increase | smallint | 615 | 1 2 | 已放弃 |
in_icu_cumulative | smallint | 2,295 | 990 220 | 截至目前,因新冠肺炎而入住重症监护室的总人数,包括已康复或死亡的人数。 |
in_icu_currently | smallint | 1,643 | 2 8 | 当天在重症监护室接受新冠肺炎治疗的总人数。 |
iso_country | 字符串 | 1 | 美国 | ISO 3166 国家或地区代码 |
iso_subdivision | string | 57 | US-UM US-WA | ISO 3166 细分代码 |
last_update_et | timestamp | 9,487 | 2020-12-01 00:00:00 2020-09-01 00:00:00 | 上次数据更新时间 |
load_time | timestamp | 1 | 2021-04-26 00:06:49.883000 | 数据从源加载到 Azure 的日期和时间 |
消极 | int | 10,864 | 305972 2140 | 截至目前,新冠肺炎检测结果呈阴性的总人数。 |
negative_increase | int | 7,328 | 6 17 | 已放弃 |
on_ventilator_cumulative | smallint | 677 | 411 412 | 截至目前,使用呼吸机治疗新冠肺炎的总人数,包括之后康复或死亡的人数。 |
on_ventilator_currently | smallint | 837 | 4 10 | 当天使用呼吸机治疗新冠肺炎的人数。 |
挂起 | smallint | 944 | 2 17 | 结果尚未确定的检测数。 |
pos_neg | int | 18,282 | 2140 2 | 已放弃 |
积极 | int | 16,837 | 2 1 | 截至目前,新冠肺炎检测结果呈阳性的总人数。 |
positive_increase | smallint | 4,754 | 1 2 | 已放弃 |
recovered | int | 8,286 | 29 19 | 截至目前,新冠肺炎患者的总治愈人数。 |
state | string | 56 | MI PA | 国家/地区双字母代码。 |
total | int | 18,283 | 2140 2 | 已放弃 |
total_test_results | int | 18,648 | 2140 3 | 国家/地区提供的全部检测结果 |
total_test_results_increase | int | 13,463 | 1 2 | 已放弃 |
预览
date | state | 积极 | hospitalized_currently | hospitalized_cumulative | on_ventilator_currently | data_quality_grade | last_update_et | hash | date_checked | death | hospitalized | total | total_test_results | pos_neg | fips | death_increase | hospitalized_increase | negative_increase | positive_increase | total_test_results_increase | fips_code | iso_subdivision | load_time | iso_country | 消极 | in_icu_cumulative | on_ventilator_cumulative | recovered | in_icu_currently |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2021-03-07 | AK | 56886 | 33 | 1293 | 2 | null | 3/5/2021 3:59:00 AM | dc4bccd4bb885349d7e94d6fed058e285d4be164 | 3/5/2021 3:59:00 AM | 305 | 1293 | 56886 | 1731628 | 56886 | 2 | 0 | 0 | 0 | 0 | 0 | 2 | US-AK | 4/26/2021 12:06:49 AM | 美国 | |||||
2021-03-07 | AL | 499819 | 494 | 45976 | Null | 3/7/2021 11:00:00 AM | 997207b430824ea40b8eb8506c19a93e07bc972e | 3/7/2021 11:00:00 AM | 10148 | 45976 | 2431530 | 2323788 | 2431530 | 1 | -1 | 0 | 2087 | 408 | 2347 | 1 | US-AL | 4/26/2021 12:06:49 AM | 美国 | 1931711 | 2676 | 1515 | 295690 | ||
2021-03-07 | AR | 324818 | 335 | 14926 | 65 | Null | 3/7/2021 12:00:00 AM | 50921aeefba3e30d31623aa495b47fb2ecc72fae | 3/7/2021 12:00:00 AM | 5319 | 14926 | 2805534 | 2736442 | 2805534 | 5 | 22 | 11 | 3267 | 165 | 3380 | 5 | US-AR | 4/26/2021 12:06:49 AM | 美国 | 2480716 | 1533 | 315517 | 141 | |
2021-03-07 | AS | 0 | Null | 12/1/2020 12:00:00 AM | 96d23f888c995b9a7f3b4b864de6414f45c728ff | 12/1/2020 12:00:00 AM | 0 | 2140 | 2140 | 2140 | 60 | 0 | 0 | 0 | 0 | 0 | 60 | US-AS | 4/26/2021 12:06:49 AM | 美国 | 2140 | ||||||||
2021-03-07 | AZ | 826454 | 963 | 57907 | 143 | Null | 3/7/2021 12:00:00 AM | 0437a7a96f4471666f775e63e86923eb5cbd8cdf | 3/7/2021 12:00:00 AM | 16328 | 57907 | 3899464 | 7908105 | 3899464 | 4 | 5 | 44 | 13678 | 1335 | 45110 | 4 | US-AZ | 4/26/2021 12:06:49 AM | 美国 | 3073010 | 273 | |||
2021-03-07 | CA | 3501394 | 4291 | Null | 3/7/2021 2:59:00 AM | 63c5c0fd2daef2fb65150e9db486de98ed3f7b72 | 3/7/2021 2:59:00 AM | 3501394 | 49646014 | 3501394 | 6 | 258 | 0 | 0 | 3816 | 133186 | 6 | US-CA | 4/26/2021 12:06:49 AM | 美国 | 1159 | ||||||||
2021-03-07 | CO | 436602 | 326 | 23904 | Null | 3/7/2021 1:59:00 AM | 444746cda3a596f183f3fa3269c8cab68704e819 | 3/7/2021 1:59:00 AM | 5989 | 23904 | 2636060 | 6415123 | 2636060 | 8 | 3 | 18 | 0 | 840 | 38163 | 8 | US-CO | 4/26/2021 12:06:49 AM | 美国 | 2199458 | |||||
2021-03-07 | CT | 285330 | 428 | 12257 | Null | 3/4/2021 11:59:00 PM | bcc0f7bc8c2bf77eec31b25f8b59d510f679d3e7 | 3/4/2021 11:59:00 PM | 7704 | 12257 | 285330 | 6520366 | 285330 | 9 | 0 | 0 | 0 | 0 | 0 | 9 | US-CT | 4/26/2021 12:06:49 AM | 美国 | ||||||
2021-03-07 | DC | 41419 | 150 | 16 | Null | 3/6/2021 12:00:00 AM | a3aa0d623d538807fb9577ad64354f48cf728cc8 | 3/6/2021 12:00:00 AM | 1030 | 41419 | 1261363 | 41419 | 11 | 0 | 0 | 0 | 146 | 5726 | 11 | US-DC | 4/26/2021 12:06:49 AM | 美国 | 29570 | 38 | |||||
2021-03-07 | DE | 88354 | 104 | Null | 3/6/2021 6:00:00 PM | 059d870e689d5cc19c35f5eb398214d7d9856373 | 3/6/2021 6:00:00 PM | 1473 | 633424 | 1431942 | 633424 | 10 | 9 | 0 | 917 | 215 | 5867 | 10 | US-DE | 4/26/2021 12:06:49 AM | 美国 | 545070 | 13 |
数据访问
Azure Notebooks
Azure Blob 存储中存放的不同数据集文件格式的 URL:
使用 Pandas 中的内置功能从 http URL 下载数据集文件。 Pandas 具有各种文件格式的读取器:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet ")
df.head(10)
df.dtypes
df.groupby('state').first().filter(['date','positive', 'death'])
df.groupby(df.state).agg({'state': 'count','positive_increase': 'sum','death_increase': 'sum'})
df_NY=df[df['state'] == 'NY']
df_NY.plot(kind='line',x='date',y="positive",grid=True)
df_NY.plot(kind='line',x='date',y="positive_increase",grid=True)
df_NY.plot(kind='line',x='date',y="death",grid=True)
df_NY.plot(kind='line',x='date',y="death_increase",grid=True)
df_US=df.groupby(df.date).agg({'positive': 'sum','positive_increase': 'sum','death':'sum','death_increase': 'sum'}).reset_index()
df_US.plot(kind='line',x='date',y="positive",grid=True)
df_US.plot(kind='line',x='date',y="positive_increase",grid=True)
df_US.plot(kind='line',x='date',y="death",grid=True)
df_US.plot(kind='line',x='date',y="death_increase",grid=True)
Azure Databricks
没有适用于此平台/包组合的示例。
Azure Synapse
没有适用于此平台/包组合的示例。
后续步骤
查看开放数据集目录中的其余数据集。