Bing COVID-19

Ежедневно обновляемые данные Bing COVID-19 включают подтвержденные случаи и случаи со смертельным исходом, а также случаи выздоровления из всех регионов. Эти данные отображаются в средстве Bing для отслеживания данных о COVID-19.

Bing собирает данные из нескольких надежных, надежных источников, в том числе Всемирной организации здравоохранения (ВОЗ), Центров по контролю и профилактике заболеваний (CDC), национальных/региональных и региональных департаментов здравоохранения, BNO News, 24/7 Wall St и Википедии.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Наборы данных

Измененные наборы данных доступны в форматах CSV, JSON, JSON Lines и Parquet.

Все измененные наборы данных включают коды административно-территориального деления ISO 3166. Также были добавлены сведения о времени загрузки, а для имен столбцов теперь используется нижний регистр и нижнее подчеркивание в качестве разделителя.

Необработанные данные: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/bing_covid-19_data/latest/Bing-COVID19-Data.csv

Предыдущие версии измененных и необработанных данных: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/.

Объем данных

Все наборы данных обновляются ежедневно. По состоянию на 11 мая 2020 г. они содержали 125 576 строк (CSV — 16,1 МБ, JSON — 40,0 МБ, JSONL — 39,6 МБ, Parquet — 1,1 МБ).

Лицензия и права использования; определение принадлежности

Эти данные предоставляются исключительно в образовательных и научных целях, например для медицинских исследований, правительственных учреждений и научных организаций, согласно условиям и положениям.

Данные, используемые или цитируемые в публикациях, должны сопровождаться ссылкой на сайт Bing для отслеживания COVID-19 www.bing.com/covid.

Контактные сведения

Все вопросы или отзывы, связанные с этими или другими наборами данных в озере данных Lake COVID-19, отправляйте на адрес askcovid19dl@microsoft.com.

Столбцы

Имя. Тип данных Уникальный Значения (пример) Description
admin_region_1 строка 864 Техас, Джорджия Region within country_region
admin_region_2 строка 3143 Округ Вашингтон, округ Джефферсон Region within admin_region_1
confirmed INT 120 692 1 2 Число подтвержденных случаев для региона
confirmed_change INT 12 120 1 2 Изменение в числе подтвержденных случаев по сравнению с предыдущим днем
country_region строка 237 США, Индия Страна/регион
deaths INT 20 616 1 2 Число случаев смерти для региона
deaths_change smallint 1981 1 2 Изменение в числе случаев смерти по сравнению с предыдущим днем
id INT 1 783 534 742546 69019298 Уникальный идентификатор
iso_subdivision строка 484 US-TX US-GA Двухкомпонентный код подразделения ISO
iso2 строка 226 US IN Двухбуквенный код страны
iso3 строка 226 USA IND Трехбуквенный код страны
широта двойной точности 5675 42.28708 19.59852 Широта центральной точки региона
load_time TIMESTAMP 1 2021-04-26 00:06:34.719000 Дата и время, когда файл был загружен из источника Bing в GitHub
долгота двойной точности 5693 –2.5396 –155.5186 Долгота центральной точки региона
recovered INT 73 287 1 2 Число выздоровевших для региона
recovered_change INT 10 441 1 2 Изменение в числе выздоровевших по сравнению с предыдущим днем
обновляется Дата 457 2021-04-23 2021-04-22 Данные на дату регистрации

Предварительная версия

id обновляется confirmed deaths iso2 iso3 country_region admin_region_1 iso_subdivision admin_region_2 load_time confirmed_change deaths_change
338995 21.01.2020 262 0 null null По всему миру null null null 4/26/2021 12:06:34 AM
338996 2020-01-22 313 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 51 0
338997 2020-01-23 578 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 265 0
338998 2020-01-24 841 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 263 0
338999 2020-01-25 1320 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 479 0
339000 2020-01-26 2014 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 694 0
339001 2020-01-27 2798 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 784 0
339002 2020-01-28 4593 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 1795 0
339003 2020-01-29 6065 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 1472 0
339004 2020-01-30 7818 0 null null По всему миру null null null 4/26/2021 12:06:34 AM 1753 0

Доступ к данным

Записные книжки Azure

В этой записной книжке документируются URL-адреса и примеры кода для доступа к набору данных Bing COVID-19

Используйте приведенные ниже URL-адреса, чтобы получить доступ к файлам различных форматов, размещенным в Хранилище BLOB-объектов Azure.

CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv

JSON: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.json

JSONL: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.jsonl

Parquet: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet

Скачайте файл набора данных, используя встроенные возможности, по URL-адресу HTTP в Pandas. У Pandas есть средства чтения различных форматов файлов:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet")
df.head(10)

Позволяет проверить типы данных в различных полях и убедиться, что в обновленном столбце используется формат даты и времени.

df.dtypes

Теперь рассмотрим данные по всему миру и построим простые диаграммы для визуализации этих данных.

df_Worldwide=df[df['country_region']=='Worldwide']
df_Worldwide_pivot=df_Worldwide.pivot_table(df_Worldwide, index=['country_region','updated'])

df_Worldwide_pivot
df_Worldwide.plot(kind='line',x='updated',y="confirmed",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="deaths",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="confirmed_change",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="deaths_change",grid=True)

Azure Databricks

Образец для комбинации платформа/пакет недоступен.

Azure Synapse

Образец для комбинации платформа/пакет недоступен.

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.