Partage via


Centre européen pour la prévention et le contrôle des maladies (CEPCM) - Cas de COVID-19

Dernières données publiques disponibles sur la répartition géographique des cas de COVID-19 dans le monde, fournies par le Centre européen de prévention et de contrôle des maladies (ECDC). Chaque ligne/entrée contient le nombre de nouveaux cas signalés par jour et par pays ou région.

Notes

Microsoft fournit Azure Open Datasets « en l’état ». Microsoft n’offre aucune garantie, expresse ou implicite, ni de conditions relatives à votre utilisation des jeux de données. Dans la mesure autorisée par votre droit local, Microsoft décline toute responsabilité pour les dommages ou pertes, y compris directs, consécutifs, spéciaux, indirects ou punitifs, résultant de votre utilisation des jeux de données.

Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.

Groupes de données

Des versions modifiées du jeu de données sont disponibles aux formats CSV, JSON, JSON-Lines et Parquet ; celles-ci sont mises à jour quotidiennement :

Des codes iso_pays_région et des temps de chargement ont été ajoutés à toutes les versions modifiées. En outre, celles-ci utilisent des noms de colonnes en minuscules et des tirets bas en guise de séparateurs.

Données brutes : https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/latest/ECDCCases.csv

Versions précédentes des données modifiées et brutes : https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/

Volume de données

Au 28 mai 2020, on comptait 19 876 lignes (CSV 1,5 Mo, JSON 4,9 Mo, JSONL 4,9 Mo, Parquet 54,1 Ko).

Paramètres

Les données brutes sont ingérées quotidiennement à partir du fichier .csv ECDC. Pour plus d’informations sur ce jeu de données, y compris sur ses origines, consultez la page consacrée à la collection de données ECDC.

Qualité des données

L'ECDC ne garantit pas l'exactitude ou la pertinence des données. Lire la clause d’exclusion de responsabilité.

Attribution des licences et des droits d’utilisation

Ces données sont mises à disposition et peuvent être utilisées conformément à la politique ECDC sur les droits d’auteur disponible ici. Pour tout document dont le droit d’auteur appartient à un tiers, l’autorisation de reproduction doit être obtenue auprès du détenteur du droit d’auteur.

L’ECDC doit toujours être reconnu comme la source d’origine de ces données. Cette reconnaissance doit être incluse dans chaque copie du matériel.

Contact

Pour toute question ou commentaire sur ce jeu de données ou d’autres jeux de données dans le Data Lake COVID-19, veuillez contacter askcovid19dl@microsoft.com.

Colonnes

Nom Type de données Unique Valeurs (exemple) Description
cas SMALLINT 5 515 1 2 Nombre de cas signalés
continent_exp string 6 Europe Afrique Nom du continent
countries_and_territories string 214 Canada Belgique Nom du pays ou du territoire
country_territory_code string 213 KOR ISL Code à trois lettres du pays ou du territoire
date_rep Date 350 11-12-2020 22-11-2020 Date du signalement
day SMALLINT 31 14 13 Jour du mois
décès SMALLINT 1 049 1 2 Nombre de décès signalés
geo_id string 214 CA SE Identificateur géographique
iso_country string 214 SE US Code pays ou région ISO 3166
load_date timestamp 1 26-04-2021 00:06:22.123000 Date de chargement des données dans Azure
month SMALLINT 12 10 8 Numéro du mois
year SMALLINT 2 2020 2019 Year

Préversion

date_rep day month year cas décès countries_and_territories geo_id country_territory_code continent_exp load_date iso_country
14-12-2020 14 12 2020 746 6 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
13-12-2020 13 12 2020 298 9 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
12-12-2020 12 12 2020 113 11 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
11-12-2020 11 12 2020 63 10 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
10-12-2020 10 12 2020 202 16 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
09-12-2020 9 12 2020 135 13 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
08-12-2020 8 12 2020 200 6 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
2020-12-07 7 12 2020 210 26 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
06-12-2020 6 12 2020 234 10 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF
05-12-2020 5 12 2020 235 18 Afghanistan AF AFG Asie 26/04/2021 12:06:22 AF

Accès aux données

Azure Notebooks

Ce notebook documente les URL et les exemples de code pour l’accès aux URL du jeu de données « Centre européen pour la prévention et le contrôle des maladies (CEPCM) - Cas de COVID-19 » qui se présentent sous différents formats hébergés dans le Stockage Blob Azure : CSV https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv

JSON : https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json

JSONL : https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl

Parquet : https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet

Téléchargez le fichier de jeu de données à l’aide de la capacité intégrée permettant de télécharger à partir d’une URL HTTP dans Pandas. Pandas comprend des visionneuses pour différents formats de fichiers :

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet")
df.head(10)

df.dtypes

df.groupby('countries_and_territories').first().filter(['continent_exp','cases', 'deaths','date_rep'])

df.groupby('continent_exp').agg({'countries_and_territories': 'count','cases': 'count','deaths': 'count'})

import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt

df.loc[: , ['countries_and_territories', 'cases', 'deaths']].groupby(['countries_and_territories'
         ]).max().sort_values(by='cases',ascending=False).reset_index()[:15].style.background_gradient(cmap='rainbow')

df_Worldwide=df[df['countries_and_territories']=='United_States_of_America']

df.plot(kind='line',x='date_rep',y="cases",grid=True)
df.plot(kind='line',x='date_rep',y="deaths",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="confirmed_change",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="deaths_change",grid=True)

Azure Databricks

Exemple non disponible pour cette combinaison de plateforme et de package.

Azure Synapse

Exemple non disponible pour cette combinaison de plateforme et de package.

Exemples

Voici des exemples d’utilisation pour ce jeu de données :

Étapes suivantes

Consultez les autres jeux de données du catalogue Open Datasets.