Centre européen pour la prévention et le contrôle des maladies (CEPCM) - Cas de COVID-19
Dernières données publiques disponibles sur la répartition géographique des cas de COVID-19 dans le monde, fournies par le Centre européen de prévention et de contrôle des maladies (ECDC). Chaque ligne/entrée contient le nombre de nouveaux cas signalés par jour et par pays ou région.
Notes
Microsoft fournit Azure Open Datasets « en l’état ». Microsoft n’offre aucune garantie, expresse ou implicite, ni de conditions relatives à votre utilisation des jeux de données. Dans la mesure autorisée par votre droit local, Microsoft décline toute responsabilité pour les dommages ou pertes, y compris directs, consécutifs, spéciaux, indirects ou punitifs, résultant de votre utilisation des jeux de données.
Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.
Groupes de données
Des versions modifiées du jeu de données sont disponibles aux formats CSV, JSON, JSON-Lines et Parquet ; celles-ci sont mises à jour quotidiennement :
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet
Des codes iso_pays_région et des temps de chargement ont été ajoutés à toutes les versions modifiées. En outre, celles-ci utilisent des noms de colonnes en minuscules et des tirets bas en guise de séparateurs.
Données brutes : https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/latest/ECDCCases.csv
Versions précédentes des données modifiées et brutes : https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/
Volume de données
Au 28 mai 2020, on comptait 19 876 lignes (CSV 1,5 Mo, JSON 4,9 Mo, JSONL 4,9 Mo, Parquet 54,1 Ko).
Paramètres
Les données brutes sont ingérées quotidiennement à partir du fichier .csv ECDC. Pour plus d’informations sur ce jeu de données, y compris sur ses origines, consultez la page consacrée à la collection de données ECDC.
Qualité des données
L'ECDC ne garantit pas l'exactitude ou la pertinence des données. Lire la clause d’exclusion de responsabilité.
Attribution des licences et des droits d’utilisation
Ces données sont mises à disposition et peuvent être utilisées conformément à la politique ECDC sur les droits d’auteur disponible ici. Pour tout document dont le droit d’auteur appartient à un tiers, l’autorisation de reproduction doit être obtenue auprès du détenteur du droit d’auteur.
L’ECDC doit toujours être reconnu comme la source d’origine de ces données. Cette reconnaissance doit être incluse dans chaque copie du matériel.
Contact
Pour toute question ou commentaire sur ce jeu de données ou d’autres jeux de données dans le Data Lake COVID-19, veuillez contacter askcovid19dl@microsoft.com.
Colonnes
Nom | Type de données | Unique | Valeurs (exemple) | Description |
---|---|---|---|---|
cas | SMALLINT | 5 515 | 1 2 | Nombre de cas signalés |
continent_exp | string | 6 | Europe Afrique | Nom du continent |
countries_and_territories | string | 214 | Canada Belgique | Nom du pays ou du territoire |
country_territory_code | string | 213 | KOR ISL | Code à trois lettres du pays ou du territoire |
date_rep | Date | 350 | 11-12-2020 22-11-2020 | Date du signalement |
day | SMALLINT | 31 | 14 13 | Jour du mois |
décès | SMALLINT | 1 049 | 1 2 | Nombre de décès signalés |
geo_id | string | 214 | CA SE | Identificateur géographique |
iso_country | string | 214 | SE US | Code pays ou région ISO 3166 |
load_date | timestamp | 1 | 26-04-2021 00:06:22.123000 | Date de chargement des données dans Azure |
month | SMALLINT | 12 | 10 8 | Numéro du mois |
year | SMALLINT | 2 | 2020 2019 | Year |
Préversion
date_rep | day | month | year | cas | décès | countries_and_territories | geo_id | country_territory_code | continent_exp | load_date | iso_country |
---|---|---|---|---|---|---|---|---|---|---|---|
14-12-2020 | 14 | 12 | 2020 | 746 | 6 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
13-12-2020 | 13 | 12 | 2020 | 298 | 9 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
12-12-2020 | 12 | 12 | 2020 | 113 | 11 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
11-12-2020 | 11 | 12 | 2020 | 63 | 10 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
10-12-2020 | 10 | 12 | 2020 | 202 | 16 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
09-12-2020 | 9 | 12 | 2020 | 135 | 13 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
08-12-2020 | 8 | 12 | 2020 | 200 | 6 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
2020-12-07 | 7 | 12 | 2020 | 210 | 26 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
06-12-2020 | 6 | 12 | 2020 | 234 | 10 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
05-12-2020 | 5 | 12 | 2020 | 235 | 18 | Afghanistan | AF | AFG | Asie | 26/04/2021 12:06:22 | AF |
Accès aux données
Azure Notebooks
Ce notebook documente les URL et les exemples de code pour l’accès aux URL du jeu de données « Centre européen pour la prévention et le contrôle des maladies (CEPCM) - Cas de COVID-19 » qui se présentent sous différents formats hébergés dans le Stockage Blob Azure : CSV https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
Téléchargez le fichier de jeu de données à l’aide de la capacité intégrée permettant de télécharger à partir d’une URL HTTP dans Pandas. Pandas comprend des visionneuses pour différents formats de fichiers :
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet")
df.head(10)
df.dtypes
df.groupby('countries_and_territories').first().filter(['continent_exp','cases', 'deaths','date_rep'])
df.groupby('continent_exp').agg({'countries_and_territories': 'count','cases': 'count','deaths': 'count'})
import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt
df.loc[: , ['countries_and_territories', 'cases', 'deaths']].groupby(['countries_and_territories'
]).max().sort_values(by='cases',ascending=False).reset_index()[:15].style.background_gradient(cmap='rainbow')
df_Worldwide=df[df['countries_and_territories']=='United_States_of_America']
df.plot(kind='line',x='date_rep',y="cases",grid=True)
df.plot(kind='line',x='date_rep',y="deaths",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="confirmed_change",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="deaths_change",grid=True)
Azure Databricks
Exemple non disponible pour cette combinaison de plateforme et de package.
Azure Synapse
Exemple non disponible pour cette combinaison de plateforme et de package.
Exemples
Voici des exemples d’utilisation pour ce jeu de données :
- Analyser les données COVID avec un point de terminaison serverless Synapse SQL
- Analyse de la régression linéaire des données COVID à l’aide d’un point de terminaison SQL dans Azure Synapse Analytics
Étapes suivantes
Consultez les autres jeux de données du catalogue Open Datasets.