المركز الأوروبي للوقاية من الأمراض ومكافحة حالات COVID-19
أحدث بيانات عامة متوفرة عن التوزيع الجغرافي لحالات COVID-19 حول العالم من المركز الأوربي للوقاية ومكافحة الأمراض يتضمن كل صف/ إدخال عدد الحالات الجديدة المبلغ عنها يومياً، ولكل بلد أو منطقة.
ملاحظة
توفر Microsoft Azure Open Datasets على أساس "ثابت". لا تقدم Microsoft أي ضمانات صريحة أو ضمنية أو شروطاً فيما يتعلق باستخدامك لمجموعات البيانات. وتخلي Microsoft مسؤوليتها عن أي أضرار أو خسائر، بما في ذلك المباشرة أو التبعية أو الخاصة أو غير المباشرة أو العرضية أو العقابية، الناتجة عن استخدامك لمجموعات البيانات إلى الحد الذي يسمح به القانون المحلي الخاص بك.
ويتم توفير مجموعة البيانات هذه بموجب الشروط الأصلية التي تلقتها Microsoft على أنها بيانات المصدر. وقد تتضمن مجموعة البيانات بيانات مصدرها Microsoft.
مجموعات البيانات
تتوفر الإصدارات المعدلة من مجموعة البيانات في CSV وJSON وJSON-Lines وParquet، ويتم تحديثها يوميا:
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet
تحتوي كافة الإصدارات المعدلة على رموز iso_country_region وأوقات التحميل المضافة، وتستخدم أسماء أعمدة الحالات السفلية مع فواصل تسطير أسفل السطر.
البيانات الخام: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/latest/ECDCCases.csv
الإصدارات السابقة من البيانات الأولية والمعدلة: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/
وحدة تخزين البيانات
اعتباراً من 28 مايو 2020 كانت تحتوي على 19,876 صفاً (CSV 1.5 ميغابايت، JSON 4.9 MB، JSONL 4.9 MB، Parquet 54.1 كيلوبايت).
مصدر البيانات
تزداد البيانات الخام يومياً من ملف ECDC csv مزيد من المعلومات على مجموعة البيانات، بما يشمل أصولها، راجع صفحة مجموعة بيانات ECDC.
جودة البيانات
لا تضمن ECDC دقة البيانات أو توقيتها. إقراء إخلاء المسؤولية.
إسناد حقوق الترخيص والاستخدام
يتم توفير هذه البيانات، ويمكن استخدامها كما هو مسموح به بموجب نهج حقوق الطبع والنشر الخاصة ب ECDC هنا. بالنسبة لأي مستندات تقع حقوق الطبع والنشر فيها على طرف ثالث، يجب الحصول على إذن بالنسخ من صاحب حقوق الطبع والنشر.
يجب أن يعترف دائماً بـ ECDC كمصدر الأصلي لهذه البيانات. ويجب إدراج هذا الإقرار في كل نسخة من المواد.
جهة اتصال
لأي أسئلة أو ملاحظات بشأن مجموعة البيانات المذكورة أو غيرها في COVID-19 Data Lake، يُرجى الاتصال بـ askcovid19dl@microsoft.com.
أعمدة
الاسم | نوع البيانات | فريد | القيم (عيّنة) | الوصف |
---|---|---|---|---|
الحالات | Smallint | 5,515 | 1 2 | عدد الحالات المبلغ عنها |
continent_exp | سلسلة | 6 | أوروبا أفريقيا | اسم القارة |
countries_and_territories | سلسلة | 214 | كندا بلجيكا | اسم البلد أو الإقليم |
country_territory_code | سلسلة | 213 | كور ISL | رمز البلد أو الإقليم بثلاثة أحرف |
date_rep | التاريخ | 350 | 2020-12-11 2020-11-22 | تاريخ التقرير |
يوم | Smallint | 31 | 14 13 | يوم من الشهر |
الوفيات | Smallint | 1,049 | 1 2 | عدد الوفيات المبلغ عنها |
geo_id | سلسلة | 214 | الحالة | معرف Geo |
iso_country | سلسلة | 214 | SE الولايات المتحدة | رمز ISO 3166 للبلد أو المنطقة |
load_date | طابع زمني | 1 | 2021-04-26 00:06:22.123000 | تاريخ تحميل البيانات إلى Azure |
شهر | Smallint | 12 | 10 8 | رقم الشهر |
سنة | Smallint | 2 | 2020 2019 | Year |
معاينة
date_rep | يوم | شهر | سنة | الحالات | الوفيات | countries_and_territories | geo_id | country_territory_code | continent_exp | load_date | iso_country |
---|---|---|---|---|---|---|---|---|---|---|---|
2020-12-14 | 14 | 12 | 2020 | 746 | 6 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-13 | 13 | 12 | 2020 | 298 | 9 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-12 | 12 | 12 | 2020 | 113 | 11 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-11 | 11 | 12 | 2020 | 63 | 10 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-10 | 10 | 12 | 2020 | 202 | 16 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-09 | 9 | 12 | 2020 | 135 | 13 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-08 | 8 | 12 | 2020 | 200 | 6 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-07 | 7 | 12 | 2020 | 210 | 26 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-06 | 6 | 12 | 2020 | 234 | 10 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
2020-12-05 | 5 | 12 | 2020 | 235 | 18 | أفغانستان | AF | AFG | آسيا | 4/26/2021 12:06:22 صباحاً | AF |
الوصول إلى البيانات
Azure Notebooks
هذا الكتيب يوثق URLs ونموذج التعليمة البرمجية للوصول إلى المركز الأوروبي للوقاية من الأمراض ومكافحة حالات COVID-19، ومجموعة بيانات URLs لتنسيقات ملف مختلفة لمجموعة بيانات مستضافة على Azure Blob Storage:¶ CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
JSON: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json
Parquet: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet
بادر بتنزيل ملف مجموعة البيانات باستخدام تنزيل القدرة المدمجة من عنوان URL مبدوء بـ http في Pandas. تحتوي Pandas على قراءات لتنسيقات الملفات المختلفة:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet")
df.head(10)
df.dtypes
df.groupby('countries_and_territories').first().filter(['continent_exp','cases', 'deaths','date_rep'])
df.groupby('continent_exp').agg({'countries_and_territories': 'count','cases': 'count','deaths': 'count'})
import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt
df.loc[: , ['countries_and_territories', 'cases', 'deaths']].groupby(['countries_and_territories'
]).max().sort_values(by='cases',ascending=False).reset_index()[:15].style.background_gradient(cmap='rainbow')
df_Worldwide=df[df['countries_and_territories']=='United_States_of_America']
df.plot(kind='line',x='date_rep',y="cases",grid=True)
df.plot(kind='line',x='date_rep',y="deaths",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="confirmed_change",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="deaths_change",grid=True)
Azure Databricks
نموذج غير متوفر لهذه المجموعة المنصه/الحزمة.
Azure Synapse
نموذج غير متوفر لمجموعة النظام الأساسي/الحزمة هذه.
أمثلة
راجع أمثلة حول كيفية استخدام مجموعة البيانات هذه:
- تحليل بيانات COVID باستخدام نقطة النهاية SQL serverless
- تحليل تراجع خطي عن بيانات COVID باستخدام نقطة نهاية SQL في Azure Synapse Analytics
الخطوات التالية
اعرض ما يتبقى من مجموعات البيانات في كتالوج Open Datasets.
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ