استخدام Azure Data Lake Storage Gen2 في أحمال عمل تحليل البيانات

مكتمل

Azure Data Lake Store Gen2 هي تقنية تمكين لحالات استخدام تحليلات بيانات متعددة. دعونا نستكشف بعض الأنواع الشائعة من حمل العمل التحليلي، ونحدد كيفية عمل Azure Data Lake Storage Gen2 مع خدمات Azure الأخرى لدعمها.

معالجة البيانات الضخمة وتحليلاتها

Diagram of Azure Data Lake Storage Gen2 being accessed from Azure Synapse Analytics, Azure Databricks, and Azure HDInsight.

عادة ما تشير سيناريوهات البيانات الضخمة إلى أحمال العمل التحليلية التي تتضمن كميات هائلة من البيانات في مجموعة متنوعة من التنسيقات التي تحتاج إلى المعالجة بسرعة سريعة - ما يسمى ب "ثلاثة v's". يوفر Azure Data Lake Storage Gen 2 مخزن بيانات موزعا قابلا للتطوير وآمنا يمكن أن تطبق عليه خدمات البيانات الضخمة مثل Azure Synapse Analytics وAzure Databricks وAzure HDInsight أطر معالجة البيانات مثل Apache Spark وHive و Hadoop. تتيح الطبيعة الموزعة للتخزين حوسبة المعالجة تنفيذ المهام بالتوازي، مما يؤدي إلى أداء عال وقابلية التوسع حتى عند معالجة كميات هائلة من البيانات.

تخزين البيانات

Diagram of Azure Data Lake Storage Gen2 being used to support a data warehousing solution in Azure Synapse Analytics.

تطور تخزين البيانات في السنوات الأخيرة لدمج كميات كبيرة من البيانات المخزنة كملفات في مستودع بيانات مع جداول ارتباطية في مستودع بيانات. في مثال نموذجي لحل تخزين البيانات، يتم استخراج البيانات من مخازن البيانات التشغيلية، مثل قاعدة بيانات Azure SQL أو Azure Cosmos DB، وتحويلها إلى هياكل أكثر ملاءمة لأحمال العمل التحليلية. غالبا ما يتم تنظيم البيانات في مستودع بيانات لتسهيل المعالجة الموزعة قبل تحميلها في مستودع بيانات علائقي. في بعض الحالات، يستخدم مستودع البيانات جداول خارجية لتعريف طبقة بيانات تعريف ارتباطية فوق الملفات في مستودع البيانات وإنشاء بنية "مستودع بيانات" أو "قاعدة بيانات بحيرة" مختلطة. يمكن لمستودع البيانات بعد ذلك دعم الاستعلامات التحليلية لإعداد التقارير والتصور.

هناك طرق متعددة لتنفيذ هذا النوع من بنية تخزين البيانات. يوضح الرسم التخطيطي حلا يستضيف فيه Azure Synapse Analytics المسارات لتنفيذ عمليات الاستخراج والتحويل والتحميل (ETL) باستخدام تقنية Azure Data Factory. تقوم هذه العمليات باستخراج البيانات من مصادر البيانات التشغيلية وتحميلها في مستودع بيانات مستضاف في حاوية Azure Data Lake Storage Gen2. ثم تتم معالجة البيانات وتحميلها في مستودع بيانات ارتباطية في تجمع SQL المخصص ل Azure Synapse Analytics، حيث يمكن أن تدعم تصور البيانات وإعداد التقارير باستخدام Microsoft Power BI.

تحليلات البيانات في الوقت الحقيقي

Diagram of Azure Data Lake Storage Gen2 being used to store the results of real-time data processing in Azure Stream Analytics.

بشكل متزايد، تحتاج الشركات والمؤسسات الأخرى إلى التقاط وتحليل التدفقات الدائمة للبيانات، وتحليلها في الوقت الفعلي (أو بالقرب من الوقت الحقيقي قدر الإمكان). يمكن إنشاء تدفقات البيانات هذه من الأجهزة المتصلة (غالبا ما يشار إليها باسم إنترنت الأشياء أو أجهزة IoT ) أو من البيانات التي تم إنشاؤها بواسطة المستخدمين في منصات الوسائط الاجتماعية أو التطبيقات الأخرى. على عكس أحمال العمل التقليدية لمعالجة الدفعات، يتطلب تدفق البيانات حلا يمكنه التقاط ومعالجة دفق لا حدود له من أحداث البيانات عند حدوثها.

غالبا ما يتم التقاط أحداث الدفق في قائمة انتظار للمعالجة. هناك تقنيات متعددة يمكنك استخدامها لتنفيذ هذه المهمة، بما في ذلك Azure Event Hubs كما هو موضح في الصورة. من هنا، تتم معالجة البيانات، غالبا لتجميع البيانات عبر النوافذ الزمنية (على سبيل المثال لحساب عدد رسائل الوسائط الاجتماعية مع علامة معينة كل خمس دقائق، أو لحساب متوسط قراءة أداة استشعار متصلة بالإنترنت في الدقيقة). يمكنك Azure Stream Analytics من إنشاء وظائف تستعلم عن بيانات الحدث وتجميعها عند وصولها، وكتابة النتائج في مصدر إخراج. أحد هذه الأحواض هو Azure Data Lake Storage Gen2؛ من حيث يمكن تحليل البيانات الملتقطة في الوقت الحقيقي وتصورها.

علوم البيانات والتعلّم الآلي

Diagram of Azure Data Lake Storage Gen2 being used as a source for Azure Machine Learning.

يتضمن علم البيانات التحليل الإحصائي لكميات كبيرة من البيانات، وغالبا ما يستخدم أدوات مثل Apache Spark ولغات البرمجة النصية مثل Python. يوفر Azure Data Lake Storage Gen 2 مخزن بيانات مستندا إلى السحابة قابلا للتطوير بدرجة كبيرة لأحجام البيانات المطلوبة في أحمال عمل علم البيانات.

التعلم الآلي هو جزء فرعي من علم البيانات الذي يتعامل مع تدريب النماذج التنبؤية. يتطلب تدريب النموذج كميات هائلة من البيانات، والقدرة على معالجة تلك البيانات بكفاءة. Azure التعلم الآلي هي خدمة سحابية حيث يمكن لعلماء البيانات تشغيل تعليمة Python البرمجية في دفاتر الملاحظات باستخدام موارد الحوسبة الموزعة المخصصة ديناميكيا. يعالج الحساب البيانات في حاويات Azure Data Lake Storage Gen2 لتدريب النماذج، والتي يمكن نشرها بعد ذلك كخدمات ويب للإنتاج لدعم أحمال العمل التحليلية التنبؤية.