البرنامج التعليمي: تحليل تقارير مخزون الكائنات الثنائية كبيرة الحجم
من خلال فهم كيفية تخزين الكائنات الثنائية كبيرة الحجم والحاويات وتنظيمها واستخدامها في الإنتاج، يمكنك تحسين المقايضات بين التكلفة والأداء بشكل أفضل.
يوضح لك هذا البرنامج التعليمي كيفية إنشاء إحصائيات وتصورها مثل نمو البيانات بمرور الوقت، والبيانات المضافة بمرور الوقت، وعدد الملفات المعدلة، وأحجام لقطة الكائنات الثنائية كبيرة الحجم، وأنماط الوصول عبر كل طبقة، وكيفية توزيع البيانات حاليا ومع مرور الوقت (على سبيل المثال: البيانات عبر المستويات وأنواع الملفات والحاويات وأنواع الكائنات الثنائية كبيرة الحجم).
في هذا البرنامج التعليمي، تتعلم كيفية:
- إنشاء تقرير مخزون كائن ثنائي كبير الحجم
- إعداد مساحة عمل Synapse
- إعداد Synapse Studio
- إنشاء بيانات تحليلية في Synapse Studio
- تصور النتائج في Power BI
المتطلبات الأساسية
اشتراك Azure - إنشاء حساب مجانا
حساب تخزين Azure - إنشاء حساب تخزين
تأكد من أن هوية المستخدم الخاصة بك لها دور Storage Blob Data Contributor المعين لها.
إنشاء تقرير مخزون
تمكين تقارير مخزون الكائن الثنائي كبير الحجم لحساب التخزين الخاص بك. راجع تمكين تقارير مخزون كائن ثنائي كبير الحجم ل Azure Storage.
قد تضطر إلى الانتظار لمدة تصل إلى 24 ساعة بعد تمكين تقارير المخزون لإنشاء تقريرك الأول.
إعداد مساحة عمل Synapse
أنشئ مساحة عمل Azure Synapse. راجع إنشاء مساحة عمل Azure Synapse.
إشعار
كجزء من إنشاء مساحة العمل، ستقوم بإنشاء حساب تخزين يحتوي على مساحة اسم هرمية. يخزن Azure Synapse جداول Spark وسجلات التطبيق إلى هذا الحساب. يشير Azure Synapse إلى هذا الحساب كحساب تخزين أساسي. لتجنب الارتباك، تستخدم هذه المقالة مصطلح حساب تقرير المخزون للإشارة إلى الحساب الذي يحتوي على تقارير المخزون.
في مساحة عمل Synapse، قم بتعيين دور المساهم إلى هوية المستخدم. راجع Azure RBAC: دور المالك لمساحة العمل.
امنح مساحة عمل Synapse الإذن للوصول إلى تقارير المخزون في حساب التخزين الخاص بك عن طريق الانتقال إلى حساب تقرير المخزون الخاص بك، ثم تعيين دور Storage Blob Data Contributor إلى الهوية المدارة للنظام لمساحة العمل. راجع تعيين أدوار Azure باستخدام مدخل Microsoft Azure.
انتقل إلى حساب التخزين الأساسي وقم بتعيين دور Blob Storage Contributor إلى هوية المستخدم.
إعداد Synapse Studio
افتح مساحة عمل Synapse في Synapse Studio. راجع فتح Synapse Studio.
في Synapse Studio، تأكد من تعيين هويتك لدور مسؤول Synapse. راجع Synapse RBAC: دور مسؤول Synapse لمساحة العمل.
أنشئ مجموعة Apache Spark. راجع إنشاء تجمع Apache Spark بلا خادم.
إعداد نموذج دفتر الملاحظات وتشغيله
في هذا القسم، ستقوم بإنشاء بيانات إحصائية ستقوم بتصورها في تقرير. لتبسيط هذا البرنامج التعليمي، يستخدم هذا القسم نموذج ملف تكوين ونموذج دفتر ملاحظات PySpark. يحتوي دفتر الملاحظات على مجموعة من الاستعلامات التي يتم تنفيذها في Azure Synapse Studio.
تعديل وتحميل نموذج ملف التكوين
قم بتنزيل ملف BlobInventoryStorageAccountConfiguration.json .
تحديث العناصر النائبة التالية لهذا الملف:
تعيين
storageAccountName
إلى اسم حساب تقرير المخزون الخاص بك.تعيين
destinationContainer
إلى اسم الحاوية التي تحتوي على تقارير المخزون.قم بتعيين
blobInventoryRuleName
إلى اسم قاعدة تقرير المخزون التي أنشأت النتائج التي تريد تحليلها.تعيين
accessKey
إلى مفتاح الحساب لحساب تقرير المخزون.
قم بتحميل هذا الملف إلى الحاوية في حساب التخزين الأساسي الذي حددته عند إنشاء مساحة عمل Synapse.
استيراد نموذج دفتر ملاحظات PySpark
قم بتنزيل دفتر ملاحظات نموذج ReportAnalysis.ipynb .
إشعار
تأكد من حفظ هذا الملف بالملحق
.ipynb
.افتح مساحة عمل Synapse في Synapse Studio. راجع فتح Synapse Studio.
في Synapse Studio، حدد علامة التبويب Develop .
حدد علامة الجمع (+) لإضافة عنصر.
حدد استيراد، واستعرض وصولا إلى نموذج الملف الذي قمت بتنزيله، وحدد هذا الملف، وحدد فتح.
يظهر مربع الحوار خصائص.
في مربع الحوار خصائص ، حدد الارتباط تكوين جلسة العمل .
يتم فتح مربع الحوار تكوين جلسة العمل.
في القائمة المنسدلة إرفاق بمربع الحوار تكوين جلسة العمل، حدد تجمع Spark الذي قمت بإنشائه سابقا في هذه المقالة. ثم حدد الزر تطبيق .
تعديل دفتر ملاحظات Python
في الخلية الأولى من دفتر ملاحظات Python، قم بتعيين قيمة
storage_account
المتغير إلى اسم حساب التخزين الأساسي.قم بتحديث قيمة
container_name
المتغير إلى اسم الحاوية في هذا الحساب الذي حددته عند إنشاء مساحة عمل Synapse.حدد الزر نشر.
تشغيل دفتر ملاحظات PySpark
في دفتر ملاحظات PySpark، حدد تشغيل الكل.
سيستغرق الأمر بضع دقائق لبدء جلسة Spark ودقائق قليلة أخرى لمعالجة تقارير المخزون. قد يستغرق التشغيل الأول بعض الوقت إذا كان هناك العديد من تقارير المخزون لمعالجتها. ستقوم عمليات التشغيل اللاحقة بمعالجة تقارير المخزون الجديدة التي تم إنشاؤها منذ التشغيل الأخير فقط.
إشعار
إذا أجريت أي تغييرات على دفتر الملاحظات، تشغيل دفتر الملاحظات، فتأكد من نشر هذه التغييرات باستخدام الزر نشر .
تحقق من تشغيل دفتر الملاحظات بنجاح عن طريق تحديد علامة التبويب البيانات .
يجب أن تظهر قاعدة بيانات تسمى reportdata في علامة التبويب Workspace في جزء Data. إذا لم تظهر قاعدة البيانات هذه، فقد تحتاج إلى تحديث صفحة الويب.
تحتوي قاعدة البيانات على مجموعة من الجداول. يحتوي كل جدول على معلومات تم الحصول عليها عن طريق تشغيل الاستعلامات من دفتر ملاحظات PySpark.
لفحص محتويات جدول، قم بتوسيع مجلد الجداول في قاعدة بيانات التقرير . ثم انقر بزر الماوس الأيمن فوق جدول، وحدد Select SQL script، ثم حدد Select TOP 100 rows.
يمكنك تعديل الاستعلام حسب الحاجة ثم تحديد تشغيل لعرض النتائج.
عرض البيانات
قم بتنزيل ملف تقرير نموذج ReportAnalysis.pbit .
افتح Power BI Desktop. للحصول على إرشادات التثبيت، راجع الحصول على Power BI Desktop.
في Power BI، حدد ملف، افتح التقرير، ثم استعرض التقارير.
في مربع الحوار فتح، قم بتغيير نوع الملف إلى ملفات قالب Power BI (*.pbit).
استعرض وصولا إلى موقع ملف ReportAnalysis.pbit الذي قمت بتنزيله، ثم حدد فتح.
يظهر مربع حوار يطلب منك توفير اسم مساحة عمل Synapse واسم قاعدة البيانات.
في مربع الحوار، قم بتعيين الحقل synapse_workspace_name إلى اسم مساحة العمل وتعيين حقل database_name إلى
reportdata
. ثم حدد الزر تحميل .يظهر تقرير يوفر مرئيات للبيانات التي تم استردادها بواسطة دفتر الملاحظات. تعرض الصور التالية أنواع المخططات والرسوم البيانية التي تظهر في هذا التقرير.
الخطوات التالية
إعداد مسار Azure Synapse لمتابعة تشغيل دفتر الملاحظات على فترات منتظمة. وبهذه الطريقة يمكنك معالجة تقارير المخزون الجديدة عند إنشائها. بعد التشغيل الأولي، سيقوم كل تشغيل من عمليات التشغيل التالية بتحليل البيانات التزايدية ثم تحديث الجداول بنتائج هذا التحليل. للحصول على إرشادات، راجع التكامل مع المسارات.
تعرف على طرق تحليل الحاويات الفردية في حساب التخزين الخاص بك. راجع هذه المقالات:
حساب عدد الكائنات الثنائية كبيرة الحجم والحجم الإجمالي لكل حاوية باستخدام مخزون تخزين Azure
البرنامج التعليمي: حساب إحصائيات الحاوية باستخدام Databricks
تعرف على طرق تحسين تكاليفك استنادا إلى تحليل الكائنات الثنائية كبيرة الحجم والحاويات. راجع هذه المقالات: