فهم مراحل معالجة البيانات الضخمة

5 دقائق

مستودعات البيانات لها دور أساسي في مجموعة واسعة من بنيات البيانات الضخمة. يمكن أن تتضمن هذه البنيات إنشاء:

مستودع بيانات المؤسسة.
تحليلات متقدمة مقابل البيانات الكبيرة.
حل تحليلي في الوقت الحقيقي.

هناك أربع مراحل لمعالجة حلول البيانات الضخمة التي تشترك فيها جميع البنيات:

الاستيعاب - تحدد مرحلة الاستيعاب التكنولوجيا والعمليات المستخدمة للحصول على بيانات المصدر. يمكن أن تأتي هذه البيانات من الملفات والسجلات وأنواع أخرى من البيانات غير المنظمة التي يجب وضعها في مستودع البيانات. ستختلف التقنية المستخدمة وفقًا لتكرار نقل البيانات. على سبيل المثال، بالنسبة لحركة البيانات الدفعية، قد تكون البنية الأساسية لبرنامج ربط العمليات التجارية في Azure Synapse Analytics أو Azure Data Factory هي التقنية الأكثر ملاءمة للاستخدام. لاستيعاب البيانات في الوقت الحقيقي، قد يكون Apache Kafka ل HDInsight أو Stream Analytics خيارا مناسبا.
التخزين- تحدد مرحلة التخزين المكان الذي يجب أن توضع فيه البيانات التي تم إدخالها. يوفر Azure Data Lake Storage Gen2 حلا آمنا وقابلا للتطوير للتخزين يتوافق مع تقنيات معالجة البيانات الضخمة شائعة الاستخدام.
الإعداد والتدريب - تحدد مرحلة الإعداد والتدريب التقنيات المستخدمة لإجراء إعداد البيانات والتدريب النموذجي وتسجيل النقاط لحلول التعلم الآلي. التقنيات الشائعة المستخدمة في هذه المرحلة هي Azure Synapse Analytics وAzure Databricks وAzure HDInsight وAzure التعلم الآلي.
النموذج والخدمة - أخيراً، تتضمن مرحلة النموذج والخدمة التقنيات التي ستقدم البيانات للمستخدمين. يمكن أن تتضمن هذه التقنيات أدوات تصور مثل Microsoft Power BI أو مخازن البيانات التحليلية مثل Azure Synapse Analytics. في كثير من الأحيان، سيتم استخدام مجموعة من التقنيات المتعددة اعتمادا على متطلبات العمل.

متابعة

الملاحظات