توسيع نطاق التحليلات على نطاق السحابة في Azure

يعد النظام الأساسي للبيانات القابلة للتطوير أمرا بالغ الأهمية لاستيعاب النمو السريع للبيانات. يتم إنشاء كميات هائلة من البيانات كل ثانية في جميع أنحاء العالم. ومن المتوقع أن تستمر كمية البيانات المتاحة في النمو بشكل كبير على مدى السنوات القليلة المقبلة. مع زيادة معدل إنشاء البيانات، تزداد سرعة حركة البيانات أيضا.

بغض النظر عن مقدار البيانات التي لديك، يطلب المستخدمون استجابات استعلام سريعة. يتوقعون انتظار دقائق، وليس ساعات، للحصول على النتائج. تشرح هذه المقالة كيف يمكنك توسيع نطاق حل التحليلات على نطاق سحابة Azure والاستمرار في تلبية طلبات المستخدم للسرعة.

مقدمة

لدى العديد من المؤسسات منصة بيانات كبيرة متجانسة. يتم إنشاء هذه المتجانسات حول حساب Azure Data Lake Gen2 واحد، وأحيانا حاوية تخزين واحدة. غالبا ما يتم استخدام اشتراك Azure واحد لجميع المهام المتعلقة بالنظام الأساسي للبيانات. تحجيم مستوى الاشتراك غير موجود في معظم الأنظمة الأساسية المعمارية، مما قد يعيق استمرار اعتماد Azure إذا واجه المستخدمون أي من قيود اشتراك Azure أو مستوى الخدمة. على الرغم من أن بعض القيود هي حدود مبدئية، إلا أن الضغط عليها لا يزال يمكن أن يكون له تأثير سلبي كبير على النظام الأساسي للبيانات الخاص بك.

عند هيكلة النظام الأساسي للبيانات، ضع في اعتبارك بنية مؤسستك. لاحظ ملكية البيانات والمسؤوليات الوظيفية لفرقك. إذا كانت مؤسستك تمنح الفرق درجات كبيرة من الاستقلالية والملكية الموزعة، فإن بنية شبكة البيانات هي الخيار الأفضل لديك.

تجنب المواقف التي تحتوي على فرق مختلفة مسؤولة عن المهام المختلفة للحل - مهام مثل الاستيعاب والتطهير والتجميع والخدمات. اعتمادا على فرق متعددة يمكن أن يسبب خسارة كبيرة في السرعة. على سبيل المثال، إذا كان مستهلكو البيانات على طبقة الخدمة بحاجة إلى إلحاق أصول بيانات جديدة أو تنفيذ تغييرات وظيفية لأصل بيانات معين، يجب أن يمروا بعملية متعددة الخطوات. على سبيل المثال، الخطوات هي:

  1. يرسل مستهلك البيانات تذكرة إلى كل فريق مسؤول عن مرحلة تدفق البيانات.
  2. يجب أن تعمل الفرق معا في مزامنة لأن الطبقات مترابطة. تتطلب الخدمات الجديدة تغييرات على طبقة تنظيف البيانات، ما يؤدي إلى تغييرات في طبقة تجميع البيانات، ما يؤدي إلى تغييرات في طبقة التقديم. يمكن أن تؤثر التغييرات على كل مرحلة من مراحل البنية الأساسية لبرنامج ربط العمليات التجارية.
  3. من الصعب على الفرق رؤية التأثيرات المحتملة لمعالجة التغييرات، لأنها لا تحتوي على نظرة عامة على دورة الحياة الشاملة بأكملها. يجب عليهم العمل معا لتصميم خطة إصدار محددة جيدا تقلل من التأثيرات على المستهلكين الحاليين والتدفقات الحالية. تزيد إدارة التبعية هذه من النفقات العامة للإدارة.
  4. كقاعدة عامة، لا تخضع الفرق لخبراء متخصصين في أصل البيانات الذي يطلبه مستهلك البيانات. لفهم ميزات مجموعة البيانات الجديدة أو قيم المعلمات، يجب عليهم استشارة خبير.
  5. بعد تنفيذ جميع التغييرات، يتم إعلام مستهلك البيانات بأن أصل البيانات الجديد جاهز للاستخدام.

كل مؤسسة كبيرة لديها الآلاف من مستهلكي البيانات. عملية معقدة مثل العملية الموصوفة تقلل بشدة من السرعة في البنيات الكبيرة، نظرا لأن الفرق المركزية تصبح ازدحاما لوحدات الأعمال. والنتيجة هي ابتكار أقل وفعالية محدودة. من المحتمل أن تقرر وحدات الأعمال مغادرة الخدمة وبناء نظامها الأساسي للبيانات بدلا من ذلك.

أساليب التحجيم

رسم تخطيطي لمنطقة إدارة البيانات المنتقل إليها ومناطق البيانات المنتقل إليها المتعددة.

تعالج التحليلات على نطاق السحابة تحديات التحجيم باستخدام مفهومين أساسيين:

  • استخدام مناطق البيانات المنتقل إليها للتحجيم
  • استخدام منتجات البيانات أو تكامل البيانات للتحجيم، من أجل جعل ملكية البيانات الموزعة وغير الممركزة ممكنة

يمكنك نشر منطقة منتقل إليها بيانات واحدة، أو مناطق متعددة. تتيح لك مناطق هبوط البيانات اكتشاف البيانات وإدارتها عن طريق الاتصال بمنطقة هبوط لإدارة البيانات. تقع كل منطقة هبوط لإدارة البيانات ضمن اشتراك Azure واحد.

الاشتراكات هي وحدات الإدارة والفوترة والمقياس في Azure. وهي تلعب دورا حاسما في خطة اعتماد Azure واسعة النطاق.

التحجيم باستخدام مناطق البيانات المنتقل إليها

المفاهيم المركزية للتحليات على نطاق السحابة هي منطقة هبوط إدارة البيانات والمنطقة المنتقل إليها للبيانات. يجب وضع كل منها في اشتراك Azure الخاص به. يتيح لك فصلها فصل الواجبات بوضوح، واتباع مبدأ الامتياز الأقل، ومعالجة مشكلات مقياس الاشتراك التي ذكرناها سابقا جزئيا. يتضمن الحد الأدنى من إعداد التحليلات على نطاق السحابة منطقة هبوط بيانات واحدة ومنطقة هبوط واحدة لإدارة البيانات.

ومع ذلك، لا يكفي الحد الأدنى من الإعداد لعمليات نشر النظام الأساسي للبيانات على نطاق واسع. تبني الشركات منصات واسعة النطاق وتبذل استثمارات لتوسيع نطاق بياناتها وجهود تحليلاتها باستمرار وكفاءة بمرور الوقت. للتغلب على القيود على مستوى الاشتراك، تستخدم التحليلات على نطاق السحابة الاشتراكات كوحدة للتحجيم، كما تمت مناقشته في مناطق هبوط Azure. تجعل هذه التقنية من الممكن زيادة بصمة النظام الأساسي للبيانات عن طريق إضافة المزيد من مناطق هبوط البيانات إلى البنية. يعالج اعتماد هذه التقنية أيضا مشكلة استخدام Azure Data Lake Gen2 واحد لمؤسسة بأكملها، نظرا لأن كل منطقة هبوط بيانات تتضمن ثلاث مستودعات بيانات. يمكن توزيع المشاريع والأنشطة من مجالات متعددة عبر أكثر من اشتراك Azure واحد، مما يوفر قابلية أكبر للتوسع.

حدد عدد المناطق المنتقل إليها للبيانات التي تتطلبها مؤسستك قبل تنفيذ بنية تحليلات على نطاق السحابة. يضع اتخاذ القرار الصحيح الأساس لمنصة بيانات فعالة وفعالة.

يعتمد عدد مناطق هبوط البيانات المطلوبة على العديد من العوامل، خاصة:

  • المحاذاة التنظيمية، مثل عدد وحدات الأعمال التي تحتاج إلى منطقة البيانات المنتقل إليها الخاصة بها
  • الاعتبارات التشغيلية، مثل كيفية محاذاة مؤسستك لموارد التشغيل والموارد الخاصة بوحدة الأعمال.

يؤدي استخدام نموذج منطقة البيانات المنتقل إليها الصحيح إلى تقليل الجهود المستقبلية لنقل منتجات البيانات وأصول البيانات من منطقة منتقل إليها إلى أخرى. كما يساعدك على توسيع نطاق البيانات الضخمة وجهود التحليلات بشكل فعال ومتناسق في المستقبل.

ضع في اعتبارك العوامل التالية عند تحديد عدد مناطق البيانات المنتقل إليها لنشرها.

العامل الوصف
الهيكل التنظيمي وملكية البيانات ضع في اعتبارك كيفية تنظيم مؤسستك وكيفية امتلاك البيانات في مؤسستك.
المنطقة والموقع إذا قمت بالنشر في مناطق متعددة، فحدد المنطقة أو المناطق التي يجب أن تستضيف مناطق البيانات. تأكد من تلبية جميع متطلبات موقع البيانات.
الحصص النسبية حصص الاشتراك ليست ضمانات للسعة ويتم تطبيقها على أساس كل منطقة.
سيادة البيانات نظرا للوائح سيادة البيانات، يجب تخزين البيانات في منطقة معينة واتباع سياسات خاصة بالمنطقة.
سياسات Azure يجب أن تتبع مناطق هبوط البيانات متطلبات نهج Azure المختلفة.
حدود الإدارة توفر الاشتراكات حدود إدارة للحوكمة والعزلة التي تفصل بوضوح بين المخاوف.
الشبكات تحتوي كل منطقة هبوط على شبكة ظاهرية. نظرا لوجود شبكة ظاهرية في منطقة واحدة، تتطلب كل منطقة جديدة منطقة هبوط جديدة. يجب أن تكون الشبكات الظاهرية شبكات ظاهرية نظيرة لتمكين الاتصال عبر المجالات.
الحدود الاشتراك له حدود. من خلال وجود العديد من الاشتراكات، يمكنك التخفيف من مخاطر الوصول إلى هذه الحدود.
توزيع التكاليف ضع في اعتبارك ما إذا كان يجب تقسيم الخدمات المشتركة مثل حسابات التخزين المدفوعة مركزيا حسب وحدة العمل أو المجال. يؤدي استخدام اشتراك منفصل إلى إنشاء حد لتخصيص التكلفة. يمكنك تحقيق نفس الوظيفة باستخدام العلامات.
تصنيفات البيانات والبيانات السرية للغاية يمكن أن تؤثر آليات الأمان على تطوير منتجات البيانات وإمكانية استخدام النظام الأساسي للبيانات. ضع في اعتبارك تصنيفات البيانات وقرر ما إذا كانت مجموعات البيانات شديدة السرية تتطلب معاملة خاصة، مثل الوصول في الوقت المناسب أو المفاتيح المدارة من قبل العميل (CMK) أو عناصر تحكم الشبكة الدقيقة أو المزيد من التشفير.
الآثار القانونية أو الأمنية الأخرى ضع في اعتبارك ما إذا كانت هناك أي متطلبات قانونية أو أمنية أخرى تتطلب فصلا منطقيا أو ماديا للبيانات.

إذا قمت بتنفيذ بنية شبكة بيانات، ففكر في العوامل التالية أثناء تحديد كيفية توزيع مناطق البيانات المنتقل إليها ومجالات البيانات.

العامل الوصف
مجالات البيانات ضع في اعتبارك مجالات البيانات التي تستخدمها مؤسستك، وقرر أي منها سيكون على النظام الأساسي للبيانات. ضع في اعتبارك حجم مجالات البيانات الفردية. لمزيد من المعلومات، راجع ما هي مجالات البيانات؟
زمن الانتقال يمكن للمجالات التي تتعاون في كميات كبيرة من البيانات نقل كمية كبيرة من البيانات عبر المناطق المنتقل إليها. ضع في اعتبارك تخصيص مجالاتك في نفس المنطقة أو المنطقة المنتقل إليها. يؤدي فصلها إلى زيادة زمن الانتقال ويمكن أن يزيد من التكاليف في المجالات عبر المناطق.
الأمان تتطلب بعض عمليات نشر الخدمة أو التكوينات امتيازات مرتفعة في الاشتراك. منح هذه الامتيازات لمستخدم في مجال واحد يمنح هذا المستخدم ضمنيا نفس الامتيازات في المجالات الأخرى ضمن نفس الاشتراك.

يمكنك العثور على مزيد من الاعتبارات في إرشادات إطار عمل اعتماد السحابة للاشتراكات.

تريد العديد من المؤسسات التحجيم الفعال للنظام الأساسي لبيانات المؤسسة الخاصة بها. يجب أن تكون وحدات الأعمال قادرة على بناء حلول البيانات والتطبيقات الخاصة بها لتلبية متطلباتها الفريدة. يمكن أن يكون توفير هذه القدرة تحديا، لأن العديد من الأنظمة الأساسية للبيانات الحالية لا يتم إنشاؤها حول مفاهيم قابلية التوسع والملكية اللامركزية. يظهر هذا القصور بوضوح في بنية وبنية الفريق ونموذج العمليات لمنصات البيانات هذه.

لا تنشئ مناطق البيانات المنتقل إليها صوامع بيانات داخل مؤسستك. يتيح إعداد الشبكة الموصى به للتحليلات على نطاق السحابة مشاركة البيانات الآمنة والموضعية عبر المناطق المنتقل إليها، والتي بدورها تمكن الابتكار عبر مجالات البيانات ووحدات الأعمال. لمعرفة المزيد، راجع اعتبارات بنية الشبكة.

وينطبق الشيء نفسه على طبقة الهوية. عند استخدام مستأجر Azure AD واحد، يمكنك منح الهويات حق الوصول إلى أصول البيانات في مناطق هبوط بيانات متعددة. لمعرفة المزيد حول عملية تخويل المستخدم والهوية، راجع إدارة الوصول إلى البيانات.

ملاحظة

إذا كان لديك مناطق هبوط بيانات متعددة، يمكن لكل منطقة الاتصال بالبيانات المستضافة في مناطق أخرى. يسمح هذا للمجموعات بالتعاون عبر عملك.

تستخدم التحليلات على نطاق السحابة بنية مشتركة للدعوة إلى حوكمة متسقة. تحدد بنيتك إمكانات ونهج الأساس. تلتزم جميع مناطق هبوط البيانات بنفس التدقيق وعناصر التحكم. يمكن لفرقك إنشاء مسارات البيانات واستيعاب المصادر وإنشاء منتجات بيانات مثل التقارير ولوحات المعلومات. يمكن للفرق أيضا إجراء تحليل Spark/SQL حسب الحاجة. يمكنك زيادة قدرات المنطقة المنتقل إليها للبيانات عن طريق إضافة خدمات إلى القدرة في النهج. على سبيل المثال، يمكن للفريق إضافة محرك رسم بياني تابع لجهة خارجية لمعالجة متطلبات العمل.

تركز التحليلات على نطاق السحابة بشدة على الفهرسة المركزية والتصنيف لحماية البيانات وجعل من الممكن لمجموعات مختلفة اكتشاف منتجات البيانات.

تنبيه

نوصي بعدم الاستعلام عن البيانات عبر المناطق. بدلا من ذلك، تأكد من أن البيانات قريبة من الحساب الذي يستخدمها، مع احترام الحدود الإقليمية.

تتيح بنية التحليلات على نطاق السحابة ومفهوم مناطق هبوط البيانات لمؤسستك زيادة حجم النظام الأساسي للبيانات بسهولة بمرور الوقت. يمكنك إضافة المزيد من مناطق البيانات المنتقل إليها في نهج مرحلي. لا يحتاج عملاؤك إلى مناطق هبوط متعددة في البداية. عند اعتماد هذه البنية، حدد أولويات بعض مناطق البيانات المنتقل إليها ومنتجات البيانات التي تحتوي عليها. يساعد تحديد الأولويات المناسب على ضمان نجاح توزيع التحليلات على نطاق السحابة.

التحجيم باستخدام منتجات البيانات أو عمليات تكامل البيانات

داخل كل منطقة هبوط، يمكن لمؤسستك التوسع باستخدام تطبيقات البيانات. تطبيقات البيانات هي وحدات أو مكونات لبنية البيانات الخاصة بك التي تغلف الوظائف التي توفر منتجات بيانات محسنة للقراءة للاستهلاك بواسطة تطبيقات البيانات الأخرى. في Azure، تطبيقات البيانات هي بيئات في شكل مجموعات موارد تجعل من الممكن للفرق متعددة الوظائف تنفيذ حلول البيانات وأحمال العمل. يهتم الفريق المرتبط لدورة الحياة الشاملة لحل البيانات، والتي تتضمن مهام الاستيعاب والتطهير والتجميع وخدمة المهام.

تعالج التحليلات على نطاق السحابة مشكلات تكامل البيانات والمسؤولية التي تمت مناقشتها سابقا. بدلا من المسؤوليات الوظيفية المتجانسة لاستيعاب الجدول وتكامل نظام المصدر، يوفر التصميم المرجعي بنية موزعة مدفوعة بمجالات البيانات. تتولى الفرق متعددة الوظائف المسؤولية الوظيفية الشاملة والملكية لنطاق البيانات.

بدلا من وجود مكدس تقني مركزي، وفريق مسؤول عن جميع مهام سير عمل معالجة البيانات، يمكنك توزيع المسؤولية الشاملة عبر العديد من فرق تكامل البيانات المستقلة عبر الوظائف. يمتلك كل فريق مجالا أو قدرة مجال فرعي ويتم تشجيعه على خدمة مجموعات البيانات كما هو مطلوب من قبل مستهلكي البيانات.

تؤدي هذه الاختلافات المعمارية إلى زيادة السرعة على النظام الأساسي للبيانات. لم يعد يتعين على مستهلكي البيانات الاعتماد على مجموعة من الفرق المركزية أو الكفاح من أجل إعطاء الأولوية للتغييرات المطلوبة. نظرا لأن الفرق الأصغر تأخذ ملكية سير عمل التكامل من طرف إلى طرف، فإن حلقة الملاحظات بين موفر البيانات ومستهلك البيانات أقصر بكثير. ينتج عن هذا النهج تحديد أولويات أسرع، ودورات تطوير أسرع، وعملية تطوير أكثر مرونة. لم تعد فرقك بحاجة إلى مزامنة العمليات وإصدار الخطط فيما بينها، لأن فريق تكامل البيانات متعدد الوظائف لديه وعي كامل بالمكدس التقني الشامل والآثار المترتبة على التغييرات. يمكنه استخدام ممارسات هندسة البرمجيات لتشغيل اختبارات الوحدة والتكامل لتقليل التأثير العام على المستهلكين.

من الناحية المثالية، يمتلك الفريق الذي يمتلك أنظمة تكامل البيانات أيضا أنظمة المصدر. يجب أن يتكون هذا الفريق من مهندسي البيانات الذين يعملون على أنظمة المصدر وخبراء الموضوع (SMEs) لمجموعات البيانات ومهندسي السحابة ومالكي منتجات البيانات. يؤدي بناء هذا النوع من الفريق متعدد الوظائف إلى تقليل مقدار الاتصال المطلوب مع الفرق الخارجية، وهو ضروري أثناء تطوير مكدس الذاكرة المؤقتة الكامل من البنية الأساسية إلى البنية الأساسية لبرنامج ربط العمليات التجارية للبيانات الفعلية.

أساس النظام الأساسي للبيانات الخاص بك هو مجموعات البيانات المتكاملة من أنظمة المصدر. تتيح مجموعات البيانات هذه لفرق منتجات البيانات الابتكار في جداول حقائق الأعمال وتحسين عملية صنع القرار والعمليات التجارية. يجب أن تقدم فرق تكامل البيانات وفرق منتجات البيانات اتفاقيات مستوى الخدمة للمستهلكين وتضمن استيفاء جميع الاتفاقيات. يمكن أن تكون اتفاقيات مستوى الخدمة المقدمة مرتبطة بجودة البيانات وحسن التوقيت ومعدلات الخطأ ووقت التشغيل والمهام الأخرى.

الملخص

باستخدام آليات التحجيم الخاصة ببنية التحليلات على نطاق السحابة، تقوم مؤسستك بتنمية ملكية بياناتك داخل Azure بمرور الوقت مع تجنب القيود التقنية المعروفة. تساعدك طريقتا التحجيم الموضحتان في هذه المقالة على التغلب على التعقيدات التقنية المختلفة، ويمكن استخدامها بطريقة بسيطة وفعالة.

الخطوات التالية