ملاحظة
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تتناول هذه المقالة أفضل ممارسات البيانات وحوكمة الذكاء الاصطناعي، التي تنظمها المبادئ المعمارية المدرجة في الأقسام التالية.
1. توحيد البيانات وإدارة الذكاء الاصطناعي
إنشاء بيانات وعملية حوكمة الذكاء الاصطناعي
البيانات وإدارة الذكاء الاصطناعي هي إدارة توفر بيانات المؤسسة وأصولها الذكاء الاصطناعي وقابليتها للاستخدام وتكاملها وأمانها. من خلال تعزيز البيانات والحوكمة الذكاء الاصطناعي، يمكن للمؤسسات ضمان جودة الأصول الضرورية للتحلي بالدقة في التحليلات واتخاذ القرارات، والمساعدة في تحديد الفرص الجديدة، وتحسين رضا العملاء، وزيادة الإيرادات في نهاية المطاف. فهو يساعد المؤسسات على الامتثال للبيانات الذكاء الاصطناعي لوائح الخصوصية وتحسين التدابير الأمنية، والحد من مخاطر خرق البيانات والعقوبات. كما أن الإدارة الفعالة للبيانات تلغي التكرارات وتبسط إدارة البيانات، مما يؤدي إلى توفير التكاليف وزيادة الكفاءة التشغيلية.
قد ترغب المؤسسة في اختيار نموذج الحوكمة الذي يناسبها على أفضل نحو:
- في نموذج الحوكمة المركزي، يكون مسؤولو الحوكمة مالكي metastore ويمكنهم الحصول على ملكية أي عنصر ومنح الأذونات وإبطالها.
- في نموذج الحوكمة الموزعة، الكتالوج أو مجموعة من الكتالوجات هو مجال البيانات. يمكن لمالك هذا الكتالوج إنشاء جميع الأصول وتملكها وإدارة الحوكمة داخل هذا المجال. يمكن لمالكي أي مجال معين العمل بشكل مستقل عن مالكي المجالات الأخرى.
يتم دمج البيانات الذكاء الاصطناعي حل الحوكمة كتالوج Unity في Databricks Data Intelligence Platform. وهو يدعم كلا من نماذج الحوكمة ويساعد على إدارة البيانات المنظمة وغير المنظمة بسلاسة ونماذج التعلم الآلي ودفاتر الملاحظات ولوحات المعلومات والملفات على أي سحابة أو نظام أساسي. تساعد أفضل ممارسات كتالوج Unity على تنفيذ البيانات والتحكم الذكاء الاصطناعي.
إدارة بيانات التعريف لجميع البيانات والأصول الذكاء الاصطناعي في مكان واحد
تتشابه فوائد إدارة بيانات التعريف لجميع الأصول في مكان واحد مع فوائد الحفاظ على مصدر واحد للحقيقة لجميع بياناتك. وتشمل هذه تقليل تكرار البيانات، وزيادة تكامل البيانات، والقضاء على سوء الفهم بسبب تعريفات أو تصنيفات مختلفة. من الأسهل أيضا تنفيذ السياسات والمعايير والقواعد العالمية مع مصدر واحد.
كأفضل ممارسة، قم بتشغيل lakehouse في حساب واحد باستخدام كتالوج Unity. يمكن للكتالوج Unity إدارة البيانات ووحدات التخزين (الملفات العشوائية)، بالإضافة إلى الأصول الذكاء الاصطناعي مثل الميزات والنماذج الذكاء الاصطناعي. حاوية المستوى الأعلى للكائنات في كتالوج Unity هي مخزن بيانات التعريف. يخزن أصول البيانات (مثل الجداول وطرق العرض) والأذونات التي تحكم الوصول إليها. استخدم مخزنا واحدا لكل منطقة سحابة ولا تصل إلى metastores عبر المناطق لتجنب مشكلات زمن الانتقال.
يوفر metastore مساحة اسم من ثلاثة مستويات لهيكلة البيانات ووحدات التخزين والأصول الذكاء الاصطناعي:
توصي Databricks باستخدام الكتالوجات لتوفير الفصل عبر بنية المعلومات الخاصة بمؤسستك. غالبا ما يعني هذا أن الكتالوجات يمكن أن تتوافق مع نطاق بيئة تطوير البرامج أو الفريق أو وحدة الأعمال.
تعقب البيانات الذكاء الاصطناعي دورة حياة البيانات لدفع رؤية البيانات
دورة حياة البيانات هي أداة قوية تساعد قادة البيانات على اكتساب رؤية وفهم أكبر للبيانات في مؤسساتهم. تصف دورة حياة البيانات تحويل البيانات وتحسينها من المصدر إلى الرؤى. ويتضمن التقاط جميع بيانات التعريف والأحداث ذات الصلة المرتبطة بالبيانات طوال دورة حياتها، بما في ذلك مصدر مجموعة البيانات، ومجموعات البيانات الأخرى التي تم استخدامها لإنشائها، ومن أنشأها ومتى، وما هي التحويلات التي تم إجراؤها، وما تستخدمه مجموعات البيانات الأخرى، والعديد من الأحداث والسمات الأخرى.
بالإضافة إلى ذلك، عند تدريب نموذج على جدول في كتالوج Unity، يمكنك تتبع دورة حياة النموذج إلى مجموعة (مجموعات) البيانات المصدر التي تم تدريبه وتقييمها عليها.
يمكن استخدام دورة حياة البيانات للعديد من حالات الاستخدام المتعلقة بالبيانات:
- التوافق والاستعداد للتدقيق: تساعد دورة حياة البيانات المؤسسات على تتبع مصدر الجداول والحقول. هذا مهم لتلبية متطلبات العديد من لوائح الامتثال، مثل اللائحة العامة لحماية البيانات (GDPR)، وقانون خصوصية المستهلك في كاليفورنيا (CCPA)، وقانون نقل التأمين الصحي والمساءلة (HIPAA)، ولجنة بازل للإشراف المصرفي (BCBS) 239، وقانون ساربانس- أوكسلي (SOX).
- تحليل التأثير/إدارة التغيير: تخضع البيانات لتحويلات متعددة من المصدر إلى الجدول النهائي الجاهز للأعمال. يصبح فهم التأثير المحتمل لتغييرات البيانات على مستخدمي انتقال البيانات من الخادم أمرا مهما من منظور إدارة المخاطر. يمكن تحديد هذا التأثير بسهولة باستخدام دورة حياة البيانات التي تم التقاطها بواسطة كتالوج Unity.
- ضمان جودة البيانات: يوفر فهم مصدر مجموعة البيانات وما هي التحويلات التي تم تطبيقها سياقا أفضل بكثير لعلماء البيانات والمحللين، ما يمكنهم من الحصول على رؤى أفضل وأكثر دقة.
- تصحيح الأخطاء والتشخيص: في حالة حدوث نتيجة غير متوقعة، تساعد دورة حياة البيانات فرق البيانات على إجراء تحليل السبب الجذري عن طريق تتبع الخطأ مرة أخرى إلى مصدره. وهذا يقلل بشكل كبير من وقت استكشاف الأخطاء وإصلاحها.
يلتقط كتالوج Unity دورة حياة بيانات وقت التشغيل عبر الاستعلامات التي تعمل على Azure Databricks وأيضا دورة حياة النموذج. دورة حياة البيانات معتمدة لجميع اللغات ويتم التقاطها وصولا إلى مستوى العمود. تتضمن بيانات دورة حياة البيانات دفاتر الملاحظات والوظائف ولوحات المعلومات المتعلقة بالاستعلام. يمكن تصور دورة حياة البيانات في الوقت الفعلي تقريبا في مستكشف الكتالوج والوصول إليها باستخدام Databricks'Data Lineage REST API.
إضافة أوصاف متناسقة إلى بيانات التعريف الخاصة بك
توفر الأوصاف سياقا أساسيا للبيانات. فهي تساعد المستخدمين على فهم الغرض من جداول البيانات والأعمدة ومحتواها. يسمح لهم هذا الوضوح باكتشاف البيانات التي يحتاجونها وتحديدها وتصفيتها بسهولة أكبر، وهو أمر بالغ الأهمية لتحليل البيانات الفعالة واتخاذ القرارات. يمكن أن تتضمن الأوصاف حساسية البيانات ومعلومات التوافق. يساعد هذا المؤسسات على تلبية المتطلبات القانونية والتنظيمية لخصوصية البيانات وأمانها. يجب أن تتضمن الأوصاف أيضا معلومات حول مصدر البيانات ودقتها وملاءمتها. يساعد هذا على ضمان تكامل البيانات ويعزز تعاونا أفضل عبر الفرق.
تدعم ميزتان رئيسيتان في كتالوج Unity وصف الجداول والأعمدة. يسمح كتالوج Unity ب
إضافة تعليقات إلى الجداول والأعمدة في شكل تعليقات.
يمكنك أيضا إضافة تعليق تم إنشاؤه الذكاء الاصطناعي لأي عمود جدول أو جدول تتم إدارته بواسطة كتالوج Unity لتسريع العملية. ومع ذلك، الذكاء الاصطناعي النماذج ليست دائما دقيقة ويجب مراجعة التعليقات قبل الحفظ. توصي Databricks بشدة بالمراجعة البشرية للتعليقات التي تم إنشاؤها الذكاء الاصطناعي للتحقق من عدم الدقة.
إضافة علامات إلى أي قابل للتأمين في كتالوج Unity. العلامات هي سمات ذات مفاتيح وقيم اختيارية يمكنك تطبيقها على كائنات مختلفة قابلة للتأمين في كتالوج Unity. يعد وضع العلامات مفيدا لتنظيم وتصنيف الكائنات المختلفة القابلة للتأمين داخل metastore. كما أن استخدام العلامات يسهل البحث عن أصول البيانات واكتشافها.
السماح باكتشاف البيانات بسهولة لمستهلكي البيانات
يتيح اكتشاف البيانات السهل لعلماء البيانات ومحللي البيانات ومهندسي البيانات اكتشاف البيانات ذات الصلة والإشارة إليها بسرعة وتسريع الوقت لتحقيق القيمة.
يوفر Databricks Catalog Explorer واجهة مستخدم لاستكشاف وإدارة البيانات والمخططات (قواعد البيانات) والجداول والأذونات ومالكي البيانات والمواقع الخارجية وبيانات الاعتماد. بالإضافة إلى ذلك، يمكنك استخدام علامة التبويب Insights في مستكشف الكتالوج لعرض أحدث الاستعلامات ومستخدمي أي جدول مسجل في كتالوج Unity.
التحكم في الأصول الذكاء الاصطناعي مع البيانات
أصبحت العلاقة بين إدارة البيانات والذكاء الاصطناعي (الذكاء الاصطناعي) حاسمة للنجاح. تؤثر كيفية إدارة المؤسسات للبيانات وتأمينها واستخدامها بشكل مباشر على نتائج واعتبارات عمليات التنفيذ الذكاء الاصطناعي: لا يمكنك الحصول على الذكاء الاصطناعي بدون بيانات عالية الجودة، ولا يمكنك الحصول على بيانات عالية الجودة بدون إدارة البيانات.
يؤدي التحكم في البيانات الذكاء الاصطناعي معا إلى تحسين أداء الذكاء الاصطناعي من خلال ضمان الوصول السلس إلى البيانات عالية الجودة والمحدثة، مما يؤدي إلى تحسين الدقة وتحسين اتخاذ القرارات. يؤدي تقسيم المستودعات إلى زيادة الكفاءة من خلال تمكين تعاون أفضل وتبسيط مهام سير العمل، ما يؤدي إلى زيادة الإنتاجية وخفض التكاليف.
يعد تحسين أمان البيانات ميزة أخرى، حيث يؤسس نهج الحوكمة الموحد ممارسات متسقة لمعالجة البيانات، ويقلل من الثغرات الأمنية ويحسن قدرة المؤسسة على حماية المعلومات الحساسة. من الأسهل الحفاظ على الامتثال للوائح خصوصية البيانات عند دمج البيانات وإدارة الذكاء الاصطناعي، حيث تتم مواءمة معالجة البيانات وعمليات الذكاء الاصطناعي مع المتطلبات التنظيمية.
وبشكل عام، يعزز نهج الحوكمة الموحد الثقة بين أصحاب المصلحة ويضمن الشفافية في عمليات صنع القرار الذكاء الاصطناعي من خلال وضع سياسات وإجراءات واضحة لكل من البيانات الذكاء الاصطناعي.
في Databricks Data Intelligence Platform، يعد كتالوج Unity المكون المركزي لإدارة كل من البيانات والأصول الذكاء الاصطناعي:
-
في مساحات العمل الممكنة في كتالوج Unity، يمكن لعلماء البيانات إنشاء جداول ميزات في كتالوج Unity. جداول الميزات هذه هي جداول Delta أو Delta Live Tables التي يديرها كتالوج Unity.
-
توسع النماذج في كتالوج Unity فوائد كتالوج Unity لتشمل نماذج التعلم الآلي، بما في ذلك التحكم المركزي في الوصول والتدقيق والنسل واكتشاف النموذج عبر مساحات العمل. تتضمن الميزات الرئيسية للنماذج في كتالوج Unity حوكمة النماذج، نسب النماذج الزمنية، وتعيين إصدار النموذج، ونشر النموذج عبر الأسماء المستعارة.
2. توحيد البيانات والأمان الذكاء الاصطناعي
مركزية التحكم في الوصول لجميع البيانات والأصول الذكاء الاصطناعي
يعد مركزية التحكم في الوصول لجميع أصول البيانات أمرا مهما لأنه يبسط أمان وإدارة بياناتك وأصول الذكاء الاصطناعي من خلال توفير مكان مركزي لإدارة الوصول إلى هذه الأصول وتدقيعها. يساعد هذا النهج في إدارة البيانات الذكاء الاصطناعي الوصول إلى الكائنات بكفاءة أكبر، وضمان فرض المتطلبات التشغيلية حول الفصل بين الواجبات، وهو أمر بالغ الأهمية للامتثال التنظيمي وتجنب المخاطر.
يوفر Databricks Data Intelligence Platform أساليب التحكم في الوصول إلى البيانات التي تصف المجموعات أو الأفراد الذين يمكنهم الوصول إلى البيانات. هذه هي عبارات النهج التي يمكن أن تكون دقيقة للغاية ومحددة، وصولا إلى تعريف كل سجل يمكن لكل فرد الوصول إليه. أو يمكن أن تكون معبرة جدا وواسعة، مثل جميع المستخدمين الماليين يمكنهم رؤية جميع البيانات المالية.
يقوم كتالوج Unity بمركزية عناصر التحكم في الوصول لجميع الكائنات القابلة للتأمين المدعومة مثل الجداول والملفات والنماذج وغيرها الكثير. كل كائن قابل للتأمين في كتالوج Unity لديه مالك. يمتلك مالك العنصر جميع الامتيازات على الكائن، بالإضافة إلى القدرة على منح امتيازات على الكائن القابل للتأمين لكيانات أخرى. يسمح لك كتالوج Unity بإدارة الامتيازات وتكوين التحكم في الوصول باستخدام عبارات SQL DDL.
يستخدم كتالوج Unity عوامل تصفية الصفوف وأقنعة الأعمدة للتحكم في الوصول الدقيق. تسمح لك عوامل تصفية الصفوف بتطبيق عامل تصفية على جدول بحيث تقوم الاستعلامات اللاحقة بإرجاع الصفوف التي يتم تقييم دالة تقييم عامل التصفية لها إلى true فقط. تسمح لك أقنعة الأعمدة بتطبيق دالة إخفاء على عمود جدول. يتم تقييم دالة الإخفاء في وقت تشغيل الاستعلام، واستبدال كل مرجع للعمود الهدف بنتائج دالة الإخفاء.
لمزيد من المعلومات، راجع الأمان والتوافق والخصوصية - إدارة الهوية والوصول باستخدام أقل امتياز.
تكوين سجلات التدقيق
يعد تسجيل التدقيق مهما لأنه يوفر حسابا مفصلا لأنشطة النظام (إجراءات المستخدم والتغييرات في الإعدادات وما إلى ذلك) التي يمكن أن تؤثر على تكامل النظام. بينما تم تصميم سجلات النظام القياسية لمساعدة المطورين على استكشاف المشكلات وإصلاحها، توفر سجلات التدقيق سجلا تاريخيا للنشاط لأغراض الامتثال وأغراض إنفاذ نهج الأعمال الأخرى. يمكن أن يساعد الحفاظ على سجلات تدقيق قوية في تحديد وضمان الاستعداد في مواجهة التهديدات والخروقات والاحتيال ومشكلات النظام الأخرى.
يوفر Databricks الوصول إلى سجلات التدقيق للأنشطة التي يقوم بها مستخدمو Databricks، ما يسمح لمؤسستك بمراقبة أنماط استخدام Databricks التفصيلية. هناك نوعان من السجلات، سجلات التدقيق على مستوى مساحة العمل مع أحداث على مستوى مساحة العمل وسجلات التدقيق على مستوى الحساب مع أحداث على مستوى الحساب.
يمكنك أيضا تمكين سجلات التدقيق المطولة هي سجلات تدقيق إضافية مسجلة كلما تم تشغيل استعلام أو أمر في مساحة العمل الخاصة بك.
تدقيق أحداث النظام الأساسي للبيانات
يعد تسجيل التدقيق مهما لأنه يوفر حسابا مفصلا لأنشطة النظام. يحتوي النظام الأساسي للمعلومات عن البيانات على سجلات تدقيق للوصول إلى بيانات التعريف (ومن ثم الوصول إلى البيانات) ومشاركة البيانات:
- يلتقط كتالوج Unity سجل تدقيق للإجراءات التي تم تنفيذها مقابل metastore. وهذا يمكن المسؤولين من الوصول إلى تفاصيل دقيقة حول من قام بالوصول إلى مجموعة بيانات معينة والإجراءات التي قاموا بتنفيذها.
- للمشاركة الآمنة مع Delta Sharing، يوفر Azure Databricks سجلات تدقيق لمراقبة أحداث Delta Sharing، بما في ذلك:
- عندما يقوم شخص ما بإنشاء مشاركة أو مستلم أو تعديله أو تحديثه أو حذفه.
- عندما يصل المستلم إلى ارتباط تنشيط وينزل بيانات الاعتماد.
- عندما يصل المستلم إلى المشاركات أو البيانات في الجداول المشتركة.
- عند تدوير بيانات اعتماد المستلم أو انتهاء صلاحيتها.
3. وضع معايير جودة البيانات
يوفر Databricks Data Intelligence Platform إدارة قوية لجودة البيانات مع ضوابط الجودة المضمنة والاختبار والمراقبة والإنفاذ لضمان توفر بيانات دقيقة ومفيدة لأحمال عمل المعلومات المهنية والتحليلات والتعلم الآلي المتلقين للمعلومات.
يمكن رؤية تفاصيل التنفيذ في الموثوقية - إدارة جودة البيانات.
تحديد معايير جودة البيانات الواضحة
يعد تحديد معايير جودة البيانات الواضحة والقابلة للتنفيذ أمرا بالغ الأهمية، لأنه يساعد على ضمان أن البيانات المستخدمة للتحليل وإعداد التقارير واتخاذ القرارات موثوقة وجديرة بالثقة. يساعد توثيق هذه المعايير على ضمان تمسكها. يجب أن تستند معايير جودة البيانات إلى الاحتياجات المحددة للأعمال ويجب أن تعالج أبعاد جودة البيانات مثل الدقة والاكتمال والاتساق وحسن التوقيت والموثوقية:
- الدقة: تأكد من أن البيانات تعكس قيم العالم الحقيقي بدقة.
- الاكتمال: يجب التقاط جميع البيانات الضرورية ويجب ألا تكون هناك بيانات هامة مفقودة.
- الاتساق: يجب أن تكون البيانات عبر جميع الأنظمة متسقة ولا تتعارض مع البيانات الأخرى.
- التوقيت المناسب: يجب تحديث البيانات وإتاحتها في الوقت المناسب.
- الموثوقية: يجب الحصول على البيانات ومعالجتها بطريقة تضمن موثوقيتها.
استخدام أدوات جودة البيانات ل جمع البيانات وتنقيتها والتحقق من صحتها ومراقبتها
الاستفادة من أدوات جودة البيانات من أجل جمع البيانات وتنقيتها والتحقق من صحتها ومراقبتها. تساعد هذه الأدوات في أتمتة عمليات الكشف عن مشكلات جودة البيانات وتصحيحها، وهو أمر حيوي لتوسيع نطاق مبادرات جودة البيانات عبر مجموعات البيانات الكبيرة النموذجية في مستودعات البيانات
بالنسبة للفرق التي تستخدم DLT، يمكنك استخدام التوقعات لتحديد قيود جودة البيانات على محتويات مجموعة البيانات. تسمح لك التوقعات بضمان أن البيانات التي تصل إلى الجداول تفي بمتطلبات جودة البيانات وتوفر رؤى حول جودة البيانات لكل تحديث للبنية الأساسية لبرنامج ربط العمليات التجارية.
تنفيذ وفرض تنسيقات وتعريفات البيانات الموحدة
تساعد تنسيقات وتعريفات البيانات الموحدة على تحقيق تمثيل متسق للبيانات عبر جميع الأنظمة لتسهيل تكامل البيانات وتحليلها، وخفض التكاليف، وتحسين اتخاذ القرارات من خلال تعزيز الاتصال والتعاون عبر الفرق والإدارات. كما أنه يساعد على توفير بنية لإنشاء جودة البيانات والحفاظ عليها.
تطوير وفرض قاموس بيانات قياسي يتضمن تعريفات وتنسيقات وقيم مقبولة لجميع عناصر البيانات المستخدمة عبر المؤسسة.
استخدم اصطلاحات تسمية متسقة وتنسيقات التاريخ ووحدات القياس عبر جميع قواعد البيانات والتطبيقات لمنع التناقضات والارتباك.