ما هو كتالوج Unity؟
تقدم هذه المقالة كتالوج Unity، وهو حل حوكمة موحد للبيانات والأصول الذكاء الاصطناعي على Azure Databricks.
إشعار
يتوفر كتالوج Unity أيضا كتنفيذ مفتوح المصدر. راجع مدونة الإعلان وم مستودع GitHub كتالوج Unity العام.
نظرة عامة على كتالوج Unity
يوفر كتالوج Unity إمكانية مركزية للتحكم في الوصول والتدقيق والنسل واكتشاف البيانات عبر مساحات عمل Azure Databricks.
تتضمن الميزات الرئيسية في كتالوج Unity ما يلي:
- تحديد مرة واحدة وآمنة في كل مكان: يوفر كتالوج Unity مكانا واحدا لإدارة نهج الوصول إلى البيانات التي تنطبق عبر جميع مساحات العمل.
- نموذج الأمان المتوافق مع المعايير: يستند نموذج أمان كتالوج Unity إلى ANSI SQL القياسي ويسمح للمسؤولين بمنح أذونات في مستودع البيانات الحالي باستخدام بناء جملة مألوف، على مستوى الكتالوجات والمخططات (تسمى أيضا قواعد البيانات) والجداول وطرق العرض.
- التدقيق المضمن و دورة حياة البيانات: يلتقط كتالوج Unity تلقائيا سجلات التدقيق على مستوى المستخدم التي تسجل الوصول إلى بياناتك. يلتقط كتالوج Unity أيضا بيانات دورة حياة البيانات التي تتعقب كيفية إنشاء أصول البيانات واستخدامها عبر جميع اللغات.
- اكتشاف البيانات: يتيح لك كتالوج Unity وضع علامة على أصول البيانات وتوثيقها، ويوفر واجهة بحث لمساعدة مستهلكي البيانات في العثور على البيانات.
- جداول النظام (معاينة عامة): يتيح لك كتالوج Unity الوصول بسهولة إلى البيانات التشغيلية لحسابك والاستعلام عنها، بما في ذلك سجلات التدقيق والاستخدام القابل للفوترة و دورة حياة البيانات.
نموذج كائن كتالوج Unity
في كتالوج Unity، يتم تسجيل جميع بيانات التعريف في مخزن بيانات التعريف. يتم تقسيم التسلسل الهرمي لكائنات قاعدة البيانات في أي مخزن بيانات تعريف كتالوج Unity إلى ثلاثة مستويات، يتم تمثيلها كمساحة اسم من ثلاثة مستويات (catalog.schema.table-etc
) عند الرجوع إلى الجداول وطرق العرض ووحدات التخزين والنماذج والوظائف.
المخازن الوصفية
مخزن التعريف هو حاوية المستوى الأعلى لبيانات التعريف في كتالوج Unity. يسجل بيانات التعريف حول البيانات والأصول الذكاء الاصطناعي والأذونات التي تحكم الوصول إليها. لكي تستخدم مساحة العمل كتالوج Unity، يجب أن تحتوي على مخزن بيانات تعريف كتالوج Unity مرفق.
يجب أن يكون لديك مخزن بيانات تعريف واحد لكل منطقة يكون لديك فيها مساحات عمل. كيف يتم إرفاق مساحة عمل بمخزن بيانات التعريف؟ راجع كيف أعمل إعداد كتالوج Unity لمؤسستي؟.
التسلسل الهرمي للكائنات في metastore
في مخزن بيانات تعريف كتالوج Unity، يتكون التسلسل الهرمي لكائنات قاعدة البيانات المكونة من ثلاثة مستويات من كتالوجات تحتوي على مخططات، والتي بدورها تحتوي على بيانات وعناصر الذكاء الاصطناعي، مثل الجداول والنماذج.
المستوى الأول:
- تستخدم الكتالوجات لتنظيم أصول البيانات وتستخدم عادة كمستوى أعلى في نظام عزل البيانات. غالبا ما تعكس الكتالوجات الوحدات التنظيمية أو نطاقات دورة حياة تطوير البرامج. راجع ما هي الكتالوجات في Azure Databricks؟.
- يتم استخدام الكائنات غير القابلة للتأمين للبيانات، مثل بيانات اعتماد التخزين والمواقع الخارجية، لإدارة نموذج إدارة البيانات في كتالوج Unity. تعيش هذه أيضا مباشرة تحت metastore. يتم وصفها بمزيد من التفصيل في كائنات أخرى قابلة للتأمين.
المستوى الثاني:
- تحتوي المخططات (المعروفة أيضا باسم قواعد البيانات) على جداول وطرق عرض ووحدات تخزين ونماذج الذكاء الاصطناعي ووظائف. تنظم المخططات البيانات الذكاء الاصطناعي الأصول في فئات منطقية أكثر دقة من الكتالوجات. عادة ما يمثل المخطط حالة استخدام واحدة أو مشروع أو بيئة الاختبار المعزولة للفريق. راجع ما هي المخططات في Azure Databricks؟.
المستوى الثالث:
- وحدات التخزين هي وحدات تخزين منطقية من البيانات غير المنظمة وغير الجدولية في تخزين الكائنات السحابية. يمكن إدارة وحدات التخزين، مع إدارة كتالوج Unity لدورة الحياة الكاملة والتخطيط للبيانات في التخزين، أو خارجي، مع كتالوج Unity الذي يدير الوصول إلى البيانات من داخل Azure Databricks، ولكن لا يدير الوصول إلى البيانات في التخزين السحابي من عملاء آخرين. راجع ما هي وحدات تخزين كتالوج Unity؟ والجداول ووحدات التخزين المدارة مقابل الخارجية.
- الجداول هي مجموعات من البيانات منظمة حسب الصفوف والأعمدة. يمكن إدارة الجداول، مع إدارة كتالوج Unity لدورة الحياة الكاملة للجدول، أو خارجي، مع كتالوج Unity الذي يدير الوصول إلى البيانات من داخل Azure Databricks، ولكن لا يدير الوصول إلى البيانات في التخزين السحابي من عملاء آخرين. راجع ما هي الجداول وطرق العرض؟ والجداول ووحدات التخزين المدارة مقابل الخارجية.
- طرق العرض هي استعلامات محفوظة مقابل جدول واحد أو أكثر. راجع ما هي طريقة العرض؟.
- الدالات هي وحدات من المنطق المحفوظ الذي يرجع قيمة عددية أو مجموعة من الصفوف. راجع الدالات المعرفة من قبل المستخدم (UDFs) في كتالوج Unity.
- النماذج هي نماذج الذكاء الاصطناعي مجمعة مع MLflow ومسجلة في كتالوج Unity كوظائف. راجع إدارة دورة حياة النموذج في كتالوج Unity.
العمل مع كائنات قاعدة البيانات في كتالوج Unity
العمل مع كائنات قاعدة البيانات في كتالوج Unity مشابه جدا للعمل مع كائنات قاعدة البيانات المسجلة في Hive metastore، باستثناء أن Hive metastore لا يتضمن كتالوجات في مساحة اسم الكائن. يمكنك استخدام بناء جملة ANSI المألوف لإنشاء كائنات قاعدة بيانات وإدارة كائنات قاعدة البيانات وإدارة الأذونات والعمل مع البيانات في كتالوج Unity. يمكنك أيضا إنشاء كائنات قاعدة البيانات وإدارة كائنات قاعدة البيانات وإدارة الأذونات على كائنات قاعدة البيانات باستخدام واجهة مستخدم مستكشف الكتالوج.
لمزيد من المعلومات، راجع كائنات قاعدة البيانات في Azure Databricks والعمل مع كتالوج Unity ومخزن بيانات Hive القديم.
كائنات أخرى قابلة للتأمين
بالإضافة إلى كائنات قاعدة البيانات والأصول الذكاء الاصطناعي الموجودة في المخططات، يحكم كتالوج Unity أيضا الوصول إلى البيانات باستخدام الكائنات القابلة للتأمين التالية:
بيانات اعتماد التخزين، التي تغلف بيانات اعتماد سحابية طويلة الأجل توفر الوصول إلى التخزين السحابي. راجع إنشاء بيانات اعتماد تخزين للاتصال ب Azure Data Lake Storage Gen2.
المواقع الخارجية، التي تحتوي على مرجع إلى بيانات اعتماد تخزين ومسار تخزين سحابي. يمكن استخدام المواقع الخارجية لإنشاء جداول خارجية أو لتعيين موقع تخزين مدار للجداول ووحدات التخزين المدارة. راجع إنشاء موقع خارجي لتوصيل التخزين السحابي ب Azure Databricks، وعزل البيانات باستخدام التخزين المدار، وتحديد موقع تخزين مدار في كتالوج Unity.
الاتصالات، التي تمثل بيانات الاعتماد التي تمنح حق الوصول للقراءة فقط إلى قاعدة بيانات خارجية في نظام قاعدة بيانات مثل MySQL باستخدام Lakehouse Federation. راجع Lakehouse Federation وUnity Catalog وما هو Lakehouse Federation؟.
الغرف النظيفة، التي تمثل بيئة مدارة بواسطة Databricks حيث يمكن للعديد من المشاركين التعاون في المشاريع دون مشاركة البيانات الأساسية مع بعضهم البعض. راجع ما هي غرف Azure Databricks النظيفة؟.
المشاركات، وهي كائنات Delta Sharing التي تمثل مجموعة بيانات للقراءة فقط وأصول الذكاء الاصطناعي يشاركها موفر البيانات مع مستلم واحد أو أكثر.
المستلمون، وهم كائنات Delta Sharing التي تمثل كيانا يتلقى مشاركات من موفر بيانات.
الموفرون، وهم كائنات Delta Sharing التي تمثل كيانا يشارك البيانات مع مستلم.
لمزيد من المعلومات حول الكائنات القابلة للتأمين لمشاركة دلتا، راجع ما المقصود بمشاركة دلتا؟.
منح وإبطال الوصول إلى كائنات قاعدة البيانات والكائنات الأخرى القابلة للتأمين في كتالوج Unity
يمكنك منح وإبطال الوصول إلى الكائنات القابلة للتأمين على أي مستوى في التسلسل الهرمي، بما في ذلك metastore نفسه. يمنح الوصول إلى كائن ضمنيا نفس الوصول إلى كافة توابع هذا الكائن، ما لم يتم إبطال الوصول.
يمكنك استخدام أوامر ANSI SQL النموذجية لمنح وإبطال الوصول إلى الكائنات في كتالوج Unity. على سبيل المثال:
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
يمكنك أيضا استخدام مستكشف الكتالوج وDatabricks CLI وواجهات برمجة تطبيقات REST لإدارة أذونات الكائن.
لمعرفة كيفية إدارة الامتيازات في كتالوج Unity، راجع إدارة الامتيازات في كتالوج Unity.
الوصول الافتراضي إلى كائنات قاعدة البيانات في كتالوج Unity
يعمل كتالوج Unity على مبدأ الامتياز الأقل، حيث يكون لدى المستخدمين الحد الأدنى من الوصول الذي يحتاجون إليه لأداء المهام المطلوبة. عند إنشاء مساحة عمل، يكون للمستخدمين غير المسؤولين حق الوصول فقط إلى كتالوج مساحة العمل الذي تم توفيره تلقائيا، ما يجعل هذا الكتالوج مكانا مناسبا للمستخدمين لتجربة عملية إنشاء كائنات قاعدة البيانات والوصول إليها في كتالوج Unity. راجع امتيازات كتالوج مساحة العمل.
أدوار المسؤول
يتمتع مسؤولو مساحة العمل ومسؤولو الحساب بامتيازات إضافية بشكل افتراضي. مسؤول Metastore هو دور اختياري، مطلوب إذا كنت تريد إدارة تخزين الجدول ومستوى الصوت على مستوى metastore، ومريح إذا كنت تريد إدارة البيانات مركزيا عبر مساحات عمل متعددة في منطقة ما. لمزيد من المعلومات، راجع امتيازات المسؤول في كتالوج Unity و (اختياري) قم بتعيين دور مسؤول metastore.
الجداول ووحدات التخزين المدارة مقابل الخارجية
يمكن إدارة الجداول ووحدات التخزين أو خارجها.
- تتم إدارة الجداول المدارة بالكامل بواسطة كتالوج Unity، ما يعني أن كتالوج Unity يدير كلا من الحوكمة وملفات البيانات الأساسية لكل جدول مدار. يتم تخزين الجداول المدارة في موقع مدار بواسطة كتالوج Unity في التخزين السحابي. تستخدم الجداول المدارة دائما تنسيق Delta Lake. يمكنك تخزين الجداول المدارة على مستويات metastore أو الكتالوج أو المخطط.
- الجداول الخارجية هي جداول تتم إدارة وصولها من Azure Databricks بواسطة كتالوج Unity، ولكن تتم إدارة دورة حياة البيانات وتخطيط الملف باستخدام موفر السحابة ومنصات البيانات الأخرى. عادة ما تستخدم الجداول الخارجية لتسجيل كميات كبيرة من البيانات الموجودة في Azure Databricks، أو إذا كنت تحتاج أيضا إلى الوصول للكتابة إلى البيانات باستخدام أدوات خارج Azure Databricks. يتم اعتماد الجداول الخارجية بتنسيقات بيانات متعددة. بمجرد تسجيل جدول خارجي في مخزن بيانات تعريف كتالوج Unity، يمكنك إدارة ومراجعة وصول Azure Databricks إليه - والعمل معه - تماما كما يمكنك مع الجداول المدارة.
- تتم إدارة وحدات التخزين المدارة بالكامل بواسطة كتالوج Unity، ما يعني أن كتالوج Unity يدير الوصول إلى موقع تخزين وحدة التخزين في حساب موفر السحابة الخاص بك. عند إنشاء وحدة تخزين مدارة، يتم تخزينها تلقائيا في موقع التخزين المدار المعين للمخطط المحتوي.
- تمثل وحدات التخزين الخارجية البيانات الموجودة في مواقع التخزين التي تتم إدارتها خارج Azure Databricks، ولكنها مسجلة في كتالوج Unity للتحكم في الوصول والتدقيق من داخل Azure Databricks. عند إنشاء وحدة تخزين خارجية في Azure Databricks، يمكنك تحديد موقعه، والذي يجب أن يكون على مسار تم تعريفه في موقع خارجي لكتالوج Unity.
توصي Databricks بالجداول ووحدات التخزين المدارة للاستفادة الكاملة من إمكانات حوكمة كتالوج Unity وتحسينات الأداء.
راجع العمل مع الجداول المدارة والعمل مع الجداول الخارجية ووحدات التخزين المدارة مقابل وحدات التخزين الخارجية.
عزل البيانات باستخدام التخزين المدار
قد تتطلب مؤسستك تخزين بيانات أنواع معينة داخل حسابات أو مستودعات معينة في مستأجر السحابة الخاص بك.
يمنح كتالوج Unity القدرة على تكوين مواقع التخزين على مستوى metastore أو الكتالوج أو المخطط لتلبية مثل هذه المتطلبات. يقيم النظام التسلسل الهرمي لمواقع التخزين من المخطط إلى الكتالوج إلى metastore.
على سبيل المثال، لنفترض أن مؤسستك لديها نهج توافق مع الشركة يتطلب وجود بيانات الإنتاج المتعلقة بالموارد البشرية في الحاوية abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net. في كتالوج Unity، يمكنك تحقيق هذا المطلب عن طريق تعيين موقع على مستوى الكتالوج، وإنشاء كتالوج يسمى، على سبيل المثال hr_prod
، وتعيين الموقع abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog إليه. وهذا يعني أن الجداول أو وحدات التخزين المدارة التي تم إنشاؤها في الكتالوج hr_prod
(على سبيل المثال، باستخدام CREATE TABLE hr_prod.default.table …
) تخزن بياناتها في abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. اختياريا، يمكنك اختيار توفير مواقع على مستوى المخطط لتنظيم البيانات داخل hr_prod catalog
على مستوى أكثر دقة.
إذا لم يكن عزل التخزين مطلوبا لبعض الكتالوجات، يمكنك اختياريا تعيين موقع تخزين على مستوى metastore. يعمل هذا الموقع كموقع افتراضي للجداول ووحدات التخزين المدارة في الكتالوجات والمخططات التي لم يتم تعيين مساحة تخزين لها. ومع ذلك، يوصي Databricks عادة بتعيين مواقع تخزين مدارة منفصلة لكل كتالوج.
لمزيد من المعلومات، راجع تحديد موقع تخزين مدار في كتالوج Unity ويتم فصل البيانات فعليا في التخزين.
ربط كتالوج مساحة العمل
بشكل افتراضي، يمكن لمالكي الكتالوجات (ومسؤولي metastore، إذا تم تعريفهم للحساب) تسهيل وصول المستخدمين إلى كتالوج في مساحات عمل متعددة مرفقة بنفس مخزن بيانات تعريف كتالوج Unity. إذا كنت تستخدم مساحات العمل لعزل الوصول إلى بيانات المستخدم، ومع ذلك، قد تحتاج إلى تقييد الوصول إلى الكتالوج إلى مساحات عمل معينة في حسابك، للتأكد من معالجة أنواع معينة من البيانات فقط في مساحات العمل هذه. قد تحتاج إلى مساحات عمل منفصلة للإنتاج والتطوير، على سبيل المثال، أو مساحة عمل منفصلة لمعالجة البيانات الشخصية. يعرف هذا باسم ربط كتالوج مساحة العمل. راجع تقييد وصول الكتالوج إلى مساحات عمل معينة.
إشعار
لزيادة عزل البيانات، يمكنك أيضا ربط الوصول إلى التخزين السحابي بمساحات عمل محددة. راجع (اختياري) تعيين بيانات اعتماد تخزين لمساحات عمل معينة و (اختياري) تعيين موقع خارجي لمساحات عمل معينة.
تدقيق الوصول إلى البيانات
يلتقط كتالوج Unity سجل تدقيق للإجراءات التي تم تنفيذها مقابل metastore، ما يمكن المسؤولين من الوصول إلى تفاصيل دقيقة حول من قام بالوصول إلى مجموعة بيانات معينة والإجراءات التي نفذوها.
يمكنك الوصول إلى سجلات تدقيق حسابك باستخدام جداول النظام التي يديرها كتالوج Unity.
راجع تدقيق أحداث كتالوج Unity وأحداث كتالوج Unity ومراقبة الاستخدام باستخدام جداول النظام.
تعقب دورة حياة البيانات
يمكنك استخدام كتالوج Unity لالتقاط دورة حياة بيانات وقت التشغيل عبر الاستعلامات بأي لغة يتم تنفيذها على مجموعة Azure Databricks أو مستودع SQL. يتم التقاط دورة حياة البيانات وصولا إلى مستوى العمود، وتتضمن دفاتر الملاحظات والوظائف ولوحات المعلومات المتعلقة بالاستعلام. لمعرفة المزيد، راجع التقاط دورة حياة البيانات وعرضها باستخدام كتالوج Unity.
Lakehouse Federation وUnity Catalog
Lakehouse Federation هو النظام الأساسي لاتحاد الاستعلامات ل Azure Databricks. يصف مصطلح اتحاد الاستعلام مجموعة من الميزات التي تمكن المستخدمين والأنظمة من تشغيل الاستعلامات مقابل مصادر بيانات متعددة منعزلة دون الحاجة إلى ترحيل جميع البيانات إلى نظام موحد.
يستخدم Azure Databricks كتالوج Unity لإدارة اتحاد الاستعلام. يمكنك استخدام كتالوج Unity لتكوين اتصالات للقراءة فقط بأنظمة قواعد البيانات الخارجية الشائعة وإنشاء كتالوجات خارجية تعكس قواعد البيانات الخارجية. تضمن أدوات إدارة البيانات و دورة حياة البيانات في كتالوج Unity إدارة الوصول إلى البيانات وتدقيعها لجميع الاستعلامات الموحدة التي أجراها المستخدمون في مساحات عمل Azure Databricks.
راجع ما هو Lakehouse Federation؟.
Delta Sharing وDatabricks Marketplace وUnity Catalog
Delta Sharing هو نظام أساسي آمن لمشاركة البيانات يتيح لك مشاركة البيانات والأصول الذكاء الاصطناعي مع مستخدمين من خارج مؤسستك، سواء استخدم هؤلاء المستخدمون Databricks أم لا. على الرغم من أن Delta Sharing متاح كتنفيذ مفتوح المصدر، فإنه في Databricks يتطلب كتالوج Unity الاستفادة الكاملة من الوظائف الموسعة. راجع ما المقصود بمشاركة دلتا؟.
تم إنشاء Databricks Marketplace، وهو منتدى مفتوح لتبادل منتجات البيانات، على رأس Delta Sharing، وعلى هذا النحو، يجب أن يكون لديك مساحة عمل ممكنة لكتالوج Unity لتكون موفر Marketplace. راجع ما هو Databricks Marketplace؟.
كيف أعمل إعداد كتالوج Unity لمؤسستي؟
لاستخدام كتالوج Unity، يجب تمكين مساحة عمل Azure Databricks كتالوج Unity، ما يعني أن مساحة العمل مرفقة بمخزن بيانات تعريف كتالوج Unity.
كيف يتم إرفاق مساحة عمل بمخزن بيانات التعريف؟ يعتمد ذلك على الحساب ومساحة العمل:
- عادة، عند إنشاء مساحة عمل Azure Databricks في منطقة للمرة الأولى، يتم إنشاء metastore تلقائيا وإرفاقه بمساحة العمل.
- بالنسبة لبعض الحسابات القديمة، يجب على مسؤول الحساب إنشاء metastore وتعيين مساحات العمل في تلك المنطقة إلى metastore. للحصول على الإرشادات، راجع إنشاء مخزن بيانات تعريف كتالوج Unity.
- إذا كان الحساب يحتوي بالفعل على metastore معين لمنطقة ما، يمكن لمسؤول الحساب أن يقرر ما إذا كان سيرفق metastore تلقائيا بجميع مساحات العمل الجديدة في تلك المنطقة. راجع تمكين metastore ليتم تعيينه تلقائيا إلى مساحات عمل جديدة.
سواء تم تمكين مساحة العمل الخاصة بك كتالوج Unity تلقائيا أم لا، فإن الخطوات التالية مطلوبة أيضا لبدء استخدام كتالوج Unity:
- إنشاء كتالوجات ومخططات لاحتواء كائنات قاعدة البيانات مثل الجداول ووحدات التخزين.
- إنشاء مواقع تخزين مدارة لتخزين الجداول ووحدات التخزين المدارة في هذه الكتالوجات والمخططات.
- امنح المستخدم حق الوصول إلى الكتالوجات والمخططات وعناصر قاعدة البيانات.
توفر مساحات العمل التي يتم تمكينها تلقائيا ل Unity Catalog كتالوج مساحة عمل بامتيازات واسعة الممنوحة لجميع مستخدمي مساحة العمل. هذا الكتالوج هو نقطة بداية ملائمة لتجربة كتالوج Unity.
للحصول على إرشادات الإعداد التفصيلية، راجع إعداد كتالوج Unity وإدارته.
ترحيل مساحة عمل موجودة إلى كتالوج Unity
إذا كانت لديك مساحة عمل قديمة قمت بتمكينها مؤخرا لكتالوج Unity، فمن المحتمل أن يكون لديك بيانات مدارة بواسطة Hive metastore القديم. يمكنك العمل مع تلك البيانات جنبا إلى جنب مع البيانات المسجلة في كتالوج Unity، ولكن تم إهمال Metastore القديم ل Hive، ويجب عليك ترحيل البيانات في Hive metastore إلى كتالوج Unity في أقرب وقت ممكن للاستفادة من قدرات الحوكمة المتفوقة والأداء في كتالوج Unity.
يتضمن الترحيل ما يلي:
- تحويل أي مجموعات مساحة عمل محلية إلى مجموعات على مستوى الحساب. يقوم كتالوج Unity بمركزية إدارة الهوية على مستوى الحساب.
- ترحيل الجداول وطرق العرض المدارة في Hive metastore إلى كتالوج Unity.
- قم بتحديث الاستعلامات والمهام للإشارة إلى جداول كتالوج Unity الجديدة بدلا من جداول Hive metastore القديمة.
يمكن أن يساعدك ما يلي في إدارة الترحيل:
يوفر UCX، وهو مشروع Databricks Labs، أدوات تساعدك على ترقية مساحة العمل غير الخاصة بك في كتالوج Unity إلى كتالوج Unity. UCX هو خيار جيد للترحيل على نطاق أوسع. راجع استخدام الأدوات المساعدة UCX لترقية مساحة العمل إلى كتالوج Unity.
إذا كان لديك عدد أقل من الجداول لترحيلها، يوفر Azure Databricks معالج واجهة المستخدم والأوامر SQL التي يمكنك استخدامها. راجع ترقية جداول Hive وطرق العرض إلى كتالوج Unity.
لمعرفة كيفية استخدام الجداول في Hive metastore جنبا إلى جنب مع كائنات قاعدة البيانات في كتالوج Unity في نفس مساحة العمل، راجع العمل مع كتالوج Unity و Hive metastore القديم.
متطلبات وقيود كتالوج Unity
يتطلب كتالوج Unity أنواعا محددة من تنسيقات الحوسبة والملفات، الموضحة أدناه. كما يرد أدناه بعض ميزات Azure Databricks غير المدعومة بالكامل في كتالوج Unity على جميع إصدارات وقت تشغيل Databricks.
دعم المنطقة
تدعم جميع المناطق كتالوج Unity. للحصول على التفاصيل، راجع مناطق Azure Databricks.
متطلبات الحساب
يتم دعم كتالوج Unity على المجموعات التي تقوم بتشغيل Databricks Runtime 11.3 LTS أو أعلى. يتم دعم كتالوج Unity بشكل افتراضي على جميع إصدارات حساب مستودع SQL.
لا توفر المجموعات التي تعمل على الإصدارات السابقة من Databricks Runtime الدعم لجميع ميزات ووظائف GA لكتالوج Unity.
للوصول إلى البيانات في كتالوج Unity، يجب تكوين المجموعات باستخدام وضع الوصول الصحيح. كتالوج Unity آمن بشكل افتراضي. إذا لم يتم تكوين نظام مجموعة باستخدام وضع الوصول المشترك أو الفردي للمستخدم، فلن يتمكن نظام المجموعة من الوصول إلى البيانات في كتالوج Unity. راجع أوضاع الوصول.
للحصول على معلومات مفصلة حول تغييرات وظائف كتالوج Unity في كل إصدار من إصدارات وقت تشغيل Databricks، راجع ملاحظات الإصدار.
تختلف قيود كتالوج Unity حسب وضع الوصول وإصدار وقت تشغيل Databricks. راجع قيود وضع الوصول إلى الحساب لكتالوج Unity.
دعم تنسيق الملف
يدعم كتالوج Unity تنسيقات الجدول التالية:
- يجب أن تستخدم الجداول المدارة
delta
تنسيق الجدول. - يمكن أن تستخدم الجداول الخارجية أو
CSV
أوJSON
أوparquet
avro
ORC
text
.delta
القيود
يحتوي كتالوج Unity على القيود التالية. بعض هذه خاصة بإصدارات وقت تشغيل Databricks القديمة وأوضاع الوصول إلى الحوسبة.
تحتوي أحمال عمل الدفق المنظم على قيود إضافية، اعتمادا على وقت تشغيل Databricks ووضع الوصول. راجع قيود وضع الوصول إلى الحساب لكتالوج Unity.
تصدر Databricks وظائف جديدة تتقلص هذه القائمة بانتظام.
لا يمكن استخدام المجموعات التي تم إنشاؤها مسبقا في مساحة عمل (أي مجموعات على مستوى مساحة العمل) في عبارات كتالوج
GRANT
Unity. هذا لضمان عرض متناسق للمجموعات التي يمكن أن تمتد عبر مساحات العمل. لاستخدام المجموعات فيGRAN
عبارات T، قم بإنشاء مجموعاتك على مستوى الحساب وتحديث أي أتمتة لإدارة المجموعة أو الأساسية (مثل موصلات SCIM و Okta وMicrosoft Entra ID وTerraform) للإشارة إلى نقاط نهاية الحساب بدلا من نقاط نهاية مساحة العمل. راجع الفرق بين مجموعات الحسابات والمجموعات المحلية لمساحة العمل.لا تدعم أحمال العمل في R استخدام طرق العرض الديناميكية للأمان على مستوى الصف أو مستوى العمود على حساب تشغيل Databricks Runtime 15.3 والإصدارات أدناه.
استخدم مورد حساب مستخدم واحد يقوم بتشغيل Databricks Runtime 15.4 LTS أو أعلى لأحمال العمل في R التي تستعلم عن طرق العرض الديناميكية. تتطلب أحمال العمل هذه أيضا مساحة عمل ممكنة للحساب بلا خادم. للحصول على التفاصيل، راجع التحكم في الوصول الدقيق على حساب مستخدم واحد.
النسخ الضحلة غير مدعومة في كتالوج Unity على حساب تشغيل Databricks Runtime 12.2 LTS وما دونه. يمكنك استخدام المستنسخات الضحلة لإنشاء جداول مدارة على Databricks Runtime 13.3 LTS وما فوق. لا يمكنك استخدامها لإنشاء جداول خارجية، بغض النظر عن إصدار Databricks Runtime. راجع استنساخ سطحي لجداول كتالوج Unity.
التجميع غير معتمد لجداول كتالوج Unity. إذا قمت بتشغيل الأوامر التي تحاول إنشاء جدول مستودع في كتالوج Unity، فسيطرح استثناء.
يمكن أن تؤدي الكتابة إلى نفس المسار أو جدول Delta Lake من مساحات العمل في مناطق متعددة إلى أداء غير موثوق به إذا كانت بعض المجموعات تصل إلى كتالوج Unity والبعض الآخر لا.
أنظمة الأقسام المخصصة التي تم إنشاؤها باستخدام أوامر مثل
ALTER TABLE ADD PARTITION
غير مدعومة للجداول في كتالوج Unity. يمكن للكتالوج Unity الوصول إلى الجداول التي تستخدم تقسيم نمط الدليل.يتم دعم وضع الكتابة فوق لعمليات الكتابة DataFrame في كتالوج Unity فقط لجداول Delta، وليس لتنسيقات الملفات الأخرى. يجب أن يكون لدى المستخدم الامتياز
CREATE
على المخطط الأصل ويجب أن يكون مالك الكائن الموجود أو أن يكون لديه الامتيازMODIFY
على الكائن.Python UDFs غير مدعومة في Databricks Runtime 12.2 LTS والإدناه. وهذا يشمل UDAFs وUDTFs وPandas على Spark (
applyInPandas
وmapInPandas
). يتم دعم Python scalar UDFs في Databricks Runtime 13.3 LTS وما فوق.Scala UDFs غير مدعومة في Databricks Runtime 14.1 والإدناه على المجموعات المشتركة. يتم دعم Scala UDFs العددية في Databricks Runtime 14.2 وما فوق على المجموعات المشتركة.
تجمعات مؤشرات ترابط Scala القياسية غير مدعومة. بدلا من ذلك، استخدم تجمعات مؤشرات الترابط الخاصة في
org.apache.spark.util.ThreadUtils
، على سبيل المثال،org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool
. ومع ذلك، فإن تجمعات مؤشرات الترابط التالية فيThreadUtils
غير مدعومة:ThreadUtils.newForkJoinPool
وأيScheduledExecutorService
تجمع مؤشر ترابط.يتم دعم تسجيل التدقيق لأحداث كتالوج Unity على مستوى مساحة العمل فقط. لا يتم تسجيل الأحداث التي تحدث على مستوى الحساب دون الرجوع إلى مساحة عمل، مثل إنشاء metastore.
النماذج المسجلة في كتالوج Unity لها قيود إضافية. راجع القيود.
حصص الموارد النسبية
يفرض كتالوج Unity حصص الموارد النسبية على جميع الكائنات القابلة للتأمين. يتم سرد هذه الحصص النسبية في حدود الموارد. إذا كنت تتوقع تجاوز حدود الموارد هذه، فاتصل بفريق حساب Azure Databricks.
يمكنك مراقبة استخدام الحصة النسبية باستخدام واجهات برمجة تطبيقات الحصص النسبية لمورد كتالوج Unity. راجع مراقبة استخدامك لحصص موارد كتالوج Unity.