كائنات قاعدة البيانات في Azure Databricks

يستخدم Azure Databricks كائنين أساسيين قابلين للتأمين لتخزين البيانات والوصول إليها.

  • تتحكم الجداول في الوصول إلى البيانات الجدولية.
  • تحكم وحدات التخزين الوصول إلى البيانات غير الجدولية.

توضح هذه المقالة كيفية ارتباط كائنات قاعدة البيانات هذه بكتالوجات ومخططات وطرق عرض وعناصر قاعدة بيانات أخرى في Azure Databricks. توفر هذه المقالة أيضا مقدمة عالية المستوى حول كيفية عمل كائنات قاعدة البيانات في سياق بنية النظام الأساسي الشاملة.

ما هي كائنات قاعدة البيانات في Azure Databricks؟

كائنات قاعدة البيانات هي كيانات تساعدك على تنظيم البيانات والوصول إليها والتحكم فيها. يستخدم Azure Databricks تسلسلا هرميا من ثلاثة مستويات لتنظيم كائنات قاعدة البيانات:

  1. الكتالوج: تحتوي حاوية المستوى الأعلى على مخططات. راجع ما هي الكتالوجات في Azure Databricks؟.
  2. المخطط أو قاعدة البيانات: يحتوي على كائنات بيانات. راجع ما هي المخططات في Azure Databricks؟.
  3. كائنات البيانات التي يمكن تضمينها في مخطط:

رسم تخطيطي لنموذج كائن كتالوج Unity

يتم تسجيل الكتالوجات في metastore الذي تتم إدارته على مستوى الحساب. يتفاعل المسؤولون فقط مباشرة مع metastore. راجع Metastores.

يوفر Azure Databricks أصولا إضافية للعمل مع البيانات، وكلها قابلة للتحكم باستخدام عناصر التحكم في الوصول على مستوى مساحة العمل أو كتالوج Unity، حل إدارة بيانات Databricks:

  • أصول البيانات على مستوى مساحة العمل، مثل دفاتر الملاحظات وسير العمل والاستعلامات.
  • كائنات Unity Catalog القابلة للتأمين مثل بيانات اعتماد التخزين ومشاركات Delta Sharing، والتي تتحكم في المقام الأول في الوصول إلى التخزين أو المشاركة الآمنة.

لمزيد من المعلومات، راجع كائنات قاعدة البيانات مقابل أصول البيانات القابلة للتأمين لمساحة العمل وبيانات الاعتماد والبنية الأساسية القابلة للتأمين لكتالوج Unity.

إدارة الوصول إلى كائنات قاعدة البيانات باستخدام كتالوج Unity

يمكنك منح الوصول إلى كائنات قاعدة البيانات وإبطاله على أي مستوى في التسلسل الهرمي، بما في ذلك metastore نفسه. يمنح الوصول إلى كائن ضمنيا نفس الوصول إلى كافة توابع هذا الكائن، ما لم يتم إبطال الوصول.

يمكنك استخدام أوامر ANSI SQL النموذجية لمنح وإبطال الوصول إلى الكائنات في كتالوج Unity. يمكنك أيضا استخدام مستكشف الكتالوج لإدارة امتيازات كائن البيانات المستندة إلى واجهة المستخدم.

لمزيد من المعلومات حول تأمين الكائنات في كتالوج Unity، راجع الكائنات القابلة للتأمين في كتالوج Unity.

أذونات الكائن الافتراضية في كتالوج Unity

اعتمادا على كيفية إنشاء مساحة العمل وتمكينها ل Unity Catalog، قد يكون لدى المستخدمين أذونات افتراضية على الكتالوجات التي تم توفيرها تلقائيا، بما في main ذلك الكتالوج أو كتالوج مساحة العمل (<workspace-name>). لمزيد من المعلومات، راجع امتيازات المستخدم الافتراضية.

إذا تم تمكين مساحة العمل الخاصة بك ل Unity Catalog يدويا، فإنها تتضمن مخططا افتراضيا مسمى default في الكتالوج main الذي يمكن لجميع المستخدمين في مساحة العمل الوصول إليه. إذا تم تمكين مساحة العمل الخاصة بك ل "كتالوج Unity" تلقائيا وتتضمن كتالوج، يحتوي هذا الكتالوج <workspace-name> على مخطط مسمى default يمكن لجميع المستخدمين في مساحة العمل الوصول إليه.

كائنات قاعدة البيانات مقابل أصول البيانات القابلة للتأمين لمساحة العمل

يسمح لك Azure Databricks بإدارة العديد من هندسة البيانات والتحليلات وML والأصول الذكاء الاصطناعي جنبا إلى جنب مع كائنات قاعدة البيانات الخاصة بك. لا تقوم بتسجيل أصول البيانات هذه في كتالوج Unity. بدلا من ذلك، تتم إدارة هذه الأصول على مستوى مساحة العمل، باستخدام قوائم التحكم للتحكم في الأذونات. تتضمن أصول البيانات هذه ما يلي:

  • دفاتر الملاحظات
  • لوحات المعلومات
  • مهام سير العمل
  • ملفات مساحة العمل
  • استعلامات SQL
  • التجارب

تحتوي معظم أصول البيانات على منطق يتفاعل مع كائنات قاعدة البيانات للاستعلام عن البيانات أو استخدام الوظائف أو تسجيل النماذج أو المهام الشائعة الأخرى. لمعرفة المزيد حول تأمين أصول بيانات مساحة العمل، راجع قوائم التحكم في الوصول.

إشعار

يخضع الوصول إلى الحوسبة لقوائم التحكم في الوصول. يمكنك تكوين الحساب باستخدام وضع الوصول ويمكنك إضافة أذونات سحابية إضافية، والتي تتحكم في كيفية وصول المستخدمين إلى البيانات. توصي Databricks باستخدام نهج الحوسبة وتقييد امتيازات إنشاء نظام المجموعة كأفضل ممارسة لإدارة البيانات. راجع أوضاع الوصول.

بيانات الاعتماد والبنية الأساسية القابلة للتأمين في كتالوج Unity

يدير كتالوج Unity الوصول إلى تخزين الكائنات السحابية ومشاركة البيانات واتحاد الاستعلام باستخدام كائنات قابلة للتأمين مسجلة على مستوى metastore. فيما يلي أوصاف موجزة لهذه الكائنات غير القابلة للتأمين للبيانات.

توصيل كتالوج Unity بتخزين كائن السحابة

يجب تحديد بيانات اعتماد التخزين والمواقع الخارجية لإنشاء موقع تخزين مدار جديد أو لتسجيل جداول خارجية أو وحدات تخزين خارجية. يتم تسجيل هذه الكائنات القابلة للتأمين في كتالوج Unity:

  • بيانات اعتماد التخزين: بيانات اعتماد سحابية طويلة الأجل توفر الوصول إلى التخزين السحابي.
  • الموقع الخارجي: مرجع إلى مسار تخزين كائن سحابي يمكن الوصول إليه باستخدام بيانات اعتماد التخزين المقترنة.

راجع الاتصال بوحدة تخزين الكائنات باستخدام كتالوج Unity.

مشاركة دلتا

يسجل Azure Databricks العناصر القابلة للتأمين لمشاركة دلتا التالية في كتالوج Unity:

  • المشاركة: مجموعة للقراءة فقط من الجداول ووحدات التخزين وأصول البيانات الأخرى.
  • الموفر: المؤسسة أو الكيان الذي يشارك البيانات. في نموذج مشاركة Databricks-to-Databricks، يتم تسجيل الموفر في مخزن بيانات تعريف كتالوج Unity الخاص بالمستلم ككيان فريد تم تحديده بواسطة معرف metastore الخاص به.
  • المستلم: الكيان الذي يتلقى مشاركات من موفر. في نموذج مشاركة Databricks-to-Databricks، يتم تحديد المستلم للموفر بواسطة معرف metastore الفريد الخاص به.

راجع مشاركة البيانات والأصول الذكاء الاصطناعي بأمان باستخدام Delta Sharing.

Lakehouse Federation

يسمح لك Lakehouse Federation بإنشاء كتالوجات أجنبية لتوفير الوصول للقراءة فقط إلى البيانات الموجودة في أنظمة أخرى مثل PostgreSQL وMySQL و Snowflake. يجب تحديد اتصال بالنظام الخارجي لإنشاء كتالوجات خارجية.

الاتصال: يحدد كائن Unity Catalog القابل للتأمين مسارا وبيانات اعتماد للوصول إلى نظام قاعدة بيانات خارجي في سيناريو Lakehouse Federation.

انظر ما هو اتحاد ليكهاوس.

مواقع التخزين المدارة لوحدات التخزين والجداول المدارة

عند إنشاء جداول ووحدات تخزين Azure Databricks، يكون لديك خيار جعلها مدارة أو خارجية. يدير كتالوج Unity الوصول إلى الجداول ووحدات التخزين الخارجية من Azure Databricks ولكنه لا يتحكم في الملفات الأساسية أو يدير موقع تخزين تلك الملفات بالكامل. من ناحية أخرى، تتم إدارة الجداول ووحدات التخزين المدارة بالكامل بواسطة كتالوج Unity ويتم تخزينها في موقع تخزين مدار مقترن بالمخطط المحتوي. راجع تحديد موقع تخزين مدار في كتالوج Unity.

توصي Databricks بوحدات التخزين المدارة والجداول المدارة لمعظم أحمال العمل، لأنها تبسط التكوين والتحسين والحوكمة.

كتالوج Unity مقابل Hive metastore القديم

توصي Databricks باستخدام كتالوج Unity لتسجيل كافة كائنات قاعدة البيانات وإدارتها، ولكنها توفر أيضا دعما قديما لمخزن بيانات Hive لإدارة المخططات والجداول وطرق العرض والوظائف.

إذا كنت تتفاعل مع كائنات قاعدة البيانات المسجلة باستخدام Hive metastore، فشاهد كائنات قاعدة البيانات في Hive metastore القديم.