إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تقدم هذه المقالة المفاهيم الأساسية التي تحتاج إلى فهمها من أجل استخدام Azure Databricks بشكل فعال.
الحسابات ومساحات العمل
في Azure Databricks، مساحة العمل هي نشر Azure Databricks في السحابة التي تعمل كبيئة لفريقك للوصول إلى أصول Databricks. يمكن لمؤسستك اختيار أن يكون لها مساحات عمل متعددة أو مساحة عمل واحدة فقط، اعتمادا على احتياجاتها.
يمثل حساب Azure Databricks كيانا واحدا يمكن أن يتضمن مساحات عمل متعددة. يمكن استخدام الحسابات الممكنة ل Unity Catalog لإدارة المستخدمين ووصولهم إلى البيانات مركزيا عبر جميع مساحات العمل في الحساب.
الفوترة: وحدات Databricks (وحدات DBUs)
فواتير Azure Databricks استنادا إلى وحدات Databricks (DBUs)، وهي وحدات قدرة المعالجة في الساعة استنادا إلى نوع مثيل الجهاز الظاهري.
راجع صفحة تسعير Azure Databricks.
المصادقة والتخويل
يصف هذا القسم المفاهيم التي تحتاج إلى معرفتها عند إدارة هويات Azure Databricks ووصولها إلى أصول Azure Databricks.
المستخدم
فرد فريد لديه حق الوصول إلى النظام. يتم تمثيل هويات المستخدم بواسطة عناوين البريد الإلكتروني. راجع إدارة المستخدمين.
كيان الخدمة
هوية خدمة للاستخدام مع الوظائف والأدوات التلقائية والأنظمة مثل البرامج النصية والتطبيقات وأنظمة CI/CD الأساسية. يتم تمثيل كيانات الخدمة بواسطة معرف تطبيق. راجع إدارة كيانات الخدمة.
Group (المجموعة)
مجموعة من الهويات. تعمل المجموعات على تبسيط إدارة الهوية، مما يسهل تعيين الوصول إلى مساحات العمل والبيانات والكائنات الأخرى القابلة للتأمين. يمكن تعيين جميع هويات Databricks كأعضاء في المجموعات. راجع إدارة المجموعات.
قائمة التحكم بالوصول (ACL)
قائمة بالأذونات المرفقة بمساحة العمل أو نظام المجموعة أو الوظيفة أو الجدول أو التجربة. يحدد ACL المستخدمين أو عمليات النظام التي يتم منحها حق الوصول إلى الكائنات، بالإضافة إلى العمليات المسموح بها على الأصول. يحدد كل إدخال في قائمة التحكم بالوصول النموذجية موضوعا وتشغيلا. راجع قوائم التحكم بالوصول.
رمز الوصول الشخصي (PAT)
الرمز المميز للوصول الشخصي هو سلسلة تستخدم لمصادقة مكالمات REST API واتصالات شركاء التكنولوجيا والأدوات الأخرى. راجع مصادقة الرمز المميز للوصول الشخصي ل Azure Databricks.
يمكن أيضا استخدام الرموز المميزة لمعرف Microsoft Entra للمصادقة على واجهة برمجة تطبيقات REST.
واجهات Azure Databricks
يصف هذا القسم واجهات الوصول إلى أصولك في Azure Databricks.
واجهة المستخدم
واجهة مستخدم Azure Databricks هي واجهة رسومية للتفاعل مع الميزات، مثل مجلدات مساحة العمل والكائنات المضمنة وكائنات البيانات والموارد الحسابية.
واجهة برمجة تطبيقات REST
توفر Databricks REST API نقاط نهاية لتعديل أو طلب معلومات حول حساب Azure Databricks وعناصر مساحة العمل. راجع مرجع الحساب ومرجع مساحة العمل.
واجهة برمجة تطبيقات SQL REST
تسمح لك واجهة برمجة تطبيقات SQL REST بأتمتة المهام على كائنات SQL. راجع واجهة برمجة تطبيقات SQL.
CLI
تتم استضافة Databricks CLI على GitHub. تم إنشاء CLI أعلى Databricks REST API.
إدارة البيانات
يصف هذا القسم الكائنات المنطقية التي تخزن البيانات التي تغذيها في خوارزميات التعلم الآلي والتي تقوم بإجراء التحليلات عليها. كما يصف واجهة المستخدم في النظام الأساسي لاستكشاف كائنات البيانات وإدارتها.
كتالوج Unity
كتالوج Unity هو حل حوكمة موحد للبيانات والأصول الذكاء الاصطناعي على Azure Databricks الذي يوفر إمكانات مركزية للتحكم في الوصول والتدقيق والنسل واكتشاف البيانات عبر مساحات عمل Databricks. راجع ما هو كتالوج Unity؟.
جذر DBFS
هام
تخزين البيانات والوصول إليها باستخدام جذر DBFS أو عمليات تحميل DBFS هو نمط مهمل ولا ينصح به Databricks. بدلا من ذلك، توصي Databricks باستخدام كتالوج Unity لإدارة الوصول إلى جميع البيانات. راجع ما هو كتالوج Unity؟.
جذر DBFS هو موقع تخزين متاح لجميع المستخدمين بشكل افتراضي. راجع ما هو DBFS؟.
مستكشف الكتالوج
يسمح لك مستكشف الكتالوج باستكشاف البيانات والأصول الذكاء الاصطناعي وإدارتها، بما في ذلك المخططات (قواعد البيانات) والجداول والنماذج ووحدات التخزين (البيانات غير الجدولية) والوظائف ونماذج التعلم الآلي المسجلة. يمكنك استخدامه للعثور على كائنات البيانات ومالكيها، وفهم علاقات البيانات عبر الجداول، وإدارة الأذونات والمشاركة. راجع ما هو مستكشف الكتالوج؟.
قاعدة البيانات
مجموعة من كائنات البيانات، مثل الجداول أو طرق العرض والوظائف، التي يتم تنظيمها بحيث يمكن الوصول إليها وإدارتها وتحديثها بسهولة. راجع ما هي المخططات في Azure Databricks؟
جدول
تمثيل للبيانات المنظمة. يمكنك الاستعلام عن الجداول باستخدام واجهات برمجة تطبيقات Apache Spark SQL وApache Spark. راجع ما هي الجداول وطرق العرض؟.
جدول Delta
بشكل افتراضي، جميع الجداول التي تم إنشاؤها في Azure Databricks هي جداول دلتا. تستند جداول Delta إلى مشروع Delta Lake مصدر مفتوح، وهو إطار عمل لتخزين جدول ACID عالي الأداء عبر مخازن الكائنات السحابية. يخزن جدول Delta البيانات كدليل للملفات على تخزين كائن السحابة ويسجل بيانات تعريف الجدول إلى metastore داخل كتالوج ومخطط.
تعرف على المزيد حول التقنيات التي تحمل علامة Delta.
Metastore
المكون الذي يخزن جميع معلومات البنية للجداول والأقسام المختلفة في مستودع البيانات بما في ذلك معلومات نوع العمود والعمود، والمتسلسلات وإلغاء التسلسلات اللازمة لقراءة البيانات وكتابتها، والملفات المقابلة حيث يتم تخزين البيانات. راجع Metastores
يحتوي كل توزيع Azure Databricks على مخزن بيانات تعريف Apache Hive مركزي يمكن الوصول إليه من قبل جميع المجموعات لاستمرار بيانات تعريف الجدول. لديك أيضا خيار استخدام Hive metastore خارجي موجود.
إدارة الحساب
يصف هذا القسم المفاهيم التي تحتاج إلى معرفتها لتشغيل الحسابات في Azure Databricks.
نظام المجموعة
مجموعة من موارد الحساب والتكوينات التي تقوم بتشغيل دفاتر الملاحظات والوظائف عليها. هناك نوعان من المجموعات: جميع الأغراض والوظيفة. راجع الحساب.
- يمكنك إنشاء نظام مجموعة لجميع الأغراض باستخدام واجهة المستخدم أو CLI أو واجهة برمجة تطبيقات REST. يمكنك إنهاء نظام مجموعة لجميع الأغراض وإعادة تشغيله يدويا. يمكن للعديد من المستخدمين مشاركة أنظمة المجموعات هذه للقيام بتحليل تفاعلي تعاوني.
- يقوم مجدول وظيفة Azure Databricks بإنشاء مجموعة مهام عند تشغيل وظيفة على مجموعة مهام جديدة وإنهاء المجموعة عند اكتمال المهمة. لا يمكنك إعادة تشغيل نظام مجموعة مهام.
المجموعة
مجموعة من المثيلات الخاملة الجاهزة للاستخدام التي تقلل من أوقات بدء المجموعة والتحجيم التلقائي. عند إرفاقها بتجمع، يخصص نظام المجموعة عقد برنامج التشغيل والعامل الخاصة به من التجمع. راجع مرجع تكوين التجمع.
إذا لم يكن لدى التجمع موارد الخامة كافية لاستيعاب طلب نظام المجموعة، يتم توسيع التجمع عن طريق تخصيص مثيلات جديدة من موفر المثيل. عند إنهاء مجموعة مرفقة، يتم إرجاع المثيلات التي استخدمتها إلى التجمع ويمكن إعادة استخدامها بواسطة نظام مجموعة مختلف.
وقت تشغيل Databricks
مجموعة المكونات الأساسية التي تعمل على المجموعات التي تديرها Azure Databricks. راجع الحساب. يحتوي Azure Databricks على أوقات التشغيل التالية:
- يتضمن وقت تشغيل Databricks Apache Spark ولكنه يضيف أيضا عددا من المكونات والتحديثات التي تحسن بشكل كبير من إمكانية استخدام تحليلات البيانات الضخمة وأدائها وأمانها.
- تم إنشاء وقت تشغيل Databricks التعلم الآلي على Databricks Runtime ويوفر بنية أساسية للتعلم الآلي تم إنشاؤها مسبقا ومتكاملة مع جميع قدرات مساحة عمل Azure Databricks. يحتوي على مكتبات شائعة متعددة، بما في ذلك TensorFlow وKeras وPyTorch وXGBoost.
مهام سير العمل
توفر واجهة مستخدم مساحة عمل مهام سير العمل إدخالا إلى الوظائف وDLT Pipelines UIs، وهي أدوات تسمح لك بتنسيق مهام سير العمل وجدولتها.
المهام
آلية غير تفاعلية لتنسيق وجدولة دفاتر الملاحظات والمكتبات والمهام الأخرى. راجع جدولة مهام سير العمل وتنسيقها
التدفقات
توفر خطوط أنابيب Delta Live Tables إطارا تعريفيا لبناء مسارات معالجة بيانات موثوقة وقابلة للصيانة وقابلة للاختبار. راجع ما هي جداول Delta Live؟.
حمل العمل
حمل العمل هو مقدار إمكانية المعالجة اللازمة لتنفيذ مهمة أو مجموعة من المهام. يحدد Azure Databricks نوعين من أحمال العمل: هندسة البيانات (الوظيفة) وتحليلات البيانات (جميع الأغراض).
- هندسة البيانات يتم تشغيل حمل العمل (التلقائي) على مجموعة مهام يقوم مجدول مهام Azure Databricks بإنشائها لكل حمل عمل.
- تحليلات البيانات يتم تشغيل حمل العمل (التفاعلي) على نظام مجموعة لجميع الأغراض. عادة ما تقوم أحمال العمل التفاعلية بتشغيل الأوامر داخل دفتر ملاحظات Azure Databricks. ومع ذلك، يتم أيضا التعامل مع تشغيل وظيفة على مجموعة موجودة لجميع الأغراض على أنها حمل عمل تفاعلي.
سياق التنفيذ
حالة بيئة حلقة القراءة-التقييم-الطباعة (REPL) لكل لغة برمجة مدعومة. اللغات المدعومة هي Python وR وSc scala وSQL.
هندسة البيانات
تساعد أدوات هندسة البيانات على التعاون بين علماء البيانات ومهندسي البيانات ومحللي البيانات ومهندسي التعلم الآلي.
مساحة عمل
مساحة العمل هي بيئة للوصول إلى جميع أصول Azure Databricks. تنظم مساحة العمل الكائنات (دفاتر الملاحظات والمكتبات ولوحات المعلومات والتجارب) في مجلدات وتوفر الوصول إلى كائنات البيانات والموارد الحسابية.
دفتر
واجهة مستندة إلى الويب لإنشاء مهام سير عمل علم البيانات والتعلم الآلي التي يمكن أن تحتوي على أوامر وتصورات ونص سردي قابل للتشغيل. راجع مقدمة إلى دفاتر ملاحظات Databricks.
مكتبة
حزمة من التعليمات البرمجية المتوفرة لدفتر الملاحظات أو الوظيفة التي تعمل على نظام المجموعة. تتضمن أوقات تشغيل Databricks العديد من المكتبات، ويمكنك أيضا تحميل مكتباتك الخاصة. راجع المكتبات.
مجلد Git (المعروف سابقا ب Repos)
مجلد يتم نسخ محتوياته معا عن طريق مزامنتها إلى مستودع Git بعيد. تتكامل مجلدات Databricks Git مع Git لتوفير التحكم في المصدر والإصدار لمشاريعك.
الذكاء الاصطناعي والتعلم الآلي
توفر Databricks بيئة متكاملة شاملة مع خدمات مدارة لتطوير ونشر تطبيقات الذكاء الاصطناعي والتعلم الآلي.
الذكاء الاصطناعي الفسيفساء
اسم العلامة التجارية للمنتجات والخدمات من Databricks Mosaic الذكاء الاصطناعي Research، وهو فريق من الباحثين والمهندسين المسؤولين عن أكبر اختراقات Databricks في الذكاء الاصطناعي التوليدية. تشمل منتجات الذكاء الاصطناعي الفسيفساء ميزات التعلم الآلي الذكاء الاصطناعي في Databricks. راجع أبحاث الفسيفساء.
وقت تشغيل التعلم الآلي
لمساعدتك على تطوير نماذج التعلم الآلي الذكاء الاصطناعي، يوفر Databricks وقت تشغيل Databricks التعلم الآلي، والذي يقوم بأتمتة إنشاء الحوسبة باستخدام التعلم الآلي المبني مسبقا والبنية الأساسية للتعلم العميق بما في ذلك مكتبات التعلم الآلي وDL الأكثر شيوعا. كما أنه يحتوي على دعم وحدة معالجة الرسومات مضمن ومكون مسبقا بما في ذلك برامج التشغيل والمكتبات الداعمة. استعرض للحصول على معلومات حول أحدث إصدارات وقت التشغيل من إصدارات ملاحظات وقت تشغيل Databricks والتوافق.
التجربة
يتم تشغيل مجموعة من MLflow لتدريب نموذج التعلم الآلي. راجع تنظيم عمليات تشغيل التدريب باستخدام تجارب MLflow.
الميزات
الميزات هي مكون مهم من نماذج التعلم الآلي. يتيح مخزن الميزات مشاركة الميزات واكتشافها عبر مؤسستك ويضمن أيضا استخدام نفس التعليمات البرمجية لحساب الميزة لتدريب النموذج والاستدلال عليه. راجع هندسة الميزات وخدمتها.
نماذج GenAI
تدعم Databricks استكشاف وتطوير ونشر نماذج الذكاء الاصطناعي التوليدية، بما في ذلك:
- الذكاء الاصطناعي الملعب، بيئة تشبه الدردشة في مساحة العمل حيث يمكنك اختبار LLMs ومطالبتها ومقارنتها. راجع الدردشة مع LLMs والنموذج الأولي لتطبيقات GenAI باستخدام الذكاء الاصطناعي Playground.
- مجموعة مضمنة من نماذج الأساس المكونة مسبقا التي يمكنك الاستعلام منها:
- راجع واجهات برمجة تطبيقات نموذج أساس الدفع لكل رمز مميز.
- راجع [مستحسن] نشر نماذج الأساس من كتالوج Unity للنماذج الأساسية التي يمكنك تقديمها بنقرة واحدة.
- LLMs مستضافة من جهة خارجية، تسمى نماذج خارجية. تهدف هذه النماذج إلى استخدامها كما هي.
- قدرات لتخصيص نموذج أساسي لتحسين أدائه لتطبيقك المحدد (غالبا ما يسمى الضبط الدقيق). راجع ضبط نموذج الأساس.
سجل النموذج
يوفر Databricks إصدارا مستضافا من سجل نموذج MLflow في كتالوج Unity. ترث النماذج المسجلة في كتالوج Unity التحكم المركزي في الوصول والنسل واكتشاف مساحة العمل والوصول إليها. راجع إدارة دورة حياة النموذج في كتالوج Unity.
خدمة النموذج
توفر خدمة نموذج الفسيفساء الذكاء الاصطناعي واجهة موحدة لنشر نماذج الذكاء الاصطناعي وإدارتها والاستعلام فيها. يتوفر كل نموذج تخدمه كواجهة برمجة تطبيقات REST يمكنك دمجها في تطبيق الويب أو العميل. باستخدام الفسيفساء الذكاء الاصطناعي Model Serving، يمكنك نشر نماذجك أو نماذجك الأساسية أو نماذج الجهات الخارجية المستضافة خارج Databricks. راجع خدمة النموذج مع Azure Databricks.
تخزين البيانات
يشير تخزين البيانات إلى جمع البيانات وتخزينها من مصادر متعددة بحيث يمكن الوصول إليها بسرعة للحصول على نتائج تحليلات الأعمال وإعداد التقارير. Databricks SQL هو مجموعة من الخدمات التي تجلب قدرات تخزين البيانات والأداء إلى مستودعات البيانات الحالية. راجع ما هو تخزين البيانات على Azure Databricks؟.
الاستعلام
الاستعلام عبارة SQL صالحة تسمح لك بالتفاعل مع بياناتك. يمكنك تأليف الاستعلامات باستخدام محرر SQL في النظام الأساسي، أو الاتصال باستخدام موصل SQL أو برنامج تشغيل أو واجهة برمجة تطبيقات. راجع الوصول إلى الاستعلامات المحفوظة وإدارتها لمعرفة المزيد حول كيفية العمل مع الاستعلامات.
مستودع SQL
مورد حساب تقوم بتشغيل استعلامات SQL عليه. هناك ثلاثة أنواع من مستودعات SQL: الكلاسيكية والمحترفين وبلا خادم. توصي Azure Databricks باستخدام مستودعات بلا خادم عند توفرها. راجع أنواع مستودعات SQL لمقارنة الميزات المتوفرة لكل نوع مستودع.
محفوظات الاستعلام
قائمة بالاستعلامات المنفذة وخصائص أدائها. تسمح لك محفوظات الاستعلام بمراقبة أداء الاستعلام، مما يساعدك على تحديد الاختناقات وتحسين أوقات تشغيل الاستعلام. راجع محفوظات الاستعلام.
الرسوم المرئية
عرض تقديمي رسومي لنتيجة تشغيل استعلام. راجع المرئيات في دفاتر ملاحظات Databricks.
لوحة المعلومات
عرض لتصورات البيانات والتعليق. يمكنك استخدام لوحات المعلومات لإرسال التقارير تلقائيا إلى أي شخص في حساب Azure Databricks الخاص بك. استخدم مساعد Databricks لمساعدتك في إنشاء مرئيات استنادا إلى مطالبات langauge الطبيعية. راجع لوحات المعلومات. يمكنك أيضا إنشاء لوحة معلومات من دفتر ملاحظات. راجع لوحات المعلومات في دفاتر الملاحظات.
للحصول على لوحات المعلومات القديمة، راجع لوحات المعلومات القديمة.
هام
- توصي Databricks باستخدام لوحات معلومات الذكاء الاصطناعي/BI (المعروفة سابقا بلوحات معلومات Lakeview). تسمى الإصدارات السابقة من لوحات المعلومات، التي يشار إليها سابقا باسم لوحات معلومات Databricks SQL الآن لوحات المعلومات القديمة. لا توصي Databricks بإنشاء لوحات معلومات قديمة جديدة.
- تحويل لوحات المعلومات القديمة باستخدام أداة الترحيل أو REST API. راجع استنساخ لوحة معلومات قديمة إلى لوحة معلومات الذكاء الاصطناعي/BI للحصول على إرشادات حول استخدام أداة الترحيل المضمنة. راجع البرامج التعليمية للوحة المعلومات للحصول على برامج تعليمية حول إنشاء لوحات المعلومات وإدارتها باستخدام واجهة برمجة تطبيقات REST.