الاتصال ب dbt Core
يشرح هذا الفن ما هو dbt، وكيفية تثبيت dbt Core، وكيفية الاتصال. يتوفر أيضا الإصدار المستضاف من dbt، والذي يسمى dbt Cloud. لمزيد من المعلومات، راجع الاتصال ب dbt Cloud.
ما هو dbt؟
dbt (أداة بناء البيانات) هي بيئة تطوير لتحويل البيانات عن طريق كتابة عبارات محددة. يحول dbt عبارات التحديد هذه إلى جداول وطرق عرض. تقوم dbt بتجميع التعليمات البرمجية الخاصة بك إلى SQL الخام ثم تشغل هذه التعليمة البرمجية على قاعدة البيانات المحددة في Azure Databricks. يدعم dbt أنماط الترميز التعاونية وأفضل الممارسات، بما في ذلك التحكم في الإصدار والوثائق والنمطية.
لا يقوم dbt باستخراج البيانات أو تحميلها. يركز dbt على خطوة التحويل فقط، باستخدام بنية "التحويل بعد التحميل". يفترض dbt أن لديك بالفعل نسخة من بياناتك في قاعدة البيانات الخاصة بك.
تمكنك dbt Core من كتابة تعليمة dbt البرمجية في IDE الذي تختاره على جهاز التطوير المحلي ثم تشغيل dbt من سطر الأوامر. يتضمن dbt Core واجهة سطر أوامر dbt (CLI). dbt CLI مجاني للاستخدام مصدر مفتوح.
يمكن ل dbt Core (وdbt Cloud) استخدام مستودعات git المستضافة. لمزيد من المعلومات، راجع إنشاء مشروع dbt واستخدام مشروع موجود على موقع dbt على الويب.
متطلبات التثبيت
قبل تثبيت dbt Core، يجب تثبيت ما يلي على جهاز التطوير المحلي:
تحتاج أيضا إلى أحد الإجراءات التالية للمصادقة:
(مستحسن) تم تمكين dbt Core كتطبيق OAuth في حسابك. يتم تمكين ذلك بشكل افتراضي.
رمز مميز للوصول الشخصي
إشعار
كأفضل ممارسة أمان عند المصادقة باستخدام الأدوات والأنظمة والبرامج النصية والتطبيقات التلقائية، توصي Databricks باستخدام رموز OAuth المميزة.
إذا كنت تستخدم مصادقة الرمز المميز للوصول الشخصي، توصي Databricks باستخدام رموز الوصول الشخصية التي تنتمي إلى كيانات الخدمة بدلا من مستخدمي مساحة العمل. لإنشاء رموز مميزة لكيانات الخدمة، راجع إدارة الرموز المميزة لكيان الخدمة.
الخطوة 1: تثبيت محول dbt Databricks
نوصي باستخدام بيئة Python الظاهرية لأنها تعزل إصدارات الحزمة وتبعيات التعليمات البرمجية إلى تلك البيئة المحددة، بغض النظر عن إصدارات الحزمة وتبعيات التعليمات البرمجية في بيئات أخرى. يساعد هذا في تقليل عدم تطابق إصدار الحزمة غير المتوقع وتضارب تبعية التعليمات البرمجية.
توصي Databricks بالإصدار 1.8.0 أو أحدث من حزمة dbt-databricks.
.. important:: إذا كان جهاز التطوير المحلي يستخدم أي من أنظمة التشغيل التالية، فيجب عليك إكمال خطوات إضافية أولا: CentOS وMacOS وUbuntu وD debian وWindows. راجع قسم "هل لدى نظام التشغيل الخاص بي متطلبات أساسية" من استخدام pip لتثبيت dbt على موقع dbt Labs على الويب.
الخطوة 2: إنشاء مشروع dbt وتحديد إعدادات الاتصال واختبارها
إنشاء مشروع dbt (مجموعة من الدلائل والملفات ذات الصلة المطلوبة لاستخدام dbt). ثم تقوم بتكوين ملفات تعريف الاتصال الخاصة بك، والتي تحتوي على إعدادات الاتصال لحساب Azure Databricks أو مستودع SQL أو كليهما. لزيادة الأمان، يتم تخزين مشاريع dbt وملفات التعريف في مواقع منفصلة بشكل افتراضي.
مع استمرار تنشيط البيئة الظاهرية، قم بتشغيل الأمر dbt init باسم المشروع. ينشئ هذا الإجراء المثال مشروعا باسم
my_dbt_demo
.dbt init my_dbt_demo
عند مطالبتك باختيار
databricks
قاعدة بيانات أوspark
، أدخل الرقم الذي يتوافق معdatabricks
.عند مطالبتك بقيمة
host
، قم بما يلي:- للحصول على حساب، أدخل قيمة اسم مضيف الخادم من علامة التبويب خيارات متقدمة، JDBC/ODBC لحساب Azure Databricks.
- بالنسبة لمستودع SQL، أدخل قيمة Server Hostname من علامة التبويب Connection Details لمستودع SQL.
عند مطالبتك بقيمة
http_path
، قم بما يلي:- للحصول على حساب، أدخل قيمة مسار HTTP من علامة التبويب خيارات متقدمة، JDBC/ODBC لحساب Azure Databricks.
- بالنسبة لمستودع SQL، أدخل قيمة مسار HTTP من علامة التبويب تفاصيل الاتصال لمستودع SQL الخاص بك.
لاختيار نوع مصادقة، أدخل الرقم الذي يتوافق مع
use oauth
(مستحسن) أوuse access token
.إذا اخترت
use access token
لنوع المصادقة الخاص بك، أدخل قيمة رمز الوصول الشخصي Azure Databricks.إشعار
كأفضل ممارسة أمان، عند المصادقة باستخدام الأدوات والأنظمة والبرامج النصية والتطبيقات التلقائية، توصي Databricks باستخدام رموز الوصول الشخصية التي تنتمي إلى كيانات الخدمة بدلا من مستخدمي مساحة العمل. لإنشاء رموز مميزة لكيانات الخدمة، راجع إدارة الرموز المميزة لكيان الخدمة.
عند مطالبتك بالقيمة
desired Unity Catalog option
، أدخل الرقم الذي يتوافق معuse Unity Catalog
أوnot use Unity Catalog
.إذا اخترت استخدام كتالوج Unity، أدخل القيمة المطلوبة عند
catalog
مطالبتك.أدخل القيم المطلوبة ل
schema
وعندthreads
المطالبة.يكتب dbt إدخالاتك في
profiles.yml
ملف. يتم سرد موقع هذا الملف في إخراجdbt init
الأمر . يمكنك أيضا سرد هذا الموقع لاحقا عن طريق تشغيلdbt debug --config-dir
الأمر . يمكنك فتح هذا الملف الآن لفحص محتوياته والتحقق منها.إذا اخترت
use oauth
نوع المصادقة، أضف ملف تعريف المصادقة من جهاز إلى جهاز (M2M) أو ملف تعريف مصادقة من مستخدم إلى جهاز (U2M) إلىprofiles.yml
.للحصول على أمثلة، راجع تكوين تسجيل الدخول إلى Azure Databricks من dbt Core باستخدام معرف Microsoft Entra.
لا توصي Databricks بتحديد الأسرار مباشرة
profiles.yml
. بدلا من ذلك، قم بتعيين معرف العميل وسر العميل كمتغيرات البيئة.قم بتأكيد تفاصيل الاتصال عن طريق تشغيل
dbt debug
الأمر علىmy_dbt_demo
الدليل.إذا اخترت
use oauth
نوع المصادقة الخاص بك، فستتم مطالبتك بتسجيل الدخول باستخدام موفر الهوية الخاص بك.هام
قبل البدء، تحقق من تشغيل الحوسبة أو مستودع SQL.
يجب أن ترى مخرجات مماثلة لما يلي:
cd my_dbt_demo dbt debug
... Configuration: profiles.yml file [OK found and valid] dbt_project.yml file [OK found and valid] Required dependencies: - git [OK found] Connection: ... Connection test: OK connection ok
الخطوات التالية
- إنشاء نماذج dbt Core وتشغيلها واختبارها محليا. راجع البرنامج التعليمي dbt Core.
- قم بتشغيل مشاريع dbt Core كمهام وظيفة Azure Databricks. راجع استخدام تحويلات dbt في مهمة Azure Databricks.