ما المقصود بـ Azure Databricks؟
Azure Databricks هو منصة تحليلات مفتوحة موحدة لبناء البيانات والتحليلات والحلول الذكاء الاصطناعي على نطاق واسع ونشرها ومشاركتها وصيانتها على مستوى المؤسسة. يتكامل Databricks Data Intelligence Platform مع التخزين السحابي والأمان في حسابك السحابي، ويدير البنية الأساسية السحابية ويوزعها نيابة عنك.
كيف يعمل النظام الأساسي للمعلومات عن البيانات؟
يستخدم Azure Databricks الذكاء الاصطناعي التوليدية مع مستودع البيانات لفهم الدلالات الفريدة لبياناتك. ثم يقوم تلقائيا بتحسين الأداء وإدارة البنية الأساسية لتتناسب مع احتياجات عملك.
تتعلم معالجة اللغة الطبيعية لغة عملك، بحيث يمكنك البحث عن البيانات واكتشافها من خلال طرح سؤال بكلماتك الخاصة. تساعدك مساعدة اللغة الطبيعية على كتابة التعليمات البرمجية واستكشاف الأخطاء وإصلاحها والعثور على إجابات في الوثائق.
وأخيرا، يمكن لبياناتك وتطبيقاتك الذكاء الاصطناعي الاعتماد على الحوكمة والأمان القويين. يمكنك دمج واجهات برمجة التطبيقات مثل OpenAI دون المساس خصوصية البيانات والتحكم في IP.
ما هو Azure Databricks المستخدم؟
يوفر Azure Databricks أدوات تساعدك على توصيل مصادر البيانات الخاصة بك بمنصة واحدة لمعالجة مجموعات البيانات وتخزينها ومشاركتها وتحليلها ونمذجتها وتسييلها باستخدام حلول من BI إلى الذكاء الاصطناعي التوليدية.
توفر مساحة عمل Azure Databricks واجهة وأدوات موحدة لمعظم مهام البيانات، بما في ذلك:
- جدولة معالجة البيانات وإدارتها، ولا سيما ETL
- إنشاء لوحات المعلومات والمرئيات
- إدارة الأمان والحوكمة وقابلية الوصول العالية والتعافي من الكوارث
- اكتشاف البيانات والتعليف التوضيحي والاستكشاف
- نمذجة التعلم الآلي (ML) والتعقب وخدمة النموذج
- حلول الذكاء الاصطناعي التوليدية
التكامل المدار مع مصدر مفتوح
لدى Databricks التزام قوي تجاه مجتمع مصدر مفتوح. تدير Databricks تحديثات عمليات التكامل مصدر مفتوح في إصدارات وقت تشغيل Databricks. التقنيات التالية هي مصدر مفتوح المشاريع التي أنشأها موظفو Databricks في الأصل:
- Delta Lake ومشاركة دلتا
- تدفق MLflow
- Apache Spark والتدفق المنظم
- الشرطة الحمراء
الأدوات والوصول البرمجي
تحتفظ Azure Databricks بعدد من الأدوات الخاصة التي تدمج هذه التقنيات وتوسعها لإضافة أداء محسن وسهولة الاستخدام، مثل ما يلي:
بالإضافة إلى واجهة مستخدم مساحة العمل، يمكنك التفاعل مع Azure Databricks برمجيا مع الأدوات التالية:
- واجهة برمجة تطبيقات REST
- CLI
- Terraform
كيف يعمل Azure Databricks مع Azure؟
تتكون بنية النظام الأساسي Azure Databricks من جزأين أساسيين:
- البنية الأساسية المستخدمة من قبل Azure Databricks لنشر النظام الأساسي والخدمات وتكوينها وإدارتها.
- البنية الأساسية المملوكة للعميل التي تتم إدارتها بالتعاون مع Azure Databricks وشركتك.
على عكس العديد من شركات بيانات المؤسسة، لا يجبرك Azure Databricks على ترحيل بياناتك إلى أنظمة تخزين خاصة لاستخدام النظام الأساسي. بدلا من ذلك، يمكنك تكوين مساحة عمل Azure Databricks عن طريق تكوين عمليات تكامل آمنة بين النظام الأساسي Azure Databricks وحساب السحابة الخاص بك، ثم تقوم Azure Databricks بنشر مجموعات الحوسبة باستخدام موارد السحابة في حسابك لمعالجة البيانات وتخزينها في تخزين الكائنات والخدمات المتكاملة الأخرى التي تتحكم فيها.
يزيد كتالوج Unity من توسيع هذه العلاقة، ما يسمح لك بإدارة أذونات الوصول إلى البيانات باستخدام بناء جملة SQL المألوف من داخل Azure Databricks.
تلبي مساحات عمل Azure Databricks متطلبات الأمان والشبكات لبعض أكبر الشركات في العالم وأكثرها مراعاة للأمان. يسهل Azure Databricks على المستخدمين الجدد البدء على النظام الأساسي. فهو يزيل العديد من الأعباء والمخاوف المتعلقة بالعمل مع البنية الأساسية السحابية، دون الحد من التخصيصات والتحكم في البيانات والعمليات وفرق الأمان ذات الخبرة.
ما هي حالات الاستخدام الشائعة ل Azure Databricks؟
تختلف حالات الاستخدام على Azure Databricks مثل البيانات التي تتم معالجتها على النظام الأساسي والعديد من الشخصيات للموظفين الذين يعملون مع البيانات كجزء أساسي من عملهم. تبرز حالات الاستخدام التالية كيف يمكن للمستخدمين في جميع أنحاء مؤسستك الاستفادة من Azure Databricks لإنجاز المهام الضرورية لمعالجة البيانات التي تحرك وظائف الأعمال الهامة والقرارات وتخزينها وتحليلها.
إنشاء مستودع بيانات المؤسسة
تجمع مستودع البيانات بين نقاط قوة مستودعات بيانات المؤسسة ومستودعات البيانات لتسريع حلول بيانات المؤسسة وتبسيطها وتوحيدها. يمكن لمهندسي البيانات وعلماء البيانات والمحللين وأنظمة الإنتاج استخدام مستودع البيانات كمصدر واحد للحقيقة، ما يسمح بالوصول في الوقت المناسب إلى بيانات متسقة وتقليل تعقيدات بناء العديد من أنظمة البيانات الموزعة وصيانتها ومزامنتها. راجع ما هو مستودع البيانات؟.
ETL وهندسة البيانات
سواء كنت تقوم بإنشاء لوحات المعلومات أو تشغيل تطبيقات الذكاء الاصطناعي، توفر هندسة البيانات العمود الفقري للشركات التي تركز على البيانات من خلال التأكد من توفر البيانات وتنظيفها وتخزينها في نماذج البيانات التي تسمح باكتشاف واستخدام فعالين. يجمع Azure Databricks بين قوة Apache Spark وData Lake والأدوات المخصصة لتوفير تجربة ETL لا مثيل لها (استخراج وتحويل وتحميل). يمكنك استخدام SQL وPython وSc scala لإنشاء منطق ETL ثم تنسيق نشر المهمة المجدولة ببضع نقرات فقط.
تعمل Delta Live Tables على تبسيط ETL بشكل أكبر من خلال إدارة التبعيات بين مجموعات البيانات بذكاء ونشر البنية الأساسية للإنتاج وتوسيع نطاقها تلقائيا لضمان التسليم الدقيق للبيانات في الوقت المناسب وفقا للمواصفات الخاصة بك.
يوفر Azure Databricks عددا من الأدوات المخصصة لاستيعاب البيانات، بما في ذلك أداة التحميل التلقائي، وهي أداة فعالة وقابلة للتطوير لتحميل البيانات بشكل متزايد وغير متكرر من تخزين الكائنات السحابية ومستودعات البيانات في مستودع البيانات.
التعلم الآلي الذكاء الاصطناعي وعلوم البيانات
يوسع التعلم الآلي من Azure Databricks الوظائف الأساسية للنظام الأساسي من خلال مجموعة من الأدوات المصممة خصيصا لاحتياجات علماء البيانات ومهندسي التعلم الآلي، بما في ذلك MLflow وDatabricks Runtime التعلم الآلي.
نماذج اللغات الكبيرة الذكاء الاصطناعي التوليدية
يتضمن وقت تشغيل Databricks التعلم الآلي مكتبات مثل Hugging Face Transformers التي تسمح لك بدمج النماذج المدربة مسبقا أو المكتبات الأخرى مفتوحة المصدر في سير العمل الخاص بك. يسهل تكامل Databricks MLflow استخدام خدمة تتبع MLflow مع مسارات المحولات والنماذج ومكونات المعالجة. بالإضافة إلى ذلك، يمكنك دمج نماذج OpenAI أو الحلول من شركاء مثل John Snow Labs في مهام سير عمل Databricks.
باستخدام Azure Databricks، يمكنك تخصيص LLM على بياناتك لمهمتك المحددة. بدعم من مصدر مفتوح الأدوات، مثل Hugging Face و DeepSpeed، يمكنك أن تأخذ بكفاءة مؤسسة LLM وبدء التدريب على بياناتك الخاصة للحصول على مزيد من الدقة لمجالك وعبء العمل الخاص بك.
بالإضافة إلى ذلك، يوفر Azure Databricks وظائف الذكاء الاصطناعي يمكن لمحللي بيانات SQL استخدامها للوصول إلى نماذج LLM، بما في ذلك من OpenAI، مباشرة داخل مسارات البيانات ومهام سير العمل الخاصة بهم. راجع الذكاء الاصطناعي Functions على Azure Databricks.
تخزين البيانات والتحليلات وBI
يجمع Azure Databricks بين واجهات المستخدم سهلة الاستخدام وموارد الحوسبة الفعالة من حيث التكلفة والتخزين القابل للتطوير بأسعار معقولة بشكل لا نهائي لتوفير نظام أساسي قوي لتشغيل الاستعلامات التحليلية. يقوم المسؤولون بتكوين مجموعات حوسبة قابلة للتطوير كمستودعات SQL، ما يسمح للمستخدمين النهائيين بتنفيذ الاستعلامات دون القلق بشأن أي من تعقيدات العمل في السحابة. يمكن لمستخدمي SQL تشغيل الاستعلامات مقابل البيانات في lakehouse باستخدام محرر استعلام SQL أو في دفاتر الملاحظات. تدعم دفاتر الملاحظات Python وR وSc scala بالإضافة إلى SQL، وتسمح للمستخدمين بتضمين نفس المرئيات المتوفرة في لوحات المعلومات القديمة جنبا إلى جنب مع الارتباطات والصور والتعليقات المكتوبة في markdown.
إدارة البيانات ومشاركة البيانات الآمنة
يوفر كتالوج Unity نموذجا موحدا لإدارة البيانات لمخزن البيانات. يقوم مسؤولو السحابة بتكوين أذونات التحكم في الوصول الخشنة ودمجها في كتالوج Unity، ثم يمكن لمسؤولي Azure Databricks إدارة الأذونات للفرق والأفراد. تتم إدارة الامتيازات باستخدام قوائم التحكم في الوصول (ACLs) من خلال واجهات المستخدم سهلة الاستخدام أو بناء جملة SQL، مما يسهل على مسؤولي قاعدة البيانات تأمين الوصول إلى البيانات دون الحاجة إلى توسيع نطاق إدارة الوصول إلى الهوية الأصلية على السحابة (IAM) والشبكات.
يجعل كتالوج Unity تشغيل التحليلات الآمنة في السحابة أمرا بسيطا، ويوفر تقسيما للمسؤولية يساعد على الحد من إعادة المهارات أو رفع المهارات اللازمة لكل من المسؤولين والمستخدمين النهائيين للنظام الأساسي. راجع ما هو كتالوج Unity؟.
يجعل lakehouse مشاركة البيانات داخل مؤسستك بسيطة مثل منح وصول الاستعلام إلى جدول أو عرض. للمشاركة خارج بيئتك الآمنة، يتميز كتالوج Unity بإصدار مدار من Delta Sharing.
DevOps وCI/CD وتنسيق المهام
تمثل دورات حياة التطوير لمسارات ETL ونماذج التعلم الآلي ولوحات معلومات التحليلات تحدياتها الفريدة. يسمح Azure Databricks لجميع المستخدمين لديك للاستفادة من مصدر بيانات واحد، ما يقلل من الجهود المكررة وإعداد التقارير خارج المزامنة. بالإضافة إلى ذلك، من خلال توفير مجموعة من الأدوات الشائعة لإصدار التعليمات البرمجية وموارد الإنتاج وأتمتتها وجدولتها وتوزيعها، يمكنك تبسيط النفقات العامة الخاصة بك للمراقبة والتزامن والعمليات. جدولة المهام لدفاتر ملاحظات Azure Databricks واستعلامات SQL وغيرها من التعليمات البرمجية العشوائية. تتيح لك مجلدات Git مزامنة مشاريع Azure Databricks مع عدد من موفري git الشائعين. للحصول على نظرة عامة كاملة على الأدوات، راجع أدوات المطور.
تحليلات الوقت الحقيقي والتدفق
يستفيد Azure Databricks من Apache Spark Structured Streaming للعمل مع تدفق البيانات وتغييرات البيانات المتزايدة. يتكامل Structured Streaming بإحكام مع Delta Lake، وتوفر هذه التقنيات الأسس لكل من Delta Live Tables و Auto Loader. راجع البث على Azure Databricks.