مصطلحات تحليلات Azure Synapse

يرشدك هذا المستند من خلال المفاهيم الأساسية لتحليلات Azure Synapse.

مساحة عمل Synapse

مساحة عمل Synapse هي حدود تعاون قابلة للتأمين لإجراء تحليلات المؤسسات المستندة إلى السحابة في Azure. يتم نشر مساحة عمل في منطقة معينة ولها حساب ADLS Gen2 مقترن ونظام ملفات (لتخزين البيانات المؤقتة). توجد مساحة عمل ضمن مجموعة موارد.

تسمح لك مساحة العمل بإجراء تحليلات باستخدام SQL وApache spark. تُنظم الموارد المتاحة لـ SQL وتحليلات Spark في مجموعات SQL وSpark.

الخدمات المرتبطة

يمكن أن تحتوي مساحة العمل على أي عدد من الخدمة المرتبطة، وهي في الأساس سلاسل اتصال تُحدد معلومات الاتصال المطلوبة لمساحة العمل للاتصال بالموارد الخارجية.

Synapse SQL

SQL Synapse هو القدرة على القيام بتحليلات تستند إلى T-SQL في مساحة عمل Synapse. تتميز SQL Synapse بنموذجي استهلاك: مخصص وبلا خادم. للنموذج المخصص، استخدم مجموعة SQL المخصصة. يمكن أن تحتوي مساحة العمل على أي عدد من هذه المجموعات. لاستخدام النموذج بدون خادم، استخدم مجموعات SQL بلا خادم. تحتوي كل مساحة عمل على إحدى هذه المجموعات.

بداخل استوديو Synapse، يمكنك العمل مع مجموعات SQL عن طريق تشغيل برامج SQL النصية.

ملاحظة

تختلف تجمعات SQL المخصصة في Azure Synapse عن تجمع SQL المخصص (المعروف سابقًا باسم SQL DW). لا تنطبق جميع ميزات تجمع SQL المخصص في مساحات عمل Azure Synapse على تجمع SQL المخصص (والمعروف سابقًا باسم SQL DW)، والعكس صحيح. لتمكين ميزات مساحة العمل لتجمع SQL مخصص موجود (سابقًا SQL DW)، راجع كيفية تمكين مساحة عمل لتجمع SQL المخصص (المعروف سابقًا باسم SQL DW).

Apache Spark لـ Synapse

لاستخدام تحليلات Spark، أنشئ مجموعات Apache Spark بلا خادم واستخدمها في مساحة عمل Synapse الخاصة بك. عند بدء استخدام مجموعة Spark، تُنشئ مساحات العمل جلسة spark لمعالجة الموارد المقترنة بالجلسة تلك.

هناك طريقتان داخل Synapse لاستخدام Spark:

  • تستخدم دفاتر ملاحظات Spark للقيام بعلوم البيانات والهندسة Scala وPySpark وC#وSparkSQL
  • تعريفات وظيفة Spark لتشغيل دُفعة وظائف Spark باستخدام ملفات jar.

SynapseML

SynapseML (المعروف سابقا باسم MMLSpark)، هي مكتبة مفتوحة المصدر تبسط إنشاء مسارات التعلم الآلي (التعلم الآلي) القابلة للتطوير على نطاق واسع. وهو نظام بنائي من الأدوات المستخدمة لتوسيع إطار عمل Apache Spark في عدة اتجاهات جديدة. يوحد SynapseML العديد من أطر عمل التعلم الآلي الحالية وخوارزميات Microsoft الجديدة في واجهة برمجة تطبيقات واحدة قابلة للتطوير قابلة للاستخدام عبر Python وR وSca و.NET وJava. لمعرفة المزيد، راجع الميزات الرئيسية لـ SynapseML.

التدفقات

التدفقات هي الطريقة التي يوفر Azure Synapse بها تكامل البيانات، ما يسمح لك بنقل البيانات بين الخدمات وتنسيق الأنشطة.

  • التدفقات هي التجميع المنطقي للأنشطة التي تؤدي مهمة معًا.
  • الأنشطة يُقصد بها الإجراءات داخل أحد التدفقات لتنفيذها على بيانات، مثل نسخ البيانات، أو تشغيل Notebook، أو برنامج SQL النصي.
  • تدفقات البيانات هي نوع معين من النشاط الذي يوفر تجربة بدون رمز للقيام بتحويل البيانات التي تستخدم Synapse Spark داخليًا.
  • المشغل - يُنفذ التدفق. يمكن تشغيله يدويًا أو تلقائيًا (الجدول الزمني أو نافذة تدوير أو المستند إلى الحدث)
  • مجموعة بيانات التكامل - عرض مسمى للبيانات يشير أو يومئ ببساطة إلى البيانات التي سيتم استخدامها في نشاط ما كمدخلات ومخرجات. هي تنتمي إلى خدمة مرتبطة.

مستكشف البيانات (إصدار أولي)

يوفر مستكشف بيانات Azure Synapse للعملاء تجربة استعلام تفاعلية لإلغاء تأمين نتيجة تحليلات بيانات السجل والقياس عن بعد.

  • تجمعات مستكشف البيانات هي مجموعات مخصصة تشتمل على عقدتين أو أكثر من عقد الحوسبة مع تخزين SSD محلي (ذاكرة التخزين المؤقت السريع) لأداء استعلام محسن وتخزين blob متعدد (ذاكرة التخزين المؤقت البطيئة) للاحتفاظ بالبيانات.
  • تتم استضافة قواعد بيانات مستكشف البيانات في تجمعات مستكشف البيانات وهي كيانات منطقية تتكون من مجموعات من الجداول وكائنات قاعدة البيانات الأخرى. يمكنك الحصول على أكثر من قاعدة بيانات واحدة لكل تجمع.
  • الجداول هي كائنات قاعدة بيانات تحتوي على بيانات منظمة باستخدام نموذج بيانات علائقية تقليدي. يتم تخزين البيانات في السجلات التي تلتزم بمخطط الجدول المعرف جيداً في مستكشف البيانات والذي يحدد قائمة مرتبة من الأعمدة، ولكل عمود اسم ونوع بيانات قياسي. يمكن بناء 43 نوعاً من أنواع البيانات القياسية (int أو real أو datetime أو timespan) أو شبه منظم (ديناميكي) أو (سلسلة) نص حر. يتشابه النوع الديناميكي مع JSON من حيث إنه يمكن أن يحتوي على قيمة عددية واحدة، أو مصفوفة، أو قاموس لهذه القيم.
  • الجداول الخارجية هي جداول تشير إلى تخزين أو مصدر بيانات SQL خارج قاعدة بيانات مستكشف البيانات. على غرار الجداول، يحتوي الجدول الخارجي على مخطط محدد جيداً (قائمة مرتبة من أزواج اسم العمود ونوع البيانات). على عكس جداول مستكشف البيانات حيث يتم استيعاب البيانات في تجمعات مستكشف البيانات، تعمل الجداول الخارجية على البيانات المخزنة والمدارة خارج التجمعات. لا تحتفظ الجداول الخارجية بأي بيانات وتُستخدم للاستعلام عن البيانات أو تصديرها إلى مخزن بيانات خارجي.

الخطوات التالية