إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تلميح
Microsoft Fabric Data Warehouse هو مستودع علائقي على نطاق مؤسسي قائم على أساس بحيرة البيانات، مع بنية جاهزة للمستقبل، وذكاء اصطناعي مدمج، وميزات جديدة. إذا كنت جديدا في مستودع البيانات، ابدأ ب Fabric Data Warehouse. يمكن لأحمال عمل تجمع SQL المخصصة الحالية الترقية إلى Fabric للوصول إلى قدرات جديدة في علوم البيانات، والتحليلات اللحظية، والتقارير.
توفر هذه الورقة نصائح مفيدة وأفضل الممارسات لبناء حلول مخصصة لمجموعة SQL (سابقا SQL DW).
يوضح الرسم البياني التالي عملية تصميم مستودع بيانات مع تجمع SQL مخصص (كان يعرف سابقا باسم SQL DW):
الاستعلامات والعمليات عبر الجداول
عندما تعرف مسبقا العمليات الأساسية والاستعلامات التي ستنفذ في مستودع بياناتك، يمكنك إعطاء الأولوية لبنية مستودع البيانات لتلك العمليات. قد تشمل هذه الاستعلامات والعمليات:
- ربط جدول أو جدولين من الحقائق بجداول الأبعاد، تصفية الجدول المجمع، ثم إضافة النتائج إلى متجر بيانات.
- قم بتحديث كبير أو صغير في مبيعات الواقع.
- إضافة البيانات فقط إلى جداولكم.
معرفة أنواع العمليات مسبقا تساعدك على تحسين تصميم جداولك.
ترحيل البيانات
أولا، قم بتحميل بياناتك في Azure Data Lake Storage أو مساحة تخزين Azure Blob. بعد ذلك، استخدم عبارة COPY لتحميل بياناتك في جداول المرحلة. استخدم التكوين التالي:
| تصميم | التوصية |
|---|---|
| التوزيع | ترتيب دوري |
| فهرسة | كومة ذاكرة مؤقتة |
| تقسيم | None |
| فئة الموارد | largerc أو xlargerc |
تعرف أكثر على ترحيل البيانات، وتحميل البيانات، وعملية الاسترجاع، التحميل، والتحويل (ELT).
الجداول الموزعة أو المكررة
استخدم الاستراتيجيات التالية، اعتمادا على خصائص الجدول:
| النوع | مناسبة جدا ل... | احذر إذا... |
|---|---|---|
| مكررة | * جداول ذات أبعاد صغيرة في مخطط نجمي بسعة تخزين أقل من 2 جيجابايت بعد الضغط (~5x ضغط) | * العديد من معاملات الكتابة موجودة على الجدول (مثل الإدراج، الترقية، الحذف، والتحديث) * تغير تجهيز وحدات Data Warehouse (DWU) بشكل متكرر * تستخدم فقط 2-3 أعمدة لكن جدولك يحتوي على العديد من الأعمدة * تقوم بفهرسة جدول مكرر |
| الروبن الدائري (الافتراضي) | * جدول مؤقت/مرحلة * لا يوجد عمود واضح للانضمام أو عمود مرشح جيد |
* الأداء بطيء بسبب حركة البيانات |
| التجزئه | * جداول الحقائق * جداول الأبعاد الكبيرة |
* لا يمكن تحديث مفتاح التوزيع |
تلميحات:
- ابدأ ب Round Robin، لكن اطلع إلى استراتيجية توزيع التجزئة للاستفادة من بنية متوازية ضخمة.
- تأكد من أن مفاتيح التجزئة الشائعة لها نفس تنسيق البيانات.
- لا توزع على صيغة varchar.
- يمكن توزيع جداول الأبعاد التي تحتوي على مفتاح تجزئة مشترك لجدول حقائق مع عمليات ربط متكررة.
- استخدم sys.dm_pdw_nodes_db_partition_stats لتحليل أي انحراف في البيانات.
- استخدم sys.dm_pdw_request_steps لتحليل تحركات البيانات خلف الاستعلامات، ومراقبة وقت البث، وعمليات التبديل المستمر. هذا مفيد لمراجعة استراتيجية التوزيع الخاصة بك.
تعرف أكثر على الجداول المكررةوالجداول الموزعة.
قم بفهرسة جدولك
الفهرسة مفيدة لقراءة الجداول بسرعة. هناك مجموعة فريدة من التقنيات يمكنك استخدامها حسب احتياجاتك:
| النوع | مناسبة جدا ل... | احذر إذا... |
|---|---|---|
| كومة ذاكرة مؤقتة | * الترتيب المؤقت / الطاولة المؤقتة * جداول صغيرة مع بحثات صغيرة |
* أي بحث يمسح الجدول بالكامل |
| المؤشر المجمع | * جداول تحتوي على ما يصل إلى 100 مليون صف * جداول كبيرة (أكثر من 100 مليون صف) مع 1-2 عمود فقط مستخدمين بشكل مكثف |
* يستخدم على جدول مكرر * لديك استعلامات معقدة تتضمن عمليات انضمام متعددة وعمليات تجميع حسب * تقوم بتحديث الأعمدة المفهرسة: فهذا يتطلب ذاكرة |
| مؤشر مخزن الأعمدة المجمع (CCI) (الافتراضي) | * الجداول الكبيرة (أكثر من 100 مليون صف) | * يستخدم على جدول مكرر * تقوم بعمليات تحديث ضخمة على طاولتك * تقوم بتقسيم جدولك بشكل مفرط: مجموعات الصفوف لا تمتد عبر عقد وتقسيمات توزيع مختلفة |
تلميحات:
- فوق فهرس مجمع، قد ترغب في إضافة فهرس غير مجمع إلى عمود يستخدم كثيرا في التصفية.
- كن حذرا في كيفية إدارة الذاكرة على طاولة مع CCI. عند تحميل البيانات، تريد من المستخدم (أو الاستعلام) الاستفادة من فئة موارد كبيرة. تأكد من تجنب التقليم وتكوين العديد من مجموعات الصفوف المضغوطة الصغيرة.
- في الجيل الثاني، يتم تخزين جداول CCI محليا على عقد الحوسبة لتعظيم الأداء.
- بالنسبة ل CCI، قد يحدث أداء بطيء بسبب ضغط ضعيف لمجموعات الصفوف. إذا حدث ذلك، أعد بناء أو إعادة تنظيم مركز التحكم الخاص بك. تريد على الأقل 100,000 صف لكل مجموعة صفوف مضغوطة. المثالي هو مليون صف في مجموعة صف.
- استنادا إلى تكرار التحميل المتزايد وحجمه، تريد أتمتة إعادة تنظيم أو بناء الفهارس. تنظيف الربيع دائما مفيد.
- كن استراتيجيا عندما تريد تقليم مجموعة صفوف. ما حجم مجموعات الصفوف المفتوحة؟ كم من البيانات تتوقع تحميلها في الأيام القادمة؟
تعرف أكثر على الفهارس.
تقسيم
قد تقوم بتقسيم جدولك عندما يكون لديك جدول حقائق كبير (أكبر من مليار صف). في 99 بالمئة من الحالات، يجب أن يكون مفتاح التقسيم مبنيا على التاريخ.
مع جداول الترتيب التي تتطلب ELT، يمكنك الاستفادة من التقسيم. يسهل إدارة دورة حياة البيانات. كن حذرا من تقسيم القوائم أو جدول المراحل بشكل مفرط، خاصة في فهرس مخزن الأعمدة المجمع.
تعرف أكثر على التقسيمات.
تحميل تزايدي
إذا كنت ستقوم بتحميل بياناتك تدريجيا، تأكد أولا من تخصيص فئات موارد أكبر لتحميل بياناتك. وهذا مهم بشكل خاص عند التحميل إلى جداول ذات فهارس مخزن أعمدة مجمعة. راجع فئات الموارد لمزيد من التفاصيل.
نوصي باستخدام PolyBase و ADF V2 لأتمتة خطوط أنابيب ELT الخاصة بك إلى مستودع بياناتك.
للحصول على دفعة كبيرة من التحديثات في بياناتك التاريخية، فكر في استخدام CTAS لكتابة البيانات التي تريد الاحتفاظ بها في جدول بدلا من استخدام INSERT وUPDATE وDELETE.
الحفاظ على الإحصائيات
من المهم تحديث الإحصائيات مع حدوث تغييرات كبيرة على بياناتك. راجع إحصائيات التحديث لتحديد ما إذا كانت هناك تغييرات كبيرة . الإحصائيات المحدثة تحسن خطط الاستعلام الخاصة بك. إذا وجدت أن الحفاظ على جميع إحصائياتك يستغرق وقتا طويلا، كن أكثر انتقائية في اختيار الأعمدة التي تحتوي على إحصائيات.
يمكنك أيضا تحديد تكرار التحديثات. على سبيل المثال، قد ترغب في تحديث أعمدة التاريخ، حيث قد تضاف قيم جديدة، بشكل يومي. تحصل على أكبر فائدة من خلال وجود إحصائيات عن الأعمدة المشاركة في الاتصالات، والأعمدة المستخدمة في جملة WHERE، والأعمدة الموجودة في GROUP BY.
تعرف أكثر على الإحصاء.
فئة الموارد
تستخدم مجموعات الموارد كطريقة لتخصيص الذاكرة للاستعلامات. إذا كنت بحاجة إلى المزيد من الذاكرة لتحسين سرعة الاستعلام أو التحميل، يجب عليك تخصيص فئات موارد أعلى. من ناحية أخرى، استخدام فئات موارد أكبر يؤثر على التزامن. يجب أن تأخذ ذلك في الاعتبار قبل نقل جميع مستخدميك إلى فئة موارد كبيرة.
إذا لاحظت أن الاستعلامات تستغرق وقتا طويلا، تحقق من أن المستخدمين لا يعملون في فئات موارد كبيرة. الفئات الكبيرة من الموارد تستهلك العديد من فتحات التزامن. يمكن أن تتسبب في ظهور استفسارات أخرى.
وأخيرا، باستخدام الجيل الثاني من تجمع SQL المخصص (المعروف سابقا باسم SQL DW)، تحصل كل فئة موارد على ذاكرة أكثر بمقدار 2.5 مرة من الجيل الأول.
تعرف أكثر على كيفية التعامل مع فئات الموارد والتزامن.
خفض تكلفتك
ميزة رئيسية في Azure Synapse هي القدرة على إدارة موارد الحوسبة. يمكنك إيقاف مجموعة SQL المخصصة (سابقا SQL DW) مؤقتا عندما لا تستخدمها، مما يوقف فوترة موارد الحوسبة. يمكنك توسيع الموارد لتلبية متطلبات الأداء الخاصة بك. للإيقاف المؤقت، استخدم Azure portal أو PowerShell. للتكبير، استخدم Azure portal، PowerShell، T-SQL، أو واجهة برمجة تطبيقات REST.
التدرج التلقائي الآن في الوقت الذي تريده مع دالات Azure:
تحسين بنيتك من أجل الأداء
نوصي بالنظر في SQL Database و Azure Analysis Services في بنية Hub-and-Spoke. يمكن لهذا الحل توفير عزل عبء العمل بين مجموعات المستخدمين المختلفة مع استخدام ميزات أمان متقدمة من SQL Database وAzure Analysis Services. هذه أيضا طريقة لتوفير التزامن غير المحدود لمستخدميك.
تعرف أكثر على البنى المعمارية النموذجية التي تستفيد من تجمع SQL المخصص (المعروف سابقا باسم SQL DW) في Azure Synapse Analytics.
قم بنشر الخطابات في قواعد بيانات SQL من مجموعة SQL مخصصة (سابقا SQL DW):