حدث
٢ شوال، ١١ م - ٤ شوال، ١١ م
究極の Microsoft Fabric、Power BI、SQL、AI コミュニティ主導のイベント。 2025 年 3 月 31 日から 4 月 2 日。
今すぐ登録لم يعد هذا المتصفح مدعومًا.
بادر بالترقية إلى Microsoft Edge للاستفادة من أحدث الميزات والتحديثات الأمنية والدعم الفني.
يعمل OPTIMIZE
التحسين التنبؤي تلقائيا على الجداول المدارة في كتالوج Unity. توصي Databricks بتمكين التحسين التنبؤي لجميع الجداول المدارة في كتالوج Unity لتبسيط صيانة البيانات وتقليل تكاليف التخزين. راجع التحسين التنبؤي للجداول المدارة لكتالوج Unity.
يعيد OPTIMIZE
الأمر كتابة ملفات البيانات لتحسين تخطيط البيانات لجداول Delta. بالنسبة للجداول التي تم تمكين تكوين أنظمة المجموعات السائلة فيها، OPTIMIZE
يعيد كتابة ملفات البيانات لتجميع البيانات بواسطة مفاتيح التجميع السائلة. بالنسبة للجداول ذات الأقسام المعرفة، يتم تنفيذ ضغط الملفات وتخطيط البيانات داخل الأقسام.
يمكن أن تتضمن الجداول التي لا تحتوي على تكوين أنظمة مجموعات سائلة ZORDER BY
جملة اختياريا لتحسين تجميع البيانات عند إعادة الكتابة. توصي Databricks باستخدام التجميع السائل بدلا من الأقسام أو ZORDER
أو نهج تخطيط البيانات الأخرى.
راجع تحسين.
يمكنك تشغيل الضغط عن طريق تشغيل OPTIMIZE
الأمر :
OPTIMIZE table_name
from delta.tables import *
deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().executeCompaction()
import io.delta.tables._
val deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().executeCompaction()
إذا كان لديك كمية كبيرة من البيانات وتريد فقط تحسين مجموعة فرعية منها، يمكنك تحديد دالة تقييم قسم اختيارية باستخدام WHERE
:
OPTIMIZE table_name WHERE date >= '2022-11-18'
from delta.tables import *
deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().where("date='2021-11-18'").executeCompaction()
import io.delta.tables._
val deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().where("date='2021-11-18'").executeCompaction()
ملاحظة
OPTIMIZE
العملية من Databricks Runtime 11.3 LTS وما فوق.يستخدم قراء جداول Delta عزل اللقطة، ما يعني أنه لا تتم مقاطعتها عند OPTIMIZE
إزالة الملفات غير الضرورية من سجل المعاملات. OPTIMIZE
لا يقوم بإجراء تغييرات متعلقة بالبيانات على الجدول، لذا فإن القراءة قبل وبعد OPTIMIZE
لها نفس النتائج. OPTIMIZE
لا يؤثر التنفيذ على جدول مصدر دفق على أي تدفقات حالية أو مستقبلية تتعامل مع هذا الجدول كمصدر. OPTIMIZE
ترجع إحصائيات الملفات (الحد الأدنى والحد الأقصى والإجمالي وما إلى ذلك) للملفات التي تمت إزالتها والملفات المضافة بواسطة العملية. يحتوي تحسين الإحصائيات أيضا على إحصائيات Z-Ordering وعدد الدفعات والأقسام المحسنة.
يمكنك أيضا ضغط الملفات الصغيرة تلقائيا باستخدام الضغط التلقائي. راجع الضغط التلقائي ل Delta Lake على Azure Databricks.
تمكين التحسين التنبؤي للجداول المدارة في كتالوج Unity للتأكد من أن OPTIMIZE
يتم تشغيله تلقائيا عندما يكون فعالا من حيث التكلفة.
عند اختيار عدد مرات التشغيل OPTIMIZE
، هناك مفاضلة بين الأداء والتكلفة. لتحسين أداء استعلام المستخدم النهائي، قم بالتشغيل OPTIMIZE
في كثير من الأحيان. سيؤدي ذلك إلى تكبد تكلفة أعلى بسبب زيادة استخدام الموارد. لتحسين التكلفة، قم بتشغيلها بشكل أقل.
توصي Databricks بأن تبدأ بالتشغيل OPTIMIZE
على أساس يومي، ثم ضبط التردد لموازنة مفاضلات التكلفة والأداء.
كلتا العمليتين هي عمليات مكثفة لوحدة المعالجة المركزية تقوم بكميات كبيرة من فك ترميز باركيه وترميزه.
توصي Databricks بحساب أنواع المثيلات المحسنة . OPTIMIZE
يستفيد أيضا من أقراص SSD المرفقة.
حدث
٢ شوال، ١١ م - ٤ شوال، ١١ م
究極の Microsoft Fabric、Power BI、SQL、AI コミュニティ主導のイベント。 2025 年 3 月 31 日から 4 月 2 日。
今すぐ登録