مشاركة عبر


تسريع استعلام Azure Data Lake Storage

يتيح تسريع الاستعلام للتطبيقات وأطر التحليلات تحسين معالجة البيانات بشكل كبير عن طريق استرداد البيانات التي تتطلبها فقط لتنفيذ عملية معينة. وهذا يقلل من الوقت وقوة المعالجة المطلوبة للحصول على رؤى حاسمة في البيانات المخزنة.

نظرة عامة

يقبل تسريع الاستعلام تصفية دالات التقييموإسقاطات الأعمدة، والتي تمكن التطبيقات من تصفية الصفوف والأعمدة في وقت قراءة البيانات من القرص. يتم نقل البيانات التي تفي بشروط دالة التقييم فقط عبر الشبكة إلى التطبيق. وهذا يقلل من زمن انتقال الشبكة وتكلفة الحساب.

يمكنك استخدام SQL لتحديد دالات تقييم عامل تصفية الصف وإسقاطات الأعمدة في طلب تسريع الاستعلام. يعالج الطلب ملفا واحدا فقط. لذلك، لا يتم دعم الميزات الارتباطية المتقدمة ل SQL، مثل الصلات والمجموعة حسب التجميعات. يدعم تسريع الاستعلام البيانات المنسقة CSV وJSON كإدخل لكل طلب.

لا تقتصر ميزة تسريع الاستعلام على Data Lake Storage (حسابات التخزين التي تم تمكين مساحة الاسم الهرمية عليها). يتوافق تسريع الاستعلام مع الكائنات الثنائية كبيرة الحجم في حسابات التخزين التي لا تحتوي على مساحة اسم هرمية ممكنة عليها. وهذا يعني أنه يمكنك تحقيق نفس الانخفاض في زمن انتقال الشبكة وتكاليف الحوسبة عند معالجة البيانات التي قمت بتخزينها بالفعل ككائنات ثنائية كبيرة الحجم في حسابات التخزين.

للحصول على مثال حول كيفية استخدام تسريع الاستعلام في تطبيق عميل، راجع تصفية البيانات باستخدام تسريع استعلام Azure Data Lake Storage.

تدفق البيانات

يوضح الرسم التخطيطي التالي كيفية استخدام تطبيق نموذجي لتسريع الاستعلام لمعالجة البيانات.

نظرة عامة على تسريع الاستعلام

  1. يطلب تطبيق العميل بيانات الملف عن طريق تحديد دالات التقييم وإسقاطات العمود.

  2. يوزع تسريع الاستعلام استعلام SQL المحدد ويوزع العمل لتحليل البيانات وتصفيتها.

  3. تقرأ المعالجات البيانات من القرص، وتحلل البيانات باستخدام التنسيق المناسب، ثم تقوم بتصفية البيانات عن طريق تطبيق التقييمات المحددة وإسقاطات الأعمدة.

  4. يجمع تسريع الاستعلام بين أجزاء الاستجابة للبث مرة أخرى إلى تطبيق العميل.

  5. يتلقى تطبيق العميل الاستجابة المتدفقة ويوزعها. لا يحتاج التطبيق إلى تصفية أي بيانات أخرى ويمكنه تطبيق الحساب أو التحويل المطلوب مباشرة.

أداء أفضل بتكلفة أقل

يحسن تسريع الاستعلام الأداء عن طريق تقليل كمية البيانات التي يتم نقلها ومعالجتها بواسطة التطبيق الخاص بك.

لحساب قيمة مجمعة، تقوم التطبيقات عادة باسترداد جميع البيانات من ملف، ثم معالجة البيانات وتصفيتها محليا. يكشف تحليل أنماط الإدخال/الإخراج لأحمال عمل التحليلات أن التطبيقات تتطلب عادة 20% فقط من البيانات التي تقرأها لإجراء أي عملية حسابية معينة. هذه الإحصائية صحيحة حتى بعد تطبيق تقنيات مثل تقليم القسم. وهذا يعني أن 80% من تلك البيانات يتم نقلها دون داع عبر الشبكة وتحليلها وتصفيتها حسب التطبيقات. هذا النمط، المصمم لإزالة البيانات غير الضرورية، يتحمل تكلفة حساب كبيرة.

على الرغم من أن Azure يتميز بشبكة رائدة في الصناعة، من حيث الإنتاجية وزمن الانتقال، فإن نقل البيانات دون داع عبر تلك الشبكة لا يزال مكلفا لأداء التطبيق. من خلال تصفية البيانات غير المرغوب فيها أثناء طلب التخزين، يلغي تسريع الاستعلام هذه التكلفة.

بالإضافة إلى ذلك، يتطلب تحميل وحدة المعالجة المركزية المطلوب لتحليل وتصفية البيانات غير الضرورية تطبيقك لتوفير عدد أكبر وأجهزة ظاهرية أكبر من أجل القيام بعمله. من خلال نقل حمل الحساب هذا إلى تسريع الاستعلام، يمكن للتطبيقات تحقيق وفورات كبيرة في التكاليف.

التطبيقات التي يمكن أن تستفيد من تسريع الاستعلام

تم تصميم تسريع الاستعلام لأطر عمل التحليلات الموزعة وتطبيقات معالجة البيانات.

تتضمن أطر التحليلات الموزعة مثل Apache Spark وApache Hive طبقة تجريد تخزين داخل إطار العمل. تتضمن هذه المحركات أيضا محسنات الاستعلام التي يمكن أن تتضمن معرفة قدرات خدمة الإدخال/الإخراج الأساسية عند تحديد خطة استعلام مثالية لاستعلامات المستخدم. بدأت أطر العمل هذه في دمج تسريع الاستعلام. ونتيجة لذلك، يرى مستخدمو أطر العمل هذه زمن انتقال استعلام محسن وتكلفة إجمالية أقل للملكية دون الحاجة إلى إجراء أي تغييرات على الاستعلامات.

تم تصميم تسريع الاستعلام أيضا لتطبيقات معالجة البيانات. عادة ما تقوم هذه الأنواع من التطبيقات بإجراء تحويلات بيانات واسعة النطاق قد لا تؤدي مباشرة إلى رؤى تحليلات حتى لا تستخدم دائما أطر عمل التحليلات الموزعة الثابتة. غالبا ما يكون لهذه التطبيقات علاقة أكثر مباشرة مع خدمة التخزين الأساسية حتى تتمكن من الاستفادة مباشرة من ميزات مثل تسريع الاستعلام.

للحصول على مثال حول كيفية دمج تطبيق تسريع الاستعلام، راجع تصفية البيانات باستخدام تسريع استعلام Azure Data Lake Storage.

التسعير

نظرا لزيادة تحميل الحوسبة داخل خدمة Azure Data Lake Storage، يختلف نموذج التسعير لاستخدام تسريع الاستعلام عن نموذج معاملة Azure Data Lake Storage العادي. يفرض تسريع الاستعلام تكلفة على كمية البيانات الممسوحة ضوئيا بالإضافة إلى تكلفة كمية البيانات التي يتم إرجاعها إلى المتصل. لمزيد من المعلومات، راجع تسعير Azure Data Lake Storage.

على الرغم من التغيير في نموذج الفوترة، تم تصميم نموذج تسعير تسريع الاستعلام لخفض التكلفة الإجمالية للملكية لحمل العمل، نظرا للانخفاض في تكاليف الجهاز الظاهري الأكثر تكلفة بكثير.

الخطوات التالية