تسريع استعلام Azure Data Lake Storage
يؤدي تسريع استعلام التطبيقات وأطر التحليلات إلى تحسين معالجة البيانات بشكل كبير من خلال استرداد البيانات المطلوبة فقط لتنفيذ عملية معينة. هذا من شأنه أن يقلل من الوقت وقوة المعالجة المطلوبة للحصول على نتيجة معرفية مهمة فيما يتعلق بالبيانات المخزنة.
نظرة عامة
يقبل تسريع الاستعلام دالات تقييم التصفيةوإسقاطات الأعمدة، والتي تمكن التطبيقات من تصفية الصفوف والأعمدة في وقت قراءة البيانات من القرص. يتم نقل البيانات التي تلبي شروط الافتراضات فقط عبر الشبكة إلى التطبيق. وهذا من شأنه أن يقلل من زمن انتقال الشبكة وتكلفة الحوسبة.
يمكنك استخدام SQL لتحديد افتراضات تصفية الصفوف وإسقاطات الأعمدة في طلب تسريع الاستعلام. يقوم الطلب بمعالجة ملف واحد فقط. لذلك، لا يتم دعم الميزات العلائقية المتقدمة SQL، مثل الانضمام والمجموعة حسب التجميعات. يدعم تسريع الاستعلام CSV وJSON تنسيق البيانات كمدخلات لكل طلب.
لا تقتصر ميزة تسريع الاستعلام على Data Lake Storage (حسابات التخزين التي تم تمكين مساحة الاسم الهرمية عليها). يتوافق تسريع الاستعلام مع الكائنات الثنائية كبيرة الحجم في حسابات التخزين التي لا تحتوي على مساحة أسماء هرمية ممكنة عليها. وهذا يعني أنه يمكنك تحقيق نفس الانخفاض في زمن انتقال الشبكة وحساب التكاليف عند معالجة البيانات التي خزنتها بالفعل كنقط في حسابات التخزين.
للحصول على مثال حول كيفية استخدام تسريع الاستعلام في تطبيق عميل، راجع تصفية البيانات باستخدام تسريع الاستعلام الخاص بـAzure Data Lake Storage.
تدفق البيانات
يوضح الرسم التخطيطي التالي كيفية استخدام تطبيق نموذجي لتسريع الاستعلام من أجل عملية معالجة البيانات.
يطلب تطبيق العميل بيانات الملف من خلال تحديد الافتراضات وإسقاطات الأعمدة.
يعمل تسريع الاستعلام على تحليل استعلام SQL المحدد وتوزيع العمل لتحليل البيانات وتصفيتها.
تقرأ المعالجات البيانات من القرص، وتوزع البيانات باستخدام التنسيق المناسب، ثم تقوم بتصفية البيانات عن طريق تطبيق الافتراضات المحددة وإسقاطات الأعمدة.
يجمع تسريع الاستعلام بين أجزاء الاستجابة المتدفقة من البيانات للبث مرة أخرى إلى تطبيق العميل.
يقوم تطبيق العميل بالاستقبال و يوزع لاستجابة المتدفقة من البيانات. لا يحتاج التطبيق إلى تصفية أي بيانات أخرى ويمكنه تطبيق الحساب أو التحويل المطلوب مباشرة.
وتحقيق أداء أفضل بتكلفة أقل
يعمل تسريع الاستعلام على تحسين الأداء عن طريق تقليل مقدار البيانات التي يتم نقلها ومعالجتها بواسطة التطبيق الخاص بك.
لحساب قيمة مجمعة، يتعين على التطبيقات عادة استرداد كافة البيانات من ملف، ثم معالجة البيانات وتصفيتها محليا. يكشف تحليل أنماط الإدخال/الإخراج لأحمال عمل التحليلات عن أن التطبيقات تتطلب عادة 20٪ فقط من البيانات التي تقرأها لإجراء أي عملية حسابية معينة. تُعتبر هذه الإحصائية صحيحة حتى بعد تطبيق تقنيات مثل تقليم الأقسام. وهذا يوضح أن 80٪ من هذه البيانات تم نقلها دون داعٍ عبر الشبكة، وتحليلها، وتصفيتها بواسطة التطبيقات. هذا النمط، المصمم لإزالة البيانات غير الضرورية، يتحمل تكلفة حساب كبيرة.
على الرغم من أن Azure يتميز بشبكة رائدة في الصناعة، من حيث الإنتاجية وزمن الانتقال، إلا أن نقل البيانات دون داع عبر هذه الشبكة لا يزال مكلفا فيما يتعلق بأداء التطبيق. من خلال عملية تصفية البيانات غير المرغوب فيها أثناء طلب موقع التخزين، يؤدي تسريع الاستعلام إلى التخلص من هذه التكلفة.
بالإضافة إلى ذلك، يتطلب تحميل CPU المطلوب تحليل وتصفية البيانات غير الضرورية التطبيق لتوفير عدد أكبر وVMs أكبر للقيام بعمله. من خلال نقل حمل الحوسبة هذا إلى تسريع الاستعلام، يمكن للتطبيقات تحقيق أكبر قدر من التوفير في التكاليف.
التطبيقات التي يمكن أن تستفيد من تسريع الاستعلام
صُمم تسريع الاستعلام من أجل أطر عمل التحليلات الموزعة وتطبيقات معالجة البيانات.
تضمن أطر عمل التحليلات الموزعة مثل Apache Spark و Apache Hive طبقة استخلاص التخزين داخل أطر العمل. تتضمن هذه المحركات أيضًا محسنات الاستعلام التي تتمكن من دمج المعرفة بقدرات خدمة الإدخال/الإخراج الأساسية عند تحديد خطة استعلام مثالية لاستعلامات المستخدم. نشأت أطر العمل هذه لدمج تسريع الاستعلام. ونتيجة لذلك، يرى مستخدمو أطر العمل هذه زمن انتقال استعلام محسن وتكلفة إجمالية أقل للملكية دون الحاجة إلى إجراء أي تغييرات على الاستعلامات.
صُمم تسريع الاستعلام أيضا من أجل تطبيقات معالجة البيانات. عادة ما تجري هذه الأنواع من التطبيقات تحويلات بيانات واسعة النطاق قد لا تؤدي مباشرة إلى نتيجة معرفية للتحليلات حتى لا تستخدم دائما أطر عمل التحليلات الموزعة المعمول بها. غالبًا ما يكون لهذه التطبيقات علاقة مباشرة أكثر مع خدمة التخزين الأساسية بحيث يمكنها الاستفادة مباشرة من ميزات مثل تسريع الاستعلام.
للحصول على مثال حول كيفية دمج تطبيق لتسريع الاستعلام، راجع تصفية البيانات باستخدام تسريع الاستعلام Azure Data Lake Storage.
التسعير
نظرًا لزيادة حمل الحوسبة داخل خدمة Azure Data Lake Storage، يختلف نموذج التسعير الخاص باستخدام تسريع الاستعلام عن نموذج معاملة Azure Data Lake Storage العادي. يفرض تسريع الاستعلام تكلفة مقابل مقدار البيانات الممسوحة ضوئيًا بالإضافة إلى تكلفة مقدار البيانات التي يتم إرجاعها إلى المتصل. لمزيد من المعلومات، راجع Azure Data Lake Storage Gen2
على الرغم من التغيير في نموذج الفوترة، صُمم نموذج فرض تكلفة على تسريع الاستعلام لخفض التكلفة الإجمالية للتملك لحمل العمل، نظرا لانخفاض تكاليف الأجهزة الظاهرية الأكثر تكلفة.