تخزين البيانات

إشعار

سيتم إيقاف خدمة Time Series Insights في 7 يوليو 2024. ضع في اعتبارك ترحيل البيئات الموجودة إلى حلول بديلة في أقرب وقت ممكن. لمزيد من المعلومات حول الإهمال والترحيل، تفضل بزيارة وثائقنا.

توضح هذه المقالة تخزين البيانات في Azure Time Series Insights Gen2. وهو يغطي الدافئة والباردة، وتوافر البيانات، وأفضل الممارسات.

التزويد

عند إنشاء بيئة Azure Time Series Insights Gen2، يكون لديك الخيارات التالية:

  • تخزين البيانات الباردة:
    • قم بإنشاء مورد Azure Storage جديد في الاشتراك والمنطقة التي اخترتها للبيئة الخاصة بك.
    • إرفاق حساب Azure Storage موجود مسبقا. يتوفر هذا الخيار فقط عن طريق النشر من قالب Azure Resource Manager، وهو غير مرئي في مدخل Microsoft Azure.
  • تخزين البيانات الدافئ:
    • يعد المتجر الدافئ اختياريا، ويمكن تمكينه أو تعطيله أثناء وقت التوفير أو بعده. إذا قررت تمكين المتجر الدافئ في وقت لاحق وكانت هناك بيانات بالفعل في متجرك البارد، فراجع هذا القسم أدناه لفهم السلوك المتوقع. يمكن تكوين وقت استبقاء بيانات المخزن الدافئ لمدة من 7 إلى 31 يوما، ويمكن أيضا تعديل هذا حسب الحاجة.

عند استيعاب حدث ما، تتم فهرسته في كل من المخزن الدافئ (إذا تم تمكينه) والمخزن البارد.

نظرة عامة على التخزين

تحذير

بصفتك مالك حساب تخزين Azure Blob حيث توجد بيانات المخزن البارد، لديك حق الوصول الكامل إلى جميع البيانات في الحساب. يتضمن هذا الوصول أذونات الكتابة والحذف. لا تقم بتحرير البيانات التي يكتبها Azure Time Series Insights Gen2 أو حذفها لأن ذلك يمكن أن يتسبب في فقدان البيانات.

توافر البيانات

تقوم Azure Time Series Insights Gen2 بتقسيم وفهرسة البيانات للحصول على الأداء الأمثل للاستعلام. تصبح البيانات متاحة للاستعلام من كل من المخزن الدافئ (إذا تم تمكينه) والمخزن البارد بعد فهرسته. يمكن أن يؤثر مقدار البيانات التي يتم تناولها ومعدل معدل النقل لكل قسم على التوفر. راجع قيود معدل نقل مصدر الحدث وأفضل الممارسات للحصول على أفضل أداء. يمكنك أيضا تكوين تنبيه تأخر ليتم إعلامك إذا كانت بيئتك تواجه مشكلات في معالجة البيانات.

هام

قد تواجه فترة تصل إلى 60 ثانية قبل أن تصبح البيانات متاحة عبر واجهات برمجة تطبيقات استعلام السلسلة الزمنية. إذا واجهت زمن انتقال كبير يتجاوز 60 ثانية، فيرجى إرسال تذكرة دعم من خلال مدخل Microsoft Azure.

قد تواجه فترة تصل إلى 5 دقائق قبل أن تصبح البيانات متاحة عند الوصول مباشرة إلى ملفات Parquet خارج Azure Time Series Insights Gen2. راجع قسم تنسيق ملف Parquet للحصول على مزيد من المعلومات.

متجر دافئ

تتوفر البيانات في متجرك الدافئ فقط عبر واجهات برمجة تطبيقات استعلام السلسلة الزمنية أو Azure Time Series Insights TSI Explorer أو موصل Power BI. استعلامات المتجر الدافئ مجانية ولا توجد حصة نسبية، ولكن هناك حد 30 طلبا متزامنا.

سلوك المتجر الدافئ

  • عند التمكين، سيتم توجيه جميع البيانات المتدفقة إلى بيئتك إلى متجرك الدافئ، بغض النظر عن الطابع الزمني للحدث. لاحظ أن البنية الأساسية لبرنامج ربط العمليات التجارية لاستيعاب البث مبنية للبث في الوقت الفعلي تقريبا، ولا يتم دعم استيعاب الأحداث التاريخية.

  • يتم حساب فترة الاستبقاء استنادا إلى وقت فهرسة الحدث في المخزن الدافئ، وليس الطابع الزمني للحدث. وهذا يعني أن البيانات لم تعد متوفرة في المخزن الدافئ بعد انقضاء فترة الاستبقاء، حتى إذا كان الطابع الزمني للحدث هو للمستقبل.

    • مثال: يتم استيعاب حدث بتنبؤات الطقس لمدة 10 أيام وفهرسته في حاوية تخزين دافئ تم تكوينها مع فترة استبقاء لمدة 7 أيام. بعد سبعة أيام، لم يعد من الممكن الوصول إلى التنبؤ في المتجر الدافئ، ولكن يمكن الاستعلام عنه من البرد.
  • إذا قمت بتمكين مخزن دافئ على بيئة موجودة تحتوي بالفعل على بيانات حديثة مفهرسة في التخزين البارد، فلاحظ أن مخزنك الدافئ لن تتم تعبئته مرة أخرى بهذه البيانات.

  • إذا قمت بتمكين المخزن الدافئ للتو وكنت تواجه مشكلات في عرض بياناتك الأخيرة في المستكشف، يمكنك إيقاف تشغيل استعلامات المخزن الدافئ مؤقتا:

    تعطيل الاستعلامات الدافئة

متجر بارد

يصف هذا القسم تفاصيل تخزين Azure ذات الصلة ب Azure Time Series Insights Gen2.

للحصول على وصف شامل لتخزين Azure Blob، اقرأ مقدمة Storage blobs.

حساب التخزين البارد الخاص بك

يحتفظ Azure Time Series Insights Gen2 بنسختين من كل حدث في حساب Azure Storage الخاص بك. تخزن نسخة واحدة الأحداث مرتبة حسب وقت الاستيعاب، ما يسمح دائما بالوصول إلى الأحداث في تسلسل مرتب زمنيا. بمرور الوقت، ينشئ Azure Time Series Insights Gen2 أيضا نسخة إعادة تقسيم البيانات لتحسين الاستعلامات ذات الأداء.

يتم تخزين جميع بياناتك إلى أجل غير مسمى في حساب Azure Storage الخاص بك.

تحذير

لا تقيد وصول الإنترنت العام إلى حساب التخزين المستخدم بواسطة Time Series Insights أو سيتم قطع الاتصال الضروري.

كتابة الكائنات الثنائية كبيرة الحجم وتحريرها

لضمان أداء الاستعلام وتوافر البيانات، لا تقم بتحرير أو حذف أي كائنات ثنائية كبيرة الحجم يقوم Azure Time Series Insights Gen2 بإنشائها.

الوصول إلى بيانات المخزن البارد

بالإضافة إلى الوصول إلى بياناتك من Azure Time Series Insights Explorer و Time Series Query APIs، قد تحتاج أيضا إلى الوصول إلى بياناتك مباشرة من ملفات Parquet المخزنة في المخزن البارد. على سبيل المثال، يمكنك قراءة البيانات وتحويلها وتنظيفها في دفتر ملاحظات Jupyter، ثم استخدامها لتدريب نموذج Azure التعلم الآلي في نفس سير عمل Spark.

للوصول إلى البيانات مباشرة من حساب Azure Storage، تحتاج إلى الوصول للقراءة إلى الحساب المستخدم لتخزين بيانات Azure Time Series Insights Gen2. يمكنك بعد ذلك قراءة البيانات المحددة استنادا إلى وقت إنشاء ملف Parquet الموجود في المجلد الموضح PT=Time أدناه في قسم تنسيق ملف Parquet. لمزيد من المعلومات حول تمكين الوصول للقراءة إلى حساب التخزين الخاص بك، راجع إدارة الوصول إلى موارد حساب التخزين.

حذف البيانات

لا تحذف ملفات Azure Time Series Insights Gen2. إدارة البيانات ذات الصلة من داخل Azure Time Series Insights Gen2 فقط.

تنسيق ملف Parquet وبنية المجلد

Parquet هو تنسيق ملف عمودي مفتوح المصدر مصمم للتخزين والأداء الفعالين. يستخدم Azure Time Series Insights Gen2 Parquet لتمكين أداء الاستعلام المستند إلى معرف السلسلة الزمنية على نطاق واسع.

لمزيد من المعلومات حول نوع ملف Parquet، اقرأ وثائق Parquet.

تخزن Azure Time Series Insights Gen2 نسخا من بياناتك على النحو التالي:

  • PT=Time يتم تقسيم المجلد حسب وقت الاستيعاب وتخزين البيانات تقريبا حسب ترتيب الوصول. يتم الاحتفاظ بهذه البيانات بمرور الوقت ويمكنك الوصول إليها مباشرة من خارج Azure Time Series Insight Gen2، مثل دفاتر ملاحظات Spark. يتوافق الطابع <YYYYMMDDHHMMSSfff> الزمني مع وقت استيعاب البيانات. يتوافق <MinEventTimeStamp> و <MaxEventTimeStamp> مع نطاق الطوابع الزمنية للحدث المضمنة في الملف. يتم تنسيق المسار واسم الملف على النحو التالي:

    V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet

  • PT=Live تحتوي المجلدات و PT=Tsid على نسخة ثانية من بياناتك، تمت إعادة تقسيمها لأداء استعلام السلسلة الزمنية على نطاق واسع. تم تحسين هذه البيانات بمرور الوقت وليست ثابتة. أثناء إعادة التقسيم، قد تكون بعض الأحداث موجودة في كائنات ثنائية كبيرة الحجم متعددة وقد تتغير أسماء الكائنات الثنائية كبيرة الحجم. يتم استخدام هذه المجلدات بواسطة Azure Time Series Insights Gen2 ولا يجب الوصول إليها مباشرة؛ يجب أن تستخدم PT=Time فقط لهذا الغرض.

إشعار

يمكن أن تحتوي البيانات الموجودة في PT=Time المجلد من قبل يونيو 2021 على تنسيق اسم ملف بدون نطاقات زمنية للحدث: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. تنسيق الملف الداخلي هو نفسه ويمكن استخدام الملفات التي تحتوي على نظامي التسمية معا.

  • <YYYY> تعيين إلى تمثيل سنة مكون من أربعة أرقام.
  • <MM> تعيين إلى تمثيل شهر مكون من رقمين.
  • يتم <YYYYMMDDHHMMSSfff> تعيين تنسيق الطوابع الزمنية إلى سنة مكونة من أربعة أرقام (YYYY)، وشهر مكون من رقمين (MM)، ويوم مكون من رقمين (DD)، وساعة مكونة من رقمين (HH)، ودقيقة مكونة من رقمين (MM)، وثانية مكونة من رقمين (SS)، وثلاثة أرقام مللي ثانية (fff).

يتم تعيين أحداث Azure Time Series Insights Gen2 إلى محتويات ملف Parquet كما يلي:

  • يتم تعيين كل حدث إلى صف واحد.
  • يتضمن كل صف عمود الطابع الزمني مع طابع زمني للحدث. خاصية الطابع الزمني ليست فارغة أبدا. يتم تعيينه افتراضيا إلى وقت وضع الحدث في قائمة الانتظار إذا لم يتم تحديد خاصية الطابع الزمني في مصدر الحدث. الطابع الزمني المخزن دائما بالتوقيت العالمي المتفق عليه.
  • يتضمن كل صف عمود (أعمدة) معرف السلسلة الزمنية (TSID) كما هو محدد عند إنشاء بيئة Azure Time Series Insights Gen2. يتضمن اسم خاصية TSID اللاحقة _string .
  • يتم تعيين جميع الخصائص الأخرى المرسلة كبيانات بيانات تتبع الاستخدام إلى أسماء الأعمدة التي تنتهي ب _bool (منطقي) _datetime أو (طابع زمني) _long أو (طويل) _double أو (مزدوج) _string أو (سلسلة) أو _dynamic (ديناميكي)، اعتمادا على نوع الخاصية. لمزيد من المعلومات، اقرأ حول أنواع البيانات المدعومة.
  • ينطبق مخطط التعيين هذا على الإصدار الأول من تنسيق الملف، المشار إليه باسم V=1، والمخزن في المجلد الأساسي الذي يحمل نفس الاسم. مع تطور هذه الميزة، قد يتغير مخطط التعيين هذا ويتزايد اسم المرجع.

الخطوات التالية