इसके माध्यम से साझा किया गया


Power Query और Data Lake Storage डेटा स्रोतों के लिए वृद्धिशील रिफ्रेश

Power Query (पूर्वावलोकन) या Azure Data Lake Storage पर आधारित डेटा स्रोतों के लिए वृद्धिशील रिफ़्रेश निम्नलिखित लाभ प्रदान करता है:

  • तेज़ ताज़ाकरण - केवल परिवर्तित डेटा ताज़ा होता है. उदाहरण के लिए, आप एक ऐतिहासिक डेटासेट के केवल पिछले पांच दिनों को रीफ़्रेश कर सकते हैं.
  • बढ़ी हुई विश्वसनीयता - छोटे रिफ्रेश के साथ, आपको अस्थिर स्रोत प्रणालियों से लंबे समय तक कनेक्शन बनाए रखने की आवश्यकता नहीं होती है, जिससे कनेक्शन संबंधी समस्याओं का जोखिम कम हो जाता है।
  • संसाधनों की खपत में कमी - अपने कुल डेटा के केवल एक उप-समूह को ताज़ा करने से कंप्यूटिंग संसाधनों का अधिक कुशल उपयोग होता है और पर्यावरणीय प्रभाव में कमी आती है।

Power Query (पूर्वावलोकन) के आधार पर डेटा स्रोतों के लिए वृद्धिशील रिफ़्रेश कॉन्फ़िगर करें

[यह आलेख रिलीज़-पूर्व दस्तावेज़ है और परिवर्तन के अधीन है.]

डेटा को क्रमिक रूप से ताज़ा करने के लिए किसी भी Power Query डेटा स्रोत in Customer Insights - Data को कॉन्फ़िगर करें। डेटा स्रोत में एक प्राथमिक कुंजी कॉलम होना चाहिए जो विशिष्ट रूप से रिकॉर्ड की पहचान करता है और एक दिनांक-समय कॉलम होना चाहिए जो यह इंगित करता है कि डेटा अंतिम बार कब अपडेट किया गया था।

महत्त्वपूर्ण

  • यह एक पूर्वावलोकन सुविधा है.
  • पूर्वावलोकन सुविधाएं उत्पादन में उपयोग के लिए नहीं होती हैं और इनकी कार्यक्षमता प्रतिबंधित हो सकती हैं. यह सुविधाएँ आधिकारिक रिलीज़ से पहले उपलब्ध होती हैं ताकि ग्राहक शीघ्र पहुँच प्राप्त कर सकें और प्रतिक्रिया प्रदान कर सकें.
  1. Power Queryपर आधारित एक नया डेटा स्रोत बनाएँ.

  2. एक डेटा स्रोत चुनें जो वृद्धिशील रिफ्रेश का समर्थन करता है, जैसे Azure SQL डेटाबेस.

  3. अंतर्ग्रहण हेतु तालिकाओं का चयन करें.

  4. रूपांतरण चरण पूर्ण करें और अगला चुनें.

  5. वृद्धिशील रिफ्रेश सेट अप करें संवाद बॉक्स में, सेट अप करें का चयन करें, ताकि वृद्धिशील रिफ्रेश सेटिंग्स को खोला जा सके. यदि आप छोड़ें का चयन करते हैं, तो डेटा स्रोत संपूर्ण डेटा सेट को ताज़ा कर देता है।

    टिप

    आप किसी मौजूदा डेटा स्रोत को संपादित करके बाद में वृद्धिशील रीफ़्रेश भी लागू कर सकते हैं.

  6. वृद्धिशील रिफ्रेश सेटिंग्स पर, डेटा स्रोत बनाते समय आपके द्वारा चयनित सभी तालिकाओं के लिए वृद्धिशील रिफ्रेश कॉन्फ़िगर करें।

    वृद्धिशील रिफ्रेश सेटिंग्स कॉन्फ़िगर करें.

  7. एक तालिका चुनें और निम्नलिखित विवरण प्रदान करें:

    • प्राथमिक कुंजी परिभाषित करें: तालिका के लिए प्राथमिक कुंजी का चयन करें.
    • "अंतिम अद्यतन" फ़ील्ड को परिभाषित करें: यह फ़ील्ड केवल दिनांक या समय प्रकार की विशेषताएं दिखाती है। एक विशेषता चुनें जो दर्शाती है कि रिकॉर्ड अंतिम बार कब अपडेट किए गए थे. यह विशेषता उन रिकॉर्ड्स की पहचान करती है जो वृद्धिशील रिफ्रेश अवधि के अंतर्गत आते हैं।
    • प्रत्येक पर अपडेट की जाँच करें: निर्दिष्ट करें कि आप वृद्धिशील रिफ्रेश अवधि को कितने समय तक रखना चाहते हैं।
  8. डेटा स्रोत का निर्माण पूरा करने के लिए सहेजें चुनें. प्रारंभिक डेटा रिफ्रेश एक पूर्ण रिफ्रेश है। बाद में, वृद्धिशील डेटा रीफ़्रेश होता है जैसा कि पिछले चरण में कॉन्फ़िगर किया गया था.

डेटा स्रोतों के लिए वृद्धिशील रिफ़्रेश कॉन्फ़िगर करें Azure Data Lake Storage

बड़े डेटा सेट के साथ काम करने के लिए सर्वोत्तम प्रदर्शन और परिणाम प्राप्त करने के लिए माइक्रोसॉफ्ट डेल्टा लेक प्रारूप की अनुशंसा करता है। Customer Insights - Data एक कनेक्टर प्रदान करता है जो डेल्टा लेक स्वरूपित डेटा के लिए अनुकूलित है। एकीकरण जैसी आंतरिक प्रक्रियाओं को केवल परिवर्तित डेटा को क्रमिक रूप से संसाधित करने के लिए अनुकूलित किया जाता है, जिसके परिणामस्वरूप प्रसंस्करण समय कम हो जाता है।

Data Lake तालिका के लिए वृद्धिशील अंतर्ग्रहण और रिफ्रेश का उपयोग करने के लिए, Azure Data Lake डेटा स्रोत को जोड़ते या संपादित करते समय उस तालिका को कॉन्फ़िगर करें. तालिका डेटा फ़ोल्डर में निम्नलिखित फ़ोल्डर होने चाहिए:

  • FullData: प्रारंभिक रिकॉर्ड वाली डेटा फ़ाइलों वाला फ़ोल्डर
  • वृद्धिशील डेटा: yyyy/mm/dd/hh प्रारूप में वृद्धिशील अद्यतनों वाले दिनांक/समय पदानुक्रम फ़ोल्डरों वाला फ़ोल्डर। वर्ष, माह, दिन और घंटे के फ़ोल्डर क्रमशः चार और दो अंकों के होने चाहिए। hh अद्यतनों के UTC घंटे को दर्शाता है और इसमें अपसर्ट्स और डिलीट्स फ़ोल्डर शामिल हैं। अपसर्ट में मौजूदा रिकॉर्ड या नए रिकॉर्ड के अपडेट के साथ डेटा फ़ाइलें होती हैं। हटाता है इसमें हटाए जाने वाले रिकॉर्ड वाली डेटा फ़ाइलें शामिल हैं।

वृद्धिशील डेटा के प्रसंस्करण का क्रम

सिस्टम निर्दिष्ट UTC घंटा समाप्त होने के बाद IncrementalData फ़ोल्डर में फ़ाइलों को संसाधित करता है। उदाहरण के लिए, यदि सिस्टम 21 जनवरी, 2023 को सुबह 8:15 बजे वृद्धिशील रिफ्रेश को संसाधित करना शुरू करता है, तो फ़ोल्डर 2023/01/21/07 (सुबह 7 बजे से सुबह 8 बजे तक संग्रहीत डेटा फ़ाइलों का प्रतिनिधित्व) में मौजूद सभी फ़ाइलें संसाधित की जाती हैं। फ़ोल्डर 2023/01/21/08 (वर्तमान घंटे का प्रतिनिधित्व करता है जहां फ़ाइलें अभी भी बनाई जा रही हैं) में कोई भी फ़ाइल अगले रन तक संसाधित नहीं की जाती है।

यदि प्राथमिक कुंजी के लिए दो रिकॉर्ड हैं, अपसर्ट और डिलीट, तो Customer Insights - Data नवीनतम संशोधित तिथि वाले रिकॉर्ड का उपयोग करता है। उदाहरण के लिए, यदि डिलीट टाइमस्टैम्प 2023-01-21T08:00:00 है और अपसर्ट टाइमस्टैम्प 2023-01-21T08:30:00 है, तो यह अपसर्ट रिकॉर्ड का उपयोग करता है। यदि विलोपन अपसर्ट के बाद हुआ है, तो सिस्टम मान लेता है कि रिकॉर्ड हटा दिया गया है।

Azure Data Lake डेटा स्रोतों के लिए वृद्धिशील रिफ़्रेश कॉन्फ़िगर करें

  1. डेटा स्रोत जोड़ते या संपादित करते समय, तालिका के लिए विशेषताएँ फलक पर जाएँ।

  2. विशेषताओं की समीक्षा करें. सुनिश्चित करें कि निर्मित या अंतिम अद्यतन दिनांक विशेषता को dateTimeडेटा प्रारूप और Calendar.Dateसेमेंटिक प्रकार के साथ सेट किया गया है। यदि आवश्यक हो तो विशेषता संपादित करें और संपन्न चुनें.

  3. तालिकाएँ चुनें फलक से, तालिका संपादित करें. वृद्धिशील अंतर्ग्रहण चेकबॉक्स चयनित है.

    वृद्धिशील रिफ्रेश के लिए डेटा स्रोत में तालिकाओं को कॉन्फ़िगर करें।

    1. रूट फ़ोल्डर को ब्राउज़ करें जिसमें पूर्ण डेटा, वृद्धिशील डेटा अपसर्ट और वृद्धिशील डेटा डिलीट के लिए .csv या .parquet फ़ाइलें हैं।
    2. संपूर्ण डेटा और दोनों वृद्धिशील फ़ाइलों (.csv या .parquet) के लिए एक्सटेंशन दर्ज करें।
    3. .csv फ़ाइलों के लिए, कॉलम डिलीमीटर का चयन करें और यदि आप फ़ाइल की पहली पंक्ति को कॉलम हेडर के रूप में चाहते हैं।
    4. सहेजें चुनें.
  4. अंतिम अद्यतन के लिए, दिनांक टाइमस्टैम्प विशेषता का चयन करें.

  5. यदि प्राथमिक कुंजी चयनित नहीं है, तो प्राथमिक कुंजी का चयन करें. प्राथमिक कुंजी तालिका के लिए एक अद्वितीय विशेषता है। एक मान्य प्राथमिक कुंजी होने के लिए, इसमें डुप्लिकेट मान, गुम हुए मान या शून्य मान शामिल नहीं होने चाहिए. स्ट्रिंग, पूर्णांक और GUID डेटा प्रकार विशेषताएँ प्राथमिक कुंजी के रूप में समर्थित हैं।

  6. फलक को सहेजने और बंद करने के लिए बंद करें का चयन करें.

  7. डेटा स्रोत को जोड़ना या संपादित करना जारी रखें।

Azure Data Lake डेटा स्रोतों के लिए एक बार पूर्ण रिफ़्रेश चलाएँ

जब आप Azure Data Lake डेटा स्रोतों के लिए वृद्धिशील रिफ्रेश कॉन्फ़िगर करते हैं, तो कई बार ऐसा होता है जब डेटा को पूर्ण रिफ्रेश के साथ संसाधित करने की आवश्यकता होती है. वृद्धिशील रिफ्रेश के लिए सेट किए गए पूर्ण डेटा फ़ोल्डर में पूर्ण डेटा का स्थान शामिल होना चाहिए।

  1. डेटा स्रोत को संपादित करते समय, तालिकाएँ चुनें फलक पर जाएँ और उस तालिका को संपादित करें जिसे आप ताज़ा करना चाहते हैं।

  2. तालिका संपादित करें फलक पर, एक बार पूर्ण रिफ्रेश चलाएँ चेकबॉक्स तक स्क्रॉल करें और उसका चयन करें।

    एक बार रिफ्रेश करने के लिए डेटा स्रोत में तालिका कॉन्फ़िगर करें।

  3. से वृद्धिशील फ़ाइलें संसाधित करें के लिए, वृद्धिशील फ़ाइलों को बनाए रखने के लिए दिनांक और समय निर्दिष्ट करें। पूर्ण डेटा तथा वृद्धिशील डेटा का प्रसंस्करण निर्दिष्ट दिनांक और समय के बाद शुरू होता है। उदाहरण के लिए, यदि आप दिसंबर की शुरुआत से आज (30 दिसंबर) तक के वृद्धिशील डेटा को बनाए रखते हुए नवंबर के अंत तक आंशिक डेटा रिफ्रेश/बैकफ़िल करना चाहते हैं, तो 1 दिसंबर दर्ज करें। सभी डेटा को प्रतिस्थापित करने और वृद्धिशील फ़ोल्डर में डेटा को अनदेखा करने के लिए, भविष्य की तिथि निर्दिष्ट करें।

  4. फलक को सहेजने और बंद करने के लिए बंद करें का चयन करें.

  5. अपने परिवर्तनों को लागू करने के लिए सहेजें चुनें और डेटा स्रोत पृष्ठ पर वापस लौटें. डेटा स्रोत रिफ्रेशिंग स्थिति में है, जो पूर्ण रिफ्रेश कर रहा है।