Azure Synapse Link में एडवांस कॉन्फ़िगरेशन विकल्प

आलेख
04/03/2023

Azure Synapse Link विभिन्न विश्लेषणात्मक परिदृश्यों को फ़िट करने के लिए आपके डेटा को लिखने और पढ़ने के कई तरीके प्रदान करता है.

नोट

Azure Synapse Link for Dataverse पूर्व में Data Lake के लिए निर्यात के रूप में जाना जाता था. इस सेवा का मई 2021 से प्रभावी होने पर फिर से नाम रखा गया था और यह Azure Data Lake के साथ-साथ Azure Synapse Analytics को डेटा निर्यात करना जारी रखेगा.

इस आलेख में शामिल है:

इन-प्लेस अपडेट बनाम एपेंड-ओनली लेख.
उपयोगकर्ता-निर्दिष्ट डेटा रणनीति.

इन-प्लेस अपडेट बनाम एपेंड-ओनली लेख

createdOn मान के आधार पर, Azure Data Lake पर Dataverse टेबल डेटा लिखते समय, जो वह तारीख और समय है जब रिकॉर्ड बनाया गया था, जिसमें से चुनने के लिए दो अलग-अलग सेटिंग्स हैं. वे हैं, इन प्लेस अपडेट और अपेंड केवल.

डिफ़ॉल्ट सेटिंग (उन टेबल के लिए जहां createdOn उपलब्ध है) डेस्टिनेशन में वृद्धिशील डेटा का इन-प्लेस अपडेट या अपसर्ट (अपडेट या इनसर्ट) करना है. यदि परिवर्तन नया है और संबंधित पंक्ति लेक में मौजूद नहीं है, तो बनाने के मामले में, डेस्टिनेशन फ़ाइलों को स्कैन किया जाता है और परिवर्तन लेक में संबंधित फ़ाइल विभाजन में दर्ज किए जाते हैं. यदि परिवर्तन एक अपडेट है और लेक में पंक्ति मौजूद है, तो फ़ाइल को वृद्धिशील डेटा के साथ लेक में दर्ज करने की जगह अपडेट किया जाता है. दूसरे शब्दों में, तालिकाओं में Dataverse सभी CUD (बनाएं, अपडेट करें, हटाएं) परिवर्तनों के लिए डिफ़ॉल्ट सेटिंग, जहां createdOn उपलब्ध है, एज़्योर डेटा लेक में गंतव्य में एक जगह अपडेट करना है।

आप अपेंड केवल नामक वैकल्पिक सेटिंग का उपयोग करके किसी इन प्लेस अपडेट में डिफ़ॉल्ट व्यवहार को बदल सकते हैं. अपेड केवल मोड में इन प्लेस अपडेट के बजाय, Dataverse टेबल से वृद्धिशील Data Lake में संबंधित फ़ाइल विभाजन में जोड़ी जाती है. यह प्रति टेबल सेटिंग है और एडवांस्ड > एडवांस्ड कॉन्फ़िगरेशन सेटिंग्स दिखाएं के अंतर्गत चेकबॉक्स के रूप में उपलब्ध है. अपेंड केवल चालू करने के साथ Dataverse टेबल के लिए, सभी CUD परिवर्तन लेक में संबंधित डेस्टिनेशन फ़ाइलों के लिए वृद्धिशील रूप से जोड़े जाते हैं. जब आप इस विकल्प को चुनते हैं, तो विभाजन की रणनीति वर्ष में डिफ़ाल्ट होती है और जब डेटा को मूल डेटा संग्रह में लिखा जाता है, तो यह वार्षिक आधार पर विभाजित होता है. केवल जोड़ें उन Dataverse तालिकाओं के लिए डिफ़ॉल्ट सेटिंग भी है जिसमें createdOn मान नहीं है.

नीचे दी गई टेबल बताती है कि डेटा लिखने के प्रत्येक विकल्प के लिए CUD इवेंट के खिलाफ लेक में पंक्तियों को कैसे संभाला जाता है.

ईवेंट	इन प्लेस अपडेट	केवल जोड़ें
निर्माण करें	पंक्ति को विभाजन फ़ाइल में डाला गया है और यह पंक्ति पर स्थित `createdOn` मान पर आधारित है.	पंक्ति को विभाजन फ़ाइल के अंत में जोड़ा जाता है और यह रिकॉर्ड के `createdOn` मान पर आधारित होता है.
अद्यतित करें	यदि पंक्ति विभाजन फ़ाइल में मौजूद है, तो उसे अपडेट किए गए डेटा के साथ बदल दिया जाता है या अपडेट किया जाता है. यदि यह मौजूद नहीं है, तो इसे फ़ाइल में दर्ज किया जाता है.	अपडेट संस्करण के साथ पंक्ति को विभाजन फ़ाइल के अंत में जोड़ा जाता है.
हटाएं	यदि पंक्ति विभाजन फ़ाइल में मौजूद है, तो इसे फाइल से हटा दिया जाता है.	पंक्ति के साथ विभाजन फ़ाइल के अंत में जोड़ा जाता है। `IsDelete column = True`

नोट

Dataverse टेबल के लिए जहां अपेंड केवल सक्षम है, स्रोत में एक पंक्ति को हटाने से लेक में पंक्ति हटाई या निकाली नहीं जाएगी. इसके बजाय, हटाई गई पंक्ति को झील में एक नई पंक्ति के रूप में जोड़ा जाता है और isDeleted स्तंभ को सही पर सेट किया जाता है।

सर्वर रहित के लिए गंदा पठन (ALLOW_INCONSISTENT_READS) केवल जोड़ मोड के लिए सक्षम है। इसका अर्थ ALLOW_INCONSISTENT_READS है कि उपयोगकर्ता उन फ़ाइलों को पढ़ने में सक्षम है जिन्हें क्वेरी के चलने के SELECT दौरान लगातार संशोधित किया जा सकता है। परिणाम संगत होंगे और फ़ाइल के स्नैपशॉट को पढ़ने के बराबर होंगे। (यह अलग-अलग स्नैपशॉट जनरेशन समय के कारण डेटाबेस स्नैपशॉट अलगाव के बराबर नहीं है।

सभी CUD परिवर्तन केवल परिशिष्ट में कैप्चर नहीं किए जाएंगे: Synapse लिंक डेटा लेक में प्रकाशित करने से पहले समूहों या "बैचों" में डेटा में परिवर्तन को संसाधित करता है। परिणामस्वरूप, यदि उपयोगकर्ता थोड़े समय अंतराल के भीतर परिवर्तन करता है, तो सभी CUD परिवर्तन डेटा लेक में कैप्चर नहीं किए जाएंगे।

विकल्पों में से किसी का उपयोग कब करना है, इस पर कुछ अधिक विवरण दिए गए हैं.

इन प्लेस अपडेट में: यह विकल्प डिफ़ॉल्ट सेटिंग है और केवल तभी अनुशंसित की जाती है जब आप लेक में डेटा से सीधे जुड़ना चाहते हैं और वर्तमान स्थिति चाहते हैं (इतिहास या वृद्धिशील परिवर्तन नहीं). फ़ाइल में पूरा डेटा सेट होता है और इसका उपयोग Power BI के माध्यम से किया जा सकता है या ETL (एक्सट्रैक्ट, ट्रांसफर, लोड) पाइपलाइनों के लिए संपूर्ण डेटासेट को कॉपी करके उपयोग किया जा सकता है.
अपेंड केवल: इस विकल्प का चयन केवल तब करें जब आप सीधे लेक में डेटा से कनेक्ट नहीं कर रहे हैं और ETL पाइपलाइनों का उपयोग करते हुए डेटा को किसी अन्य लक्ष्य पर वृद्धिशील रूप से कॉपी करना चाहते हैं. यह विकल्प AI और ML परिदृश्यों को सक्षम करने के लिए परिवर्तनों का इतिहास प्रदान करता है.

आप अपनी डेटा विभाजन रणनीति को कस्टमाइज़ करने और Azure Data Lake में लिखने के लिए विकल्पों का चयन करने के लिए Azure Synapse Link for Dataverse में उन्नत के अंतर्गत उन्नत कॉन्फ़िगरेशन सेटिंग दिखाएं टॉगल कर सकते हैं.

उन्नत कॉन्फ़िगरेशन दिखाएं.

डेटा विभाजन

जब आप Azure Synapse Link का उपयोग करके Azure Data Lake Storage के लिए Dataverse तालिका डेटा लिखते हैं, तो स्रोत में प्रत्येक पंक्ति पर createdOn मान के आधार पर लेक में तालिका (एक ही फ़ाइल के बजाय) विभाजित की जाती हैं. डिफ़ॉल्ट विभाजन की रणनीति महीने के अनुसार है और डेटा को मासिक आधार पर Azure मूल डेटा संग्रह में विभाजित किया जाता है.

Dataverse तालिका मात्रा और डेटा वितरण के आधार पर, आप अपने डेटा को साल के अनुसार विभाजित करना चुन सकते हैं. इस विकल्प के साथ, जब Dataverse तालिका डेटा को Azure मूल डेटा संग्रह में लिखा जाता है, तो इसे स्रोत में प्रत्येक पंक्ति पर createdOn मान के आधार पर वार्षिक आधार पर विभाजित किया जाएगा. स्तंभ के बिना तालिकाओं के createdOn लिए, डेटा की पंक्तियों को प्रत्येक 5,000,000 रिकॉर्ड में एक नई फ़ाइल में विभाजित किया जाता है। यह प्रति टेबल सेटिंग है और एडवांस्ड > एडवांस्ड कॉन्फ़िगरेशन सेटिंग्स दिखाएं के अंतर्गत चेकबॉक्स के रूप में उपलब्ध है.

वार्षिक या मासिक विभाजन रणनीति के साथ लेक में डेटा कैसे संभाला जाता है, इसके उदाहरणों के साथ अधिक विवरण:

विभाजन रणनीति.

भी देखें

Azure Synapse Link for Dataverse

नोट

क्या आप हमें अपनी दस्तावेज़ीकरण भाषा वरीयताओं के बारे में बता सकते हैं? एक छोटा सर्वेक्षण पूरा करें. (कृपया ध्यान दें कि यह सर्वेक्षण अंग्रेज़ी में है)

सर्वेक्षण में लगभग सात मिनट लगेंगे. कोई भी व्यक्तिगत डेटा एकत्र नहीं किया जाता है (गोपनीयता कथन).

इसके माध्यम से साझा किया गया

Azure Synapse Link में एडवांस कॉन्फ़िगरेशन विकल्प

इन-प्लेस अपडेट बनाम एपेंड-ओनली लेख

डेटा विभाजन

भी देखें

अतिरिक्त संसाधन