इसके माध्यम से साझा किया गया


डेल्टा लेक प्रारूप में डेटा निर्यात करें Dataverse

अपने डेटा को डेल्टा लेक प्रारूप में निर्यात करने के लिए Azure Synapse लिंक का उपयोग करें। Dataverse Microsoft Dataverse डेल्टा लेक और साथ ही Azure Databricks जैसे कई अन्य उपकरणों के लिए मूल प्रारूप है। Microsoft Fabric डेल्टा लेक प्रारूप में डेटा को सीधे निर्यात करने से आपके लिए अलग से डेल्टा लेक रूपांतरण प्रक्रिया करने की आवश्यकता समाप्त हो जाती है और जानकारी प्राप्त करने में लगने वाले समय में तेजी आती है। Dataverse यह आलेख इस सुविधा के बारे में जानकारी प्रदान करता है और आपको निम्नलिखित कार्य करने का तरीका बताता है:

  • डेल्टा लेक और पार्क्वेट के बारे में बताया गया है तथा बताया गया है कि आपको डेटा को इस प्रारूप में क्यों निर्यात करना चाहिए।
  • लिंक के साथ अपने Dataverse डेटा को डेल्टा लेक प्रारूप में अपने Azure Synapse Analytics कार्यस्थान पर निर्यात करें। Azure Synapse
  • अपने Azure Synapse लिंक और डेटा रूपांतरण की निगरानी करें.
  • Azure Data Lake Storage Gen2 से अपना डेटा देखें.
  • Synapse Workspace से अपना डेटा देखें.
  • अपना डेटा Microsoft Fabric में देखें.

डेल्टा झील क्या है?

डेल्टा लेक एक ओपन-सोर्स परियोजना है जो डेटा झीलों के शीर्ष पर लेकहाउस वास्तुकला का निर्माण करने में सक्षम बनाती है। डेल्टा लेक ACID (परमाणुता, संगति, अलगाव और स्थायित्व) लेनदेन, स्केलेबल मेटाडेटा हैंडलिंग प्रदान करता है, और मौजूदा डेटा झीलों के शीर्ष पर स्ट्रीमिंग और बैच डेटा प्रोसेसिंग को एकीकृत करता है। Azure Synapse Analytics लिनक्स फाउंडेशन डेल्टा लेक के साथ संगत है। डेल्टा लेक के वर्तमान संस्करण में स्काला, पायस्पार्क और .NET के लिए भाषा समर्थन शामिल है। Azure Synapse अधिक जानकारी: डेल्टा झील क्या है?. आप डेल्टा टेबल्स का परिचय वीडियो से भी अधिक जानकारी प्राप्त कर सकते हैं।

अपाचे पार्क्वेट डेल्टा लेक के लिए आधारभूत प्रारूप है, जो आपको प्रारूप के लिए मूल कुशल संपीड़न और एन्कोडिंग योजनाओं का लाभ उठाने में सक्षम बनाता है। पार्क्वेट फ़ाइल प्रारूप स्तंभ-वार संपीड़न का उपयोग करता है। यह कुशल है और भंडारण स्थान बचाता है। विशिष्ट स्तंभ मान प्राप्त करने वाली क्वेरीज़ को संपूर्ण पंक्ति डेटा पढ़ने की आवश्यकता नहीं होती, जिससे प्रदर्शन में सुधार होता है। इसलिए, सर्वर रहित SQL पूल को डेटा पढ़ने के लिए कम समय और कम भंडारण अनुरोधों की आवश्यकता होती है।

डेल्टा लेक का उपयोग क्यों करें?

  • मापनीयता: डेल्टा लेक ओपन-सोर्स अपाचे लाइसेंस के आधार पर बनाया गया है, जिसे बड़े पैमाने पर डेटा प्रोसेसिंग कार्यभार को संभालने के लिए उद्योग मानकों को पूरा करने के लिए डिज़ाइन किया गया है।
  • विश्वसनीयता: डेल्टा लेक ACID लेनदेन प्रदान करता है, जो विफलताओं या समवर्ती पहुंच की स्थिति में भी डेटा की स्थिरता और विश्वसनीयता सुनिश्चित करता है।
  • प्रदर्शन: डेल्टा लेक पार्क्वेट के स्तंभाकार भंडारण प्रारूप का लाभ उठाता है, बेहतर संपीड़न और एन्कोडिंग तकनीक प्रदान करता है, जिससे क्वेरी CSV फ़ाइलों की तुलना में बेहतर क्वेरी प्रदर्शन हो सकता है।
  • लागत प्रभावी: डेल्टा लेक फ़ाइल प्रारूप एक अत्यधिक संपीड़ित डेटा भंडारण तकनीक है जो व्यवसायों के लिए महत्वपूर्ण संभावित भंडारण बचत प्रदान करती है। यह प्रारूप विशेष रूप से डेटा प्रसंस्करण को अनुकूलित करने और ऑन-डिमांड कंप्यूटिंग के लिए आवश्यक संसाधित डेटा की कुल मात्रा या चलने के समय को कम करने के लिए डिज़ाइन किया गया है।
  • डेटा संरक्षण अनुपालन: डेल्टा लेक विद लिंक सामान्य डेटा संरक्षण विनियमन (जीडीपीआर) सहित विभिन्न डेटा गोपनीयता विनियमों का अनुपालन करने के लिए सॉफ्ट-डिलीट और हार्ड-डिलीट सहित उपकरण और सुविधाएँ प्रदान करता है। Azure Synapse

Azure Synapse लिंक फॉर Dataverse सेट अप करते समय, आप डेल्टा लेक में निर्यात सुविधा को सक्षम कर सकते हैं और एक Synapse कार्यक्षेत्र और स्पार्क पूल से कनेक्ट कर सकते हैं। Azure Synapse लिंक चयनित तालिकाओं को निर्दिष्ट समय अंतराल पर CSV प्रारूप में निर्यात करता है, और उन्हें डेल्टा लेक रूपांतरण स्पार्क कार्य के माध्यम से संसाधित करता है। Dataverse इस रूपांतरण प्रक्रिया के पूरा होने पर, CSV डेटा को भंडारण हेतु साफ कर दिया जाता है। इसके अतिरिक्त, रखरखाव कार्यों की एक श्रृंखला को दैनिक आधार पर चलाने के लिए निर्धारित किया गया है, जो भंडारण को और अधिक अनुकूलित करने और क्वेरी प्रदर्शन में सुधार करने के लिए डेटा फ़ाइलों को मर्ज करने और साफ करने के लिए स्वचालित रूप से संघनन और वैक्यूमिंग प्रक्रियाएं निष्पादित करता है।

महत्त्वपूर्ण

  • यदि आप मौजूदा कस्टम दृश्यों के साथ CSV से डेल्टा लेक में अपग्रेड कर रहे हैं, तो हम सभी विभाजित तालिकाओं को non_partitioned से बदलने के लिए स्क्रिप्ट को अपडेट करने की अनुशंसा करते हैं। ऐसा करने के लिए _partitioned के इंस्टेंसों की तलाश करें और उन्हें खाली स्ट्रिंग से बदलें।
  • Dataverse कॉन्फ़िगरेशन के लिए, appendonly मोड में CSV डेटा निर्यात करने के लिए केवल-जोड़ना डिफ़ॉल्ट रूप से सक्षम है। डेल्टा लेक तालिका में एक इन-प्लेस अद्यतन संरचना होगी क्योंकि डेल्टा लेक रूपांतरण एक आवधिक विलय प्रक्रिया के साथ आता है।
  • डेल्टा रूपांतरण के लिए आपको अपनी स्वयं की Azure सदस्यता में स्पार्क पूल (कंप्यूट संसाधन) का प्रावधान करना होगा। इस स्पार्क पूल का उपयोग आपके द्वारा चुने गए समय अंतराल के आधार पर आवधिक डेल्टा रूपांतरण करने के लिए किया जाता है।
  • स्पार्क पूल के निर्माण में कोई लागत नहीं आती। शुल्क केवल तभी लगाया जाता है जब लक्ष्य स्पार्क पूल पर स्पार्क कार्य निष्पादित किया जाता है और स्पार्क इंस्टैंस को मांग पर इंस्टैंसिएट किया जाता है। ये लागतें कार्यक्षेत्र स्पार्क के उपयोग से संबंधित हैं और मासिक रूप से बिल की जाती हैं। Azure Synapse स्पार्क कंप्यूटिंग की लागत मुख्य रूप से वृद्धिशील अद्यतन के लिए समय अंतराल और डेटा वॉल्यूम पर निर्भर करती है। अधिक जानकारी: Azure Synapse Analytics मूल्य निर्धारण
  • आपको संस्करण 3.4 के साथ एक स्पार्क पूल बनाना होगा। यदि आप पहले से ही स्पार्क संस्करण 3.3 के साथ इस सुविधा का उपयोग कर रहे हैं, तो आपको अपने मौजूदा प्रोफाइल के लिए इन-प्लेस अपग्रेड करना होगा। अधिक जानकारी: डेल्टा लेक 2.4 के साथ Apache Spark 3.4 में इन-प्लेस अपग्रेड

नोट

Azure Synapse में Power Apps (make.powerapps.com) लिंक स्थिति डेल्टा लेक रूपांतरण स्थिति को दर्शाती है:

  • Count डेल्टा लेक तालिका में रिकॉर्डों की संख्या दर्शाता है.
  • Last synchronized on दिनांक-समय अंतिम सफल रूपांतरण टाइमस्टैम्प को दर्शाता है.
  • Sync status डेटा सिंक और डेल्टा लेक रूपांतरण पूरा होने के बाद इसे सक्रिय के रूप में दिखाया जाता है, जो दर्शाता है कि डेटा उपभोग के लिए तैयार है।

पूर्वावश्यकताएँ

  • Dataverse: आपके पास Dataverse सिस्टम व्यवस्थापक सुरक्षा भूमिका होनी चाहिए. इसके अतिरिक्त, जिन तालिकाओं को आप Azure Synapse लिंक के माध्यम से निर्यात करना चाहते हैं, उनमें परिवर्तन ट्रैक करें गुण सक्षम होना चाहिए। अधिक जानकारी: उन्नत विकल्प
  • Azure Data Lake Storage Gen2: आपके पास एक Azure Data Lake Storage Gen2 खाता और स्वामी और स्टोरेज ब्लॉब डेटा योगदानकर्ता भूमिका पहुँच होनी चाहिए। आपके संग्रहण खाते को आरंभिक सेटअप और डेल्टा सिंक दोनों के लिए पदानुक्रमित नामस्थान और सार्वजनिक नेटवर्क पहुँच सक्षम करना होगा. संग्रहण खाता कुंजी पहुँच की अनुमति दें केवल आरंभिक सेटअप के लिए आवश्यक है.
  • Synapse कार्यक्षेत्र: आपके पास Synapse कार्यक्षेत्र और पहुँच नियंत्रण (IAM) में स्वामी की भूमिका और Synapse स्टूडियो के भीतर Synapse व्यवस्थापक की भूमिका होनी चाहिए। Synapse वर्कस्पेस आपके Azure Data Lake Storage Gen2 खाते के समान क्षेत्र में ही होना चाहिए. स्टोरेज खाता को Synapse Studio के भीतर एक लिंक की गई सेवा के रूप में जोड़ा जाना चाहिए. Synapse कार्यक्षेत्र बनाने के लिए, Synapse कार्यक्षेत्र बनाना पर जाएँ।
  • इस अनुशंसित स्पार्क पूल कॉन्फ़िगरेशन का उपयोग करते हुए संस्करण 3.4 के साथ कनेक्टेड कार्यक्षेत्र में एक पूल। Apache Spark Azure Synapse Apache Spark ... स्पार्क पूल बनाने के तरीके के बारे में जानकारी के लिए, नया Apache Spark पूल बनाएँ पर जाएँ।
  • इस सुविधा का उपयोग करने के लिए 365 का न्यूनतम संस्करण 9.2.22082 है। Microsoft Dynamics अधिक जानकारी: अद्यतनों तक शीघ्र पहुंच के लिए ऑप्ट इन करें

इस कॉन्फ़िगरेशन को औसत उपयोग मामलों के लिए बूटस्ट्रैप चरण माना जा सकता है।

  • नोड का आकार: छोटा (4 vCores / 32 GB)
  • ऑटोस्केल: सक्षम
  • नोड्स की संख्या: 3 से 10 (या यदि आवश्यक हो तो 20. 1अधिक जानकारी नीचे दी गई है.)
  • स्वचालित विराम: सक्षम
  • निष्क्रिय मिनटों की संख्या: 5
  • Apache Spark: 3.4
  • गतिशील रूप से निष्पादक आवंटित करें: सक्षम
  • निष्पादकों की डिफ़ॉल्ट संख्या: 1 से 9

महत्त्वपूर्ण

  • Synapse Link के साथ डेल्टा लेक वार्तालाप संचालन के लिए विशेष रूप से स्पार्क पूल का उपयोग करें। Dataverse इष्टतम विश्वसनीयता और प्रदर्शन के लिए, समान स्पार्क पूल का उपयोग करके अन्य स्पार्क कार्य चलाने से बचें।
  • यदि आप बड़ी संख्या में पंक्तियों को संसाधित करने की अपेक्षा करते हैं, तो आपको स्पार्क पूल के नोड्स की संख्या बढ़ाने की आवश्यकता हो सकती है। यदि स्पार्क पूल का आकार अपर्याप्त है, तो डेल्टा रूपांतरण कार्य विफल हो सकता है
  • इसी स्पार्क पूल का उपयोग सिस्टम द्वारा रात्रिकालीन कार्य चलाने के लिए किया जाता है, जो स्थानीय समयानुसार रात्रि 11 बजे से प्रातः 6 बजे के बीच झील में डेल्टा फाइलों को संकुचित करता है। सिस्टम आपके वातावरण के स्थान के आधार पर इस कार्य को चलाने के लिए रात्रि का समय निर्धारित करता है। Dataverse आप कोई विशिष्ट समय-सीमा नहीं बता सकते। यह विकल्प "कॉम्पैक्शन" नामक फ़ाइलों को मर्ज करके डेल्टा फ़ाइलों के आकार को कम करता है। दुर्लभ मामलों में, यह कार्य वृद्धिशील रूपांतरण कार्य में हस्तक्षेप कर सकता है। यदि आपको ये विफलताएं नजर आएं तो आप नोड्स की संख्या 20 तक बढ़ा सकते हैं।
  • आपसे केवल वास्तव में उपयोग किए गए स्पार्क पूल नोड्स के लिए ही शुल्क लिया जाएगा। नोड्स की संख्या बढ़ाने से शुल्क में वृद्धि नहीं होगी।

Synapse कार्यक्षेत्र से कनेक्ट करें और डेल्टा लेक प्रारूप में डेटा निर्यात करें Dataverse

  1. लॉग इन करें और इच्छित वातावरण का चयन करें। Power Apps

  2. बाएँ नेविगेशन फलक पर, Azure Synapse लिंक का चयन करें. यदि आइटम साइड पैनल पैन में नहीं है, तो …अधिक चुनें और फिर इच्छित आइटम का चयन करें।

  3. कमांड बार पर, + नया लिंक चुनें

  4. अपने Azure Synapse Analytics कार्यस्थान से कनेक्ट करें चुनें, और फिर सदस्यता, संसाधन समूह, और कार्यस्थान नाम चुनें.

  5. प्रसंस्करण के लिए स्पार्क पूल का उपयोग करें का चयन करें, और फिर पूर्वनिर्मित स्पार्क पूल और संग्रहण खाता का चयन करें. Azure Synapse स्पार्क पूल को शामिल करने वाले कॉन्फ़िगरेशन के लिए लिंक. Dataverse

  6. अगला चुनें.

  7. वे तालिकाएँ जोड़ें जिन्हें आप निर्यात करना चाहते हैं, और फिर उन्नत चुनें.

  8. वैकल्पिक रूप से, उन्नत कॉन्फ़िगरेशन सेटिंग्स दिखाएँ का चयन करें और वृद्धिशील अद्यतनों को कितनी बार कैप्चर किया जाना चाहिए, इसके लिए मिनटों में समय अंतराल दर्ज करें।

  9. सहेजें चुनें.

  1. इच्छित लिंक का चयन करें, और फिर कमांड बार पर कार्यक्षेत्र पर जाएँ का चयन करें। Azure Synapse Azure Synapse Analytics
  2. अनुप्रयोगों की निगरानी करें>Apache Spark का चयन करें. अधिक जानकारी: अपने अनुप्रयोगों की निगरानी के लिए Synapse Studio का उपयोग करें Apache Spark

Synapse कार्यक्षेत्र से अपना डेटा देखें

  1. इच्छित लिंक का चयन करें, और फिर कमांड बार पर कार्यक्षेत्र पर जाएँ का चयन करें। Azure Synapse Azure Synapse Analytics
  2. बाएँ फलक पर लेक डेटाबेस का विस्तार करें, डेटावर्स-पर्यावरणनामसंगठनअद्वितीयनामका चयन करें, और फिर तालिकाएँका विस्तार करें. सभी पार्क्वेट तालिकाएँ सूचीबद्ध हैं और नामकरण पद्धति DataverseTableName.(Non_partitioned Table) के साथ विश्लेषण के लिए उपलब्ध हैं।

नोट

नामकरण पद्धति _partitioned वाली तालिकाओं का उपयोग न करें. जब आप डेल्टा पार्केट को प्रारूप के रूप में चुनते हैं, तो _partition नामकरण पद्धति वाली तालिकाओं को स्टेजिंग तालिकाओं के रूप में उपयोग किया जाता है और सिस्टम द्वारा उपयोग किए जाने के बाद उन्हें हटा दिया जाता है।

Azure Data Lake Storage Gen2 से अपना डेटा देखें

  1. इच्छित लिंक का चयन करें, और फिर कमांड बार पर Azure डेटा लेक पर जाएँ का चयन करें. Azure Synapse
  2. कंटेनर के अंतर्गत डेटा संग्रहण का चयन करें।
  3. *dataverse- *environmentName-organizationUniqueName का चयन करें. सभी पार्केट फ़ाइलें डेल्टालेक फ़ोल्डर में संग्रहीत हैं।

डेल्टा लेक 2.4 के साथ Apache Spark 3.4 में अपग्रेड करें

Synapse रनटाइम for Apache Spark जीवनचक्र नीति के अनुसार, Azure Synapse रनटाइम for Apache Spark 3.3 को 31 मार्च, 2025 तक सेवानिवृत्त और अक्षम कर दिया गया है। समर्थन तिथि की समाप्ति के बाद, सेवानिवृत्त रनटाइम नए स्पार्क पूल के लिए उपलब्ध नहीं होंगे और स्पार्क 3.3 पूल के साथ मौजूदा वर्कफ़्लो निष्पादित नहीं किए जाएंगे, जबकि मेटाडेटा अस्थायी रूप से Synapse कार्यक्षेत्र में रहेगा। अधिक जानकारी: Azure Synapse Apache Spark 3.3 (EOSA) के लिए रनटाइम.

यह सुनिश्चित करने के लिए कि आपके मौजूदा Synapse Link प्रोफाइल डेटा को संसाधित करना जारी रखते हैं, आपको "इन-प्लेस अपग्रेड प्रक्रिया" का उपयोग करके स्पार्क 3.4 पूल का उपयोग करने के लिए Synapse Link प्रोफाइल को अपग्रेड करना होगा।

इन-प्लेस अपग्रेड पूर्वापेक्षाएँ

  • आपके पास Synapse Spark संस्करण 3.3 के साथ चलने वाला एक मौजूदा Azure Synapse लिंक फॉर Dataverse डेल्टा लेक प्रोफ़ाइल होना चाहिए।
  • आपको उसी Synapse कार्यक्षेत्र के भीतर समान या उच्चतर नोड्स हार्डवेयर कॉन्फ़िगरेशन का उपयोग करके Spark संस्करण 3.4, के साथ एक नया Synapse Spark पूल बनाना होगा। स्पार्क पूल बनाने के तरीके के बारे में जानकारी के लिए, नया Apache Spark पूल बनाएँ पर जाएँ। यह स्पार्क पूल वर्तमान 3.3 पूल से स्वतंत्र बनाया जाना चाहिए - अपने स्पार्क 3.3 पूल को न हटाएं या उसी नाम से स्पार्क 34 पूल न बनाएं

स्पार्क 3.4 में इन-प्लेस अपग्रेड

  1. लॉग इन करें Power Apps और अपना पसंदीदा वातावरण चुनें।
  2. बाएँ नेविगेशन फलक पर, Azure Synapse लिंक का चयन करें. यदि आइटम बाएं नेविगेशन फलक में नहीं है, तो …अधिक चुनें और फिर इच्छित आइटम का चयन करें।
  3. Azure Synapse लिंक प्रोफ़ाइल खोलें, और फिर डेल्टा लेक 2.4 के साथ 3.4 में अपग्रेड करें Apache Spark का चयन करें।
  4. सूची से उपलब्ध स्पार्क पूल का चयन करें, और फिर अपडेट का चयन करें।

नोट

  • स्पार्क पूल अपग्रेड केवल तभी होता है जब एक नया डेल्टा लेक रूपांतरण स्पार्क कार्य ट्रिगर होता है। सुनिश्चित करें कि अपडेट का चयन करने के बाद आपके पास कम से कम एक डेटा परिवर्तन है।
  • यह सत्यापित करने के बाद कि डेल्टा रूपांतरण कार्य नए पूल का उपयोग करते हैं, आप पुराने स्पार्क 3.3 पूल को हटा सकते हैं।

Azure Synapse लिंक किस लिए है? Dataverse