Dataverse деректерді Delta Lake пішімінде экспорттау

Azure Synapse Link for Dataverse Дельта көлі пішімінде Microsoft Dataverse деректеріңізді Azure Synapse Analytics экспорттау үшін пайдаланыңыз. Содан кейін деректеріңізді зерттеп, түсіну уақытын тездетіңіз. Бұл мақала келесі ақпаратты береді және келесі тапсырмаларды орындау жолын көрсетеді:

  • Delta Lake және Parket және деректерді неге осы пішімде экспорттау керектігін түсіндіреді.
  • Dataverse деректеріңізді Azure Synapse Analytics жұмыс кеңістігіңізге Azure Synapse Link арқылы Delta Lake пішімінде экспорттаңыз.
  • Azure Synapse Link және деректерді түрлендіруді бақылаңыз.
  • Деректеріңізді Azure Data Lake Storage 2-ген.
  • Synapse Workspace қолданбасынан деректеріңізді қараңыз.

Маңызды

  • Егер сіз CSV нұсқасынан Delta Lake нұсқасына бұрыннан бар теңшелетін көріністермен жаңартып жатсаңыз, барлық бөлінген кестелерді бөлімсіз_болатын етіп ауыстыру үшін сценарийді жаңартуды ұсынамыз. Мұны _partitioned даналарды іздеп, оларды бос жолмен ауыстырыңыз.
  • Dataverse конфигурациясы үшін CSV деректерін appendonly режимінде экспорттау үшін әдепкі бойынша тек қосу мүмкіндігі қосылады. Бірақ Delta Lake кестесінің орнында жаңарту құрылымы болады, себебі Delta Lake конверсиясы мерзімді біріктіру процесімен бірге келеді.
  • Spark бассейндерін жасау кезінде ешқандай шығындар жоқ. Төлемдер тек Spark тапсырмасы мақсатты Spark пулында орындалғанда және Spark данасы сұраныс бойынша жасалғаннан кейін алынады. Бұл шығындар Azure Synapse жұмыс кеңістігінің Spark пайдаланылуына байланысты және ай сайын төленеді. Spark есептеулерін жүргізу құны негізінен қосымша жаңартуға арналған уақыт аралығына және деректер көлеміне байланысты. Қосымша ақпарат: Azure Synapse Analytics баға
  • Бұл мүмкіндікті пайдалану туралы шешім қабылдағанда осы қосымша шығындарды ескеру маңызды, өйткені олар міндетті емес және осы мүмкіндікті пайдалануды жалғастыру үшін төленуі керек.
  • Azure Synapse Орындалу уақыты Apache Spark 3.1 үшін жарамдылық мерзімінің аяқталуы (EOLA) 2023 жылдың 26 ​​қаңтарында жарияланды. Өмірлік цикл саясатына Apache Spark арналған Azure Synapse Synapse іске қосу уақытына сәйкес 3.1-ге арналған Apache Spark іске қосу уақыты 2024 жылғы 26 қаңтардағы жағдай бойынша зейнетке шығады және мүгедек болады. EOL күнінен кейін тоқтатылған орындалу уақыттары жаңа Spark пулдары үшін қол жетімді емес және бар жұмыс процестерін орындау мүмкін емес. Метадеректер уақытша Synapse жұмыс кеңістігінде қалады. Қосымша ақпарат: Azure Synapse Apache Spark 3.1 (EOLA) үшін орындалу уақыты. Synapse Link for Dataverse Delta Lake пішіміне экспорттау арқылы Spark 3.3 нұсқасына дейін жаңарту үшін бар профильдер үшін орнында жаңартуды орындаңыз. Қосымша ақпарат: Дельта көлінің 2.2 нұсқасымен Apache Spark 3.3 дейін орнында жаңарту
  • 2024 жылдың 4 қаңтарынан бастап сілтемені бастапқы жасау кезінде тек Spark Pool 3.3 нұсқасына қолдау көрсетіледі.

Ескерім

Azure Synapse Link (make.powerapps.com) ішіндегі Power Apps мәртебе Дельта көлінің түрлендіру күйін көрсетеді:

  • Count Delta Lake кестесіндегі жазбалар санын көрсетеді.
  • Last synchronized on Datetime соңғы сәтті түрлендіру уақыт белгісін білдіреді.
  • Sync status Деректер синхрондау және Delta Lake түрлендіру аяқталғаннан кейін белсенді көрсетіледі, бұл деректер тұтынуға дайын екенін көрсетеді.

Дельта көлі дегеніміз не?

Delta Lake - бұл деректер көлдерінің үстінде көлдер архитектурасын құруға мүмкіндік беретін ашық бастапқы жоба. Delta Lake ACID (атомдылық, консистенция, оқшаулау және ұзақ мерзімділік) транзакцияларын, масштабталатын метадеректерді өңдеуді қамтамасыз етеді және бар деректер көлдерінің үстіне ағынды және пакеттік деректерді өңдеуді біріктіреді. Azure Synapse Analytics Linux Foundation Delta Lake бағдарламасымен үйлесімді. Azure Synapse құрамына кіретін Delta Lake бағдарламасының ағымдағы нұсқасында Scala, PySpark және .NET үшін тілдік қолдау бар. Қосымша ақпарат: Дельта көлі дегеніміз не?. Сондай-ақ Delta кестелеріне кіріспе бейнесінен көбірек біле аласыз.

Apache Parquet - бұл форматқа тән тиімді қысу және кодтау схемаларын пайдалануға мүмкіндік беретін Delta Lake үшін базалық пішім. Паркет файл пішімі баған бойынша қысуды пайдаланады. Бұл тиімді және сақтау орнын үнемдейді. Арнайы баған мәндерін алатын сұраулар жол деректерін толық оқуды қажет етпейді, осылайша өнімділікті арттырады. Сондықтан серверсіз SQL пулы деректерді оқу үшін аз уақыт пен сақтау сұрауларын қажет етеді.

Неліктен Delta Lake пайдалану керек?

  • Масштабтау: Delta Lake ауқымды деректерді өңдеудің жұмыс жүктемелерін өңдеуге арналған салалық стандарттарға сәйкес келетін ашық бастапқы Apache лицензиясының үстіне салынған.
  • Сенімділік: Delta Lake ACID транзакцияларын қамтамасыз етеді, тіпті сәтсіздіктер немесе бір мезгілде қол жеткізу жағдайында деректердің тұрақтылығы мен сенімділігін қамтамасыз етеді.
  • Өнімділік: Delta Lake Паркеттің бағаналық сақтау пішімін пайдаланады, бұл CSV сұрау файлдарымен салыстырғанда сұрау өнімділігін жақсартуға әкелуі мүмкін жақсырақ қысу және кодтау әдістерін қамтамасыз етеді.
  • Үнемді: Delta Lake файл пішімі - бұл бизнес үшін айтарлықтай әлеуетті сақтауды үнемдеуді ұсынатын жоғары қысылған деректерді сақтау технологиясы. Бұл пішім деректерді өңдеуді оңтайландыру және сұраныс бойынша есептеу үшін қажетті өңделген деректердің жалпы көлемін немесе жұмыс уақытын ықтимал азайту үшін арнайы әзірленген.
  • Деректерді қорғаудың сәйкестігі: Delta Lake Azure Synapse Link деректерді қорғаудың жалпы ережесін (GDPR) қоса алғанда, деректердің құпиялылығы туралы түрлі ережелерді сақтау үшін жұмсақ жоюды және қатты жоюды қоса алғанда, құралдар мен мүмкіндіктерді қамтамасыз етеді.

Azure Synapse Link for Dataverse орнатқанда, Delta Lake экспорттау мүмкіндігін қосып, Synapse жұмыс кеңістігі мен Spark пулымен қосылуға болады. Azure Synapse Link таңдалған Dataverse кестелерді Delta Lake түрлендіру Spark тапсырмасы арқылы өңдей отырып, белгіленген уақыт аралықтарында CSV пішімінде экспорттайды. Осы түрлендіру процесі аяқталғаннан кейін CSV деректері жадты сақтау үшін тазартылады. Бұған қоса, сақтауды одан әрі оңтайландыру және сұрау өнімділігін жақсарту үшін деректер файлдарын біріктіру және тазалау үшін тығыздау және шаңсорғыш процестерін автоматты түрде орындайтын техникалық қызмет көрсету тапсырмаларының сериясы күнделікті орындалатын болады.

Алғышарттар

  • Dataverse: Сізде Dataverse жүйе әкімшісі қауіпсіздік рөлі болуы керек. Сонымен қатар, Azure Synapse Link арқылы экспортталатын кестелерде Өзгерістерді бақылау сипаты қосулы болуы керек. Қосымша ақпарат: Қосымша опциялар
  • Azure Data Lake Storage Gen2: сізде Azure Data Lake Storage Gen2 тіркелгісі және Жауапты және Сақтау екілік нысаны деректерінің салымшысы рөліне қатынасу болуы керек. Жад тіркелгіңіз бастапқы орнату және дельта синхрондау үшін Иерархиялық аттар кеңістігін және жалпы желіге кіруді қосуы керек. Жад есептік жазбасының кілтіне рұқсат беру тек бастапқы орнату үшін қажет.
  • Synapse жұмыс кеңістігі: сізде Synapse жұмыс кеңістігі және Иесі қатынауды басқарудағы(IAM) және Synapse әкімшісі рөлі болуы керек. Synapse Studio ішінде рөлге қол жеткізу. Synapse жұмыс кеңістігі Azure Data Lake Storage Gen2 тіркелгісімен бір аймақта болуы керек. Сақтау орнының тіркелгісі Synapse студиясында байланысқан қызмет ретінде қосылуы керек. Synapse жұмыс кеңістігін жасау үшін Synapse жұмыс кеңістігін жасау бөліміне өтіңіз.
  • Қосылған Azure Synapse жұмыс кеңістігіндегі Apache Spark 3.3 нұсқасы бар ұсынылған Spark Pool конфигурациясын пайдаланатын Spark Pool. Spark пулын жасау жолы туралы ақпарат алу үшін Жаңа Apache Spark пул жасау бөліміне өтіңіз.
  • Бұл мүмкіндікті пайдалану үшін Microsoft Dynamics 365 ең аз нұсқа талабы - 9.2.22082. Қосымша ақпарат: Алдын ала қолжетімділік жаңартуларына қосылыңыз

Ұсынылған Spark Pool конфигурациясы

Бұл конфигурацияны орташа пайдалану жағдайлары үшін жүктеу қадамы деп санауға болады.

  • Түйін өлшемі: шағын (4 vCore / 32 ГБ)
  • Автоматты масштабтау: Қосылған
  • Түйіндердің саны: 5-тен 10-ға дейін
  • Автоматты кідірту: Қосылған
  • Бос тұрған минуттар саны: 5
  • Apache Spark: 3.3
  • Орындаушыларды динамикалық бөлу: Қосылған
  • Орындаушылардың әдепкі саны: 1-ден 9-ға дейін

Dataverse Synapse жұмыс кеңістігіне қосылыңыз және деректерді Delta Lake пішімінде экспорттаңыз

  1. Power Apps ге кіріп, қалаған ортаны таңдаңыз.

  2. Сол жақ шарлау тақтасында Azure Synapse Link таңдаңыз. Элемент сол жақ тақта бөлігінде болмаса, ...Қосымша параметрін таңдап, қажетті элементті таңдаңыз.

  3. Пәрмендер жолағында + Жаңа сілтемені таңдаңыз

  4. Azure Synapse Analytics жұмыс кеңістігіңізге қосылуды таңдап, Жазылым, таңдаңыз. Ресурстар тобы және Жұмыс кеңістігі атауы.

  5. Өңдеу үшін Spark пулын пайдалану таңдаңыз, содан кейін алдын ала жасалған Ұшқын пулын және таңдаңыз. Сақтау есептік жазбасы. Azure Synapse Link for Dataverse ұшқын пулын қамтитын конфигурация.

  6. Келесі пәрменін таңдаңыз.

  7. Экспорттағыңыз келетін кестелерді қосыңыз, содан кейін Қосымша таңдаңыз.

  8. Қажет болса, Қосымша конфигурация параметрлерін көрсету пәрменін таңдап, қосымша жаңартуларды түсіру жиілігі үшін минуттармен уақыт аралығын енгізіңіз.

  9. Сақтау пәрменін таңдаңыз.

  1. Қажетті Azure Synapse Link таңдаңыз, содан кейін пәрмендер жолағында Azure Synapse Analytics жұмыс кеңістігіне өту пәрменін таңдаңыз.
  2. Монитор > Apache Spark қолданбаларды таңдаңыз. Қосымша ақпарат: Synapse Studio қолданбасын Apache Spark қолданбаларды бақылау үшін пайдаланыңыз

Synapse жұмыс кеңістігінен деректеріңізді қараңыз

  1. Қажетті Azure Synapse Link таңдаңыз, содан кейін пәрмендер жолағында Azure Synapse Analytics жұмыс кеңістігіне өту пәрменін таңдаңыз.
  2. Сол жақ тақтада Көл деректер базалары тармағын кеңейтіп, деректер әлемі-* ортаныңNameorganizationUniqueName* таңдаңыз және содан кейін Кестелер кеңейтіңіз. Барлық Parket кестелері тізімделген және атау шартымен талдау үшін қолжетімді DataverseTableName. (Бөлімделген_кесте).

Деректеріңізді Azure Data Lake Storage 2-ген

  1. Қажетті Azure Synapse Link таңдаңыз, содан кейін пәрмендер жолағында Azure деректер көліне өту пәрменін таңдаңыз.
  2. Деректер қоймасы бөлімінен Контейнерлер опциясын таңдаңыз.
  3. *dataverse- *ortamName-organizationUniqueName таңдаңыз. Барлық паркет файлдары deltalake қалтасында сақталады.

Delta Lake 2.2 нұсқасымен Apache Spark 3.3 нұсқасына жаңартыңыз

Алғышарттар

  1. Synapse Spark 3.1 нұсқасымен жұмыс істейтін бар Azure Synapse Link for Dataverse Delta Lake профилі болуы керек.
  2. Бір Synapse жұмыс кеңістігінде бірдей немесе одан жоғары түйіндердің аппараттық конфигурациясын пайдаланып, Spark 3.3 нұсқасы бар жаңа Synapse Spark пулын жасау керек. Spark пулын жасау жолы туралы ақпарат алу үшін Жаңа Apache Spark пул жасау бөліміне өтіңіз. Бұл Spark пулын ағымдағы 3.1 пулынан тәуелсіз жасау керек.

Spark 3.3 нұсқасына орнында жаңарту:

  1. жүйеге кіріңіз Power Apps және қалаған ортаңызды таңдаңыз.
  2. Сол жақ шарлау тақтасында Azure Synapse Link таңдаңыз. Элемент сол жақ шарлау аймағында болмаса, ...Қосымша, содан кейін қажетті элементті таңдаңыз.
  3. Azure Synapse Link профильді ашыңыз, содан кейін Delta Lake 2.2 Apache Spark көмегімен 3.3 ​​нұсқасына жаңартуды таңдаңыз.
  4. Тізімнен қолжетімді Spark пулын таңдап, одан кейін Жаңарту таңдаңыз.

Ескерім

Spark пулын жаңарту жаңа Delta Lake түрлендіру Spark тапсырмасы іске қосылғанда ғана орын алады. Жаңарту опциясын таңдағаннан кейін деректердің кемінде бір өзгерісі бар екеніне көз жеткізіңіз.

Келесіні де қараңыз:

Azure Synapse Link for Dataverse дегеніміз не?