Извоз Dataverse података у Делта Лаке формату
Користите Azure Synapse Link for Dataverse за извоз података Microsoft Dataverse у Azure Synapse Analytics Делта Лаке формату. Затим истражите своје податке и убрзајте време за увид. Овај чланак пружа следеће информације и показује вам како да извршите следеће задатке:
- Објашњава Делта Лаке и Паркет и зашто би требало да извозите податке у овом формату.
- Извозите своје Dataverse податке у свој Azure Synapse Analytics радни простор у Делта Лаке формату са Azure Synapse Link.
- Пратите своје Azure Synapse Link и конверзију података.
- Погледајте своје податке из Azure Data Lake Storage Gen2.
- Прегледајте своје податке из Синапсе радног простора.
Важно
- Ако надограђујете са ЦСВ-а на Делта Лаке са постојећим прилагођеним приказима, препоручујемо да ажурирате скрипту да бисте заменили све подељене табеле на нон_партитионед. Урадите то тако што ћете тражити примере и
_partitioned
замените их празним низом. - За конфигурацију Dataverse , подразумевано је омогућено само додавање за извоз ЦСВ података у режиму
appendonly
. Али табела Делта Лаке ће имати структуру ажурирања на лицу места, јер конверзија Делта Лаке долази са периодичним процесом спајања. - Нема трошкова насталих стварањем Спарк базена. Трошкови настају само када се Спарк посао изврши на циљном Спарк базену, а Спарк инстанца се инстанцира на захтев. Ови трошкови се односе на коришћење Azure Synapse радног простора Спарк и наплаћују се месечно. Трошкови спровођења Спарк рачунарства углавном зависе од временског интервала за инкрементално ажурирање и количине података. Више информација: Azure Synapse Analytics цене
- Важно је узети у обзир ове додатне трошкове приликом одлучивања о коришћењу ове функције јер нису опциони и морају бити плаћени како би наставили да користе ову функцију.
- Најављен крај живота (ЕОЛА) за Azure Synapse Рунтиме за Apache Spark 3.1 најављен је 26. јануара 2023. године. У складу са Синапсе рунтиме за Apache Spark политику животног циклуса, Azure Synapse рунтиме за Apache Spark 3.1 ће бити пензионисан и онемогућен од јануара 26, 2024. Након датума ЕОЛ-а, пензионисана времена извођења нису доступна за нове Спарк базене и постојећи токови посла не могу да се изврше. Метаподаци ће привремено остати у радном простору Сyнапсе. Више информација: Azure Synapse Рунтиме за Apache Spark 3.1 (ЕОЛА). Да бисте имали Синапсе Линк за Dataverse извоз у Делта Лаке формат надоградњу на Спарк 3.3, урадите надоградњу на месту за своје постојеће профиле. Више информација: Надоградња на Apache Spark месту 3.3 са Делта Лаке 2.2
- Почевши од 4. јануара 2024. године, само ће Спарк Поол верзија 3.3 бити подржана приликом почетног креирања везе.
Напомена
Статус Azure Synapse Link ин Power Apps (#пии _ијфидејз ) одражава стање конверзије Делта Лаке:
Count
приказује број записа у табели Делта Лаке.Last synchronized on
Датетиме представља последњу успешну временску ознаку конверзије.Sync status
је приказан као активан када се синхронизација података и конверзија Делта Лаке заврши, што указује да су подаци спремни за потрошњу.
Шта је Делта језеро?
Делта Лаке је пројекат отвореног кода који омогућава изградњу архитектуре језера на врху језера података. Делта Лаке обезбеђује АЦИД (атомичност, конзистентност, изолација и трајност) трансакције, скалабилно руковање метаподацима и обједињује стреаминг и обраду података на врху постојећих језера података. Azure Synapse Analytics је компатибилан са Линук Фоундатион Делта Лаке. Тренутна верзија Делта Лаке укључена има Azure Synapse језичку подршку за Сцала, ПиСпарк и .НЕТ. Више информација: Шта је Делта језеро?. Такође можете сазнати више из видео записа Увод у Делта табеле.
Апацхе Паркет је основни формат за Делта Лаке, омогућавајући вам да искористите ефикасне шеме компресије и кодирања које су изворне у формату. Формат датотеке Паркет користи компресију у колонама. Ефикасан је и штеди простор за складиштење. Упити који дохваћају одређене вредности колона не морају да читају читаве податке о редовима, чиме се побољшавају перформансе. Због тога, СКЛ базен без сервера треба мање времена и мање захтева за складиштење за читање података.
Зашто користити Делта Лаке?
- Скалабилност : Делта Лаке је изграђен на врху Апацхе лиценце отвореног кода, која је дизајнирана да задовољи индустријске стандарде за руковање великим радним оптерећењима за обраду података.
- Поузданост : Делта Лаке обезбеђује АЦИД трансакције, обезбеђујући конзистентност и поузданост података чак и у случају кварова или истовременог приступа.
- Перформансе : Делта Лаке користи колонарни формат складиштења Паркета, пружајући боље технике компресије и кодирања, што може довести до побољшаних перформанси упита у поређењу са ЦСВ датотекама упита.
- Исплативо : Делта Лаке формат датотеке је високо компримована технологија за складиштење података која нуди значајне потенцијалне уштеде за складиштење за предузећа. Овај формат је посебно дизајниран да оптимизира обраду података и потенцијално смањи укупну количину обрађених података или времена рада потребног за рачунарство на захтев.
- Усклађеност са заштитом података: Делта Лаке са Azure Synapse Link пружа алате и функције, укључујући меко брисање и тврдо брисање у складу са различитим прописима о приватности података, укључујући < ДИЦТ__Општа уредба о заштити података > Генерал Дата Протецтион Регулатион </ДИЦТ__Општа уредба о заштити података > (GDPR).
Како Делта Лаке ради са Azure Synapse Link for Dataverse?
Приликом подешавања Azure Synapse Link for Dataverse, можете омогућити извоз у функцију Делта Лаке и повезати се са радним простором Синапсе и Спарк базеном. Azure Synapse Link извози изабране Dataverse табеле у ЦСВ формату у одређеним временским интервалима, обрађујући их кроз Делта Лаке конверзију Спарк посла. По завршетку овог процеса конверзије, ЦСВ подаци се чисте за уштеду складиштења. Поред тога, планирано је да се свакодневно изводи низ послова одржавања, аутоматски обављајући процесе сабијања и усисавања како би се спојили и очистили датотеке са подацима како би се додатно оптимизирало складиштење и побољшале перформансе упита.
Предуслови
- Dataverse: Морате имати администратора Dataverse · система < ДИЦТ__безбедносна улога > сецуритy роле</ДИЦТ__безбедносна улога >. Додатно, табеле које желите да извезете преко Azure Synapse Link морају имати омогућену особину Трацк цхангес . Више информација: Напредне опције
- Azure Data Lake Storage Gen2: Морате имати Azure Data Lake Storage Gen2 налог и приступ улогама Власник и Сарадник за податке складишта блоб објеката. Ваш рачун за складиштење мора омогућити хијерархијски именски простор и приступ јавној мрежи за почетно подешавање и делта синхронизацију. Дозволи приступ кључу рачуна за складиштење је потребан само за почетно подешавање.
- Радни простор Синапсе: Морате имати радни простор Синапсе и улогу власника · у контроли приступа (ИАМ) и приступ улози администратора Синапсе у оквиру Синапсе Студио. Synapse радни простор мора да буде у истој области као и ваш Azure Data Lake Storage Gen2 налог. Налог за складиштење мора да буде додат као повезана услуга у програму Synapse Studio. Да бисте креирали Synapse радни простор, идите на Креирање Synapse радног простора.
- Базен Apache Spark у повезаном Azure Synapse радном простору са Apache Spark верзијом КСНУМКС користећи ову препоручену конфигурацију Спарк Поол-а. За информације о томе како креирати Спарк Поол, идите на Креирање новог Apache Spark базена.
- Захтев Microsoft Dynamics за минималну верзију 365 за коришћење ове функције је #пии_ајхфххгјз. Више информација: Укључите се за ажурирања раног приступа
Препоручена конфигурација Спарк Поол
Ова конфигурација се може сматрати боотстрап корак за просечне случајеве употребе.
- Величина чвора: мала (КСНУМКС вЦорес / КСНУМКС ГБ)
- Аутосцале : Омогућено
- Број чворова: 5 до 10
- Аутоматско паузирање: Омогућено
- Број минута мировања: 5
- Apache Spark: 3.3
- Динамички додељује извршитеље: Омогућено
- Подразумевани број извршилаца: 1 до 9
Важно
Користите Спарк базен искључиво за операцију разговора Делта Лаке са Синапсе Линк за Dataverse. За оптималну поузданост и перформансе, избегавајте покретање других Спарк послова користећи исти Спарк базен.
Повежите Dataverse се са Санапсе радним простором и извозите податке у формату Делта Лаке
Пријавите се Power Apps и изаберите жељено окружење.
У левом окну за навигацију изаберите Azure Synapse Link. Ако се ставка не налази у окну бочне табле, изаберите …Више, а затим изаберите ставку коју желите.
На командној траци изаберите + Нова веза
Изаберите Повежите се са својим Azure Synapse Analytics радним простором, а затим изаберите Претплата, Група ресурса и Назив радног простора.
Изаберите Користи Спарк базен за обраду, а затим изаберите унапред креирани Спарк базен и рачун за складиштење.
Изаберите Следеће.
Додајте табеле које желите да извезете, а затим изаберите Напредно.
Опционо, изаберите Прикажи напредне поставке конфигурације и унесите временски интервал, у минутама, за колико често инкременталне исправке треба да буду снимљене.
Изаберите Сачувај.
Пратите своје Azure Synapse Link и конверзију података
- Изаберите жељени Azure Synapse Link , а затим изаберите Иди у Azure Synapse Analytics радни простор на командној траци.
- Изаберите Монитор > Apache Spark апликације. Више информација: Користите Синапсе Студио за надгледање апликација Apache Spark
Прегледајте своје податке из Синапсе радног простора
- Изаберите жељени Azure Synapse Link , а затим изаберите Иди у Azure Synapse Analytics радни простор на командној траци.
- Развијте Лаке базе података у левом окну, изаберите датаверсе-енвиронментНамеорганизатионУниqуеНаме*, а затим* развијте табеле. Све Парqует табеле су наведене и доступне за анализу са конвенцијом именовања ДатаверсеТаблеНаме. (Нон _партитионед Табела).
Напомена
Не користите табеле са конвенцијом именовања_партитионед. Када изаберете Делта паркет као формат, табеле са _партитион конвенцијом именовања се користе као табеле за постављање и уклањају се након што их систем користи.
Погледајте своје податке из Azure Data Lake Storage Gen2
- Изаберите жељени Azure Synapse Link , а затим изаберите Иди на Азуре Дата Лаке на командној траци.
- Изаберите опцију Контејнери у оквиру Складишта података.
- Изаберите * датаверсе-енвиронментНаме-организатионУниqуеНаме *·. Сви паркет фајлови се чувају у делталаке фолдеру .
На месту надоградња на Apache Spark 3.3 са Делта Лаке 2.2
Предуслови
- Морате имати постојећи Azure Synapse Link for Dataverse профил Делта Лаке који ради са Синапсе Спарк верзијом КСНУМКС.
- Морате креирати нови Сyнапсе Спарк базен са Спарк верзијом КСНУМКС, користећи исту или вишу хардверску конфигурацију чворова у истом сигурносном радном простору. За информације о томе како креирати Спарк Поол, идите на Креирање новог Apache Spark базена. Овај Спарк базен треба да буде креиран независно од тренутног 3.1 базена.
Надоградња на месту Спарк 3.3:
- Пријавите се и Power Apps изаберите жељено окружење.
- У левом окну за навигацију изаберите Azure Synapse Link. Ако ставка није у левом окну за навигацију, изаберите ... Више, а затим изаберите ставку коју желите.
- Отворите Azure Synapse Link профил, а затим изаберите Надоградња на Apache Spark 3.3 са Делта Лаке 2.2.
- Изаберите доступни Спарк базен са листе, а затим изаберите Ажурирај.
Напомена
Надоградња базена Спарк се дешава само када се активира нови посао конверзије Делта Лаке Спарк. Уверите се да имате најмање једну промену података након избора Ажурирај.