Делите путем


Извоз Dataverse података у Делта Лаке формату

Користите Azure Synapse Линк фор за Dataverse извоз података Microsoft Dataverse у Делта Лаке формату. Делта Лаке је изворни формат као Microsoft Fabric и многи други алати као што су Азуре Датабрицкс. Извоз података у формату Делта језера директно из Dataverse елиминише потребу да сами имате одвојене процесе конверзије Делта Лаке и убрзава време за увид. Овај чланак пружа информације о овој функцији и показује вам како да извршите следеће задатке:

  • Објашњава Делта Лаке и Паркет и зашто би требало да извозите податке у овом формату.
  • Извозите своје Dataverse податке у свој Azure Synapse Analytics радни простор у Делта Лаке формату са везом Azure Synapse .
  • Пратите своју Azure Synapse везу и конверзију података.
  • Погледајте своје податке из Azure Data Lake Storage Gen2.
  • Прегледајте своје податке из Синапсе радног простора.
  • Погледајте своје податке у Microsoft Fabric.

Шта је Делта језеро?

Делта Лаке је пројекат отвореног кода који омогућава изградњу архитектуре језера на врху језера података. Делта Лаке обезбеђује АЦИД (атомичност, конзистентност, изолација и трајност) трансакције, скалабилно руковање метаподацима и обједињује стреаминг и обраду података на врху постојећих језера података. Azure Synapse Analytics је компатибилан са Линук Фоундатион Делта Лаке. Тренутна верзија Делта Лаке укључена има Azure Synapse језичку подршку за Сцала, ПиСпарк и .НЕТ. Више информација: Шта је Делта језеро?. Такође можете сазнати више из видео записа Увод у Делта табеле.

Апацхе Паркет је основни формат за Делта Лаке, омогућавајући вам да искористите ефикасне шеме компресије и кодирања које су изворне у формату. Формат датотеке Паркет користи компресију у колонама. Ефикасан је и штеди простор за складиштење. Упити који дохваћају одређене вредности колона не морају да читају читаве податке о редовима, чиме се побољшавају перформансе. Због тога, СКЛ базен без сервера треба мање времена и мање захтева за складиштење за читање података.

Зашто користити Делта Лаке?

  • Скалабилност : Делта Лаке је изграђен на врху Апацхе лиценце отвореног кода, која је дизајнирана да задовољи индустријске стандарде за руковање великим радним оптерећењима за обраду података.
  • Поузданост : Делта Лаке обезбеђује АЦИД трансакције, обезбеђујући конзистентност и поузданост података чак и у случају кварова или истовременог приступа.
  • Перформансе : Делта Лаке користи колонарни формат складиштења Паркета, пружајући боље технике компресије и кодирања, што може довести до побољшаних перформанси упита у поређењу са ЦСВ датотекама упита.
  • Исплативо : Делта Лаке формат датотеке је високо компримована технологија за складиштење података која нуди значајне потенцијалне уштеде за складиштење за предузећа. Овај формат је посебно дизајниран да оптимизира обраду података и потенцијално смањи укупну количину обрађених података или времена рада потребног за рачунарство на захтев.
  • Усклађеност са заштитом података: Делта Лаке са везом Azure Synapse пружа алате и функције, укључујући меко брисање и тврдо брисање у складу са различитим прописима о приватности података, укључујући Општу уредбу о заштити података (ГДПР).

Приликом постављања Azure Synapse везе за Dataverse, можете омогућити извоз у функцију Делта Лаке и повезати се са радним простором Синапсе и Спарк базеном. Azure Synapse Линк извози изабране Dataverse табеле у ЦСВ формату у одређеним временским интервалима, обрађујући их кроз Делта Лаке конверзију Спарк посла. По завршетку овог процеса конверзије, ЦСВ подаци се чисте за уштеду складиштења. Поред тога, планирано је да се свакодневно изводи низ послова одржавања, аутоматски обављајући процесе сабијања и усисавања како би се спојили и очистили датотеке са подацима како би се додатно оптимизирало складиштење и побољшале перформансе упита.

Важно

  • Ако надограђујете са ЦСВ-а на Делта Лаке са постојећим прилагођеним приказима, препоручујемо да ажурирате скрипту да бисте заменили све подељене табеле на нон_партитионед. Урадите то тако што ћете тражити примере и _partitioned замените их празним низом.
  • За конфигурацију Dataverse , подразумевано је омогућено само додавање за извоз ЦСВ података у режиму appendonly . Табела Делта Лаке ће имати структуру ажурирања на лицу места, јер конверзија Делта Лаке долази са периодичним процесом спајања.
  • Потребно је да обезбедите Спарк базен (рачунске ресурсе) у сопственој Азуре претплати за Делта конверзију. Овај Спарк базен се користи за обављање периодичних Делта конверзија на основу временског интервала који сте изабрали.
  • Нема трошкова насталих стварањем Спарк базена. Трошкови настају само када се Спарк посао изврши на циљном Спарк базену, а Спарк инстанца се инстанцира на захтев. Ови трошкови се односе на коришћење Azure Synapse радног простора Спарк и наплаћују се месечно. Трошкови спровођења Спарк рачунарства углавном зависе од временског интервала за инкрементално ажурирање и количине података. Више информација: Azure Synapse Analytics цене
  • Потребно је да креирате Спарк базен са верзијом 3.4. Ако већ користите ову функцију са Спарк верзијом 3.3, потребно је да извршите надоградњу на месту за постојеће профиле. Више информација: Надоградња на Apache Spark месту 3.4 са Делта Лаке 2.4

Белешка

Статус Azure Synapse везе у Power Apps (#пии_ијфидејз) одражава стање конверзије Делта Лаке:

  • Count приказује број записа у табели Делта Лаке.
  • Last synchronized on Датетиме представља последњу успешну временску ознаку конверзије.
  • Sync status је приказан као активан када се синхронизација података и конверзија Делта Лаке заврши, што указује да су подаци спремни за потрошњу.

Предуслови

  • Dataverse: Морате имати безбедносну улогу администратора Dataverse система. Поред тога, табеле које желите да извезете преко Azure Synapse везе морају имати омогућено својство Трацк цхангес . Више информација: Напредне опције
  • Azure Data Lake Storage ГенКСНУМКС : Морате имати Azure Data Lake Storage ГенКСНУМКС налог и приступ улози власника и Стораге Блоб Дата Цонтрибутор-а . Ваш рачун за складиштење мора да омогући хијерархијски именски простор и приступ јавној мрежи за почетно подешавање и делта синхронизацију. Дозволи приступ кључу рачуна за складиштење је потребан само за почетно подешавање.
  • Радни простор Синапсе: Морате имати радни простор Синапсе и улогу власника у контроли приступа (ИАМ) и приступ улози администратора Синапсе у оквиру Синапсе Студио. Synapse радни простор мора да буде у истој области као и ваш Azure Data Lake Storage Gen2 налог. Налог за складиштење мора да буде додат као повезана услуга у програму Synapse Studio. Да бисте креирали радни простор Синапсе, идите на Креирање радног простора Синапсе.
  • Базен Apache Spark у повезаном Azure Synapse радном простору са Apache Spark верзијом КСНУМКС користећи ову препоручену конфигурацију Спарк Поол-а. За информације о томе како креирати Спарк Поол, идите на Креирање новог Apache Spark базена.
  • Захтев Microsoft Dynamics за минималну верзију 365 за коришћење ове функције је #пии_ајхфххгјз. Више информација: Укључите се за ажурирања раног приступа

Ова конфигурација се може сматрати боотстрап корак за просечне случајеве употребе.

  • Величина чвора: мала (КСНУМКС вЦорес / КСНУМКС ГБ)
  • Аутосцале : Омогућено
  • Број чворова: 3 до 10 (или 20 ако је потребно. 1 Више информација испод.)
  • Аутоматско паузирање: Омогућено
  • Број минута мировања: 5
  • Apache Spark: 3.4
  • Динамички додељује извршитеље: Омогућено
  • Подразумевани број извршилаца: 1 до 9

Важно

  • Користите Спарк базен искључиво за операцију разговора Делта Лаке са Синапсе Линк за Dataverse. За оптималну поузданост и перформансе, избегавајте покретање других Спарк послова користећи исти Спарк базен.
  • Можда ћете морати да повећате број чворова Спарк базена ако очекујете да ће се обрадити велики број редова. Ако је величина Спарк базена недовољна, Делта послови конверзије могу пропасти
  • Исти Спарк базен систем користи за покретање ноћног посла који компактира Делта датотеке у језеру између 11 ПМ и 6 АМ по локалном времену. Систем одређује ноћно време за покретање овог посла на основу локације вашег Dataverse окружења. Не можете да наведете одређени временски прозор. Ова опција смањује величину Делта фајлова спајањем фајлова познатих као "сабијање". У ретким случајевима, овај посао може ометати посао инкременталне конверзије. Можете повећати број чворова на 20 у случају да приметите ове пропусте.
  • Наплаћује вам се само за чворове базена искре који се стварно користе. Повећање броја чворова можда неће резултирати већим трошковима.

Повежите Dataverse се са Санапсе радним простором и извозите податке у формату Делта Лаке

  1. Пријавите се Power Apps и изаберите жељено окружење.

  2. У левом окну за навигацију изаберите Azure Synapse Линк. Ако ставка није у панелу бочног панела, изаберите ... Више , а затим изаберите ставку коју желите.

  3. На командној траци изаберите + Нова веза

  4. Изаберите Повежите се са својим Azure Synapse Analytics радним простором , а затим изаберите Претплата , Група ресурса и Назив радног простора.

  5. Изаберите Користи Спарк базен за обраду , а затим изаберите унапред креирани Спарк базен и рачун за складиштење. Azure Synapse Линк за  Dataverse  конфигурацију која укључује Спарк Поол.

  6. Изаберите Следеће.

  7. Додајте табеле које желите да извезете, а затим изаберите Напредно.

  8. Опционо, изаберите Прикажи напредне поставке конфигурације и унесите временски интервал, у минутама, за колико често инкременталне исправке треба да буду снимљене.

  9. Изаберите ставку Сачувај.

  1. Изаберите Azure Synapse везу коју желите, а затим изаберите Иди у Azure Synapse Analytics радни простор на командној траци.
  2. Изаберите Монитор>Apache Spark апликације. Више информација: Користите Синапсе Студио за надгледање апликација Apache Spark

Прегледајте своје податке из Синапсе радног простора

  1. Изаберите Azure Synapse везу коју желите, а затим изаберите Иди у Azure Synapse Analytics радни простор на командној траци.
  2. Проширите Лаке Датабасес у левом окну, изаберите датаверсе-енвиронментНамеорганизатионУниqуеНаме , а затим проширите Табеле . Све Парqует табеле су наведене и доступне за анализу са конвенцијом именовања ДатаверсеТаблеНаме. (Нон _партитионед Табела).

Белешка

Не користите табеле са конвенцијом именовања_партитионед. Када изаберете Делта паркет као формат, табеле са _партитион конвенцијом именовања се користе као табеле за постављање и уклањају се након што их систем користи.

Погледајте своје податке из Azure Data Lake Storage Gen2

  1. Изаберите жељену везу Azure Synapse , а затим изаберите Иди на Азуре Дата Лаке на командној траци.
  2. Изаберите контејнере под Складиштење података.
  3. Изаберите * датаверсе-енвиронментНаме-организатионУниqуеНаме *. Сви паркет фајлови се чувају у делталаке фолдеру .

На месту надоградња на Apache Spark 3.4 са Делта Лаке 2.4

У складу са Синапсе рунтиме за Apache Spark политику животног циклуса, Azure Synapse рунтиме за Apache Spark 3.3 је пензионисан и онемогућен од 31. марта 2025. године. Након датума завршетка подршке, пензионисана времена извођења нису доступна за нове Спарк базене, а постојећи токови посла са Спарк КСНУМКС базенима неће бити извршени док ће метаподаци привремено остати у радном простору Сyнапсе. Више информација: Azure Synapse Рунтиме за Apache Spark 3.3 (ЕОСА).

Да бисте осигурали да ваши постојећи профили Синапсе Линк наставе да обрађују податке, потребно је да надоградите профиле Синапсе Линк да бисте користили Спарк КСНУМКС базене користећи "процес надоградње на лицу места".

Предуслови за надоградњу на лицу места

  • Морате имати постојећи Azure Synapse профил Линк фор Dataverse Делта лаке који ради са Сyнапсе Спарк верзијом КСНУМКС.
  • Морате креирати нови Сyнапсе Спарк базен са Спарк верзијом КСНУМКС, користећи исту или вишу хардверску конфигурацију чворова у истом радном простору Синапсе. За информације о томе како да креирате Спарк базен, идите на Креирање новог Apache Spark базена. Овај Спарк базен треба да буде креиран независно од тренутног 3.3 базена - не бришите свој Спарк 3.3 базен или креирајте Спарк 34 базен са истим именом

Надоградња на месту Спарк 3.4

  1. Пријавите се и Power Apps изаберите жељено окружење.
  2. У левом окну за навигацију изаберите Azure Synapse Линк. Ако ставка није у левом окну за навигацију, изаберите ... Више , а затим изаберите ставку коју желите.
  3. Отворите Azure Synapse профил везе, а затим изаберите Надогради на Apache Spark 3.4 са Делта Лаке 2.4.
  4. Изаберите доступни Спарк базен са листе, а затим изаберите Ажурирај.

Белешка

  • Надоградња базена Спарк се дешава само када се активира нови посао конверзије Делта језера Спарк. Уверите се да имате најмање једну промену података након избора Ажурирај.
  • Можете избрисати старији Спарк 3.3 базен након што потврдите да Делта послови конверзије користе нови базен.

За Azure Synapse шта је Dataverse Линк?