Споделяне чрез


Свържете се с Delta таблици в Azure Data Lake Storage

Свържете се с данни в Delta таблици и ги внесете Dynamics 365 Customer Insights - Data.

Основни причини да се свържете с данни, съхранявани в Delta формат:

  • Директно импортирайте данни в Delta формат, за да спестите време и усилия.
  • Елиминирайте разходите за изчисление и съхранение, свързани с трансформирането и съхраняването на копие на данните на вашата езерна къща.
  • Автоматично подобрява надеждността на приемането на данни, предоставена Customer Insights - Data от Delta версии.

Поддържани функции и версии на Databricks

Customer Insights - Data поддържа функции на Databricks с "minReaderVersion" от 2 или по-стара. Функциите на Databricks, които изискват четене на Databricks версия 3 или по-нова, не се поддържат. Таблицата показва поддържаните и неподдържаните функции на Databricks.

Поддържани функции Неподдържани функции
Основна функционалност Вектори на изтриване
Промяна на емисията за данни Клъстериране на течности
Проверете ограниченията Характеристики на таблицата пишете
Съпоставяне на колони Времеви печатNTZ
Генериране на колони Разширяване на типа
Колони за самоличност Вариант
Проследяване на редове
Прочетете характеристиките на таблицата
Униформа

Научете повече: Как Databricks управлява съвместимостта на функциите на Delta Lake?.

Предварителни изисквания

  • Трябва Azure Data Lake Storage да е в същия клиент и регион на Azure като Customer Insights - Data.

  • Принципалът Customer Insights - Data на услугата трябва да има разрешения за сътрудник на данни за BLOB за съхранение за достъп до акаунта за съхранение. За повече информация вижте Предоставяне на разрешения на принципала на услугата за достъп до акаунта за съхранение.

  • Потребителят, който настройва или актуализира източник на данни, се нуждае от поне разрешения за четене на данни за BLOB за съхранение в акаунта Azure Data Lake Storage .

  • Данните, съхранявани в онлайн услугите, може да се съхраняват на място, различно от мястото, където се обработват или съхраняват данните. Като импортирате или се свързвате с данни, съхранявани в онлайн услуги, вие се съгласявате, че данните могат да бъдат прехвърляни. Научете повече в центъра за сигурност на Microsoft.

  • Customer Insights - Data поддържа четеца на Databricks версия 2. Делта таблици, използващи функции, които изискват Databricks reader версия 3 или по-нова, не се поддържат. Научете повече: Поддържани функции на Databricks.

  • Делта таблиците трябва да са в папка в контейнера за съхранение и не могат да бъдат в основната директория на контейнера. Например:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Данните във Вашия Azure Data Lake Storage трябва да са в Делта таблици. Customer Insights - Data разчита на свойството version в хронологията на таблицата, за да идентифицира последните промени за поетапна обработка.

Свържете се с Delta данни от Azure Data Lake Storage

  1. Отидете на Източници> на данниДанни.

  2. Изберете Добавяне на източник на данни.

  3. Изберете Делта таблици на Azure Data Lake.

    Диалогов прозорец за въвеждане на подробности за връзката за Delta Lake.

  4. Въведете име на източник на данни и незадължително описание. Името се препраща в процесите надолу по веригата и не е възможно да го промените след създаване на източник на данни.

  5. Изберете една от следните опции за Свързване на вашето хранилище чрез.

    • Абонамент за Azure: Изберете Абонамент и след това Група ресурси и Акаунт за съхранение.
    • Ресурс на Azure: Въведете ИД на ресурс.
  6. По желание, ако искате да поглъщате данни от акаунт за съхранение чрез частна връзка на Azure, изберете Разрешаване на частна връзка. За повече информация вижте Лични връзки.

  7. Изберете името на контейнера , който съдържа папката с вашите данни, и изберете Напред.

  8. Отидете до папката, която съдържа данните в Delta таблици, и я изберете. След това изберете Напред. Показва се списък с наличните таблици.

  9. Изберете таблиците, които искате да включите.

  10. За избрани таблици, където първичен ключ не е дефиниран, Задължително се показва под Първичен ключ. За всяка от тези таблици:

    1. Изберете Задължително. Показва се панелът Редактиране на таблица .
    2. Изберете първичния ключ. Първичният ключ е уникален атрибут за таблицата. За да бъде атрибутът валиден първичен ключ, той не трябва да включва дублирани стойности, липсващи стойности или нулеви стойности. Атрибутите на типа данни на низ, цяло число и GUID се поддържат като първични ключове.
    3. Изберете Затвори , за да запазите и затворите панела.

    Диалогов прозорец, показващ Изисква се за първичен ключ

  11. За да разрешите профилиране на данни в някоя от колоните, изберете броя на колоните за таблицата. Показва се страницата Управление на атрибути .

    Диалогов прозорец за избор на профилиране на данни.

    1. Изберете Профилиране на данни за цялата таблица или за конкретни колони. По подразбиране не е разрешена таблица за профилиране на данни.
    2. Изберете Готово.
  12. Изберете Запиши. Отваря се страницата Източници на данни, показваща новия източник на данни в състояние Обновяване .

    Съвет

    Има състояния за задачи и процеси. Повечето процеси зависят от други процеси нагоре по веригата, като например източници на данни и обновяване напрофилирането на данни.

    Изберете състоянието, за да отворите екрана Подробности за напредъка и да видите напредъка на задачите. За да отмените задачата, изберете Отмяна на задание в долната част на екрана.

    Под всяка задача можете да изберете Преглед на подробностите за повече информация за напредъка, като например време за обработка, дата на последна обработка и всички приложими грешки и предупреждения, свързани със задачата или процеса. Изберете Преглед на състоянието на системата в долната част на панела, за да видите други процеси в системата.

Зареждането на данни може да отнеме време. След успешно обновяване погълнатите данни могат да бъдат прегледани от страницата Таблици .

Управление на промените в схемата

Когато колона се добави или премахне от схемата на източник на данни на делта папки, системата изпълнява пълно обновяване на данните. Пълното обновяване отнема повече време за обработка на всички данни, отколкото постепенното обновяване.

Добавяне на колона

Когато колона се добави към източник на данни, информацията автоматично се добавя към данните Customer Insights - Data , след като настъпи обновяване. Ако обединяването вече е конфигурирано за таблицата, новата колона трябва да се добави към процеса на обединяване.

  1. От стъпката Данни за клиента изберете Избор на таблици и колони и изберете новата колона.

  2. В стъпката Изглед на унифицирани данни се уверете, че колоната не е изключена от потребителския профил. Изберете Изключени и добавете отново колоната.

  3. В стъпката Изпълнение на актуализации на унифицирания профил изберете Обединяване на клиентски профили и зависимости.

Промяна или премахване на колона

Когато колона бъде премахната от източник на данни, системата проверява за зависимости в други процеси. Ако има зависимост от колоните, системата спира обновяването и предоставя грешка, показваща, че зависимостите трябва да бъдат премахнати. Тези зависимости се показват в известие, за да ви помогнат да ги намерите и премахнете.

Проверка на промяна на схемата

След като източник на данни се обнови, отидете на страницата Таблици >с данни . Изберете таблицата за източник на данни и проверете схемата.

Пътуване във времето на езерото Делта и опресняване на данните

Пътуването във времето на Delta lake е възможността за заявка през версии на таблици въз основа на времеви печат или номер на версия. Промените в делта папките са версионирани и Customer Insights - Data използват версиите на делта папките, за да следят какви данни да обработват. При обикновено обновяване на делта таблица данните се изтеглят от всички версии на таблицата с данни от последното обновяване. Докато всички версии са налице, Customer Insights - Data може да обработва само променените елементи и да дава по-бързи резултати. Научете повече за пътуването във времето.

Например, ако Customer Insights – Данни за последен път са синхронизирани с версия 23 на данните на вашата делта папка, той очаква да намери налична версия 23 и евентуално следващи версии. Ако очакваните версии на данните не са налични, синхронизирането на данните е неуспешно и изисква ръчно пълно обновяване на данните. Синхронизирането на данни може да е неуспешно, ако данните от делта папката са изтрити и след това създадени отново. Или ако Customer Insights - Data не можете да се свържете с вашите Delta папки за продължителен период от време, докато версиите напредват.

За да избегнете необходимостта от пълно обновяване на данните, препоръчваме да поддържате разумно изоставане в хронологията, като например 15 дни.

Ръчно стартиране на пълно обновяване на данни в папка на Delta таблица

Пълното обновяване взема всички данни от таблица в Delta формат и ги презарежда от Delta таблицата версия нула (0). Промените в схемата на делта папката задействат автоматично пълно обновяване. За да задействате ръчно пълно обновяване, изпълнете следните стъпки.

  1. Отидете на Източници> на данниДанни.

  2. Изберете източник на данни на таблиците на Azure Data Lake Delta.

  3. Изберете таблицата, която искате да обновите. Показва се екранът Редактиране на таблица .

    Редактиране на екрана на таблицата, за да изберете еднократно пълно обновяване.

  4. Изберете Изпълнение на еднократно пълно обновяване.

  5. Изберете Запиши , за да стартирате обновяването. Отваря се страницата Източници на данни, показваща източник на данни в състояние Обновяване , но само избраната таблица се обновява.

  6. Повторете процеса за други таблици, ако е приложимо.

Неуспешно синхронизиране на данни

Синхронизирането на данни може да е неуспешно, ако данните от делта папката са изтрити и след това създадени отново. Или ако Customer Insights - Data не можете да се свържете с вашите Delta папки за продължителен период от време, докато версиите напредват. За да сведете до минимум въздействието, когато периодична повреда на конвейера за данни създава необходимост от пълно обновяване, препоръчваме да поддържате разумно изоставане в хронологията, като например 15 дни.

Следващи стъпки