Поделиться через


Подключение к таблицам Common Data Model в Azure Data Lake Storage

Заметка

Azure Active Directory теперь называется Microsoft Entra ID. Подробнее

Принимайте данные в Dynamics 365 Customer Insights - Data, используя свою учетную запись Azure Data Lake Storage с таблицами Common Data Model. Прием данных может быть полным или добавочным.

Предварительные условия

  • У учетной записи Azure Data Lake Storage должно быть включено иерархическое пространство имен. Данные должны храниться в иерархическом формате папок, который определяет корневую папку и имеет вложенные папки для каждой таблицы. Подпапки могут иметь папки с полными или инкрементными данными.

  • Чтобы пройти аутентификацию с помощью субъекта-службы Microsoft Entra, убедитесь, что она настроена в вашем клиенте. Для получения дополнительной информации см. раздел Подключение к учетной записи Azure Data Lake Storage с помощью субъекта-службы Microsoft Entra.

  • Azure Data Lake Storage, к которому требуется подключиться и из которого требуется принимать данные, должно находиться в том же регионе Azure, что и среда Dynamics 365 Customer Insights, и подписки должны быть в том же клиенте. Подключения к папке Common Data Model из озера данных в другом регионе Azure не поддерживаются. Чтобы узнать регион среды Azure, перейдите в раздел Параметры>Система>Сведения в Customer Insights - Data.

  • Данные, хранящиеся в веб-службах, могут храниться в месте, отличном от того, где данные обрабатываются или хранятся. Импортируя данные или подключаясь к данным, хранящимся в веб-службах, вы соглашаетесь с тем, что данные могут быть переданы. Подробнее см. в центре управления безопасностью Майкрософт.

  • Для доступа к учетной записи хранения субъект-служба Customer Insights - Data должна быть в одной из следующих ролей. Дополнительные сведения см. в статье Предоставление разрешений субъекту-службе для доступа к учетной записи хранения.

    • Средство чтения данных хранилища BLOB-объектов
    • Владелец данных хранилища BLOB-объектов
    • Участник данных хранилища BLOB-объектов
  • При подключении к хранилищу Azure с использованием варианта Подписка Azure пользователю, который настраивает подключение к источнику данных, необходимы как минимум разрешения «Участник данных хранилища BLOB-объектов» в отношении учетной записи хранения.

  • При подключении к хранилищу Azure с использованием варианта Ресурс Azure пользователю, который настраивает подключение к источнику данных, необходимы как минимум разрешения на выполнение действия Microsoft.Storage/storageAccounts/read в отношении учетной записи хранения. Встроенная роль Azure, которая включает это действие, — это роль Читатель. Чтобы ограничить доступ только возможностью выполнения необходимого действия, создайте пользовательскую роль Azure, которая включает только это действие.

  • Для оптимальной производительности размер раздела должен составлять 1 ГБ или меньше, а количество файлов раздела в папке не должно превышать 1000.

  • Данные в Data Lake Storage должны соответствовать стандарту Common Data Model для хранения ваших данных и иметь манифест Common Data Model для представления схемы файлов данных (*.csv или *.parquet). Манифест должен предоставлять сведения о сущностях, такие как таблицы и типы данных таблицы, а также расположение и тип файла данных. Дополнительные сведения см. в разделе Манифест Common Data Model. Если манифест отсутствует, пользователи-администраторы с правами доступа "Владелец данных BLOB-объекта хранилища" или "Участник данных BLOB-объектов хранилища" могут определить схему при приеме данных.

    Заметка

    Если какое-либо из полей в файлах .parquet имеет тип данных Int96, данные могут не отображаться на страница Таблицы. Мы рекомендуем использовать стандартные типы данных, такие как формат метки времени Unix (который представляет время как количество секунд с 1 января 1970 года в полночь по всемирному координированному времени).

Ограничения

  • Customer Insights - Data не поддерживает столбцы десятичного типа с точностью выше 16.

Подключение к Azure Data Lake Storage

  1. Перейдите в раздел Данные>Источники данных.

  2. Выберите Добавить источник данных.

  3. Выберите Таблицы Common Data Model Azure Data Lake.

    Диалоговое окно для ввода сведений о подключении для Azure Data Lake с таблицами Common Data Model.

  4. Введите Имя источника данных и, при желании, Описание. На имя ссылаются нижестоящие процессы, и его невозможно изменить после создания источника данных.

  5. Выберите один из следующих вариантов для параметра Подключите свое хранилище с использованием. Для получения дополнительной информации см. раздел Подключение к учетной записи Azure Data Lake Storage с помощью субъекта-службы Microsoft Entra.

    • Ресурс Azure: введите идентификатор ресурса. (private-link.md).
    • Подписка Azure: выберите Подписка, затем Группа ресурсов и Учетная запись хранения.

    Заметка

    Для создания источника данных вам потребуется одна из следующих ролей в контейнере:

    • Роли "Модуль чтения данных BLOB-объектов хранилища" достаточно для выполнения чтения из учетной записи хранения и загрузки данных в Customer Insights - Data.
    • Роли "Участник данных BLOB-объектов хранилища" или "Владелец данных BLOB-объектов хранилища" необходимы, если требуется редактировать файлы манифеста непосредственно в Customer Insights - Data.

    Наличие роли в учетной записи хранения обеспечивает такую же роль во всех ее контейнерах.

  6. При необходимости, если вы хотите принимать данные из учетной записи хранения через приватный канал Azure, выберите Включить приватный канал. Дополнительные сведения см. в разделе Приватные каналы.

  7. Выберите название объекта Контейнер, который содержит данные и схему (файл model.json или manifest.json), из которых требуется импортировать данные, и выберите Далее.

    Заметка

    Любой файл model.json или manifest.json, связанный с другим источником данных в среде, не будет отображаться в списке. Однако один и тот же файл model.json или manifest.json можно использовать для источников данных в нескольких средах.

  8. Чтобы создать новую схему, перейдите к разделу Создание нового файла схемы.

  9. Чтобы использовать существующую схему, перейдите в папку, содержащую файл model.json или manifest.cdm.json. Вы можете выполнить поиск в каталоге, чтобы найти файл.

  10. Выберите файл json, затем выберите Далее. Отображается список доступных таблиц.

    Диалоговое окно со списком таблиц для выбора

  11. Выберите таблицы, которые требуется включить.

    Диалоговое окно, показывающее, что требуется для первичного ключа

    Совет

    Чтобы изменить таблицу в интерфейсе редактирования JSON, выберите таблицу и затем Изменить файл схемы. Внесите изменения и выберите Сохранить.

  12. Для выбранных таблиц, требующих инкрементного приема, Обязательно отображается в поле Инкрементное обновление. Для каждой из этих таблиц см. раздел Настройка инкрементного обновления для источников данных Azure Data Lake.

  13. Для выбранных таблиц, для которых первичный ключ не определен, Обязательно отображается в поле Первичный ключ. Для каждой из этих таблиц:

    1. Выберите Обязательно. Открывается панель Изменение таблицы.
    2. Выберите первичный ключ. Первичный ключ — это атрибут, уникальный для таблицы. Чтобы атрибут был действительным первичным ключом, он не должен включать повторяющиеся значения, отсутствующие значения или значения NULL. В качестве первичных ключей поддерживаются атрибуты типа данных: строка, целое число, GUID.
    3. При желании измените шаблон раздела.
    4. Выберите Закрыть, чтобы сохранить и закрыть панель.
  14. Выберите количество для параметра Столбцы для каждой включенной таблицы. Открывается страница Управление атрибутами.

    Диалоговое окно для выбора профилирования данных.

    1. Создавайте новые столбцы, редактируйте или удаляйте существующие столбцы. Вы можете изменить имя, формат данных или добавить семантический тип.
    2. Чтобы включить аналитику и другие возможности, выберите Профилирование данных для всей таблицы или для определенных столбцов. По умолчанию ни одна таблица не включена для профилирования данных.
    3. Нажмите кнопку Готово.
  15. Выберите Сохранить. Открывается страница Источники данных с новым источником данных в статусе Обновление.

    Совет

    Есть состояния для задач и процессов. Большинство процессов зависят от других вышестоящих процессов, таких как источники данных и обновления профилирования данных.

    Выберите статус, чтобы открыть панель Сведения о ходе выполнения и просмотреть ход выполнения задач. Чтобы отменить задание, выберите Отменить задание в нижней части панели.

    В каждой задаче можно выбрать Показать подробности для получения дополнительной информации о ходе выполнения, такой как время обработки, дата последней обработки, а также любые применимые ошибки и предупреждения, связанные с задачей или процессом. Выберите Просмотр состояния системы внизу панели, чтобы увидеть другие процессы в системе.

Загрузка данных может занять время. После успешного обновления принятые данные можно проверить на странице Таблицы.

Создание новой схемы

  1. Выберите Создать файл схемы.

  2. Введите имя для файла и выберите Сохранить.

  3. Выберите Создать таблицу. Открывается панель Новая таблица.

  4. Введите имя таблицы и выберите Расположение файлов данных.

    • Несколько файлов .csv или .parquet: перейдите в корневую папку, выберите тип шаблона и введите выражение.
    • Один файл .csv или .parquet: найдите файл .csv или .parquet и выберите его.

    Диалоговое окно для создания новой таблицы с выделенным расположением файлов данных.

  5. Выберите Сохранить.

    Диалоговое окно для определения или автоматического создания атрибутов.

  6. Выберите определить атрибуты, чтобы вручную добавить атрибуты, или выберите автоматически создать их. Чтобы определить атрибуты, введите имя, выберите формат данных и необязательный семантический тип. Чтобы автоматически создать атрибуты:

    1. После автоматического создания атрибутов выберите Просмотреть атрибуты. Открывается страница Управление атрибутами.

    2. Убедитесь, что формат данных правильный для каждого атрибута.

    3. Чтобы включить аналитику и другие возможности, выберите Профилирование данных для всей таблицы или для определенных столбцов. По умолчанию ни одна таблица не включена для профилирования данных.

      Диалоговое окно для выбора профилирования данных.

    4. Нажмите кнопку Готово. Отображается страница Выберите таблицы.

  7. Продолжайте добавлять таблицы и столбцы, если это применимо.

  8. После добавления всех таблиц выберите Включить, чтобы включить таблицы в прием источников данных.

    Диалоговое окно, показывающее, что требуется для первичного ключа

  9. Для выбранных таблиц, требующих инкрементного приема, Обязательно отображается в поле Инкрементное обновление. Для каждой из этих таблиц см. раздел Настройка инкрементного обновления для источников данных Azure Data Lake.

  10. Для выбранных таблиц, для которых первичный ключ не определен, Обязательно отображается в поле Первичный ключ. Для каждой из этих таблиц:

    1. Выберите Обязательно. Открывается панель Изменение таблицы.
    2. Выберите первичный ключ. Первичный ключ — это атрибут, уникальный для таблицы. Чтобы атрибут был действительным первичным ключом, он не должен включать повторяющиеся значения, отсутствующие значения или значения NULL. В качестве первичных ключей поддерживаются атрибуты типа данных: строка, целое число, GUID.
    3. При желании измените шаблон раздела.
    4. Выберите Закрыть, чтобы сохранить и закрыть панель.
  11. Выберите Сохранить. Открывается страница Источники данных с новым источником данных в статусе Обновление.

    Совет

    Есть состояния для задач и процессов. Большинство процессов зависят от других вышестоящих процессов, таких как источники данных и обновления профилирования данных.

    Выберите статус, чтобы открыть панель Сведения о ходе выполнения и просмотреть ход выполнения задач. Чтобы отменить задание, выберите Отменить задание в нижней части панели.

    В каждой задаче можно выбрать Показать подробности для получения дополнительной информации о ходе выполнения, такой как время обработки, дата последней обработки, а также любые применимые ошибки и предупреждения, связанные с задачей или процессом. Выберите Просмотр состояния системы внизу панели, чтобы увидеть другие процессы в системе.

Загрузка данных может занять время. После успешного обновления принятые данные можно проверить на странице Данные>Таблицы.

Редактирование источника данных Azure Data Lake Storage

Вы можете обновить параметр Подключите свою учетную запись хранения с использованием. Для получения дополнительной информации см. раздел Подключение к учетной записи Azure Data Lake Storage с помощью субъекта-службы Microsoft Entra. Чтобы подключиться к другому контейнеру из своей учетной записи хранилища или изменить имя учетной записи, создайте новое соединение источника данных.

  1. Перейдите в раздел Данные>Источники данных. Рядом с источником данных, который необходимо обновить, выберите Изменить.

  2. Измените любые из следующих сведений:

    • Описание

    • Подключите свою учетную запись хранения с использованием и информацию о подключении. Невозможно изменить сведения Контейнер при обновлении соединения.

      Заметка

      Учетной записи хранения или контейнеру должна быть назначена одна из следующих ролей:

      • Средство чтения данных хранилища BLOB-объектов
      • Владелец данных хранилища BLOB-объектов
      • Участник данных хранилища BLOB-объектов
    • Использование управляемых удостоверений для Azure с вашим Azure Data Lake Storage ???

    • Включить приватный канал, если вы хотите принимать данные из учетной записи хранения через приватный канал Azure. Дополнительные сведения см. в разделе Приватные каналы.

  3. Выберите Далее.

  4. Измените любое из следующего:

    • Перейдите к другому файлу model.json или manifest.json с другим набором таблиц из контейнера.

    • Чтобы добавить дополнительные таблицы для приема, выберите Новая таблица.

    • Чтобы удалить любые уже выбранные таблицы, если нет зависимостей, выберите таблицу и выберите Удалить.

      Внимание

      Если существуют зависимости от существующего файла model.json или manifest.json и набора таблиц, вы увидите сообщение об ошибке и не сможете выбрать другой файл model.json или manifest.json. Удалите эти зависимости перед изменением файла model.json или manifest.json или создайте новый источник данных с файлом model.json или manifest.json, который вы хотите использовать, чтобы избежать удаления зависимостей.

    • Чтобы изменить расположение файла данных или первичный ключ, выберите Изменить.

    • Чтобы изменить данные добавочного приема, см. раздел Настройка добавочного обновления для источников данных Azure Data Lake.

    • Измените только имя таблицы, чтобы оно соответствовало имени таблицы в файле .json.

      Заметка

      Всегда сохраняйте имя таблицы таким же, как имя таблицы в файле model.json или manifest.json после приема. Customer Insights - Data проверяет все имена таблиц с помощью model.json или manifest.json при каждом обновлении системы. Если имя таблицы изменяется, возникает ошибка, поскольку Customer Insights - Data не удается найти новое имя таблицы в файле .json. Если имя загруженной таблицы было случайно изменено, отредактируйте имя таблицы, чтобы оно соответствовало имени в файле .json.

  5. Выберите Столбцы для добавления или изменения столбцов либо для включения профилирования данных. Затем выберите Готово.

  6. Выберите Сохранить, чтобы применить изменения и вернуться на страницу Источники данных.

    Совет

    Есть состояния для задач и процессов. Большинство процессов зависят от других вышестоящих процессов, таких как источники данных и обновления профилирования данных.

    Выберите статус, чтобы открыть панель Сведения о ходе выполнения и просмотреть ход выполнения задач. Чтобы отменить задание, выберите Отменить задание в нижней части панели.

    В каждой задаче можно выбрать Показать подробности для получения дополнительной информации о ходе выполнения, такой как время обработки, дата последней обработки, а также любые применимые ошибки и предупреждения, связанные с задачей или процессом. Выберите Просмотр состояния системы внизу панели, чтобы увидеть другие процессы в системе.