Подключение к Snowflake и управление ими в Microsoft Purview

В этой статье описано, как зарегистрировать Snowflake, а также как проверить подлинность Snowflake и взаимодействовать с ним в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.

Поддерживаемые возможности

Извлечение метаданных Полная проверка Добавочное сканирование Сканирование с заданной областью Классификация Присвоение подписей Политика доступа Линии Общий доступ к данным Динамическое представление
Да Да Нет Да Да Нет Нет Да Нет Нет

При сканировании источника Snowflake Microsoft Purview поддерживает:

  • Извлечение технических метаданных, включая:

    • Сервер
    • Databases
    • Схемы
    • Таблицы, включая столбцы, внешние ключи и ограничения уникальности
    • Представления, включая столбцы
    • Хранимые процедуры, включая набор данных параметров и результирующий набор
    • Функции, включая набор данных параметров
    • Трубы
    • Stages
    • Потоки, включая столбцы
    • Задачи
    • Последовательности
  • Получение статического происхождения данных о связях ресурсов между таблицами, представлениями, потоками и хранимыми процедурами.

Для хранимых процедур можно выбрать уровень сведений для извлечения в параметрах сканирования. Происхождение хранимых процедур поддерживается для языков Сценариев Snowflake (SQL) и JavaScript и создается на основе определения процедуры.

При настройке сканирования можно выбрать сканирование одной или нескольких баз данных Snowflake полностью на основе заданных имен или шаблонов имен, либо дополнительно область сканирование подмножество схем, соответствующих заданным именам или шаблонам имен.

Известные ограничения

  • При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.
  • Происхождение хранимых процедур не поддерживается для следующих шаблонов:
    • Хранимая процедура, определенная на языках Java, Python и Scala.
    • Хранимая процедура с использованием SQL EXECUTE IMMEDIATE со статическим SQL-запросом в качестве переменной.

Предварительные требования

Примечание.

Если хранилище данных не является общедоступным (если хранилище данных ограничивает доступ из локальной сети, частной сети или определенных IP-адресов и т. д.), необходимо настроить локальную среду выполнения интеграции для подключения к нему.

Необходимые разрешения для сканирования

Microsoft Purview поддерживает обычную проверку подлинности (имя пользователя и пароль) для сканирования Snowflake. Для выполнения проверки будет использоваться роль указанного пользователя по умолчанию. Пользователь Snowflake должен иметь права на использование хранилища и баз данных для проверки, а также доступ на чтение системных таблиц для доступа к расширенным метаданным.

Ниже приведен пример пошагового руководства по созданию пользователя специально для проверки Microsoft Purview и настройки разрешений. Если вы решили использовать существующего пользователя, убедитесь, что у него есть достаточные права на объекты хранилища и базы данных.

  1. Настройка purview_reader роли. Для этого вам потребуются права ACCOUNTADMIN .

    USE ROLE ACCOUNTADMIN;
    
    --create role to allow read only access - this will later be assigned to the Microsoft Purview user
    CREATE OR REPLACE ROLE purview_reader;
    
    --make sysadmin the parent role
    GRANT ROLE purview_reader TO ROLE sysadmin;
    
  2. Создайте хранилище для Microsoft Purview для использования и предоставления прав.

    --create warehouse - account admin required
    CREATE OR REPLACE WAREHOUSE purview_wh WITH 
        WAREHOUSE_SIZE = 'XSMALL' 
        WAREHOUSE_TYPE = 'STANDARD' 
        AUTO_SUSPEND = 300 
        AUTO_RESUME = TRUE 
        MIN_CLUSTER_COUNT = 1 
        MAX_CLUSTER_COUNT = 2 
        SCALING_POLICY = 'STANDARD';
    
    --grant rights to the warehouse
    GRANT USAGE ON WAREHOUSE purview_wh TO ROLE purview_reader;
    
  3. Создайте пользователя purview для проверки Microsoft Purview.

    CREATE OR REPLACE USER purview 
        PASSWORD = '<password>'; 
    
    --note the default role will be used during scan
    ALTER USER purview SET DEFAULT_ROLE = purview_reader;
    
    --add user to purview_reader role
    GRANT ROLE purview_reader TO USER purview;
    
  4. Предоставьте права чтения объектам базы данных.

    GRANT USAGE ON DATABASE <your_database_name> TO purview_reader;
    
    --grant reader access to all the database structures that purview can currently scan
    GRANT USAGE ON ALL SCHEMAS IN DATABASE <your_database_name> TO role purview_reader;
    GRANT USAGE ON ALL FUNCTIONS IN DATABASE <your_database_name> TO role purview_reader;
    GRANT USAGE ON ALL PROCEDURES IN DATABASE <your_database_name> TO role purview_reader;
    GRANT SELECT ON ALL TABLES IN DATABASE <your_database_name> TO role purview_reader;
    GRANT SELECT ON ALL VIEWS IN DATABASE <your_database_name> TO role purview_reader;
    GRANT USAGE, READ on ALL STAGES IN DATABASE <your_database_name> TO role purview_reader;
    
    --grant reader access to any future objects that could be created
    GRANT USAGE ON FUTURE SCHEMAS IN DATABASE <your_database_name> TO role purview_reader;
    GRANT USAGE ON FUTURE FUNCTIONS IN DATABASE <your_database_name> TO role purview_reader;
    GRANT USAGE ON FUTURE PROCEDURES IN DATABASE <your_database_name> TO role purview_reader;
    GRANT SELECT ON FUTURE TABLES IN DATABASE <your_database_name> TO role purview_reader;
    GRANT SELECT ON FUTURE VIEWS IN DATABASE <your_database_name> TO role purview_reader;
    GRANT USAGE, READ ON FUTURE STAGES IN DATABASE <your_database_name> TO role purview_reader;
    

Регистрация

В этом разделе описывается регистрация Snowflake в Microsoft Purview с помощью портала управления Microsoft Purview.

Действия по регистрации

Чтобы зарегистрировать новый источник Snowflake в каталоге данных, выполните следующие действия.

  1. Перейдите к учетной записи Microsoft Purview на портале управления Microsoft Purview.
  2. Выберите Карта данных в области навигации слева.
  3. Выберите Зарегистрировать
  4. В разделе Регистрация источников выберите Snowflake. Нажмите Продолжить.

На экране Регистрация источников (Snowflake) выполните следующие действия.

  1. Введите имя , которое источник данных будет указан в каталоге.

  2. Введите URL-адрес сервера , используемый для подключения к учетной записи Snowflake, в виде <account_identifier>.snowflakecomputing.com, например orgname-accountname.snowflakecomputing.com. Дополнительные сведения об идентификаторе учетной записи Snowflake.

  3. Выберите коллекцию или создайте новую (необязательно)

  4. Завершите регистрацию источника данных.

    Параметры регистрации источников

Проверка

Выполните следующие действия, чтобы проверить Snowflake для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Введение в сканирование и прием данных.

Проверка подлинности для сканирования

Поддерживаемый тип проверки подлинности для источника Snowflake — обычная проверка подлинности.

Создание и запуск сканирования

Чтобы создать и запустить проверку, выполните следующие действия.

  1. Если сервер является общедоступным, перейдите к шагу 2. В противном случае необходимо убедиться, что настроена локальная среда выполнения интеграции:

    1. На портале управления Microsoft Purview перейдите в Центр управления и выберите Среды выполнения интеграции.
    2. Убедитесь, что локальная среда выполнения интеграции доступна. Если она не настроена, выполните описанные здесь действия, чтобы настроить локальную среду выполнения интеграции.
  2. На портале управления Microsoft Purview перейдите в раздел Источники.

  3. Выберите зарегистрированный источник Snowflake.

  4. Выберите + Создать сканирование.

  5. Укажите следующие сведения:

    1. Имя: имя сканирования

    2. Подключение через среду выполнения интеграции. Выберите среду выполнения интеграции Azure с автоматическим разрешением, если ваш сервер является общедоступным, или настроенную локальную среду выполнения интеграции, если она не является общедоступной.

    3. Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:

      • При создании учетных данных выберите Обычная проверка подлинности .
      • Укажите имя пользователя, используемое для подключения к Snowflake, в поле Ввода имени пользователя.
      • Сохраните пароль пользователя, используемый для подключения к Snowflake, в секретном ключе.
    4. Warehouse: укажите имя экземпляра хранилища, используемого для разрешения сканирования в случае прописной буквы. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь права USAGE в этом хранилище.

    5. Базы данных. Укажите одно или несколько имен экземпляров базы данных для импорта с прописной буквой. Разделите имена в списке с запятой (;). Например, db1;db2. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь соответствующие права на объекты базы данных.

      Допустимые шаблоны имен баз данных, использующие синтаксис выражений SQL LIKE, включают использование %. Например: A%;%B;%C%;D:

      • Начните с A или
      • Заканчивается на B или
      • Содержать C или
      • Равный D
    6. Схема: перечисление подмножества схем для импорта, выраженных в виде списка, разделенного точкой с запятой. Например, schema1;schema2. Все пользовательские схемы импортируются, если этот список пуст. Все системные схемы и объекты по умолчанию игнорируются.

      Допустимые шаблоны имен схемы с использованием синтаксиса выражений SQL LIKE включают использование %. Например: A%;%B;%C%;D:

      • Начните с A или
      • Заканчивается на B или
      • Содержать C или
      • Равный D

      Использование символов NOT и специальных символов недопустимо.

    7. Сведения о хранимой процедуре. Управляет количеством сведений, импортированных из хранимых процедур.

      • Сигнатура (по умолчанию) — имя и параметры хранимых процедур.
      • Код, сигнатура: имя, параметры и код хранимых процедур.
      • Происхождение, код, сигнатура: имя, параметры и код хранимых процедур, а также происхождение данных, производных от кода.
      • Нет: сведения о хранимой процедуре не включаются.

      Примечание.

      Если для проверки используется локальная Integration Runtime, с версии 5.30.8541.1 поддерживается настраиваемый параметр, отличный от сигнатуры по умолчанию. Предыдущие версии всегда извлекают имя и параметры хранимых процедур.

    8. Максимальный доступный объем памяти (применяется при использовании локальной среды выполнения интеграции): максимальный объем памяти (в ГБ), доступный на виртуальной машине клиента для использования процессами сканирования. Это зависит от размера проверяемого источника Snowflake.

      Примечание.

      Как правило, укажите 1 ГБ памяти для каждых 1000 таблиц.

      сканирование Snowflake

  6. Выберите Проверить подключение, чтобы проверить параметры (доступные при использовании Azure Integration Runtime).

  7. Нажмите Продолжить.

  8. Выберите набор правил сканирования для классификации. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил . Дополнительные сведения см. в статье Классификация .

    Примечание.

    Если вы используете локальную среду выполнения, вам потребуется выполнить обновление до версии 5.26.404.1 или более поздней, чтобы использовать классификацию Snowflake. Последнюю версию среды выполнения интеграции Майкрософт можно найти здесь.

  9. Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.

  10. Просмотрите проверку и выберите Сохранить и запустить.

Просмотр проверок и запусков сканирования

Чтобы просмотреть существующие проверки, выполните приведенные далее действия.

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
  3. Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
  4. Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.

Управление проверками

Чтобы изменить, отменить или удалить сканирование:

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.

  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .

  3. Выберите проверку, которой вы хотите управлять. Далее вы можете:

    • Измените сканирование, выбрав Изменить проверку.
    • Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
    • Удалите сканирование, выбрав Удалить сканирование.

Примечание.

  • При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
  • Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.

Линии

После сканирования источника Snowflake можно просмотреть каталог данных или выполнить поиск в каталоге данных , чтобы просмотреть сведения об активе.

Перейдите на вкладку asset — lineage (Ресурс —> происхождение), и при необходимости вы увидите связь активов. См. раздел поддерживаемых возможностей о поддерживаемых сценариях происхождения происхождения snowflake. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.

Представление происхождения снежинки

Примечание.

Если представление было создано таблицами из разных баз данных, проверьте все базы данных одновременно, используя имена в точке с запятой (;) Список.

Советы по устранению неполадок

  • Проверьте идентификатор учетной записи на шаге регистрации источника. Не включайте https:// часть в передней части.
  • Убедитесь, что имя хранилища и имя базы данных находятся в прописной букве на странице настройки сканирования.
  • Проверьте хранилище ключей. Убедитесь, что в пароле нет опечаток.
  • Проверьте учетные данные, настроенные в Microsoft Purview. Указанный пользователь должен иметь роль по умолчанию с необходимыми правами доступа к хранилищу и базе данных, которую вы пытаетесь проверить. См. раздел Необходимые разрешения для сканирования. Используйте DESCRIBE USER; для проверки роли пользователя по умолчанию, указанного для Microsoft Purview.
  • Используйте журнал запросов в Snowflake, чтобы узнать, происходит ли какое-либо действие.
    • Если возникла проблема с идентификатором учетной записи или паролем, вы не увидите никаких действий.
    • Если возникла проблема с ролью по умолчанию, по крайней мере должна отобразиться USE WAREHOUSE . . . инструкция .
    • Вы можете использовать функцию таблицы QUERY_HISTORY_BY_USER , чтобы определить, какая роль используется соединением. Настройка выделенного пользователя Microsoft Purview упрощает устранение неполадок.

Дальнейшие действия

Теперь, когда вы зарегистрировали источник, следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.