Подключение к Snowflake и управление ими в Microsoft Purview
В этой статье описано, как зарегистрировать Snowflake, а также как проверить подлинность Snowflake и взаимодействовать с ним в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.
Извлечение метаданных | Полная проверка | Добавочное сканирование | Сканирование с заданной областью | Классификация | Присвоение подписей | Политика доступа | Lineage | Общий доступ к данным | Интерактивное представление |
---|---|---|---|---|---|---|---|---|---|
Да | Да | Нет | Да | Да | Да | Нет | Да | Нет | Нет |
При сканировании источника Snowflake Microsoft Purview поддерживает:
Извлечение технических метаданных, включая:
- Сервер
- Databases
- Схемы
- Таблицы, включая столбцы, внешние ключи и ограничения уникальности
- Представления, включая столбцы
- Хранимые процедуры, включая набор данных параметров и результирующий набор
- Функции, включая набор данных параметров
- Трубы
- Stages
- Потоки, включая столбцы
- Задачи
- Последовательности
Получение статического происхождения данных о связях ресурсов между таблицами, представлениями, потоками и хранимыми процедурами.
Для хранимых процедур можно выбрать уровень сведений для извлечения в параметрах сканирования. Происхождение хранимых процедур поддерживается для языков Сценариев Snowflake (SQL) и JavaScript и создается на основе определения процедуры.
При настройке сканирования можно выбрать сканирование одной или нескольких баз данных Snowflake полностью на основе заданных имен или шаблонов имен, либо дополнительно область сканирование подмножество схем, соответствующих заданным именам или шаблонам имен.
- При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.
- Происхождение хранимых процедур не поддерживается для следующих шаблонов:
- Хранимая процедура, определенная на языках Java, Python и Scala.
- Хранимая процедура с использованием SQL EXECUTE IMMEDIATE со статическим SQL-запросом в качестве переменной.
Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно.
Активная учетная запись Microsoft Purview.
Для регистрации источника данных и управления им на портале управления Microsoft Purview требуются разрешения администратора источника и читателя данных. Дополнительные сведения о разрешениях см. в статье Управление доступом в Microsoft Purview.
Выберите правильную конфигурацию среды выполнения интеграции для своего сценария.
- Чтобы использовать управляемую виртуальную сеть Integration Runtime для подключения к Snowflake через приватный канал, выполните действия, описанные в разделе Подключение к Snowflake через управляемую частную конечную точку, чтобы настроить частную конечную точку.
- Чтобы использовать для сканирования локальные Integration Runtime, настройте последнюю локальную среду выполнения интеграции. Дополнительные сведения см. в руководстве по созданию и настройке локальной среды выполнения интеграции.
- Убедитесь, что JDK 11 установлен на компьютере, где установлена локальная среда выполнения интеграции. Перезапустите компьютер после установки JDK, чтобы он вступил в силу.
- Убедитесь, что на локальном компьютере среды выполнения интеграции установлен Распространяемый компонент Visual C++ (версия Visual Studio 2012 с обновлением 4 или более поздней). Если это обновление не установлено, его можно скачать здесь.
Microsoft Purview поддерживает обычную проверку подлинности (имя пользователя и пароль) для сканирования Snowflake. Для выполнения проверки будет использоваться роль указанного пользователя по умолчанию. Пользователь Snowflake должен иметь права на использование хранилища и баз данных для проверки, а также доступ на чтение системных таблиц для доступа к расширенным метаданным.
Ниже приведен пример пошагового руководства по созданию пользователя специально для проверки Microsoft Purview и настройки разрешений. Если вы решили использовать существующего пользователя, убедитесь, что у него есть достаточные права на объекты хранилища и базы данных.
Настройка
purview_reader
роли. Для этого вам потребуются права ACCOUNTADMIN .USE ROLE ACCOUNTADMIN; --create role to allow read only access - this will later be assigned to the Microsoft Purview user CREATE OR REPLACE ROLE purview_reader; --make sysadmin the parent role GRANT ROLE purview_reader TO ROLE sysadmin;
Создайте хранилище для Microsoft Purview для использования и предоставления прав.
--create warehouse - account admin required CREATE OR REPLACE WAREHOUSE purview_wh WITH WAREHOUSE_SIZE = 'XSMALL' WAREHOUSE_TYPE = 'STANDARD' AUTO_SUSPEND = 300 AUTO_RESUME = TRUE MIN_CLUSTER_COUNT = 1 MAX_CLUSTER_COUNT = 2 SCALING_POLICY = 'STANDARD'; --grant rights to the warehouse GRANT USAGE ON WAREHOUSE purview_wh TO ROLE purview_reader;
Создайте пользователя
purview
для проверки Microsoft Purview.CREATE OR REPLACE USER purview PASSWORD = '<password>'; --note the default role will be used during scan ALTER USER purview SET DEFAULT_ROLE = purview_reader; --add user to purview_reader role GRANT ROLE purview_reader TO USER purview;
Предоставьте права чтения объектам базы данных.
GRANT USAGE ON DATABASE <your_database_name> TO purview_reader; --grant reader access to all the database structures that purview can currently scan GRANT USAGE ON ALL SCHEMAS IN DATABASE <your_database_name> TO role purview_reader; GRANT USAGE ON ALL FUNCTIONS IN DATABASE <your_database_name> TO role purview_reader; GRANT USAGE ON ALL PROCEDURES IN DATABASE <your_database_name> TO role purview_reader; GRANT SELECT ON ALL TABLES IN DATABASE <your_database_name> TO role purview_reader; GRANT SELECT ON ALL VIEWS IN DATABASE <your_database_name> TO role purview_reader; GRANT USAGE, READ on ALL STAGES IN DATABASE <your_database_name> TO role purview_reader; --grant reader access to any future objects that could be created GRANT USAGE ON FUTURE SCHEMAS IN DATABASE <your_database_name> TO role purview_reader; GRANT USAGE ON FUTURE FUNCTIONS IN DATABASE <your_database_name> TO role purview_reader; GRANT USAGE ON FUTURE PROCEDURES IN DATABASE <your_database_name> TO role purview_reader; GRANT SELECT ON FUTURE TABLES IN DATABASE <your_database_name> TO role purview_reader; GRANT SELECT ON FUTURE VIEWS IN DATABASE <your_database_name> TO role purview_reader; GRANT USAGE, READ ON FUTURE STAGES IN DATABASE <your_database_name> TO role purview_reader;
В этом разделе описывается регистрация Snowflake в Microsoft Purview с помощью портала управления Microsoft Purview.
Чтобы зарегистрировать новый источник Snowflake в каталоге данных, выполните следующие действия.
- Перейдите к учетной записи Microsoft Purview на портале управления Microsoft Purview.
- Выберите Карта данных в области навигации слева.
- Выберите Зарегистрировать
- В разделе Регистрация источников выберите Snowflake. Нажмите Продолжить.
На экране Регистрация источников (Snowflake) выполните следующие действия.
Введите имя , которое источник данных будет указан в каталоге.
Введите URL-адрес сервера в виде
<account_identifier>.snowflakecomputing.com
, напримерorgname-accountname.snowflakecomputing.com
. Дополнительные сведения об идентификаторе учетной записи Snowflake. Обратите внимание, что этот URL-адрес используется как часть полного имени ресурсов Snowflake и является конечной точкой по умолчанию для Microsoft Purview для подключения к Snowflake во время сканирования.При необходимости добавьте дополнительные узлы . Укажите его, если операции сканирования должны подключаться к конечной точке Snowflake, отличной от URL-адреса сервера. Во время настройки проверки можно выбрать узел для подключения.
Совет
Если вы уже сканировали Snowflake, но хотите переключиться на использование другой конечной точки, например с общедоступной конечной точки на частную, вы можете добавить дополнительный узел в источник данных и выбрать этот узел для подключения при проверке, чтобы убедиться, что Microsoft Purview создает ресурсы с тем же полным именем, что и ранее.
При регистрации источника данных Microsoft Purview выполняет уникальность проверка что URL-адрес сервера и дополнительные узлы не перекрываются с существующими источниками.
Выберите коллекцию из списка.
Завершите регистрацию источника данных.
Выполните следующие действия, чтобы проверить Snowflake для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Введение в сканирование и прием данных.
Поддерживаемый тип проверки подлинности для источника Snowflake — обычная проверка подлинности.
Чтобы создать и запустить проверку, выполните следующие действия.
На портале управления Microsoft Purview перейдите в раздел Источники.
Выберите зарегистрированный источник Snowflake.
Выберите + Создать сканирование.
Укажите следующие сведения:
Имя: имя сканирования
Подключение через среду выполнения интеграции. Выберите среду выполнения интеграции с автоматическим разрешением Azure, управляемой среды выполнения виртуальной сети IR или SHIR в соответствии с вашим сценарием. Дополнительные сведения см . в статье Выбор правильной конфигурации среды выполнения интеграции для вашего сценария. Чтобы использовать среду IR управляемой виртуальной сети для подключения к Snowflake через приватный канал, выполните действия, описанные в разделе Подключение к Snowflake через управляемую частную конечную точку , чтобы сначала настроить частную конечную точку.
Узел для подключения. Выберите конечную точку, используемую для подключения к Snowflake во время проверки. Вы можете выбрать URL-адрес сервера или дополнительные узлы, настроенные в источнике данных.
Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:
- При создании учетных данных выберите Обычная проверка подлинности .
- Укажите имя пользователя, используемое для подключения к Snowflake, в поле Ввода имени пользователя.
- Сохраните пароль пользователя, используемый для подключения к Snowflake, в секретном ключе.
Warehouse: укажите имя экземпляра хранилища, используемого для разрешения сканирования в случае прописной буквы. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь права USAGE в этом хранилище.
Базы данных. Укажите одно или несколько имен экземпляров базы данных для импорта с прописной буквой. Разделите имена в списке с запятой (;). Например,
DB1;DB2
. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь соответствующие права на объекты базы данных.Примечание
Классификация не применяется к таблицам, если указано несколько имен экземпляров базы данных.
Допустимые шаблоны имен баз данных могут быть статическими именами или содержать подстановочные знаки . Например:
A%;%B;%C%;D
:- Начните с A или
- Заканчивается на B или
- Содержать C или
- Равный D
Схема: перечисление подмножества схем для импорта, выраженных в виде списка, разделенного точкой с запятой. Например,
schema1;schema2
. Все пользовательские схемы импортируются, если этот список пуст. Все системные схемы и объекты по умолчанию игнорируются.Допустимые шаблоны имен схемы с использованием могут быть статическими именами или содержать подстановочные знаки %. Например:
A%;%B;%C%;D
:- Начните с A или
- Заканчивается на B или
- Содержать C или
- Равный D
Использование символов NOT и специальных символов недопустимо.
Сведения о хранимой процедуре. Управляет количеством сведений, импортированных из хранимых процедур.
- Сигнатура (по умолчанию) — имя и параметры хранимых процедур.
- Код, сигнатура: имя, параметры и код хранимых процедур.
- Происхождение, код, сигнатура: имя, параметры и код хранимых процедур, а также происхождение данных, производных от кода.
- Нет: сведения о хранимой процедуре не включаются.
Примечание
Если для проверки используется локальная Integration Runtime, с версии 5.30.8541.1 поддерживается настраиваемый параметр, отличный от сигнатуры по умолчанию. Предыдущие версии всегда извлекают имя и параметры хранимых процедур.
Максимальный доступный объем памяти (применяется при использовании локальной среды выполнения интеграции): максимальный объем памяти (в ГБ), доступный на виртуальной машине клиента для использования процессами сканирования. Это зависит от размера проверяемого источника Snowflake.
Примечание
Как правило, укажите 1 ГБ памяти для каждых 1000 таблиц.
Выберите Проверить подключение, чтобы проверить параметры (доступные при использовании Azure Integration Runtime).
Нажмите Продолжить.
Выберите набор правил сканирования для классификации. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил . Дополнительные сведения см. в статье Классификация .
Примечание
Классификация не будет применяться к таблицам или представлениям, если имя таблицы, имя представления, имя схемы или имя базы данных содержат специальные символы.
Примечание
Если вы используете локальную среду выполнения, вам потребуется выполнить обновление до версии 5.26.404.1 или более поздней, чтобы использовать классификацию Snowflake. Последнюю версию среды выполнения интеграции Майкрософт можно найти здесь.
Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.
Просмотрите проверку и выберите Сохранить и запустить.
Чтобы просмотреть существующие проверки, выполните приведенные далее действия.
- Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
- Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
- Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
- Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.
Чтобы изменить, отменить или удалить сканирование:
Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите проверку, которой вы хотите управлять. Далее вы можете:
- Измените сканирование, выбрав Изменить проверку.
- Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
- Удалите сканирование, выбрав Удалить сканирование.
Примечание
- При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
После сканирования источника Snowflake можно просмотреть каталог данных или выполнить поиск в каталоге данных , чтобы просмотреть сведения об активе.
Перейдите на вкладку asset — lineage (Ресурс —> происхождение), и при необходимости вы увидите связь активов. См. раздел поддерживаемых возможностей о поддерживаемых сценариях происхождения происхождения snowflake. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.
Примечание
Если представление было создано таблицами из разных баз данных, проверьте все базы данных одновременно, используя имена в точке с запятой (;) списке.
В этом разделе описаны необходимые действия по настройке управляемой частной конечной точки (PE) из Microsoft Purview в Snowflake в Azure. Дополнительные сведения о Приватный канал Azure и Snowflake.
В учетной записи Snowflake получите целевые конечные точки и идентификатор ресурса. Запустите системную функцию SYSTEM$GET_PRIVATELINK_CONFIG() с ролью account Администратор и запишите значения следующих свойств:
- privatelink-pls-id
- privatelink-account-url
- regionless-privatelink-account-url
- privatelink_ocsp-url
use role accountadmin; select key, value::varchar from table(flatten(input=>parse_json(SYSTEM$GET_PRIVATELINK_CONFIG())));
В Microsoft Purview создайте управляемую частную конечную точку для Snowflake.
- Выполните действия, описанные в статье Создание управляемого виртуальная сеть Integration Runtime. Если у вас уже есть, убедитесь, что он находится в версии 2, которая поддерживает Snowflake PE.
- Создайте управляемую частную конечную точку для Snowflake. Перейдите в раздел Управляемая частная конечная точка ->+ Создать ->Snowflake и укажите следующие сведения.
- Идентификатор ресурса или псевдоним. Введите полученное значение privatelink-pls-id .
- Полные доменные имена. Добавьте privatelink_ocsp-url, regionless-privatelink-account-url и privatelink-account-url.
После создания среды предустановки состояние подготовки отображается как Состояние успешно выполнено , а состояние утверждения — Ожидание. Откройте PE и найдите страницу СИД ресурса управляемой частной конечной точки на странице сведений.
Обратитесь в службу технической поддержки Snowflake и предоставьте идентификатор ресурса, чтобы Snowflake утвердила эту предустановку.
Когда служба поддержки Snowflake подтвердит, что pe утверждена, вы увидите состояние утверждения управляемой частной конечной точки как Утверждено в Microsoft Purview.
Зарегистрируйте источник данных и настройте проверку. При настройке проверки выберите Управляемая среда ir виртуальной сети, связанная с pe Snowflake.
- Проверьте идентификатор учетной записи на шаге регистрации источника. Не включайте
https://
часть в передней части. - Убедитесь, что имя хранилища и имя базы данных находятся в прописной букве на странице настройки сканирования.
- Проверьте хранилище ключей. Убедитесь, что в пароле нет опечаток.
- Проверьте учетные данные, настроенные в Microsoft Purview. Указанный пользователь должен иметь роль по умолчанию с необходимыми правами доступа к хранилищу и базе данных, которую вы пытаетесь проверить. См. раздел Необходимые разрешения для сканирования. Используйте
DESCRIBE USER;
для проверки роли пользователя по умолчанию, указанного для Microsoft Purview. - Используйте журнал запросов в Snowflake, чтобы узнать, происходит ли какое-либо действие.
- Если возникла проблема с идентификатором учетной записи или паролем, вы не увидите никаких действий.
- Если возникла проблема с ролью по умолчанию, по крайней мере должна отобразиться
USE WAREHOUSE . . .
инструкция . - Вы можете использовать функцию таблицы QUERY_HISTORY_BY_USER , чтобы определить, какая роль используется соединением. Настройка выделенного пользователя Microsoft Purview упрощает устранение неполадок.
Теперь, когда вы зарегистрировали источник, следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.