Подключение к проектам Google BigQuery и управление ими в Microsoft Purview
В этой статье описывается регистрация проектов Google BigQuery, а также аутентификация и взаимодействие с Google BigQuery в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.
Поддерживаемые возможности
Извлечение метаданных | Полная проверка | Добавочное сканирование | Сканирование с заданной областью | Классификация | Присвоение подписей | Политика доступа | Линии | Общий доступ к данным | Динамическое представление |
---|---|---|---|---|---|---|---|---|---|
Да | Да | Нет | Да | Нет | Нет | Нет | Да | Нет | Нет |
При сканировании источника Google BigQuery Microsoft Purview поддерживает:
Извлечение технических метаданных, включая:
- Projects
- Наборы данных
- Таблицы, включая столбцы
- Представления, включая столбцы
Получение статического происхождения данных о связях ресурсов между таблицами и представлениями.
При настройке сканирования можно выбрать сканирование всего проекта Google BigQuery или область сканирование в подмножество наборов данных, соответствующих заданным именам или шаблонам имен.
Известные ограничения
- В настоящее время Microsoft Purview поддерживает только сканирование наборов данных Google BigQuery в нескольких регионах США. Если указанный набор данных находится в другом расположении, например us-east1 или EU, вы увидите, что проверка завершена, но в Microsoft Purview не отображаются ресурсы.
- При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.
Предварительные требования
Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно.
Активная учетная запись Microsoft Purview.
Для регистрации источника данных и управления им на портале управления Microsoft Purview требуются разрешения администратора источника и читателя данных. Дополнительные сведения о разрешениях см. в статье Управление доступом в Microsoft Purview.
Настройте последнюю локальную среду выполнения интеграции. Дополнительные сведения см. в руководстве по созданию и настройке локальной среды выполнения интеграции.
Убедитесь, что JDK 11 установлен на компьютере, где установлена локальная среда выполнения интеграции. Перезапустите компьютер после установки JDK, чтобы он вступил в силу.
Убедитесь, что на локальном компьютере среды выполнения интеграции установлен Распространяемый компонент Visual C++ (версия Visual Studio 2012 с обновлением 4 или более поздней). Если это обновление не установлено, его можно скачать здесь.
Скачайте и распакуйте драйвер BigQuery JDBC на компьютере, где работает локальная среда выполнения интеграции. Запишите путь к папке, который будет использоваться для настройки проверки.
Примечание.
Драйвер должен быть доступен локальной среде выполнения интеграции. По умолчанию локальная среда выполнения интеграции использует учетную запись локальной службы "NT SERVICE\DIAHostService". Убедитесь, что у него есть разрешения "Чтение и выполнение" и "Вывод списка содержимого папки" для папки драйвера.
Регистрация
В этом разделе описывается, как зарегистрировать проект Google BigQuery в Microsoft Purview с помощью портала управления Microsoft Purview.
Действия по регистрации
Откройте портал управления Microsoft Purview, выполнив следующие действия.
- Перейдите непосредственно к https://web.purview.azure.com учетной записи Microsoft Purview и выберите ее.
- Открытие портал Azure, поиск и выбор учетной записи Microsoft Purview. Нажмите кнопку портала управления Microsoft Purview .
Выберите Карта данных в области навигации слева.
Выберите Зарегистрировать.
В разделе Регистрация источников выберите Google BigQuery . Нажмите кнопку Продолжить.
На экране Регистрация источников (Google BigQuery) выполните следующие действия:
Введите имя , которое источник данных будет указан в каталоге.
Введите ProjectID. Это должен быть полный идентификатор проекта. Например, mydomain.com:myProject
Выберите коллекцию или создайте новую (необязательно)
Нажмите Зарегистрировать.
Проверка
Выполните приведенные ниже действия, чтобы отсканировать проект Google BigQuery для автоматического определения ресурсов. Дополнительные сведения о сканировании в целом см. в статье Введение в сканирование и прием данных.
Создание и запуск сканирования
В Центре управления выберите Среды выполнения интеграции. Убедитесь, что настроена локальная среда выполнения интеграции. Если он не настроен, выполните указанные здесь действия.
Перейдите в раздел Источники.
Выберите зарегистрированный проект BigQuery .
Выберите + Создать сканирование.
Укажите следующие сведения:
Имя: имя сканирования
Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции.
Учетные данные. При настройке учетных данных BigQuery убедитесь, что:
- Выберите Обычная проверка подлинности в качестве метода проверки подлинности.
- Укажите идентификатор электронной почты учетной записи службы в поле Имя пользователя. Пример:
xyz\@developer.gserviceaccount.com
- Выполните следующие действия, чтобы создать закрытый ключ, скопируйте весь файл ключа JSON, а затем сохраните его как значение секрета Key Vault.
Чтобы создать новый закрытый ключ на облачной платформе Google, выполните приведенные ниже действия.
- В меню навигации выберите IAM & Администратор —> Учетные записи служб —> Выберите проект .>
- Выберите адрес электронной почты учетной записи службы, для которой требуется создать ключ.
- Перейдите на вкладку Ключи .
- Выберите раскрывающееся меню Добавить ключ , а затем выберите Создать новый ключ.
- Выберите формат JSON.
Примечание.
Содержимое закрытого ключа сохраняется во временном файле на виртуальной машине при выполнении процессов сканирования. Этот временный файл удаляется после успешного завершения проверок. В случае сбоя сканирования система будет продолжать повторять попытки до успешного выполнения. Убедитесь, что доступ к виртуальной машине, на которой выполняется SHIR, ограничен соответствующим образом.
Дополнительные сведения об учетных данных см. здесь.
Расположение драйвера. Укажите путь к расположению драйвера JDBC на компьютере, где запущена локальная среда выполнения интеграции, например
D:\Drivers\GoogleBigQuery
. Это путь к допустимому расположению jar-папки. Убедитесь, что драйвер доступен локальной среде выполнения интеграции. Дополнительные сведения см. в разделе предварительных требований.Набор данных. Укажите список наборов данных BigQuery для импорта. Например, dataset1; dataset2. Если список пуст, импортируются все доступные наборы данных. Допустимые шаблоны имен наборов данных, использующие синтаксис выражений SQL LIKE, включают использование %.
Пример: A%; %B; %C%; D
- Начните с A или
- заканчиваются на B или
- содержать C или
- равный D
Использование символов NOT и специальных символов недопустимо.
Максимальный объем доступной памяти: максимальный объем памяти (в ГБ), доступный на виртуальной машине для использования процессами сканирования. Это зависит от размера отсканированного проекта Google BigQuery.
Выберите Проверить подключение.
Нажмите Продолжить.
Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.
Просмотрите проверку и выберите Сохранить и запустить.
Просмотр проверок и запусков сканирования
Чтобы просмотреть существующие проверки, выполните приведенные далее действия.
- Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
- Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
- Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
- Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.
Управление проверками
Чтобы изменить, отменить или удалить сканирование:
Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите проверку, которой вы хотите управлять. Далее вы можете:
- Измените сканирование, выбрав Изменить проверку.
- Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
- Удалите сканирование, выбрав Удалить сканирование.
Примечание.
- При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
- Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.
Линии
После сканирования источника Google BigQuery вы можете просмотреть каталог данных или поиск в каталоге данных , чтобы просмотреть сведения об активе.
Перейдите на вкладку asset — lineage (Ресурс —> происхождение), и при необходимости вы увидите связь активов. См. раздел поддерживаемых возможностей о поддерживаемых сценариях происхождения данных Google BigQuery. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.
Дальнейшие действия
Теперь, когда вы зарегистрировали источник, следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.