Подключение Power BI к Azure Databricks

Microsoft Power BI — это служба бизнес-аналитики, которая предлагает интерактивные визуализации с функциями самостоятельной бизнес-аналитики, позволяя конечным пользователям самостоятельно создавать отчеты и панели мониторинга, не обращаясь к специалистам по информационным технологиям или администраторам баз данных.

При использовании Azure Databricks в качестве источника данных в сочетании с Power BI преимущества производительности и технологических решений Azure Databricks становятся доступны не только специалистам по обработке и анализу данных, но и всем бизнес-пользователям.

Публикация в Power BI Online из Azure Databricks

При использовании Azure Databricks в качестве источника данных с Power BI Online можно создавать наборы данных PowerBI из таблиц или схем непосредственно из пользовательского интерфейса Databricks.

Требования

  • Данные должны находиться в каталоге Unity, а вычислительные ресурсы (кластер) должны быть включены в каталоге Unity. Хранилище метаданных Hive в настоящее время не поддерживается.
  • У вас должна быть лицензия Power BI уровня "Премиум" (емкость уровня "Премиум" или "Премиум") для каждого пользователя.
  • Необходимо включить параметр "Пользователи могут изменять модели данных в служба Power BI (предварительная версия)" в разделе "Параметры рабочей области" и параметры модели данных для изменения семантической модели после публикации. Вы также можете изменить семантику модели с помощью табличного редактора, выполнив подключение с помощью конечной точки XMLA.
  • Если необходимо включить запись XML в рабочей области PowerBI, следуйте инструкциям по этой ссылке .
  • Если рабочая область находится по приватной ссылке, необходимо вручную обновить учетные данные источника данных набора данных в Power BI.

Как использовать его

Публикация таблиц Azure Databricks в наборе данных Power BI

  1. Войдите в рабочую область Databricks и перейдите к Обозреватель каталога. Выберите схему или таблицы для публикации. Не выбирайте из хранилища метаданных hive или каталога примеров.
  2. В раскрывающемся списке вычислений выберите хранилище данных, которое вы хотите использовать в этой публикации Power BI.
  3. После публикации требуемой таблицы или схемы в Обозреватель каталога нажмите кнопку "Использовать с инструментами бизнес-аналитики" в правом верхнем углу.
  4. В раскрывающемся списке, открывающемся, нажмите кнопку "Опубликовать в рабочей области Power BI".

На этом этапе меню откроется в правой части окна. Следуйте указаниям, указанным в меню, подробно описано ниже:

  1. Щелкните "Подключение в идентификатор Microsoft Entra", чтобы пройти проверку подлинности с помощью учетной записи Майкрософт.
  2. В следующем меню выберите нужную рабочую область для публикации в раскрывающемся списке "Рабочие области Power BI". В раскрывающемся списке "Режим набора данных" выберите DirectQuery (выбранный по умолчанию) или режим импорта.
  3. Нажмите синюю кнопку "Опубликовать в Power BI" в нижней части меню.
  4. Дождитесь публикации набора данных. Обычно это занимает около 10–20 секунд.
  5. При публикации набора данных синяя кнопка будет иметь ссылку "Открыть Power BI". Щелкните это, чтобы открыть новый набор данных Power BI на новой вкладке.

Функции и заметки

  • При публикации схемы, содержащей несколько таблиц, будут опубликованы все таблицы со столбцами. Если столбцы отсутствуют в любой таблице, публикация не будет выполнена.
  • Комментарии к столбцам таблицы в Databricks копируются в описания соответствующих столбцов в Power BI.
  • Связи внешнего ключа сохраняются в опубликованном наборе данных. Однако Power BI поддерживает только один активный путь связи между двумя таблицами. Таким образом, если в схеме в Databricks присутствует несколько путей, некоторые из соответствующих связей в Power BI будут иметь неактивные. Позже вы можете изменить, какие связи активны или неактивны в представлении модели данных в Power BI.
  • Личный маркер доступа (PAT) создается от вашего имени, чтобы разрешить Power BI получить доступ к семантической модели. Этот метод проверки подлинности можно изменить позже в параметрах источника данных Power BI.

Подключение Power BI Desktop в Azure Databricks

Вы можете подключить Power BI Desktop к кластерам Azure Databricks и хранилищам SQL Databricks. Вы также можете публиковать отчеты Power BI в служба Power BI и предоставить пользователям доступ к базовым данным Azure Databricks с помощью единого входа( единого входа), передавая те же учетные данные Microsoft Entra ID (ранее Azure Active Directory), которые они используют для доступа к отчету.

Требования

  • Power BI Desktop 2.85.681.0 или более поздняя версия. Чтобы использовать данные, управляемые каталогом Unity в Power BI, необходимо использовать Power BI Desktop версии 2.98.683.0 или более поздней (выпуск за октябрь 2021 г.).

    Примечание.

    Для работы Power BI Desktop необходима система Windows. В других операционных системах Power BI Desktop можно запускать на физическом узле или виртуальной машине на основе Windows, а затем подключаться к ней из операционной системы.

    Если вы используете версию Power BI Desktop ниже 2.85.681.0, необходимо также установить драйвер ODBC для Databricks в той же среде, что и Power BI Desktop.

  • Личный маркер доступа Azure Databricks или учетные данные учетной записи идентификатора Microsoft Entra.

    Примечание.

    В качестве рекомендации по обеспечению безопасности при проверке подлинности с помощью личных маркеров доступа Databricks рекомендует использовать личные маркеры доступа, принадлежащие субъектам-службам, а не пользователям рабочей области. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.

  • Кластер Azure Databricks или хранилище Databricks SQL.

Подключение Power BI Desktop в Azure Databricks с помощью Подключение партнера

Вы можете использовать партнерские Подключение для подключения к кластеру или хранилищу SQL из Power BI Desktop всего за несколько щелчков.

  1. Убедитесь, что учетная запись Azure Databricks, рабочая область и пользователь, выполнивший вход, соответствуют требованиям для Partner Connect.

  2. На боковой панели щелкните Кнопка Подключение партнера"Партнер Подключение".

  3. Щелкните плитку Power BI.

  4. В диалоговом окне Подключение к партнеру для параметра Вычислительная среда выберите имя вычислительного ресурса Azure Databricks, который требуется подключить.

  5. Выберите Скачать файл подключения.

  6. Откройте скачанный файл подключения, который запустит Power BI Desktop.

  7. В Power BI Desktop введите учетные данные для проверки подлинности:

    • Личный маркер доступа. Введите личный маркер доступа Azure Databricks.
    • Идентификатор Microsoft Entra: нажмите кнопку " Войти" , а затем следуйте инструкциям на экране.
    • Имя пользователя и пароль: неприменимо.
  8. Щелкните Подключить.

  9. Выберите данные Azure Databricks для запроса в навигаторе Power BI.

    Навигатор Power BI

Подключение Power BI Desktop в Azure Databricks вручную

Следуйте этим инструкциям в зависимости от выбранного метода проверки подлинности, чтобы подключиться к кластеру или хранилищу SQL с помощью Power BI Desktop. При использовании Power BI в режиме DirectQuery рекомендуется использовать хранилища SQL Databricks.

Примечание.

Чтобы ускорить подключение к Power BI Desktop, используйте Partner Connect.

  1. Получите имя узла сервера и путь HTTP.

  2. Запустите Power BI Desktop.

  3. Щелкните Получить данные или выберите Файл > Получить данные.

  4. Щелкните Получить данные, чтобы начать работу.

  5. Найдите Databricks, а затем щелкните соединитель:

    • Azure Databricks
  6. Щелкните Подключить.

  7. Введите имя узла сервера и путь HTTP.

  8. Выберите режим подключения к данным. Сведения о разнице между импортом и DirectQuery см. в разделе Использование DirectQuery в Power BI Desktop.

  9. Щелкните OK.

  10. Щелкните метод проверки подлинности:

    • Личный маркер доступа. Введите личный маркер доступа Azure Databricks.
    • Идентификатор Microsoft Entra: нажмите кнопку " Войти" , а затем следуйте инструкциям на экране.
    • Имя пользователя и пароль: неприменимо.
  11. Щелкните Подключить.

  12. Выберите данные Azure Databricks для запроса в навигаторе Power BI. Если для рабочей области включен каталог Unity, выберите каталог, прежде чем выбирать схему и таблицу.

    Навигатор Power BI

Выполнение пользовательского SQL-запроса

Соединитель Databricks предоставляет источник данных Databricks.Query, позволяющий выполнять пользовательский SQL-запрос.

  1. Выполните действия, описанные в разделе Подключение с помощью Power BI Desktop, чтобы создать подключение к данным в режиме импорта.

  2. В разделе Навигаторе щелкните правой кнопкой мыши верхний элемент, содержащий выбранное имя узла и путь HTTP, и нажмите Преобразовать данные, чтобы открыть Редактор Power Query.

    Щелчок

  3. На панели функций замените имя функции Databricks.Catalogs на Databricks.Query и примените это изменение. При этом создается функция Power Query, которая принимает SQL-запрос в качестве параметра.

  4. Введите нужный SQL-запрос в поле параметра и нажмите Вызвать. При этом выполняется запрос и создается таблица с его результатами.

Доступ к источнику данных Azure Databricks с помощью службы Power BI

При публикации отчета в служба Power BI вы подключаетесь к Azure Databricks с помощью личного маркера доступа. В служба Power BI можно также включить единый вход ( единый вход), чтобы пользователи могли получать доступ к отчетам, созданным с помощью режима хранения DirectQuery, передав учетные данные идентификатора Microsoft Entra в Azure Databricks.

  1. Опубликуйте свой отчет Power BI из Power BI Desktop в службе Power BI.

  2. Включите доступ с помощью единого входа (SSO) к отчету и базовому источнику данных.

    1. Перейдите к базовому набору данных Azure Databricks для отчета в службе Power BI, разверните узел Учетные данные источника данных и щелкните Изменить учетные данные.
    2. В диалоговом окне конфигурации выберите Средства просмотра отчетов могут получать доступ к этому источнику данных только с помощью собственных идентификаторов Power BI с использованием Direct Query и нажмите кнопку войти.

    Включение единого входа для доступа к данным Databricks

    При выборе этого параметра доступ к источнику данных обрабатывается с помощью DirectQuery и управляется с помощью удостоверения идентификатора Microsoft Entra пользователя, который обращается к отчету. Если этот параметр не выбран, то доступ к источнику данных Azure Databricks будет только у вас как у пользователя, опубликовавшего отчет.

Автоматическое обнаружение прокси-сервера HTTP

Power BI Desktop версии 2.104.941.0 и выше (выпуск за май 2022 г.) имеет встроенную поддержку для определения общесистемной конфигурации HTTP-прокси для Windows.

Power BI Desktop может автоматически обнаруживать и использовать общесистемную конфигурацию прокси-сервера HTTP для Windows.

Если прокси-сервер не предоставляет точку распространения CRL (CDP), Power BI может отобразить следующее сообщение об ошибке:

Details: "ODBC: ERROR [HY000] [Microsoft][DriverSupport] (1200)
-The revocation status of the certificate or one of the certificates in the certificate chain is unknown."

Чтобы устранить эту ошибку:

  1. Создайте файл C:\Program Files\Microsoft Power BI Desktop\bin\ODBC Drivers\Simba Spark ODBC Driver\microsoft.sparkodbc.ini, если он не существует.

  2. Добавьте в файл microsoft.sparkodbc.ini следующий код.

    [Driver]
    CheckCertRevocation=0
    

Соединитель разностного общего доступа Power BI

Соединитель Power BI Delta Sharing позволяет пользователям обнаруживать, анализировать и визуализировать наборы данных, к которым они используются с помощью открытого протокола Delta Sharing . Этот протокол обеспечивает безопасный обмен наборами данных между продуктами и платформами с использованием REST и облачного хранилища.

Инструкции по подключению см. в статье Power BI: чтение общих данных.

Ограничения

  • Соединитель Azure Databricks поддерживает веб-прокси. Однако автоматические параметры прокси-сервера, определенные в PAC-файлах, не поддерживаются.
  • В соединителе Azure Databricks источник данных Databricks.Query не поддерживается в сочетании с режимом DirectQuery.
  • Данные, которые загружает соединитель Delta Sharing, должны соответствовать памяти компьютера. Для этого соединитель ограничивает число импортируемых строк до установленного ранее максимального числа.

Дополнительные ресурсы

Поддержка