Использование Python в редакторе Power Query

Вы можете использовать Python, язык программирования, широко используемый статистиками, специалистами по обработке и анализу данных, в редакторе Power BI Desktop Power Query. Эта интеграция Python с редактором Power Query позволяет выполнять очистку данных с помощью Python, а также выполнять расширенную формирование и аналитику данных в наборах данных, включая завершение отсутствующих данных, прогнозов и кластеризации, только для того чтобы назвать несколько. Python — это мощный язык, который можно использовать в редакторе Power Query для подготовки модели данных и создания отчетов.

Предпосылки

Перед началом работы необходимо установить Python и pandas.

  • Установите Python . Чтобы использовать Python в редакторе Power BI Desktop Power Query, необходимо установить Python на локальном компьютере. Вы можете скачать и установить Python бесплатно из многих расположений, включая официальную страницу загрузки Python и Anaconda.

  • Установите pandas — чтобы использовать Python с редактором Power Query, вам также потребуется установить pandas. Pandas используется для перемещения данных между Power BI и средой Python.

Использование Python с редактором Power Query

Чтобы показать, как использовать Python в редакторе Power Query, воспользуйтесь этим примером из набора данных фондового рынка на основе CSV-файла, который можно скачать здесь и следовать далее. Ниже приведены действия, описанные в этом примере.

  1. Сначала загрузите данные в Power BI Desktop. В этом примере загрузите файл EuStockMarkets_NA.csv и выберите Получить данныеТекст/CSV на ленте Главная в Power BI Desktop.

    Снимок экрана: лента

  2. Выберите файл и нажмите кнопку "Открыть", а CSV-файл отображается в диалоговом окне CSV-файла .

    Снимок экрана: диалоговое окно CSV-файла с выбранным CSV-файлом.

  3. После загрузки данных вы увидите его в области "Поля " в Power BI Desktop.

    Снимок экрана: область

  4. Откройте редактор Power Query , выбрав "Преобразовать данные " на вкладке "Главная " в Power BI Desktop.

    Снимок экрана: редактор Power Query в Power BI Desktop, на котором показан выбор данных преобразования.

  5. На вкладке "Преобразование" выберите "Запуск скрипта Python " и редактор скриптов Python отображается, как показано на следующем шаге. Строки 15 и 20 страдают от отсутствующих данных, так как другие строки не отображаются на следующем рисунке. Ниже показано, как Python завершает эти строки.

    Снимок экрана: вкладка

  6. В этом примере введите следующий код скрипта:

    import pandas as pd
    completedData = dataset.fillna(method='backfill', inplace=False)
    dataset["completedValues"] =  completedData["SMI missing values"]
    

    Замечание

    Для правильной работы предыдущего кода скрипта необходимо установить библиотеку pandas в среде Python. Чтобы установить pandas, выполните следующую команду в установке Python: pip install pandas

    При вводе в диалоговое окно запуска скрипта Python код выглядит следующим образом:

    Снимок экрана: диалоговое окно запуска скрипта Python с кодом скрипта.

  7. После нажатия кнопки "ОК" в редакторе Power Query отображается предупреждение о конфиденциальности данных.

    Снимок экрана: панель редактора Power Query с предупреждением о конфиденциальности данных.

  8. Для правильной работы скриптов Python в службе Power BI все источники данных должны быть установлены на общедоступные. Дополнительные сведения о параметрах конфиденциальности и их последствиях см. в разделе "Уровни конфиденциальности".

    Снимок экрана: диалоговое окно

    Обратите внимание на новый столбец в области "Поля " с именем completedValues. Обратите внимание, что существует несколько отсутствующих элементов данных, таких как строка 15 и 18. Ознакомьтесь с тем, как Python обрабатывает это в следующем разделе.

С тремя строками скрипта Python редактор Power Query заполняет отсутствующие значения прогнозной моделью.

Создание визуальных элементов из данных скрипта Python

Теперь мы можем создать визуализацию, чтобы увидеть, как код скрипта Python с использованием библиотеки pandas заполнил отсутствующие значения, как показано на следующем изображении.

Снимок экрана визуализации, показывающей исходные данные и заполненные отсутствующие значения библиотеки pandas.

После завершения этого визуального элемента и других визуальных элементов, которые можно создать с помощью Power BI Desktop, можно сохранить файл Power BI Desktop . Файлы Power BI Desktop сохраняются с расширением .pbix. Затем используйте модель данных, включая скрипты Python, которые входят в ее состав, в службе Power BI.

Замечание

Хотите просмотреть завершенный PBIX-файл, выполнив указанные ниже действия? Тебе повезло. Вы можете скачать готовый файл Power BI Desktop , используемый в этих примерах прямо здесь.

После отправки PBIX-файла в службу Power BI необходимо выполнить несколько дополнительных действий, чтобы включить обновление данных в службе и включить обновление визуальных элементов в службе. Данные должны иметь доступ к Python для обновления визуальных элементов. Ниже перечислены следующие шаги.

  • Включите запланированное обновление для набора данных. Чтобы включить запланированное обновление книги, содержащей набор данных с помощью скриптов Python, см. статью "Настройка запланированного обновления", которая также содержит сведения о личном шлюзе.
  • Установите личный шлюз. Вам нужен личный шлюз , установленный на компьютере, где находится файл, и где установлен Python. Служба Power BI должна получить доступ к этой книге и повторно отобразить все обновленные визуальные элементы. Дополнительные сведения см. в статье об установке и настройке личного шлюза.

Соображения и ограничения

Существуют некоторые ограничения для запросов, включающих скрипты Python, созданные в редакторе Power Query:

  • Все параметры источника данных Python должны быть общедоступными, а все остальные шаги в запросе, созданном в редакторе Power Query, также должны быть общедоступными. Чтобы добраться до параметров источника данных, в Power BI Desktop выберите > параметры файла и параметры > источника данных.

    Снимок экрана: меню

    В диалоговом окне "Параметры источника данных " выберите источники данных, а затем выберите "Изменить разрешения" и убедитесь, что для уровня конфиденциальностизадано значение Public.

    Снимок экрана: диалоговое окно

  • Чтобы включить запланированное обновление визуальных элементов Python или набора данных, необходимо включить запланированное обновление и установить личный шлюз на компьютере, на котором размещена книга и установка Python. Дополнительные сведения об обоих см. в предыдущем разделе этой статьи, где приведены ссылки для получения дополнительных сведений о каждом из них.

  • Вложенные таблицы, которые являются таблицей таблиц, в настоящее время не поддерживаются.

Существуют все виды действий, которые можно сделать с помощью Python и пользовательских запросов, поэтому просматривайте и формируйте данные так же, как вы хотите, чтобы они отображались.