Руководство. Создание модели машинного обучения в Power BI

В этом руководстве вы используете автоматизированное машинное обучение для создания и применения модели двоичного прогнозирования в Power BI. Вы создаете поток данных Power BI и используете сущности, определенные в потоке данных, для обучения и проверки модели машинного обучения непосредственно в Power BI. Затем вы используете эту модель для оценки новых данных и создания прогнозов.

Во-первых, вы создаете двоичную модель машинного обучения прогнозирования для прогнозирования намерения покупки онлайн-покупателей на основе набора их атрибутов онлайн-сеанса. В этом упражнении используется набор данных тестового машинного обучения. После обучения модели Power BI автоматически создает отчет о проверке, объясняющий результаты модели. Вы сможете просмотреть отчет о проверке и применить модель к данным для оценки.

Данное руководство состоит из следующих шагов.

  • Создайте поток данных с входными данными.
  • Создание и обучение модели машинного обучения.
  • Просмотрите отчет о проверке модели.
  • Примените модель к сущности потока данных.
  • Используйте результат оценки модели в отчете Power BI.

Создание потока данных с входными данными

Создайте поток данных с входными данными, выполнив следующие действия.

Получить данные

Первый этап при создании потока данных — подготовка источника данных. В этом случае вы используете набор данных машинного обучения из набора онлайн-сеансов, некоторые из которых завершились покупкой. Набор данных содержит набор атрибутов этих сеансов, которые используются для обучения модели.

Вы можете скачать набор данных с веб-сайта UC Irvine или скачайте online_shoppers_intention.csv. Далее в этом руководстве вы подключитесь к набору данных, указав его URL-адрес.

Создание таблиц

Чтобы создать сущности в потоке данных, войдите в служба Power BI и перейдите в рабочую область.

  1. Если у вас нет рабочей области, создайте ее, выбрав Рабочие области в области навигации Power BI слева и выбрав Создать рабочую область. На панели Создание рабочей области введите имя рабочей области и нажмите кнопку Сохранить.

    Снимок экрана: создание рабочей области.

  2. Выберите Создать в верхней части новой рабочей области, а затем выберите Поток данных.

    Снимок экрана: создание потока данных.

  3. Выберите Добавить новые таблицы, чтобы запустить редактор Power Query в браузере.

    Снимок экрана: выбор пункта

  4. На экране Выбор источника данных выберите Text/CSV в качестве источника данных.

    Снимок экрана: выбор текста или CSV-файла при выборе источника данных.

  5. На странице Подключение к источнику данных вставьте приведенную ниже ссылку в файл online_shoppers_intention.csv в поле Путь к файлу или URL-адрес , а затем нажмите кнопку Далее.

    https://raw.githubusercontent.com/santoshc1/PowerBI-AI-samples/master/Tutorial_AutomatedML/online_shoppers_intention.csv

    Снимок экрана: вставка в путь к файлу.

  6. В редакторе Power Query отобразятся данные из CSV-файла в режиме предварительного просмотра. Чтобы внести изменения в данные перед их загрузкой, выберите Преобразовать данные.

    Снимок экрана: выбор преобразования данных на экране предварительных просмотров данных файла.

  7. Power Query автоматически выводит типы данных столбцов. Вы можете изменить типы данных, щелкнув значок типа атрибута в верхней части заголовков столбцов. Измените тип столбца Revenue на True/False.

    Вы можете переименовать запрос на более понятное имя, изменив значение в поле Имя на панели справа. Измените имя запроса на Online visitors.

    Снимок экрана: изменение имени запроса и типа данных столбца Revenue.

  8. Выберите Сохранить & закрыть, в диалоговом окне укажите имя потока данных, а затем нажмите кнопку Сохранить.

    Снимок экрана: сохранение потока данных.

создание и обучение модели машинного обучения;

Чтобы добавить модель машинного обучения, выполните приведенные далее действия.

  1. Щелкните значок Применить модель машинного обучения в списке Действия для таблицы, содержащей данные для обучения и сведения о метках, а затем выберите Добавить модель машинного обучения.

    Снимок экрана: добавление модели машинного обучения.

  2. Первым шагом к созданию модели машинного обучения является определение исторических данных, включая поле результата, которое требуется спрогнозировать. Модель создается на основе этих данных. В этом случае вы хотите спрогнозировать, будут ли посетители совершать покупку. Результат, который вы хотите спрогнозировать, находится в поле Доход . Выберите Доход в качестве значения столбца Результат , а затем нажмите кнопку Далее.

    Снимок экрана: выбор поля исторических данных.

  3. Затем выберите тип создаваемой модели машинного обучения. Power BI анализирует значения в поле результатов, которое вы определили, и предлагает типы моделей машинного обучения, которые он может создать для прогнозирования этого поля.

    В этом случае, так как вы хотите спрогнозировать двоичный результат того, собирается ли посетитель совершить покупку, Power BI рекомендует двоичное прогнозирование. Так как вы заинтересованы в прогнозировании посетителей, которые собираются совершить покупку, выберите true в разделе Выбор целевого результата. Вы также можете указать различные метки для результатов в автоматически созданном отчете, который суммирует результаты проверки модели. Нажмите кнопку Далее.

    Снимок экрана: экран двоичного прогнозирования.

  4. Power BI выполняет предварительное сканирование выборки данных и предлагает входные данные, которые могут дать более точные прогнозы. Если Power BI не рекомендует столбец, объясняется, почему не рядом со столбцом. Вы можете изменить выбранные значения, чтобы включить только поля, которые модель будет изучать, установив или сняв флажки рядом с именами столбцов. Щелкните Далее, чтобы подтвердить входные данные.

    Снимок экрана: выбранные столбцы.

  5. На последнем шаге назовите модель прогнозирования намерения покупки и выберите время, которое необходимо потратить на обучение. Вы можете сократить время обучения для быстрого просмотра результатов или увеличить время для получения оптимальной модели. Щелкните Сохранить и обучить, чтобы начать обучение модели.

    Снимок экрана: присвоение имени модели и выбор времени обучения.

Если вы получаете ошибку, аналогичную ошибке Учетные данные не найдены для источника данных, необходимо обновить учетные данные, чтобы Power BI смог оценить данные. Чтобы обновить учетные данные, выберите Дополнительные параметры... в строке заголовка, а затем выберите Параметры>Параметры.

Снимок экрана: выбор параметров.

Выберите поток данных в разделе Потоки данных, разверните узел Учетные данные источника данных, а затем выберите Изменить учетные данные.

Снимок экрана: изменение учетных данных потока данных.

Отслеживание состояния обучения

Процесс обучения начинается с выборки и нормализации исторических данных и разделения набора данных на две новые сущности: данные обучения прогнозирования намерения покупки и данные тестирования прогнозирования намерения покупки.

В зависимости от размера набора данных процесс обучения может занять от нескольких минут до выбранного времени обучения. Завершение обучения и проверки модели можно отследить по состоянию потока данных. Состояние отображается как обновление данных на вкладке Наборы данных и потоки данных рабочей области.

Снимок экрана: обучаемая модель.

Модель можно просмотреть на вкладке Модели машинного обучения потока данных. Состояние указывает, была ли модель поставлена в очередь для обучения, находится на обучении или обучена. После завершения обучения модели поток данных отображает обновленное время последнего обучения и состояние Обучено.

Снимок экрана: состояние

Просмотр отчета о проверке модели

Чтобы просмотреть отчет о проверке модели, на вкладке Модели машинного обучения выберите значок Просмотреть отчет об обучении в разделе Действия. В этом отчете описано ожидаемое поведение модели машинного обучения.

На странице Производительность модели отчета выберите Просмотреть основные прогнозы , чтобы просмотреть основные прогнозы для модели. Вы можете выбрать любой фактор, чтобы узнать, как с ним связано распределение результатов.

Снимок экрана: страница производительности модели.

Срез порогового значения вероятности можно использовать на странице Производительность модели , чтобы изучить влияние точности и полноты модели на модель.

Снимок экрана: срез порогового значения вероятности.

На других страницах отчета представлены статистические показатели эффективности для модели.

Отчет также содержит страницу Сведений об обучении , на котором описывается выполнение итераций, извлечение признаков из входных данных и используемые гиперпараметры для конечной модели.

применение модели к сущности потока данных;

Нажмите кнопку Применить модель в верхней части отчета, чтобы вызвать эту модель. В диалоговом окне Применить можно указать целевую сущность, которая содержит исходные данные для применения модели. Затем выберите Сохранить и применить.

Снимок экрана: применение модели.

При применении модели создаются две новые таблицы с суффиксами, обогащенными <model_name> и обогащенными <model_name> объяснениями. В этом случае при применении модели к таблице Онлайн-посетителей создается следующее:

  • Онлайн-посетители обогатили прогноз намерения покупки, который включает прогнозируемые выходные данные модели.
  • Онлайн-посетители обогатили объяснения прогноза намерений покупки, которые содержат основные рекордные факторы влияния для прогноза.

При применении двоичной модели прогнозирования добавляются четыре столбца: Outcome, PredictionScore, PredictionExplanation и ExplanationIndex, каждый из которых имеет префикс прогнозирования намерения покупки .

Снимок экрана: четыре новых столбца.

После завершения обновления потока данных можно выбрать таблицу Прогнозирование намерений покупок с обогащенными сведениями о покупках, чтобы просмотреть результаты.

Снимок экрана, на котором показан просмотр результатов в таблице прогнозирования намерений онлайн-посетителей с обогащенной покупкой.

Вы также можете вызвать любую автоматизированную модель машинного обучения в рабочей области непосредственно из Редактор Power Query в потоке данных. Чтобы получить доступ к моделям автоматизированного машинного обучения, выберите Изменить для таблицы, которую вы хотите обогатить аналитическими сведениями из модели автоматизированного машинного обучения.

Снимок экрана: выбор элемента

В Редактор Power Query выберите Аналитика ИИ на ленте.

Снимок экрана: выбор аналитики ИИ.

На экране Аналитика ИИ выберите папку Модели машинного обучения Power BI в области навигации. В списке отображаются все модели машинного обучения, к которых у вас есть доступ, как к Power Query функциям. Входные параметры для модели машинного обучения автоматически сопоставляют как параметры соответствующей функции Power Query. Автоматическое сопоставление параметров происходит только в том случае, если имена и типы данных параметра совпадают.

Чтобы вызвать модель машинного обучения, можно выбрать любой из столбцов выбранной модели в качестве входных данных в раскрывающемся списке. Можно также указать постоянное значение для использования в качестве входных данных, переключив значок столбца рядом со строкой ввода.

Снимок экрана: браузер функций Power Query.

Нажмите кнопку Применить , чтобы просмотреть предварительный просмотр выходных данных модели машинного обучения в виде новых столбцов в таблице. Вы также увидите вызов модели в разделе Примененные шаги для запроса.

Снимок экрана: просмотр результатов предварительного просмотра в Редактор Power Query.

После сохранения потока данных модель автоматически вызывается при обновлении потока данных для любых новых или обновленных строк в таблице сущностей.

использование результатов оценки модели в отчете Power BI.

Чтобы использовать результат оценки из модели машинного обучения, можно подключиться к потоку данных из Power BI Desktop с помощью соединителя Потоков данных. Теперь вы можете использовать таблицу прогнозирования намерений покупки с обогащением посетителей в Интернете , чтобы включить прогнозы из вашей модели в отчеты Power BI.

Ограничения

Существуют некоторые известные проблемы с использованием шлюзов с автоматизированным машинным обучением. Если необходимо использовать шлюз, лучше создать поток данных, который сначала импортирует необходимые данные через шлюз. Затем создайте другой поток данных, который ссылается на первый поток данных для создания или применения этих моделей.

Дальнейшие действия

В этом руководстве вы создали и применили двоичную модель прогнозирования в Power BI, выполнив следующие действия:

  • Создан поток данных с входными данными.
  • Создание и обучение модели машинного обучения.
  • Просмотр отчета о проверке модели.
  • Применена модель к сущности потока данных.
  • Узнали, как использовать результат оценки модели в отчете Power BI.

Дополнительные сведения об автоматизации машинного обучения в Power BI см. в статье Автоматизированное машинное обучение в Power BI.