ИИ с потоками данных
В этой статье показано, как использовать искусственный интеллект (ИИ) с потоками данных. В этой статье рассматриваются следующие вопросы:
- Cognitive Services
- Автоматизированное машинное обучение
- Интеграция машинного обучения Azure
Использование Cognitive Services в Power BI
С помощью Cognitive Services в Power BI можно применять различные алгоритмы из Azure Cognitive Services для обогащения данных при самостоятельной подготовке данных для потоков данных.
Сейчас поддерживаются службы анализа тональности, извлечения ключевых фраз, распознавания языка и добавления тегов к изображению. Преобразования выполняются на служба Power BI и не требуют подписки Azure Cognitive Services. Эта функция доступна в Power BI Premium.
Включение функций ИИ
Cognitive Services поддерживаются для узлов емкости Premium EM2, A2 или P1 и других узлов с большим объемом ресурсов. Службы Cognitive Services также доступны в рамках лицензии Premium на пользователя (PPU). В емкости используется отдельная рабочая нагрузка искусственного интеллекта для запуска Cognitive Services. Перед использованием cognitive services в Power BI необходимо включить рабочую нагрузку ИИ в параметрах емкостина портале Администратор. Вы можете включить рабочую нагрузку ИИ в разделе Рабочие нагрузки и определить максимальный объем памяти, который вы хотите использовать этой рабочей нагрузкой. Рекомендуется выделять для нее не более 20 %. Превышение этого объема приведет к замедлению обработки запросов.
Начало работы с Cognitive Services в Power BI
Выполняемые Cognitive Services преобразования являются частью самостоятельной подготовки данных для потоков данных. Чтобы дополнить данные с помощью Cognitive Services, сперва откорректируйте поток данных.
Нажмите кнопку Аналитика ИИ на верхней ленте Редактор Power Query.
Во всплывающем окне выберите функцию, которую вы хотите использовать, и данные для преобразования. В этом примере оценивается тональность столбца, содержащего текст проверки.
LanguageISOCode — это необязательный вход для указания языка текста. В этом столбце ожидается iso-код. Можно использовать столбец в качестве входных данных для LanguageISOCode или статический столбец. В этом примере для всего столбца задан английский язык (en). Если оставить этот столбец пустым, Power BI автоматически определит язык перед применением функции. Затем выберите Вызвать.
После вызова функции результат добавляется в таблицу в виде нового столбца. Преобразование также отображается как примененный шаг в запросе.
Если функция возвращает несколько столбцов выходных данных, добавляется новый столбец со строкой, содержащей эти столбцы.
Разверните столбец, чтобы добавить к данным одно или оба значения в виде столбцов.
Доступные функции
В этом разделе описаны функции, доступные в Cognitive Services в Power BI.
Определение языка
Функция распознавания языка оценивает ввод текста и для каждого столбца возвращает имя языка и идентификатор ISO. Эту функция удобно использовать для столбцов данных с произвольным текстом, язык которого неизвестен. Входные данные функции должны быть в текстовом формате.
API анализа текста распознает до 120 языков. Дополнительные сведения см. в статье Что такое распознавание языка в Azure Cognitive Service для языка.
Извлечение ключевых фраз
Функция извлечения ключевых фраз оценивает неструктурированный текст и для каждого текстового столбца возвращает список ключевых фраз. Функция требует текстового столбца в качестве входных данных и принимает необязательные входные данные для LanguageISOCode. Дополнительные сведения см. в разделе Начало работы.
Извлечение ключевых фраз лучше всего работает, когда вы предоставляете больше фрагментов текста для работы, в отличие от анализа тональности. Анализ тональности лучше работает на небольших блоках текста. Для получения наилучших результатов обеих операций советуем реструктуризировать входные данные соответствующим образом.
Оценка тональности
Функция Score Sentiment (Оценка тональности) оценивает введенный текст и возвращает оценку тональности для каждого документа в диапазоне от 0 (негативная) до 1 (позитивная). Эта функция полезна при определении положительных и отрицательных мнений в социальных сетях, отзывах клиентов и на форумах.
API анализа текста использует алгоритм машинного обучения классификации для оценки тональности в диапазоне от 0 до 1. Оценки, близкие к 1, указывают на положительную тональность. Оценки, близкие к 0, указывают на отрицательную тональность. Модель предварительно обучена с использованием большого массива текста с различными тональностями. Сейчас модель нельзя обучить на своих данных. В ходе анализа модель использует ряд методов — обработку текста, анализ частей речи, упорядочивание слов и создание словесных ассоциаций. Дополнительные сведения об алгоритме см. в статье Машинное обучение и Анализ текста.
Анализ тональности выполняется над всем входным столбцом, в отличие от извлечения тональности в отношении конкретной таблицы в тексте. Как подтверждает практика, точность оценки повышается, когда документ содержит одно или два предложения, а не большие блоки текста. В ходе оценки объективности модель определяет, является ли заданный столбец описательным или он содержит тональности. Входной столбец, который в основном является целевым, не переходит к фразе обнаружения тональности, что приводит к оценке 0,50 без дальнейшей обработки. Для входных столбцов, продолжающихся в конвейере, на следующем этапе создается оценка больше или меньше 0,50 в зависимости от степени тональности, обнаруженной во входном столбце.
API анализа тональности сейчас поддерживает английский, немецкий, испанский и французский языки. Другие языки находятся на этапе предварительной версии. Дополнительные сведения см. в статье Что такое распознавание языка в Azure Cognitive Service для языка.
Образы тегов
Функция Tag Images (Добавление тегов к изображениям) позволяет добавлять теги к более чем 2000 распознаваемым объектам, живым существам, пейзажам и действиям. Если возникает неопределенность с добавлением тега, в выходных данных можно разъяснить смысл тега в используемом контексте. Теги не организованы как таксономия, и иерархии наследования не существуют. Коллекция тегов содержимого формирует основу для "описания" изображения, отображаемого на понятном для пользователя языке и отформатированного в полные предложения.
После загрузки изображения или указав его URL-адрес, алгоритмы компьютерного зрения выводят теги, в зависимости от объектов, живых существ и действий, указанных на изображении. Добавление тегов не ограничивается основным предметом, например человеком на переднем плане, но также включает параметр (внутри помещения или снаружи), мебель, инструменты, растения, животных, аксессуары, гаджеты и т. д.
Для работы этой функции в качестве входных данных требуется URL-адрес изображения или столбец в формате Base64. Сейчас функция добавления тегов к изображениям поддерживает английский, испанский, японский, португальский и упрощенный китайский язык. Дополнительные сведения см. в разделе ComputerVision Interface.
Автоматизированное машинное обучение в Power BI
Автоматизированное машинное обучение (AutoML) для потоков данных позволяет бизнес-аналитикам обучать, проверять и вызывать модели машинного обучения непосредственно в Power BI. Эта служба предоставляет простой интерфейс для создания модели машинного обучения, в которой аналитики могут указывать потоки данных для указания входных данных для обучения модели. Служба автоматически извлекает наиболее релевантные компоненты, выбирает подходящий алгоритм, настраивает и проверяет модель машинного обучения. После обучения модели Power BI автоматически создает отчет о производительности с результатами проверки. Эту модель затем можно вызвать для любых новых или обновленных данных в потоке данных.
Автоматизированное машинное обучение доступно только для потоков данных, размещенных на емкостях Power BI Premium и Embedded.
Работа с AutoML
Потоки данных позволяют самостоятельно подготавливать наборы для больших данных. AutoML интегрирован в потоки данных и позволяет использовать усилия по подготовке данных для создания моделей машинного обучения прямо в Power BI.
AutoML в Power BI позволяет аналитикам данных использовать потоки данных для создания моделей машинного обучения с упрощенным интерфейсом, используя только навыки Power BI. Power BI автоматизирует большую часть обработки и анализа данных, лежащую в основе создания моделей машинного обучения. Определенные ограничения гарантируют хорошее качество создаваемой модели и полную прозрачность процесса, используемого для создания модели машинного обучения.
AutoML поддерживает создание моделей двоичного прогнозирования, классификации и регрессии для потоков данных. Эти функции являются типами контролируемых методов машинного обучения, что означает, что они учатся на известных результатах прошлых наблюдений для прогнозирования результатов других наблюдений. Входной набор данных для обучения модели AutoML содержит набор строк с информацией об известных результатах.
AutoML в Power BI применяет автоматизированное машинное обучение из службы Машинное обучение Azure для создания моделей машинного обучения. Но для использования AutoML в Power BI не требуется подписка Azure. Служба Power BI полностью управляет процессом обучения и размещения моделей машинного обучения.
После обучения модели машинного обучения AutoML автоматически создает отчет Power BI с информацией о предполагаемой эффективности полученной модели машинного обучения. AutoML уделяет особое внимание объяснению причин, выделяя из входных данных ключевые факторы, влияющие на возвращаемые моделью прогнозы. Отчет также содержит ключевые метрики модели.
На других страницах созданного отчета отображаются статистические сведения о модели и процессе обучения. Эта статистическая сводка будет интересна тем пользователям, которые предпочитают видеть меры эффективности модели, стандартно используемые в отрасли обработки и анализа данных. В сведениях об обучении собрана сводная информация по всем итерациям, которые выполнялись для создания модели, с указанием параметров моделирования. Здесь также описывается, как использовался каждый вход при создании модели машинного обучения.
После этого вы сможете применить модель машинного обучения к данным для ее оценки. При обновлении потока данных прогнозы, полученные из модели машинного обучения, автоматически применяются к данным. Power BI также предоставляет подробное объяснение для каждого конкретного прогноза, который создает модель машинного обучения.
Создание модели машинного обучения
В этом разделе описывается, как создать модель AutoML.
Подготовка данных для создания модели машинного обучения
Чтобы создать модель машинного обучения в Power BI, необходимо сначала создать поток данных с результатами предыдущих измерений для обучения модели машинного обучения. Также следует добавить вычисляемые столбцы для любых бизнес-метрик, которые могут быть надежными предикторами для прогнозируемого результата. Дополнительные сведения о настройке потока данных см. в разделе Настройка и использование потока данных.
AutoML налагает определенные требования на данные для обучения модели машинного обучения. Эти требования описаны в следующих разделах на основе соответствующих типов моделей.
Настройка входных данных модели машинного обучения
Чтобы создать модель AutoML, щелкните значок машинного обучения в столбце Действия для таблицы потока данных и выберите действие Добавить модель машинного обучения.
Запускается упрощенный интерфейс, состоящий из мастера, который поможет вам создать модель машинного обучения. Этот мастер содержит описанные ниже шаги.
1. Выберите таблицу с историческими данными и столбец результатов, для которого требуется прогноз
Столбец с результатами определяет атрибут метки для обучения модели машинного обучения, как показано на рисунке ниже.
2. Выбор типа модели
После выбора столбца с результатами AutoML оценивает данные меток и рекомендует наиболее подходящий тип модели машинного обучения. Вы можете выбрать другой тип модели, как показано на следующем рисунке, щелкнув Выбрать модель.
Примечание
Некоторые типы моделей могут не поддерживаться для выбранных данных, поэтому они будут отключены. В предыдущем примере регрессия отключена, так как в качестве столбца результатов выбран текстовый столбец.
3. Выбор входных данных, которые модель будет использовать в качестве прогнозных сигналов
AutoML анализирует выборку из выбранной таблицы, чтобы предложить входные данные для обучения модели машинного обучения. Пояснения предоставляются рядом со столбцами, которые не выбраны. Если в определенном столбце слишком много уникальных значений или только одно значение, а также низкая или высокая корреляция с выходным столбцом, это не рекомендуется.
Входные данные, зависящие от итогового столбца (или столбца меток), не следует использовать для обучения модели машинного обучения, так как они влияют на ее производительность. Такие столбцы помечаются как имеющие "подозрительно высокую корреляцию с выходным столбцом". Введение этих столбцов в обучающие данные приводит к утечке меток, когда модель хорошо работает с данными проверки или тестирования, но не может соответствовать этой производительности при использовании в рабочей среде для оценки. Утечка меток может быть возможной проблемой в моделях AutoML, когда производительность модели обучения слишком высока, чтобы быть правдой.
Признаки рекомендуются на основе выборки данных, поэтому вам стоит проверить используемые входные данные. Вы можете изменить выбранные параметры, включив только столбцы, которые модель будет изучать. Вы также можете выбрать все столбцы, установив флажок рядом с именем таблицы.
4. Присвоение имени модели и сохранение конфигурации
На последнем шаге можно присвоить модели имя, нажать кнопку Сохранить и выбрать, с чего начинается обучение модели машинного обучения. Вы можете уменьшить время обучения, чтобы получить результаты быстро, или увеличить его, чтобы получить более точную модель.
Обучение модели машинного обучения
Обучение моделей AutoML является частью процесса обновления потока данных. Сначала AutoML готовит данные для обучения. AutoML разделяет предоставленные исторические данные на обучающие и проверочные наборы данных. Тестовый набор данных выполняет роль контрольного набора для проверки эффективности модели, которая выполняется после обучения. Эти наборы реализуются в виде таблиц обучения и тестирования в потоке данных. AutoML использует перекрестную проверку для проверки модели.
Затем каждый столбец ввода анализируется и отсутствующие значения заполняются вычисляемыми данными. AutoML использует несколько разных стратегий подстановки отсутствующих значений. Для входных атрибутов, рассматриваемых как числовые признаки, для подстановки отсутствующих значений используется среднее значение столбца. Для входных атрибутов, рассматриваемых как категориальные признаки, для подстановки отсутствующих значений AutoML использует режим значений столбца. Платформа AutoML вычисляет среднее и режим значений, используемых для подсборки набора данных для обучения.
После этого к данным применяются все необходимые методы выборки и нормализации. Для моделей классификации AutoML подвергает входные данные послойной выборке и уравновешивает классы, чтобы обеспечить для них равное количество строк.
AutoML применяет несколько преобразований для каждого выбранного входного столбца на основе его типа данных и статистических свойств. AutoML использует эти преобразования для извлечения компонентов, которые будут использоваться для обучения модели машинного обучения.
Процесс обучения для моделей AutoML состоит из нескольких итераций (до 50) с разными алгоритмами и параметрами моделирования, по итогам которых выбирается модель с лучшей эффективностью. Обучение может завершиться рано с меньшими итерациями, если AutoML заметит, что повышение производительности не наблюдается. AutoML оценивает производительность каждой из этих моделей путем проверки с помощью набора данных тестового удержания. На этом этапе обучения AutoML создает несколько конвейеров для обучения и проверки этих итераций. Процесс оценки производительности моделей может занять от нескольких минут до нескольких часов в соответствии со временем обучения, настроенным в мастере. Время зависит от размера набора данных и доступных ресурсов емкости.
В некоторых случаях итоговая созданная модель может использовать ансамблейное обучение, где для повышения прогнозной производительности используется несколько моделей.
Доступность моделей AutoML для объяснения
После обучения модели AutoML анализирует связи между компонентами входных данных и выходными данными модели. Для каждого входного признака оценивается величина изменения, которое он оказывает на выходные данные модели по контрольному набору данных. Эта связь называется важностью функции. Этот анализ выполняется в рамках обновления после завершения обучения. Поэтому обновление может занять больше времени, чем время обучения, настроенное в мастере.
Отчет по модели AutoML
AutoML формирует отчет Power BI, в котором собраны сводные данные о производительности модели во время проверки, а также глобальные данные о важности компонентов. Доступ к этому отчету можно получить на вкладке Модели машинного обучения после успешного обновления потока данных. В отчете собираются результаты применения модели машинного обучения к контрольным (тестовым) данным, а результаты прогнозов сравниваются с известными значениями результата.
Отчет по модели позволяет оценить ее эффективность. По нему также можно убедиться, что ключевые факторы влияния в модели соответствуют существующей бизнес-аналитике по известным результатам.
Диаграммы и меры, которые используются в отчете для описания эффективности модели, зависят от типа модели. Эти диаграммы и меры производительности описаны в следующих разделах.
Другие страницы отчета могут описывать статистические показатели модели с точки зрения обработки и анализа данных. Например, отчет по двоичному прогнозу включает диаграмму выгоды и кривую ROC для модели.
Отчеты также содержат страницу сведений об обучении, на которой есть описание процесса обучения модели и диаграмма эффективности модели в каждой итерации.
Другой раздел на этой странице описывает определенный тип столбца входных данных и метод, который применялся для добавления отсутствующих значений. Он также включает параметры, используемые в конечной модели.
Если созданная модель использует ансамблевное обучение, то на странице Сведения об обучении также содержится диаграмма, показывающая вес каждой составной модели в ансамбле и ее параметры.
Применение модели AutoML
Если вас устраивает эффективность созданной модели машинного обучения, вы можете применить ее к новым или обновленным данным при обновлении потока данных. В отчете о модели нажмите кнопку Применить в правом верхнем углу или кнопку Применить модель машинного обучения в разделе действия на вкладке Модели машинного обучения .
Чтобы применить модель машинного обучения, необходимо указать имя таблицы, к которой она должна применяться, и префикс для столбцов, которые будут добавлены в эту таблицу для выходных данных модели. По умолчанию префиксом для имен столбцов назначается имя модели. Функция Apply может включать дополнительные параметры, относящиеся к типу модели.
При применении модели машинного обучения создаются две новые таблицы потоков данных, содержащие прогнозы и индивидуальные объяснения для каждой строки, которая оценивается в выходной таблице. Например, если применить модель PurchaseIntent к таблице OnlineShoppers , выходные данные создают таблицы с объяснениями PurchaseIntent и OnlineShoppers enriched PurchaseIntent . Для каждой строки в таблице enriched пояснения разбиваются на несколько строк в таблице enriched explanations на основе входного признака. ExplanationIndex помогает сопоставить строки из таблицы enriched explanations со строкой в таблице enriched.
Вы также можете применить любую модель Power BI AutoML к таблицам в любом потоке данных в той же рабочей области с помощью Аналитика ИИ в браузере функций PQO. Так вы сможете использовать модели, созданные другими пользователями в одной и той же рабочей области, даже не имея прав владения на поток данных, который содержит модель. Power Query обнаруживает все модели машинного обучения Power BI в рабочей области и предоставляет их в качестве динамических функций Power Query. Эти функции можно вызвать, перейдя к ним с ленты в Редактор Power Query или напрямую вызывая функцию M. В настоящее время эта функция поддерживается только для потоков данных Power BI и Power Query Online в служба Power BI. Этот процесс отличается от применения моделей машинного обучения в потоке данных с помощью мастера AutoML. Таблица объяснений, созданная с помощью этого метода, отсутствует. Если вы не являетесь владельцем потока данных, вы не сможете получить доступ к отчетам об обучении модели или переобучить модель. Кроме того, если исходная модель редактируется путем добавления или удаления входных столбцов или удаляется модель или исходный поток данных, этот зависимый поток данных будет нарушен.
После применения модели AutoML всегда поддерживает актуальность прогнозов при каждом обновлении потока данных.
Чтобы использовать аналитические сведения и прогнозы из модели машинного обучения в отчете Power BI, можно подключиться к выходной таблице из Power BI Desktop с помощью соединителя потоков данных.
Модели двоичного прогнозирования
Модели двоичного прогнозирования, официально именуемые моделями двоичной классификации, используются для классификации набора данных в две группы. Они используются для прогнозирования событий с двумя возможными исходами, например будет ли конвертирована возможность для продажи, уйдет ли клиент, будет ли счет своевременно оплачен, является ли транзакция мошеннической и т. д.
Выходные данные модели двоичного прогнозирования содержат оценку вероятности, то есть долю уверенности в том, что будет достигнут положительный результат.
Обучение модели двоичного прогнозирования
Предварительные требования:
- Для каждого возможного исхода нужно предоставить не менее 20 строк исторических данных.
Процесс создания модели двоичного прогнозирования выполняется так же, как и другие модели AutoML, описанные в предыдущем разделе Настройка входных данных модели машинного обучения. Единственное отличие заключается в шаге Выбор модели , где можно выбрать целевое значение результата, которое вас больше всего интересует. Вы также можете указать понятные метки для результатов, которые будут использоваться в автоматически созданном отчете, в котором обобщаются результаты проверки модели.
Отчет о модели двоичного прогнозирования
Модель двоичного прогнозирования возвращает в качестве выходных данных оценку вероятности того, что для этой строки будет получен положительный результат. Отчет содержит срез для порога вероятности, который влияет на то, как интерпретируются оценки больше и меньше порога вероятности.
Эффективность модели в этом отчете оценивается по категориям истинные положительные результаты, ложные положительные результаты, истинные отрицательные результаты и ложные отрицательные результаты. Истинные положительные и истинные отрицательные результаты — это правильно спрогнозированные исходы по двум классам. Ложные срабатывания — это строки, которые, по прогнозам, имеют целевой результат, но на самом деле не имеют. И наоборот, ложноотрицательный результат — это строки, которые имели целевые результаты, но были спрогнозированы как не те.
Дополнительные меры, такие как точность и полнота, описывают влияние значения порога на прогнозируемые результаты. Изменяя срез порога вероятности, вы можете выбрать такое пороговое значение, при котором достигается сбалансированный компромисс между точностью и полнотой.
Отчет также содержит средство анализа затрат и выгод, помогающее определить целевое подмножество совокупности, позволяющее получить максимальную прибыль. Исходя из оценочных затрат на нацеливание и выгоды от достижения целевого результата для единицы, средство анализа затрат и выгод пытается добиться максимальной прибыли. Это средство можно использовать для выбора порога вероятности на основе максимальной точки на графике, чтобы максимально увеличить прибыль. График также можно использовать для расчета прибыли или затрат для выбранного порога вероятности.
Страница отчета о точности в отчете о модели содержит диаграмму совокупного прироста и кривую ROC для модели. Эти данные предоставляют статистические показатели производительности модели. В отчетах есть описания отображаемых диаграмм.
Применение модели двоичного прогнозирования
Чтобы применить модель двоичного прогнозирования, необходимо указать таблицу с данными, к которым вы хотите применить прогнозы по модели машинного обучения. Укажите такие параметры, как префикс имени для выходного столбца и порог вероятности для классификации прогнозируемого результата.
При применении модели двоичного прогнозирования она добавляет в обогащенную выходную таблицу четыре выходных таблицы: Outcome, PredictionScore, PredictionExplanation и ExplanationIndex. Имена столбцов в таблице дополняются префиксом, который вы указали при применении модели.
PredictionScore — это вероятность в процентах, то есть доля уверенности в том, что будет достигнут положительный результат.
Столбец Outcome содержит прогнозируемую метку исхода. Для записей, для которых вероятность превышает пороговое значение, прогнозируется достижение положительного результата, и они получают метку "Истина". Записи, меньшее порогового значения, прогнозируются как маловероятные для достижения результата и помечены как False.
Столбец PredictionExplanation содержит объяснение того, какое конкретное влияние оказали входные компоненты на оценку PredictionScore.
Модели классификации
Модели классификации используются для распределения набора данных в несколько групп или классов. Они используются для прогнозирования событий, которые могут иметь один из нескольких возможных результатов, Например, указывает, имеет ли клиент высокий, средний или низкий значение времени существования. Они также могут прогнозировать, является ли риск по умолчанию высоким, умеренным, низким и т. д.
Выходные данные модели классификации содержат оценку вероятности, то есть прогнозируемую уверенность в том, что для строки будут выполняться критерии определенного класса.
Обучение модели классификации
Входная таблица, содержащая обучающие данные для модели классификации, должна содержать строковый или целый числовой столбец в качестве столбца результатов, который идентифицирует прошлые известные результаты.
Предварительные требования:
- Для каждого возможного исхода нужно предоставить не менее 20 строк исторических данных.
Процесс создания модели классификации выполняется так же, как и другие модели AutoML, описанные в предыдущем разделе Настройка входных данных модели машинного обучения.
Отчет о модели классификации
Power BI создает отчет о модели классификации, применяя модель машинного обучения к данным тестового хранения. Затем он сравнивает прогнозируемый класс для строки с фактическим известным классом.
Отчет о модели содержит диаграмму с разбивкой по правильным и неправильным результатам классификации для каждого известного класса.
Более подробная детализация для каждого класса позволяет узнать, как распределялись прогнозы по каждому известному классу. Этот анализ показывает другие классы, в которых строки этого известного класса, скорее всего, будут неправильно классифицированы.
Описание модели в отчете также включает самые важные прогностические факторы для каждого класса.
Отчет о модели классификации также содержит страницу Сведений об обучении, аналогичную страницам для других типов моделей, как описано выше, в отчете о модели AutoML.
Применение модели классификации
Чтобы применить модель машинного обучения классификации, необходимо указать таблицу с входными данными и префиксом имени выходного столбца.
При применении модели классификации в таблицу обогащенных выходных данных добавляется пять выходных столбцов: ClassificationScore, ClassificationResult, ClassificationExplanation, ClassProbabilities и ExplanationIndex. Имена столбцов в таблице дополняются префиксом, который вы указали при применении модели.
Столбец ClassProbabilities содержит список с оценками вероятности для каждого возможного класса по этой строке.
ClassificationScore — это вероятность в процентах, то есть доля уверенности в том, что для строки будут выполняться критерии определенного класса.
Столбец ClassificationResult содержит наиболее вероятный прогнозируемый класс для строки.
Столбец ClassificationExplanation содержит объяснение того, какое конкретное влияние оказали входные признаки на оценку ClassificationScore.
Модели регрессии
Модели регрессии используются для прогнозирования числовых значений и могут использоваться в таких сценариях, как определение:
- Доход, который, скорее всего, будет получен от сделки по продажам.
- Значение времени существования учетной записи.
- Сумма счета-фактуры, которая, скорее всего, будет оплачена
- Дата оплаты счета и т. д.
Результатом модели регрессии является прогнозируемое значение.
Обучение модели регрессии
Для модели регрессии нужно предоставить входную таблицу с обучающими данными, где существует числовой столбец с результатами, то есть с уже известными значениями.
Предварительные требования:
- Для модели регрессии требуется не менее 100 строк исторических данных.
Процесс создания модели регрессии выполняется так же, как и другие модели AutoML, описанные в предыдущем разделе Настройка входных данных модели машинного обучения.
Отчет по модели регрессии
Как и в отчетах по другим моделям AutoML, отчет по модели регрессии основан на результатах применения модели к контрольным (тестовым) данным.
Отчет по модели содержит диаграмму, где прогнозируемые значения сравниваются с фактическими. На этой диаграмме отклонение от диагонали означает ошибку в прогнозе.
На диаграмме "остаточная ошибка" представлено распределение доли среднего отклонения для разных значений в контрольном наборе данных. Горизонтальная ось представляет среднее фактическое значение группы. Размер пузырька показывает частоту или количество значений в этом диапазоне. По вертикальной оси отмечается средняя остаточная ошибка.
Отчет о модели регрессии также содержит страницу Сведений об обучении, как и отчеты для других типов моделей, как описано в предыдущем разделе Отчет о модели AutoML.
Применение модели регрессии
Чтобы применить модель регрессии машинного обучения, нужно указать таблицу с входными данными и префикс для имени выходного столбца.
При применении модели регрессии она добавляет в обогащенную выходную таблицу три выходных столбца: RegressionResult, RegressionExplanation и ExplanationIndex. Имена столбцов в таблице дополняются префиксом, который вы указали при применении модели.
Столбец RegressionResult содержит прогнозируемое для строки значение, основанное на столбцах входных данных. Столбец RegressionExplanation содержит объяснение того, какое конкретное влияние оказали входные признаки на результат RegressionResult.
Интеграция Машинного обучения Azure в Power BI
Многие организации используют модели машинного обучения для улучшения аналитических сведений и прогнозов о своем бизнесе. Для получения этих аналитических сведений можно использовать машинное обучение с отчетами, панелями мониторинга и другими аналитическими данными. Возможность визуализации и вызова аналитических сведений из этих моделей может помочь распространить эти аналитические сведения среди бизнес-пользователей, которые в ней нуждаются больше всего. Power BI теперь упрощает внедрение аналитических сведений из моделей, размещенных в Машинном обучении Azure, с помощью простых жестов щелчка мыши.
Чтобы использовать эту возможность, специалист по обработке и анализу данных может предоставить аналитику бизнес-аналитику доступ к модели Машинного обучения Azure с помощью портал Azure. Затем в начале каждого сеанса Power Query обнаруживает все модели Машинного обучения Azure, к которым у пользователя есть доступ, и предоставляет их в виде динамических функций Power Query. После этого пользователь может вызывать эти функции на ленте в редакторе Power Query или непосредственно с помощью функции M. Power BI также автоматически выполняет пакетные запросы на доступ при вызове модели Машинного обучения Azure для набора строк для повышения производительности.
В настоящее время эта функция поддерживается только для потоков данных Power BI и Power Query в сети в служба Power BI.
Дополнительные сведения о потоках данных см. в статье Вводные сведения о потоках данных и самостоятельной подготовке данных.
Дополнительные сведения о Машинном обучении Azure см. в статье:
- Общие сведения. Что такое Машинное обучение Azure?
- Краткие руководства и руководства по использованию Машинного обучения Azure: Документация по Службе машинного обучения Azure
Предоставление пользователю Power BI доступа к модели Машинного обучения Azure
Чтобы получить доступ к модели Машинного обучения Azure из Power BI, пользователь должен иметь доступ на чтение к подписке Azure и рабочей области Машинного обучения.
В этой статье описано, как предоставить пользователю Power BI доступ к модели, размещенной в Службе машинного обучения Azure, для доступа к этой модели в качестве функции Power Query. Дополнительные сведения см. в статье Назначение ролей Azure с помощью портала Azure.
Войдите на портал Azure.
Перейдите на страницу Подписки. Страницу Подписки можно найти в списке Все службы в меню области навигации на портале Azure слева.
Выберите свою подписку.
Выберите контроль доступа (IAM) и нажмите кнопку Добавить.
Выберите роль Читатель. Затем выберите пользователя Power BI, которому вы хотите предоставить доступ к модели Машинного обучения Azure.
Щелкните Сохранить.
Повторите шаги с 3 по шесть, чтобы предоставить пользователю доступ читателя к определенной рабочей области машинного обучения, в котором размещена модель.
Обнаружение схем для моделей машинного обучения
Специалисты по обработке и анализу данных в основном используют Python для разработки и даже развертывания моделей машинного обучения для машинного обучения. Специалист по обработке и анализу данных должен явно создать файл схемы с помощью Python.
Этот файл схемы должен быть включен в развернутую веб-службу для моделей машинного обучения. Чтобы автоматически создать схему для веб-службы, нужно указать пример входных/выходных данных в сценарии ввода для развернутой модели. Дополнительные сведения см. в статье Развертывание и оценка модели машинного обучения с помощью сетевой конечной точки. Эта ссылка включает пример сценария ввода с операторами для создания схемы.
В частности, функции @input_schema и @output_schema в скрипте записи ссылались на форматы примеров входных и выходных данных в переменных input_sample и output_sample . Функции используют эти примеры для создания спецификации OpenAPI (Swagger) для веб-службы во время развертывания.
Эти инструкции по созданию схемы путем обновления начального скрипта также должны применяться к моделям, созданным с помощью экспериментов автоматизированного машинного обучения с пакетом SDK для Машинного обучения Azure.
Примечание
Модели, созданные с помощью визуального интерфейса Машинного обучения Azure, в настоящее время не поддерживают создание схемы, но будут создаваться в последующих выпусках.
Вызов модели Машинного обучения Azure в Power BI
Вы можете вызвать любую модель Машинного обучения Azure, к которой вам предоставлен доступ, непосредственно из Редактор Power Query в потоке данных. Чтобы получить доступ к моделям Машинного обучения Azure, нажмите кнопку Изменить таблицу для таблицы, которую вы хотите обогатить аналитическими сведениями из модели Машинного обучения Azure, как показано на следующем рисунке.
При нажатии кнопки Изменить таблицу откроется Редактор Power Query для таблиц в потоке данных.
Нажмите кнопку Аналитика ИИ на ленте, а затем выберите папку Модели Машинного обучения Azure в меню области навигации. Все модели Машинного обучения Azure, к которым у вас есть доступ, перечислены здесь как Power Query функции. Кроме того, входные параметры для модели Машинного обучения Azure автоматически сопоставляются как параметры соответствующей функции Power Query.
Чтобы вызвать модель Машинного обучения Azure, можно указать любой из столбцов выбранной таблицы в качестве входных данных из раскрывающегося списка. Кроме того, в качестве входных данных вы можете указать константу, переключив значок столбца слева от диалогового окна ввода.
Выберите Вызвать, чтобы просмотреть предварительный просмотр выходных данных модели Машинного обучения Azure в виде нового столбца в таблице. Вызов модели отображается как примененный шаг для запроса.
Если модель возвращает несколько выходных параметров, они группируются как строка в выходном столбце. Для отображения конкретных выходных параметров в отдельных столбцах вы можете развернуть столбец.
После сохранения потока данных модель автоматически вызывается при обновлении потока данных для всех новых или обновленных строк в таблице.
Рекомендации и ограничения
- Аналитика ИИ (Cognitive Services и модели Машинного обучения Azure) не поддерживается на компьютерах с настроенной проверкой подлинности прокси-сервера.
- Модели Машинного обучения Azure не поддерживаются для гостевых пользователей.
- Существуют некоторые известные проблемы с использованием шлюза с AutoML и Cognitive Services. Если необходимо использовать шлюз, рекомендуется создать поток данных, который сначала импортирует необходимые данные через шлюз. Затем создайте другой поток данных, который ссылается на первый поток данных для создания или применения этих моделей и функций ИИ.
- Если работа ИИ с потоками данных завершается сбоем, может потребоваться включить быстрое объединение при использовании ИИ с потоками данных. После импорта таблицы и перед добавлением функций ИИ выберите Параметры на ленте Главная и в появившемся окне установите флажок Разрешить объединение данных из нескольких источников , чтобы включить эту функцию, а затем нажмите кнопку ОК , чтобы сохранить выбранный фрагмент. Затем можно добавить функции ИИ в поток данных.
Дальнейшие действия
В этой статье кратко описывается интеграция автоматизированного машинного обучения с потоками данных в службу Power BI. Следующие статьи также могут быть полезны.
- Руководство. Создание модели машинного обучения в Power BI
- Руководство. Использование Cognitive Services в Power BI
- Руководство. Использование моделей Машинного обучения Azure в Power BI
Дополнительные сведения о потоках данных и Power BI вы можете получить в следующих статьях.
- Вводные сведения о потоках данных и самостоятельной подготовке данных
- Создание потока данных
- Настройка и использование потока данных
- Настройка хранилища потоков данных для использования Azure Data Lake 2-го поколения
- Функции потоков данных уровня "Премиум"
- Рекомендации и ограничения, касающиеся потоков данных
- Рекомендации по потокам данных