Бөлісу құралы:


Создание визуализаций ключевых факторов влияния

ОБЛАСТЬ ПРИМЕНЕНИЯ: Служба Power BI Power BI Desktop

Визуальный элемент ключевых факторов влияния помогает понять факторы, которые управляют интересующей вас метрикой. Он анализирует данные, ранжирует факторы, которые имеют значение, и отображает их как ключевые факторы влияния. Например, предположим, вы хотите выяснить, что влияет на оборот сотрудников, который также называется оттоком. Один фактор может быть продолжительностью контракта на работу, а другой фактор может быть временем коммутировать.

Когда следует использовать ключевые факторы влияния

Визуальный элемент ключевых факторов влияния является отличным выбором, если вы хотите:

  • Узнайте, какие факторы влияют на анализируемую метрику.
  • Контрастирует с относительной важностью этих факторов. Например, краткосрочные контракты влияют на отток больше, чем долгосрочные контракты?

Функции визуального элемента ключевых факторов влияния

Screenshot of the numbered features of the key influencers visual.

  1. Вкладки: выберите вкладку для переключения между представлениями. Ключевые факторы влияния показывают, что верхние участник значения выбранной метрики. Верхние сегменты отображают верхние сегменты , которые вносят вклад в выбранное значение метрик. Сегмент состоит из сочетания значений. Например, один сегмент может быть потребителями, которые были клиентами по крайней мере 20 лет и живут в западном регионе.

  2. Раскрывающийся список: значение метрики, подследуемой. В этом примере просмотрите рейтинг метрик. Выбранное значение — Low.

  3. Перенаправка: это помогает интерпретировать визуальный элемент в левой области.

  4. Левая область: левая панель содержит один визуальный элемент. В этом случае в левой области отображается список ключевых факторов влияния верхнего ключа.

  5. Перебор. Это помогает интерпретировать визуальный элемент в правой области.

  6. Справа: справа панель содержит один визуальный элемент. В этом случае на диаграмме столбцов отображаются все значения темы влияния ключа, выбранной на левой панели. Определенное значение удобства использования на левой панели отображается зеленым цветом. Все остальные значения темы отображаются черным цветом.

  7. Средняя строка: среднее вычисляется для всех возможных значений темы , кроме удобства использования (который является выбранным фактором влияния). Поэтому вычисление применяется ко всем значениям в черном цвете. Он сообщает вам, какой процент других тем имел низкий рейтинг. В этом случае 11,35% имели низкую оценку (показанную пунктирной линией).

  8. Флажок. Отфильтровывает визуальный элемент в правой области, чтобы отобразить только значения, влияющие на это поле. В этом примере визуальный элемент фильтруется для отображения удобства использования, безопасности и навигации.

Анализ метрик, которые являются категориальными

Просмотрите это видео, чтобы узнать, как создать визуальный элемент ключевых факторов влияния с категориальной метрикой. Затем выполните действия, чтобы создать его.

Примечание.

Это видео может использовать более ранние версии Power BI Desktop или служба Power BI.

  1. Ваш менеджер продуктов хочет, чтобы вы узнали, какие факторы приводят клиентов к выводу негативных отзывов о облачной службе. Чтобы продолжить работу в Power BI Desktop, откройте PBIX-файл отзывов клиентов.

Примечание.

Набор данных отзывов клиентов основан на [Moro et al., 2014] S. Moro, P. Cortez и P. Rita. "Подход на основе данных для прогнозирования успеха банковского телемаркетинга". Системы поддержки принятия решений, Elsevier, 62:22-31, июнь 2014 года.

  1. В разделе "Создание визуального элемента" на панели "Визуализации" выберите значок "Ключевые факторы влияния".

    Screenshot of the Key influencers icon on the Visualizations pane.

  2. Переместите метрику, которую нужно исследовать в поле "Анализ ". Чтобы узнать, что приводит к низкому рейтингу клиента службы, выберите "Рейтинг таблицы>клиентов".

  3. Перемещение полей, которые вы считаете, может повлиять на рейтинг в поле "Объяснение по ". Можно переместить столько полей, сколько нужно. В этом случае начните с:

    • Country-Region
    • Роль в организации
    • Subscription Type
    • Размер компании
    • Theme
  4. Оставьте поле "Развернуть по пустому". Это поле используется только при анализе меры или суммированного поля.

  5. Чтобы сосредоточиться на отрицательных оценках, выберите "Низкий " в раскрывающемся списке "Что влияет на рейтинг".

    Screenshot of the drop-down box with high and low options.

Анализ выполняется на уровне таблицы поля, которое анализируется. В этом случае это метрика рейтинга . Эта метрика определяется на уровне клиента. Каждый клиент дал либо высокую оценку, либо низкую оценку. Все пояснительные факторы должны быть определены на уровне клиента, чтобы визуальный элемент использовал их.

В предыдущем примере все пояснительные факторы имеют связь "один к одному" или "многие ко одному" с метрикой. В этом случае каждому клиенту назначена одна тема их рейтингу. Аналогичным образом клиенты приходят из одной страны или региона, имеют один тип членства и занимают одну роль в своей организации. Пояснительные факторы уже являются атрибутами клиента, и преобразования не требуются. Визуальный элемент может немедленно использовать их.

Далее в руководстве вы узнаете о более сложных примерах, которые имеют связи "один ко многим". В таких случаях столбцы необходимо сначала агрегировать до уровня клиента, прежде чем выполнять анализ.

Меры и агрегаты, используемые в качестве пояснительных факторов, также оцениваются на уровне таблицы метрики анализа . Ниже приведены некоторые примеры.

Интерпретация категориальных ключевых факторов влияния

Давайте рассмотрим ключевые факторы влияния для низких рейтингов.

Лучший один фактор, влияющий на вероятность низкой оценки

Клиент в этом примере может иметь три роли: потребитель, администратор и издатель. Будучи потребителем является главным фактором, который способствует низкому рейтингу.

Screenshot of key influencers, with Role in Org is consumer selected.

Более точно, ваши потребители 2,57 раза чаще дают вашей службе отрицательный показатель. Диаграмма ключевых факторов влияния выводит список роли в организации — это потребитель в списке слева. Выбрав роль в организации, Power BI отображает дополнительные сведения в правой области. Показано сравнительное влияние каждой роли на вероятность низкой оценки.

  • 14,93% потребителей дают низкий показатель.
  • В среднем все остальные роли дают низкий показатель 5,78% времени.
  • Потребители 2,57 раза чаще дают низкую оценку по сравнению со всеми другими ролями. Вы можете определить эту оценку, разделив зеленую полосу на красную пунктирную линию.

Второй отдельный фактор, влияющий на вероятность низкой оценки

Визуальный элемент ключевых факторов влияния сравнивает и ранжирует факторы из множества различных переменных. Второй фактор влияния не имеет ничего общего с ролью в организации. Выберите второй фактор влияния в списке, который является темой, является удобством использования.

Screenshot of key influencers, with Theme is usability selected.

Второй наиболее важный фактор связан с темой обзора клиента. Клиенты, которые прокомментировали удобство использования продукта, были 2,55 раза чаще, чтобы дать низкую оценку по сравнению с клиентами, которые комментировали другие темы, такие как надежность, дизайн или скорость.

Между визуальными элементами среднее значение, отображаемое красной пунктирной линией, изменилось с 5,78% до 11,35%. Среднее значение является динамическим, так как оно основано на среднем всех остальных значений. Для первого влияния средний исключена роль клиента. Для второго влияния он исключил тему удобства использования.

Выберите только те значения, которые являются влиятельными проверка поле, чтобы отфильтровать только влиятельные значения. В этом случае это роли, которые управляют низкой оценкой. 12 тем сокращаются до четырех, которые Power BI определяет как темы, которые управляют низкими рейтингами.

Screenshot of check box to only show values that are influencers.

Взаимодействие с другими визуальными элементами

Каждый раз, когда вы выбираете срез, фильтр или другой визуальный элемент на холсте, визуальный элемент, влияющий на ключевые факторы, повторно запускает анализ новой части данных. Например, можно переместить размер компании в отчет и использовать его в качестве среза. Используйте его, чтобы узнать, отличаются ли ключевые факторы влияния для ваших корпоративных клиентов от общего населения. Корпоративный размер компании превышает 50 000 сотрудников.

Выберите >50 000, чтобы повторно запустить анализ, и вы увидите, что факторы влияния изменились. Для крупных корпоративных клиентов главный фактор влияния для низких рейтингов имеет тему, связанную с безопасностью. Вам может потребоваться изучить дополнительные сведения о наличии конкретных функций безопасности, о которых ваши крупные клиенты не удовлетворены.

Screenshot of visual to select by company size.

Интерпретация непрерывных факторов влияния ключей

До сих пор вы узнали, как использовать визуальный элемент для изучения того, как различные категориальные поля влияют на низкие рейтинги. Кроме того, можно иметь непрерывные факторы, такие как возраст, высота и цена в поле "Объяснить по полю ". Давайте рассмотрим, что происходит при перемещении срока действия из таблицы клиента в "Объяснение". Срок пребывания в должности показывает, сколько времени клиент использовал службу.

По мере увеличения срока пребывания вероятность получения более низкой оценки также увеличивается. Эта тенденция предполагает, что долгосрочные клиенты, скорее всего, дают негативную оценку. Это понимание интересно, и то, что вы можете продолжить позже.

Визуализация показывает, что каждый раз, когда срок пребывания в должности растет на 13,44 месяца, в среднем вероятность низкого рейтинга увеличивается на 1,23 раза. В этом случае 13,44 месяца изображают стандартное отклонение должности. Таким образом, понимание, которое вы получаете, смотрит на то, как увеличение срока пребывания на уровне стандартного уровня, которое является стандартным отклонением срока пребывания, влияет на вероятность получения низкой оценки.

Точечная диаграмма на правой панели отображает средний процент низких оценок для каждого значения пребывания. Он выделяет склон с линией тренда.

Screenshot of scatter plot for Tenure.

Двоичные непрерывные ключевые факторы влияния

В некоторых случаях вы можете обнаружить, что ваши непрерывные факторы были автоматически преобразованы в категориальные. Если связь между переменными не является линейной, мы не можем описать связь как простое увеличение или уменьшение (например, в приведенном выше примере).

Мы запускаем тесты корреляции, чтобы определить, как линейный фактор влияния имеет отношение к целевому объекту. Если целевой объект является непрерывным, мы запускаем корреляцию Пирсона и если целевой объект категориальный, мы запускаем тесты корреляции Point Biserial. Если мы обнаруживаем, что связь не является достаточно линейной, мы проводим защищенное бинирование и создадим не более пяти ячеек. Чтобы выяснить, какие ячейки наиболее понятны, мы используем защищенный метод бининга, который смотрит на связь между пояснительным фактором и целевым объектом, который анализируется.

Интерпретация мер и агрегатов в качестве ключевых факторов влияния

Вы можете использовать меры и агрегаты в качестве пояснительных факторов в анализе. Например, может потребоваться узнать, какое влияние влияет количество запросов в службу поддержки клиентов или средняя продолжительность открытого билета на оценку, которую вы получаете.

В этом случае вы хотите узнать, влияет ли количество запросов в службу поддержки, которое клиент влияет на оценку, которую они дают. Теперь вы введете идентификатор запроса в службу поддержки из таблицы запросов в службу поддержки. Так как у клиента может быть несколько запросов в службу поддержки, вы объединяете идентификатор на уровень клиента. Агрегирование важно, так как анализ выполняется на уровне клиента, поэтому все драйверы должны быть определены на этом уровне детализации.

Рассмотрим количество идентификаторов. Каждая строка клиента имеет количество запросов в службу поддержки, связанных с ним. В этом случае, по мере увеличения количества запросов в службу поддержки вероятность того, что рейтинг будет низким, растет 4,08 раза. Визуальный элемент справа показывает среднее количество запросов в службу поддержки по разным значениям оценки , оцененным на уровне клиента.

Screenshot that shows influence of Support Ticket ID.

Интерпретация результатов: верхние сегменты

Вы можете использовать вкладку "Ключевые факторы влияния" для оценки каждого фактора по отдельности. Вы также можете использовать вкладку "Верхние сегменты" , чтобы узнать, как сочетание факторов влияет на метрику, которую вы анализируете.

Первые сегменты изначально отображают обзор всех обнаруженных сегментов Power BI. В следующем примере показано, что найдены шесть сегментов. Эти сегменты ранжируются по проценту низких рейтингов в сегменте. Сегмент 1, например, имеет 74,3% оценок клиентов, которые являются низкими. Чем выше пузырь, тем выше доля низких рейтингов. Размер пузырька представляет количество клиентов в сегменте.

Screenshot of Top segments tab selected.

При выборе пузырька отображаются сведения об этом сегменте. Если выбрать сегмент 1, например, вы обнаружите, что он состоит из относительно установленных клиентов. Они были клиентами более 29 месяцев и имеют более четырех запросов в службу поддержки. Наконец, они не издатели, поэтому они либо потребители, либо администраторы.

В этой группе 74,3% клиентов дали низкий рейтинг. Средний клиент дал низкий рейтинг 11,7% времени, поэтому этот сегмент имеет большую долю низких рейтингов. Это 63 процентных пункта выше. Сегмент 1 также содержит около 2,2% данных, поэтому он представляет адресную часть населения.

Screenshot of top segment according to rating.

Добавление счетчиков

Иногда влияние может иметь значительный эффект, но представлять мало данных. Например, тема является удобством использования третий самый большой фактор влияния для низких рейтингов. Однако, возможно, было только горстка клиентов, которые жаловались на удобство использования. Счетчики помогут вам определить приоритеты, на какие факторы влияния вы хотите сосредоточиться.

Вы можете включить счетчики с помощью карта анализа области форматирования.

Screenshot of enable counts slider in the Format pane.

После включения счетчиков вы увидите кольцо вокруг пузыря каждого влияния, представляющего приблизительный процент данных, содержащихся в нем. Чем больше пузырьков круги, тем больше данных он содержит. Мы видим, что тема является удобством использования, содержит небольшую долю данных.

Screenshot of rings that around influencer bubbles that represent counts.

Вы также можете использовать сортировку, переключив в левом нижнем углу визуального элемента, чтобы отсортировать пузырьки по счетчику, а не влиять. Тип подписки — Premier — это главный фактор влияния, основанный на подсчете.

Screenshot of the Sort by toggle to sort by counts first.

Наличие полного кольца вокруг круга означает, что влияние содержит 100% данных. Тип счетчика можно изменить относительно максимального влияния, используя раскрывающийся список "Число" в карта области форматирования. Теперь влияние с наибольшим объемом данных будет представлено полным кольцом, и все остальные счетчики будут относительно него.

Screenshot that shows the relative counts drop-down menu.

Анализ числовых метрик

При перемещении неумммаризованного числового поля в поле "Анализ " вы можете выбрать способ обработки этого сценария. Вы можете изменить поведение визуального элемента, перейдя в область форматирования и переключившись между типом категориального анализа и типом непрерывного анализа.

Screenshot of drop-down menu to change from categorical to continuous.

Тип категориального анализа ведет себя, как описано выше. Например, если вы смотрели на оценки опроса в диапазоне от 1 до 10, вы можете спросить: "Что влияет на оценки опросов, чтобы быть 1?"

Тип непрерывного анализа изменяет вопрос на непрерывный. В приведенном выше примере наш новый вопрос будет "Что влияет на оценки опросов для увеличения/уменьшения?

Это различие полезно при наличии большого количества уникальных значений в поле, которое вы анализируете. В приведенном ниже примере мы рассмотрим цены на жилье. Не имеет смысла спросить: "Что влияет на цену дома, чтобы быть 156 214?" так как это очень конкретно, и мы, скорее всего, не достаточно данных для вывода шаблона.

Вместо этого мы можем попросить: "Что влияет на цену на дом для увеличения"? что позволяет нам рассматривать цены на жилье как диапазон, а не отдельные значения.

Screenshot of drop-down options to choose influencers.

Интерпретация результатов: ключевые факторы влияния

Примечание.

В примерах этого раздела используются данные о ценах на жилье общего домена. Вы можете скачать пример набора данных, если вы хотите продолжить.

В этом сценарии мы рассмотрим "Что влияет на цену на жилье для увеличения". Ряд пояснительных факторов может повлиять на цену дома, как Год построен (год был построен дом), КухняQual (качество кухни), и YearRemodAdd (год был перестроен дом).

В приведенном ниже примере мы рассмотрим наш лучший фактор влияния, который является качество кухни отлично. Результаты похожи на те, которые мы видели, когда мы анализирули категориальные метрики с несколькими важными различиями:

  • Диаграмма столбцов справа смотрит на средние значения, а не проценты. Поэтому это показывает нам, что средняя цена дома дома с отличной кухней (зеленый бар) по сравнению со средней ценой дома дома без отличной кухни (пунктирная линия)
  • Число в пузырьке по-прежнему разница между красной пунктирной линией и зеленой полосой, но она выражается как число ($158,49K), а не вероятность (1,93x). Так что в среднем дома с отличной кухней почти $ 160K дороже, чем дома без отличных кухни.

Screenshot of numeric target categorical influencers.

В приведенном ниже примере мы рассмотрим влияние непрерывного фактора (год дом был перемоделирован) на цену на жилье. Различия по сравнению с тем, как анализировать непрерывные факторы влияния для категориальных метрик, как показано ниже.

  • Точечная диаграмма на правой панели отображает среднюю цену дома для каждой отдельной стоимости года перемоделированного.
  • Значение пузыря показывает, насколько средняя цена на жилье увеличивается (в этом случае $ 2,87k), когда год дом был перемодел на его стандартное отклонение (в этом случае 20 лет)

Screenshot of numeric target continuous influencers.

Наконец, в случае мер, мы смотрим на средний год дом был построен. Анализ выглядит следующим образом:

  • Точечная диаграмма на правой панели отображает среднюю цену дома для каждого отдельного значения в таблице
  • Значение пузыря показывает, насколько средняя цена на жилье увеличивается (в данном случае $ 1,35K), когда средний год увеличивается на его стандартное отклонение (в этом случае 30 лет)

Screenshot of Key influencers for house prices with influencers on the left and the scatterplot on the right.

Интерпретация результатов: основные сегменты

Основные сегменты для числовых целевых объектов показывают группы, где цены на жилье в среднем выше, чем в общем наборе данных. Например, ниже мы видим, что сегмент 1 состоит из домов, где ГаражКары (количество автомобилей, которые гараж может поместиться) больше 2, и Крыша с хипом. Дома с этими характеристиками имеют среднюю цену $ 355K по сравнению с общим средним в данных, которые составляет $180K.

Screenshot that shows Top segments for house prices.

Анализ метрики, которая является мерой или сводным столбцом

В случае меры или сводного столбца анализ по умолчанию используется для типа непрерывного анализа, описанного выше. Это значение нельзя изменить. Самое большое различие между анализом столбца или суммированного столбца и неуправляемым числовым столбцом является уровень, на котором выполняется анализ.

В случае неумммаризированных столбцов анализ всегда выполняется на уровне таблицы. В приведенном выше примере цены на жилье мы проанализировали метрику цен на дом, чтобы увидеть, что влияет на цену на жилье для увеличения/уменьшения. Анализ автоматически выполняется на уровне таблицы. Наша таблица имеет уникальный идентификатор для каждого дома, поэтому анализ выполняется на уровне дома.

Screenshot that shows the table level analysis for the house price example.

Для мер и суммированных столбцов мы не сразу знаем, на каком уровне их анализировать. Если цена на жилье была суммирована как средняя, нам потребуется рассмотреть уровень, который мы хотели бы, чтобы эта средняя цена на жилье вычислялась. Это средняя цена на жилье на уровне района? Или, возможно, региональный уровень?

Меры и суммированные столбцы автоматически анализируются на уровне поля "Объяснение" по используемым полям . Представьте себе, что у нас есть три поля в объяснении: качество кухни, тип здания и кондиционер. Средняя цена дома будет вычисляться для каждого уникального сочетания этих трех полей. Часто полезно переключиться на представление таблицы, чтобы посмотреть, как выглядят данные.

Screenshot that shows the three columns and the average house price.

Этот анализ очень обобщен и поэтому трудно найти любые шаблоны в данных, на которых он может учиться. Мы должны выполнить анализ на более подробном уровне, чтобы получить лучшие результаты. Если бы мы хотели проанализировать цену на жилье на уровне дома, нам потребуется явно добавить поле идентификатора в анализ. Тем не менее, мы не хотим, чтобы идентификатор дома считался влиятельным. Это не полезно, чтобы узнать, что по мере увеличения идентификатора дома, цена дома увеличивается. Здесь хорошо подходит параметр "Развернуть по полю". Чтобы добавить поля, которые необходимо использовать для настройки уровня анализа, можно использовать для добавления полей без поиска новых факторов влияния.

Ознакомьтесь с тем, как выглядит визуализация после добавления идентификатора к развертыванию. Определив уровень, на котором вы хотите оценить меру, интерпретация факторов влияния точно аналогична числовым столбцам, несуммаризованным числовым столбцам.

Screenshot that shows the house price visualization that depends on the three columns discussed in this section.

Если вы хотите узнать больше о том, как можно анализировать меры с помощью визуализации ключевых факторов влияния, просмотрите следующее видео. Сведения о том, как Power BI использует ML.NET за кулисами, чтобы понять данные и аналитические сведения о поверхности естественным образом, см. в статье Power BI идентифицирует ключевые факторы влияния с помощью ML.NET.

Примечание.

Это видео может использовать более ранние версии Power BI Desktop или служба Power BI.

Рекомендации и устранение неполадок

Каковы ограничения для визуального элемента?

Визуальный элемент ключевых факторов влияния имеет некоторые ограничения:

  • Прямой запрос не поддерживается
  • Динамическое Подключение в Azure Analysis Services и SQL Server Analysis Services не поддерживается
  • Публикация в Интернете не поддерживается
  • требуется платформа .NET Framework 4.6 или более поздней версии
  • Внедрение SharePoint Online не поддерживается

Screenshot of drop-down choices for numeric question

Я вижу ошибку, что не найдены факторы влияния или сегменты. Почему так?

Screenshot of no influencers found error message.

Эта ошибка возникает при добавлении полей в "Объяснение" , но не найдены факторы влияния.

  • Вы включили метрику, которую вы проанализировали как в анализе, так и в объяснении. Удалите его из объяснения.
  • В ваших пояснительных полях слишком много категорий с небольшим количеством наблюдений. Эта ситуация затрудняет визуализацию определить, какие факторы являются факторами влияния. Трудно обобщить, основываясь только на нескольких наблюдениях. Если вы анализируете числовое поле, может потребоваться перейти от категориального анализа к непрерывному анализу в области форматирования в карта анализа.
  • У ваших объяснительных факторов достаточно наблюдений для обобщения, но визуализация не обнаружила никаких значимых корреляций для отчета.

Я вижу ошибку, в которую я анализирую метрику, не хватает данных для выполнения анализа. Почему так?

Screenshot of not enough data error message.

Визуализация работает путем просмотра шаблонов в данных для одной группы по сравнению с другими группами. Например, он ищет клиентов, которые дали низкие рейтинги по сравнению с клиентами, которые дали высокие рейтинги. Если данные в модели имеют только несколько наблюдений, шаблоны трудно найти. Если визуализация не имеет достаточно данных для поиска значимых факторов влияния, это означает, что для выполнения анализа требуется больше данных.

Рекомендуется иметь по крайней мере 100 наблюдений для выбранного состояния. В этом случае государство — это клиенты, которые вырвали. Кроме того, вам потребуется не менее 10 наблюдений за состояниями, которые вы используете для сравнения. В этом случае состояние сравнения — это клиенты, которые не выполняют операции.

Если вы анализируете числовое поле, может потребоваться перейти от категориального анализа к непрерывному анализу в области форматирования в карта анализа.

Я вижу ошибку, что при необобновленном анализе анализ всегда выполняется на уровне строк родительской таблицы. Изменение этого уровня с помощью полей "Развернуть по" не допускается. Почему так?

При анализе числового или категориального столбца анализ всегда выполняется на уровне таблицы. Например, если вы анализируете цены на жилье, а таблица содержит столбец идентификаторов, анализ будет автоматически выполняться на уровне идентификатора дома.

При анализе меры или сводного столбца необходимо явно указать, на каком уровне необходимо выполнить анализ. Вы можете использовать expand, чтобы изменить уровень анализа для мер и суммированных столбцов, не добавляя новые факторы влияния. Если цена на жилье была определена как мера, можно добавить столбец идентификатора дома, чтобы расширить , чтобы изменить уровень анализа.

Я вижу ошибку, что поле в "Объяснить" не связано с таблицей, содержащей метрики, которую я анализирую. Почему так?

Анализ выполняется на уровне таблицы поля, которое анализируется. Например, если вы анализируете отзывы клиентов о вашей службе, возможно, у вас может быть таблица, которая указывает, дал ли клиент высокий рейтинг или низкий рейтинг. В этом случае анализ выполняется на уровне таблицы клиента.

Если у вас есть связанная таблица, определяемая на более детальном уровне, чем таблица, содержащая метрику, вы увидите эту ошибку. Приведем пример:

  • Вы анализируете, какие клиенты обеспечивают низкий рейтинг вашей службы.
  • Вы хотите узнать, влияет ли устройство, на которое клиент потребляет вашу службу, влияет на отзывы, которые они дают.
  • Клиент может использовать службу различными способами.
  • В следующем примере клиент 1000000 использует браузер и планшет для взаимодействия со службой.

Screenshot of a related table defined at a more granular level than the table that contains your metric.

Если вы пытаетесь использовать столбец устройства в качестве объяснительного фактора, вы увидите следующую ошибку:

Screenshot of wrong column error message.

Эта ошибка возникает, так как устройство не определено на уровне клиента. Один клиент может использовать службу на нескольких устройствах. Для поиска шаблонов визуализации устройство должно быть атрибутом клиента. Существует несколько решений, которые зависят от вашего понимания бизнеса:

  • Вы можете изменить суммирование устройств для подсчета. Например, используйте счетчик, если число устройств может повлиять на оценку, которую дает клиент.
  • Вы можете свести столбец устройства, чтобы узнать, влияет ли использование службы на определенном устройстве на рейтинг клиента.

В этом примере данные были сводные для создания новых столбцов для браузера, мобильных устройств и планшетов (убедитесь, что вы удаляете и повторно создаете связи в представлении моделирования после сводки данных). Теперь эти конкретные устройства можно использовать в "Объяснении". Все устройства оказываются влиятельными, и браузер имеет наибольшее влияние на оценку клиентов.

Точнее, клиенты, которые не используют браузер для использования службы, 3,79 раза чаще дают низкую оценку, чем клиенты, которые делают. Вниз в списке для мобильных устройств обратное значение имеет значение true. Клиенты, использующие мобильное приложение, скорее всего, дают низкую оценку, чем клиенты, которые этого не делают.

Screenshot that shows mobile app are more likely to give a low score.

Я вижу предупреждение о том, что меры не были включены в мой анализ. Почему так?

Screenshot that shows measures not included error message.

Анализ выполняется на уровне таблицы поля, которое анализируется. При анализе оттока клиентов может появиться таблица, которая сообщает о том, был ли клиент сворачен или нет. В этом случае анализ выполняется на уровне таблицы клиента.

Меры и агрегаты по умолчанию анализируются на уровне таблицы. Если бы была мера для средних ежемесячных расходов, она будет проанализирована на уровне таблицы клиента.

Если в таблице клиента нет уникального идентификатора, вы не можете оценить меру, и она игнорируется анализом. Чтобы избежать этой ситуации, убедитесь, что таблица с метрикой имеет уникальный идентификатор. В этом случае это таблица клиента, а уникальный идентификатор — идентификатор клиента. Кроме того, можно легко добавить столбец индекса с помощью Power Query.

Я вижу предупреждение о том, что метрика, которую я анализирую, имеет более 10 уникальных значений, и что эта сумма может повлиять на качество анализа. Почему так?

Визуализация ИИ может анализировать категориальные поля и числовые поля. В случае категориальных полей пример может иметь значение "Да" или "Нет", а "Удовлетворенность клиентов" — "Высокий", "Средний" или "Низкий". Увеличение числа категорий для анализа означает, что на каждую категорию меньше наблюдений. Эта ситуация затрудняет поиск шаблонов в данных визуализации.

При анализе числовых полей у вас есть выбор между обработкой числовых полей, таких как текст, в этом случае вы будете выполнять тот же анализ, что и для категориальных данных (категориальный анализ). Если у вас много различных значений, рекомендуется переключить анализ на непрерывный анализ , так как это означает, что мы можем выводить шаблоны, когда числа увеличиваются или уменьшаются, а не рассматривать их как отдельные значения. Вы можете перейти от категориального анализа к непрерывному анализу в области форматирования в карта анализа.

Чтобы найти более сильные факторы влияния, рекомендуется группировать аналогичные значения в одну единицу. Например, если у вас есть метрика по цене, скорее всего, вы получите лучшие результаты путем группировки аналогичных цен на категории "Высокий", "Средний" и "Низкий" и "Низкий" с использованием отдельных ценовых точек.

Screenshot that shows more than 10 unique factors warning.

Есть факторы в моих данных, которые выглядят так, как они должны быть ключевыми факторами влияния, но они не являются. Как это может произойти?

В следующем примере клиенты, являющиеся потребителями, управляют низкими рейтингами, с 14,93% рейтингов, которые являются низкими. Роль администратора также имеет высокую долю низких рейтингов, на 13,42%, но это не считается влиянием.

Причина этого определения заключается в том, что визуализация также учитывает количество точек данных при обнаружении факторов влияния. В следующем примере более 29 000 потребителей и 10 раз меньше администраторов, около 2900. Только 390 из них дали низкий рейтинг. Визуальный элемент не имеет достаточно данных, чтобы определить, найден ли он шаблон с оценками администратора или если это просто шанс найти.

Screenshot that shows how influencers are determined.

Каковы ограничения точек данных для ключевых факторов влияния? Мы запускаем анализ на выборке из 10 000 точек данных. Пузыри на одной стороне показывают все найденные факторы влияния. Диаграммы столбцов и точечная диаграмма на другой стороне соблюдают стратегии выборки для этих основных визуальных элементов.

Как вычислить ключевые факторы влияния для категориального анализа?

Визуализация искусственного интеллекта использует ML.NET для выполнения логистической регрессии для вычисления ключевых факторов влияния. Логистическая регрессия — это статистическая модель, которая сравнивает разные группы друг с другом.

Если вы хотите увидеть, что приводит к низкому рейтингу, логистическая регрессия смотрит на то, как клиенты, которые дали низкий показатель отличаются от клиентов, которые дали высокий показатель. Если у вас несколько категорий, таких как высокие, нейтральные и низкие оценки, вы посмотрите, как клиенты, которые дали низкий рейтинг, отличаются от клиентов, которые не дали низкий рейтинг. В этом случае, как клиенты, которые дали низкую оценку, отличаются от клиентов, которые дали высокий рейтинг или нейтральный рейтинг?

Логистическая регрессия ищет шаблоны в данных и ищет, как клиенты, которые дали низкий рейтинг, могут отличаться от клиентов, которые дали высокий рейтинг. Например, это может найти, что клиенты с большим количеством запросов в службу поддержки дают более высокий процент низких рейтингов, чем клиенты с несколькими или без запросов в службу поддержки.

Логистическая регрессия также учитывает количество точек данных. Например, если клиенты, которые играют роль администратора, дают пропорционально более отрицательные оценки, но есть только несколько администраторов, этот фактор не считается влиятельным. Это определение сделано, так как для вывода шаблона недостаточно точек данных. Статистический тест, известный как тест Вальда, используется для определения того, считается ли фактор фактором влияния. Визуальный элемент использует p-значение 0,05 для определения порогового значения.

Как вычислить ключевые факторы влияния для числового анализа?

Визуализация искусственного интеллекта использует ML.NET для выполнения линейной регрессии для вычисления ключевых факторов влияния. Линейная регрессия — это статистическая модель, которая смотрит на то, как результат поля, которое вы анализируете изменения на основе объяснительных факторов.

Например, если мы анализируем цены на жилье, линейная регрессия будет смотреть на эффект, что наличие отличной кухни будет иметь на цену дома. Дома с отличной кухней обычно имеют более низкие или более высокие цены на жилье по сравнению с домами без отличной кухни?

Линейная регрессия также учитывает количество точек данных. Например, если дома с теннисными кортами имеют более высокие цены, но у нас есть несколько домов с теннисным кортом, этот фактор не считается влиятельным. Это определение сделано, так как для вывода шаблона недостаточно точек данных. Статистический тест, известный как тест Вальда, используется для определения того, считается ли фактор фактором влияния. Визуальный элемент использует p-значение 0,05 для определения порогового значения.

Как вычислить сегменты?

За кулисами визуализация ИИ использует ML.NET для запуска дерева принятия решений для поиска интересных подгрупп. Цель дерева принятия решений заключается в том, чтобы в конечном итоге получить подгруппу точек данных, которые относительно высоки в интересующей вас метрике. Это могут быть клиенты с низким рейтингом или домами с высокими ценами.

Дерево принятия решений принимает каждый объясняющий фактор и пытается поставить причину, какой фактор дает ему лучший раскол. Например, если вы фильтруете данные для включения только крупных корпоративных клиентов, это отделяет клиентов, которые дали высокий рейтинг и низкий рейтинг? Или, возможно, лучше отфильтровать данные, чтобы включить только клиентов, которые прокомментировали безопасность?

После разделения дерева принятия решений она принимает подгруппу данных и определяет следующий лучший разбиение для этих данных. В этом случае подгруппа — это клиенты, которые комментировали безопасность. После каждого разделения дерево принятия решений также считает, имеет ли он достаточно точек данных для этой группы, чтобы быть достаточно репрезентативным, чтобы вывести шаблон из или ли это аномалия в данных, а не реальный сегмент. Еще один статистический тест применяется к проверка для статистической важности условия разделения с p-значением 0,05.

После завершения работы дерева принятия решений все разбиения, такие как комментарии по безопасности и крупные предприятия, и создает фильтры Power BI. Это сочетание фильтров упаковается в виде сегмента в визуальном элементе.

Почему некоторые факторы становятся влиятельными или перестают быть влиятельными, так как я перемещаю больше полей в объяснение по полю ?

Визуализация оценивает все пояснительные факторы вместе. Фактор может быть влиянием сам по себе, но когда он считается с другими факторами, он может не быть. Предположим, вы хотите проанализировать, что приводит к высокой цене дома, с спальнями и размером дома в качестве объяснительных факторов:

  • По себе, больше спален может быть драйвером для цен на жилье, чтобы быть высокими.
  • Включая размер дома в анализе означает, что теперь вы посмотрите на то, что происходит с спальнями, в то время как размер дома остается постоянным.
  • Если размер дома установлен на 1500 квадратных футов, маловероятно, что непрерывный рост числа спальней резко увеличит цену на жилье.
  • Спальни могут не быть столь важным фактором, как это было до того, как был размер дома был рассмотрен.

Для предоставления общего доступа к отчету коллеге Power BI необходимо иметь отдельные лицензии Power BI Pro или сохранить отчет в емкости Premium. См . отчеты о совместном доступе.