Прочитать на английском

Поделиться через


Значения кластера

Значения кластера автоматически создают группы с аналогичными значениями с помощью нечеткого алгоритма сопоставления, а затем сопоставляют значение каждого столбца с оптимальной группой. Это преобразование полезно при работе с данными с различными вариациями одного и того же значения, и необходимо объединить значения в согласованные группы.

Рассмотрим пример таблицы с столбцом идентификаторов, который содержит набор идентификаторов и столбец Person, содержащий набор различных орфографических и прописных версий имен Miguel, Майка, Уильяма и Билла.

Снимок экрана: таблица с девятью строками записей, содержащих различные орфографические и прописные буквы имени Мигель и Уильям.

В этом примере результатом, который вы ищете, является таблица с новым столбцом, который показывает правильные группы значений из столбца Person , а не все различные варианты одинаковых слов.

Снимок экрана: кластеризованные значения в качестве нового столбца с именем Cluster в начальной таблице.

Примечание

Функция значений кластера доступна только для Power Query Online.

Создание столбца кластера

Для кластерных значений сначала выберите столбец Person , перейдите на вкладку "Добавить столбец " на ленте, а затем выберите параметр "Значения кластера".

Снимок экрана: значок значений кластера на вкладке

В диалоговом окне "Значения кластера" подтвердите столбец, из которого нужно создать кластеры, и введите новое имя столбца. В этом случае присвойте имя новому кластеру столбцов.

Снимок экрана: окно значений кластера с выбранным столбцом Person и новым столбцом с именем Cluster.

Результат этой операции показан на следующем рисунке.

Снимок экрана: кластеризованные значения в качестве нового столбца с именем Cluster в начальной таблице.

Примечание

Для каждого кластера значений Power Query выбирает наиболее частый экземпляр из выбранного столбца в качестве канонического экземпляра. Если несколько экземпляров происходят с одной частотой, Power Query выбирает первый.

Использование параметров нечетких кластеров

Следующие параметры доступны для кластеризации значений в новом столбце:

  • Порог сходства (необязательно) — этот параметр указывает, насколько похожи два значения должны быть сгруппированы. Минимальный параметр нуля (0) приводит к группировке всех значений. Максимальное значение 1 позволяет сгруппировать только значения, которые совпадают точно. Значение по умолчанию — 0.8.
  • Игнорировать случай: если сравниваются текстовые строки, регистр игнорируется. Этот параметр по умолчанию включен.
  • Группируйте путем объединения текстовых частей: алгоритм пытается объединить текстовые части (например, объединение Микро и обратимо в Корпорацию Майкрософт) для группирования значений.
  • Отображение показателей сходства: показывает оценки сходства между входными значениями и вычисляемых репрезентативных значений после нечеткого кластеризации.
  • Таблица преобразования (необязательно) — можно выбрать таблицу преобразования, которая сопоставляет значения (например, сопоставление MSFT с Корпорацией Майкрософт), чтобы сгруппировать их вместе.

В этом примере новая таблица преобразования с именем "Моя таблица преобразования" используется для демонстрации того, как можно сопоставить значения. Эта таблица преобразования содержит два столбца:

  • Из: текстовая строка для поиска в таблице.
  • Чтобы: текстовая строка, используемая для замены текстовой строки в столбце From .

Снимок экрана: таблица со значениями майка и Уильяма, а также значения Miguel и Bill.

Важно!

Важно, чтобы в таблице преобразования были одинаковые столбцы и имена столбцов, как показано на предыдущем рисунке (они должны быть названы "From" и "To"), в противном случае Power Query не распознает эту таблицу как таблицу преобразования, и преобразование не будет происходить.

С помощью созданного ранее запроса дважды щелкните шаг "Кластеризованные значения", а затем в диалоговом окне "Значения кластера" разверните параметры нечеткого кластера. В разделе "Нечеткие параметры кластера" включите параметр "Показать оценки сходства". Для таблицы преобразования (необязательно) выберите запрос, имеющий таблицу преобразования.

Снимок экрана: параметры нечеткого кластера с раскрывающимся меню таблицы преобразования, заданным в таблице преобразования.

После выбора таблицы преобразования и включения параметра "Показать оценки сходства" нажмите кнопку "ОК". Результат этой операции дает таблицу, содержащую те же столбцы идентификатора и person, что и исходная таблица, но также содержит два новых столбца с именем Cluster и Person_Cluster_Similarity. Столбец кластера содержит правильные и прописные версии имен Miguel для версий Miguel и Майка, а также Уильяма для версий Билла, Билли и Уильяма. Столбец Person_Cluster_Similarity содержит оценки сходства для каждого из имен.

Снимок экрана: таблица, содержащая новые столбцы кластера и Person_Cluster_Similarity.

Предупреждения таблицы преобразования

Вы можете заметить, что таблица преобразования в предыдущем разделе, как представляется, указывает, что экземпляры Майка изменяются на Miguel и экземпляры Уильяма изменяются на Билл. Однако в результирующей таблице экземпляры Билла и "билли" вместо этого были изменены на Уильяма. В таблице преобразования, а не прямой от пути к пути, таблица преобразования симметричена во время кластеризации, что означает, что "майк" эквивалентен "Miguel" и наоборот. Результат эквивалентов, заданных в таблице преобразования, зависит от следующих правил:

  • Если имеется большинство идентичных значений, эти значения имеют приоритет над неидентическими значениями.
  • Если большинство значений отсутствует, то значение, которое отображается в первую очередь, имеет приоритет.

Например, в исходной таблице, используемой в этой статье, версии Miguel (как miguel" и Miguel) в столбце Person составляют большинство экземпляров имени Мигель и Майк. Кроме того, имя Мигель с начальными крышками составляет большинство имени Мигель. Таким образом, связывание Miguel и его производных и Майка и его производных в таблице преобразования приводит к тому, что имя Miguel используется в столбце кластера .

Тем не менее, для имен Уильяма, Билла и "билли", нет большинства значений, так как все три являются уникальными. Так как Уильям появляется первым, Уильям используется в столбце кластера . Если в таблице появилась функция выставления счетов, в столбце кластера будет использоваться "выставление счетов". Кроме того, поскольку не существует большинства значений, используется регистр, используемый отдельными именами. То есть, если Уильям первый, Уильям с верхним регистром "W" используется в качестве значения результата; Если "выставление счетов" является первым, используется "билли" с нижним регистром "b".