Значения кластера
Значения кластера автоматически создают группы с аналогичными значениями с помощью нечеткого алгоритма сопоставления, а затем сопоставляют значение каждого столбца с оптимальной группой. Это преобразование полезно при работе с данными с различными вариациями одного и того же значения, и необходимо объединить значения в согласованные группы.
Рассмотрим пример таблицы с столбцом идентификаторов, который содержит набор идентификаторов и столбец Person, содержащий набор различных орфографических и прописных версий имен Miguel, Майка, Уильяма и Билла.
В этом примере результатом, который вы ищете, является таблица с новым столбцом, который показывает правильные группы значений из столбца Person , а не все различные варианты одинаковых слов.
Примечание
Функция значений кластера доступна только для Power Query Online.
Для кластерных значений сначала выберите столбец Person , перейдите на вкладку "Добавить столбец " на ленте, а затем выберите параметр "Значения кластера".
В диалоговом окне "Значения кластера" подтвердите столбец, из которого нужно создать кластеры, и введите новое имя столбца. В этом случае присвойте имя новому кластеру столбцов.
Результат этой операции показан на следующем рисунке.
Примечание
Для каждого кластера значений Power Query выбирает наиболее частый экземпляр из выбранного столбца в качестве канонического экземпляра. Если несколько экземпляров происходят с одной частотой, Power Query выбирает первый.
Следующие параметры доступны для кластеризации значений в новом столбце:
- Порог сходства (необязательно) — этот параметр указывает, насколько похожи два значения должны быть сгруппированы. Минимальный параметр нуля (0) приводит к группировке всех значений. Максимальное значение 1 позволяет сгруппировать только значения, которые совпадают точно. Значение по умолчанию — 0.8.
- Игнорировать случай: если сравниваются текстовые строки, регистр игнорируется. Этот параметр по умолчанию включен.
- Группируйте путем объединения текстовых частей: алгоритм пытается объединить текстовые части (например, объединение Микро и обратимо в Корпорацию Майкрософт) для группирования значений.
- Отображение показателей сходства: показывает оценки сходства между входными значениями и вычисляемых репрезентативных значений после нечеткого кластеризации.
- Таблица преобразования (необязательно) — можно выбрать таблицу преобразования, которая сопоставляет значения (например, сопоставление MSFT с Корпорацией Майкрософт), чтобы сгруппировать их вместе.
В этом примере новая таблица преобразования с именем "Моя таблица преобразования" используется для демонстрации того, как можно сопоставить значения. Эта таблица преобразования содержит два столбца:
- Из: текстовая строка для поиска в таблице.
- Чтобы: текстовая строка, используемая для замены текстовой строки в столбце From .
Важно!
Важно, чтобы в таблице преобразования были одинаковые столбцы и имена столбцов, как показано на предыдущем рисунке (они должны быть названы "From" и "To"), в противном случае Power Query не распознает эту таблицу как таблицу преобразования, и преобразование не будет происходить.
С помощью созданного ранее запроса дважды щелкните шаг "Кластеризованные значения", а затем в диалоговом окне "Значения кластера" разверните параметры нечеткого кластера. В разделе "Нечеткие параметры кластера" включите параметр "Показать оценки сходства". Для таблицы преобразования (необязательно) выберите запрос, имеющий таблицу преобразования.
После выбора таблицы преобразования и включения параметра "Показать оценки сходства" нажмите кнопку "ОК". Результат этой операции дает таблицу, содержащую те же столбцы идентификатора и person, что и исходная таблица, но также содержит два новых столбца с именем Cluster и Person_Cluster_Similarity. Столбец кластера содержит правильные и прописные версии имен Miguel для версий Miguel и Майка, а также Уильяма для версий Билла, Билли и Уильяма. Столбец Person_Cluster_Similarity содержит оценки сходства для каждого из имен.
Вы можете заметить, что таблица преобразования в предыдущем разделе, как представляется, указывает, что экземпляры Майка изменяются на Miguel и экземпляры Уильяма изменяются на Билл. Однако в результирующей таблице экземпляры Билла и "билли" вместо этого были изменены на Уильяма. В таблице преобразования, а не прямой от пути к пути, таблица преобразования симметричена во время кластеризации, что означает, что "майк" эквивалентен "Miguel" и наоборот. Результат эквивалентов, заданных в таблице преобразования, зависит от следующих правил:
- Если имеется большинство идентичных значений, эти значения имеют приоритет над неидентическими значениями.
- Если большинство значений отсутствует, то значение, которое отображается в первую очередь, имеет приоритет.
Например, в исходной таблице, используемой в этой статье, версии Miguel (как miguel" и Miguel) в столбце Person составляют большинство экземпляров имени Мигель и Майк. Кроме того, имя Мигель с начальными крышками составляет большинство имени Мигель. Таким образом, связывание Miguel и его производных и Майка и его производных в таблице преобразования приводит к тому, что имя Miguel используется в столбце кластера .
Тем не менее, для имен Уильяма, Билла и "билли", нет большинства значений, так как все три являются уникальными. Так как Уильям появляется первым, Уильям используется в столбце кластера . Если в таблице появилась функция выставления счетов, в столбце кластера будет использоваться "выставление счетов". Кроме того, поскольку не существует большинства значений, используется регистр, используемый отдельными именами. То есть, если Уильям первый, Уильям с верхним регистром "W" используется в качестве значения результата; Если "выставление счетов" является первым, используется "билли" с нижним регистром "b".