Поделиться через


Подключаемый модуль diffpatterns_text

Сравнивает два набора данных строковых значений и находит текстовые шаблоны, характеризующие различия между двумя наборами данных. Подключаемый модуль вызывается с evaluate помощью оператора .

Возвращает diffpatterns_text набор текстовых шаблонов, которые захватывают различные части данных в двух наборах. Например, шаблон, захватывающий большой процент строк, когда условие имеет значение , true и низкий процент строк, если условие имеет значение false. Шаблоны создаются из последовательных маркеров, разделенных пробелами, с маркером из текстового столбца или * подстановочным знаком. В результатах каждый шаблон соответствует строке.

Синтаксис

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Дополнительные сведения о соглашениях о синтаксисе.

Параметры

Имя Тип Обязательно Описание
ТекстовыйСтолбец string ✔️ Текстовый столбец для анализа.
BooleanCondition string ✔️ Выражение, результатом которого является логическое значение. Алгоритм разделяет запрос на два набора данных для сравнения на основе этого выражения.
MinTokens int Целочисленное значение от 0 до 200, представляющее минимальное количество маркеров, не являющихся подстановочными знаками, в шаблоне результата. Значение по умолчанию — 1.
Пороговое значение. decimal Десятичное значение от 0,015 до 1, которое задает минимальную разницу между двумя наборами. Значение по умолчанию — 0,05. См . раздел diffpatterns.
MaxTokens int Целочисленное значение от 0 до 20, задающее максимальное количество маркеров на шаблон результата. При указании нижнего предела уменьшается среда выполнения запроса.

Возвращаемое значение

Результат diffpatterns_text возвращает следующие столбцы:

  • Count_of_True: количество строк, соответствующих шаблону, если условие равно true.
  • Count_of_False: количество строк, соответствующих шаблону, если условие имеет значение false.
  • Percent_of_True: процент строк, соответствующих шаблону из строк, если условие имеет значение true.
  • Percent_of_False: процент строк, соответствующих шаблону из строк, если условие имеет значение false.
  • Шаблон: текстовый шаблон, содержащий маркеры из текстовой строки и "*" для подстановочных знаков.

Примечание

Шаблоны не обязательно различаются и могут не обеспечивать полный охват набора данных. Шаблоны могут перекрываться, а некоторые строки могут не соответствовать ни одному шаблону.

Пример

В следующем примере используются данные из таблицы StormEvents в кластере справки. Чтобы получить доступ к этим данным, войдите в .https://dataexplorer.azure.com/clusters/help/databases/Samples В меню слева перейдите к разделу>Примеры>таблиц>Storm_Events.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Выходные данные

Count_of_True Count_of_False Percent_of_True Percent_of_False Шаблон
11 0 6.29 0 Ветры смещаются на северо-запад в * пробуждение * поверхностное корытое принесло тяжелый эффект снегопада озера вниз по ветру * Озеро Превосходное от
9 0 5.14 0 Канадское высокое давление поселилось * * регион * произвели самые холодные температуры с февраля * 2006 года. Длительности * температура замерзания
0 34 0 6.24 * * * * * * Западный Теннесси,
0 42 0 7.71 * * * * * * вызвано * * * * * * по всему западному Колорадо. *
0 45 0 8.26 * * ниже нормального *
0 110 0 20.18 Ниже нормального *