Подключаемый модуль diffpatterns_text
Сравнивает два набора данных строковых значений и находит текстовые шаблоны, характеризующие различия между двумя наборами данных. Подключаемый модуль вызывается с evaluate
помощью оператора .
Возвращает diffpatterns_text
набор текстовых шаблонов, которые захватывают различные части данных в двух наборах. Например, шаблон, захватывающий большой процент строк, когда условие имеет значение , true
и низкий процент строк, если условие имеет значение false
. Шаблоны создаются из последовательных маркеров, разделенных пробелами, с маркером из текстового столбца или *
подстановочным знаком. В результатах каждый шаблон соответствует строке.
Синтаксис
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
Дополнительные сведения о соглашениях о синтаксисе.
Параметры
Имя | Тип | Обязательно | Описание |
---|---|---|---|
ТекстовыйСтолбец | string |
✔️ | Текстовый столбец для анализа. |
BooleanCondition | string |
✔️ | Выражение, результатом которого является логическое значение. Алгоритм разделяет запрос на два набора данных для сравнения на основе этого выражения. |
MinTokens | int |
Целочисленное значение от 0 до 200, представляющее минимальное количество маркеров, не являющихся подстановочными знаками, в шаблоне результата. Значение по умолчанию — 1. | |
Пороговое значение. | decimal |
Десятичное значение от 0,015 до 1, которое задает минимальную разницу между двумя наборами. Значение по умолчанию — 0,05. См . раздел diffpatterns. | |
MaxTokens | int |
Целочисленное значение от 0 до 20, задающее максимальное количество маркеров на шаблон результата. При указании нижнего предела уменьшается среда выполнения запроса. |
Возвращаемое значение
Результат diffpatterns_text возвращает следующие столбцы:
- Count_of_True: количество строк, соответствующих шаблону, если условие равно
true
. - Count_of_False: количество строк, соответствующих шаблону, если условие имеет значение
false
. - Percent_of_True: процент строк, соответствующих шаблону из строк, если условие имеет значение
true
. - Percent_of_False: процент строк, соответствующих шаблону из строк, если условие имеет значение
false
. - Шаблон: текстовый шаблон, содержащий маркеры из текстовой строки и "
*
" для подстановочных знаков.
Примечание
Шаблоны не обязательно различаются и могут не обеспечивать полный охват набора данных. Шаблоны могут перекрываться, а некоторые строки могут не соответствовать ни одному шаблону.
Пример
В следующем примере используются данные из таблицы StormEvents в кластере справки. Чтобы получить доступ к этим данным, войдите в .https://dataexplorer.azure.com/clusters/help/databases/Samples В меню слева перейдите к разделу>Примеры>таблиц>Storm_Events.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Выходные данные
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Шаблон |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Ветры смещаются на северо-запад в * пробуждение * поверхностное корытое принесло тяжелый эффект снегопада озера вниз по ветру * Озеро Превосходное от |
9 | 0 | 5.14 | 0 | Канадское высокое давление поселилось * * регион * произвели самые холодные температуры с февраля * 2006 года. Длительности * температура замерзания |
0 | 34 | 0 | 6.24 | * * * * * * Западный Теннесси, |
0 | 42 | 0 | 7.71 | * * * * * * вызвано * * * * * * по всему западному Колорадо. * |
0 | 45 | 0 | 8.26 | * * ниже нормального * |
0 | 110 | 0 | 20.18 | Ниже нормального * |
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по