Практические советы. Подключение данных метрик к помощнику по метрикам

Важно!

Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы помощника по метрикам. Служба помощника по метрикам отменяется 1 октября 2026 года.

Используйте эту статью, чтобы узнать о подключении данных к помощнику по метрикам.

Требования и конфигурация для схемы данных

Помощник по метрикам ИИ Azure — это служба для обнаружения аномалий временных рядов, диагностика и анализа. Это служба на основе ИИ, а значит она использует предоставленные данные для обучения используемой модели. Эта служба принимает таблицы агрегированных данных со следующими столбцами:

  • Measure (Мера), обязательный: это фундаментальный термин, зависящий от единицы, и количественное значение метрики. Это один или несколько столбцов, содержащих числовые значения.
  • Timestamp (Метка времени), необязательный: не более одного столбца с типом DateTime или String. Если этот столбец не задан, меткой времени считается время начала каждого периода приема. Указывайте метку времени в формате yyyy-MM-ddTHH:mm:ssZ.
  • Dimension (Измерение), необязательный: это одно или несколько значений категорий. Сочетание этих значений определяет определенную унарную временные ряды (например, страну или регион, язык и клиент). Столбцы измерений могут иметь любой тип данных. Соблюдайте осторожность при работе с большим количеством столбцов и значений, чтобы не выполнять обработку слишком большого числа измерений.

Если вы используете такие источники данных, как Azure Data Lake Storage или Хранилище BLOB-объектов Azure, можно выполнить агрегирование данных, чтобы согласовать их с ожидаемой схемой метрик. Это обусловлено тем, что эти источники данных используют файл в качестве входных данных метрик.

Если вы используете такие источники данных, как Azure SQL или Azure Data Explorer, можно использовать статистические функции для агрегирования данных в ожидаемую схему. Это обусловлено тем, что эти источники данных поддерживают выполнение запроса для получения данных метрик из источников.

Если вам не знакомы некоторые термины, обратитесь к глоссарию.

Избегайте загрузки частичных данных

Частичные данные вызваны несоответствиями между данными, хранящимися в помощнике по метрикам, и источником данных. Это может произойти, когда источник данных обновляется после того, как помощник по метрикам завершил выборку данных. Помощник по метрикам извлекает данные из заданного источника данных только один раз.

Например, если метрика была добавлена в помощник по метрикам для мониторинга. Помощник по метрикам успешно получает данные метрики на отметке времени A и выполняет на них обнаружение аномалий. Однако если данные метрики этой конкретной отметки времени A были обновлены после того, как данные были загружены. Новое значение данных не будет получено.

Вы можете попытаться заполнить исторические данные (описано ниже), чтобы уменьшить несоответствия, но это не вызовет новых предупреждений об аномалиях, если предупреждения для этих временных точек уже были запущены. Этот процесс может увеличить нагрузку на систему и не является автоматическим.

Чтобы избежать загрузки частичных данных, мы рекомендуем два подхода:

  • Сгенерируйте данные за одну транзакцию:

    Убедитесь, что значения показателей для всех комбинаций измерений с одной и той же меткой времени сохраняются в источнике данных за одну транзакцию. В приведенном выше примере дождитесь, пока данные из всех источников данных будут готовы, а затем загрузите их в помощник по метрикам за одну транзакцию. Помощник по метрикам может регулярно опрашивать поток данных до тех пор, пока данные не будут успешно (или частично) получены.

  • Отложите прием данных, установив правильное значение для параметра смещения времени приема:

    Установите параметр смещения времени приема для вашего канала данных, чтобы отложить прием до тех пор, пока данные не будут полностью подготовлены. Это может быть полезно для некоторых источников данных, которые не поддерживают транзакции, например для хранилища таблиц Azure. Подробнее см. в дополнительных настройках.

Начните с добавления веб-канала данных

После входа на портал помощника по метрикам и выбора рабочего пространства нажмите Начало работы. Затем на главной странице рабочей области щелкните Добавить канал данных в левом меню.

Добавить настройки подключения

1. Основные настройки

Затем вы введете набор параметров для подключения источника данных временных рядов.

  • Тип источника: тип источника данных, в котором хранятся данные временных рядов.
  • Гранулярность: интервал между последовательными точками данных в данных временного ряда. В настоящее время помощник по метрикам поддерживает: Yearly, Monthly, Weekly, Daily, Hourly, Per minute и Custom. Самый низкий интервал, поддерживаемый параметром настройки, составляет 60 секунд.
    • Секунды: количество секунд, когда для granularityName установлено значение Настроить.
  • Получение данных с (UTC): базовое время начала приема данных. startOffsetInSeconds часто используется для добавления смещения для обеспечения согласованности данных.

2. Ввод строки подключения

Затем необходимо указать сведения о подключении к источнику данных. Дополнительные сведения о других полях и подключении различных типов источников данных см. в разделе Практическое руководство. Подключение различных источников данных.

3. Укажите запрос для одной метки времени

Дополнительные сведения о различных типах источников данных см. в разделе Практическое руководство. Подключение различных источников данных.

Загрузка данных

После ввода строки подключения и строки запроса выберите Загрузить данные. В рамках этой операции Помощник по метрикам проверяет подключение и разрешение на загрузку данных, проверяет необходимые параметры (@IntervalStart и @IntervalEnd)), которые необходимо использовать в запросе, а также проверяет имя столбца из источника данных.

Если на этом этапе возникает ошибка, проверьте следующее.

  1. Сначала проверьте, действительна ли строка подключения.
  2. Затем проверьте наличие достаточных разрешений и убедитесь, что IP-адресу рабочей роли приема данных предоставлен доступ.
  3. Убедитесь, что в запросе указаны обязательные параметры (@IntervalStart и @IntervalEnd)).

Schema configuration (Конфигурация схемы)

После загрузки схемы данных выберите соответствующие поля.

Если метка времени точки данных опущена, помощник по метрикам будет использовать метку времени при вставке точки данных. Для каждого канала данных вы можете указать не более одного столбца в качестве метки времени. Если вы получаете сообщение о том, что столбец не может быть указан в качестве метки времени, проверьте свой запрос или источник данных, а также наличие нескольких меток времени в результате запроса, а не только в данных предварительного просмотра. При выполнении приема данных помощник по метрикам может использовать один фрагмент (например, один день, один час — в зависимости от степени детализации) данных временных рядов из заданного источника каждый раз.

Выбор Описание Основание
Отображаемое имя Имя, которое будет отображаться в вашей рабочей области вместо исходного имени столбца. Необязательно.
Timestamp Метка времени точки данных. Если этот параметр не указан, Помощник по метрикам будет использовать метку времени, которая соответствует времени приема точки данных. Для каждого канала данных вы можете указать не более одного столбца в качестве отметки времени. Необязательно. Здесь можно указать не более одного столбца. Если вы получаете сообщение об ошибке столбец не может быть указан как отметка времени, проверьте свой запрос или источник данных на наличие повторяющихся отметок времени.
Измерения Числовые значения в веб-канале данных. Для каждого канала данных вы можете указать несколько показателей, но как минимум один столбец должен быть выбран в качестве меры. Должен быть указан по меньшей мере один столбец.
Аналитика Категориальные значения. Сочетание различных значений определяет определенный временный ряд с одним измерением, например страну или регион, язык, клиент. В качестве размеров можно выбрать ноль или более столбцов. Примечание: будьте осторожны при выборе нестрокового столбца в качестве измерения. Необязательно.
Игнорировать Игнорировать выбранный столбец. Необязательно. Для поддержки источников данных с использованием запроса для получения данных отсутствует параметр "Игнорировать".

Если вы хотите игнорировать столбцы, мы рекомендуем обновить запрос или источник данных, чтобы исключить эти столбцы. Вы также можете игнорировать столбцы, используя Игнорировать столбцы, а затем Игнорировать для определенных столбцов. Если столбец должен быть измерением и ошибочно установлен как Игнорируемый, помощник по метрикам может в конечном итоге принять частичные данные. Например, предположим, что данные вашего запроса выглядят следующим образом:

ИД строки Метка времени Страна или регион Язык доход
1 2019/11/10 Китай ZH-CN 10000
2 2019/11/10 Китай EN-US 1000
3 2019/11/10 US ZH-CN 12 000
4 2019/11/11 US EN-US 23000
... ... ... ... ...

Если Страна является измерением, а Язык установлен как Игнорируется, то первая и вторая строки будут иметь одинаковые размеры для метки времени. Помощник по метрикам будет произвольно использовать одно значение из двух строк. В этом случае помощник по метрикам не будет агрегировать строки.

После настройки схемы выберите Проверить схему. В рамках этой операции Помощник по метрикам выполнит следующие проверки.

  • Проверяет, приходится ли метка времени запрашиваемых данных на один интервал.
  • Проверяет, возвращаются ли дублирующиеся значения для одного и того же сочетания измерений в пределах одного интервала метрики.

Параметры автоматического сведения

Важно!

Если вы хотите включить анализ первопричин и другие возможности диагностики, необходимо настроить параметры автоматического сведения. После включения настройки автоматического сведения нельзя изменить.

Помощник по метрикам может автоматически выполнять агрегирование (например, SUM, MAX, MIN) по каждому измерению во время приема, а затем строит иерархию, которая будет использоваться при анализе корневого случая и других диагностических функциях.

Рассмотрим следующие сценарии.

  • "Мне не нужно включать сводный анализ моих данных".

    Вам не нужно использовать сводный помощник по метрикам.

  • "Мои данные уже собраны, и значение измерения представлено: NULL или Empty (по умолчанию), только NULL, Другие".

    Этот параметр означает, что помощнику по метрикам не нужно сводить данные, потому что строки уже суммированы. Например, если вы выберете только NULL, то вторая строка данных в приведенном ниже примере будет рассматриваться как совокупность всех стран и языков EN-US; четвертая строка данных, которая имеет пустое значение для Страны, однако будет рассматриваться как обычная строка, которая может указывать на неполные данные.

    Страна или регион Язык доход
    Китай ZH-CN 10000
    (NULL) EN-US 999999
    US EN-US 12 000
    EN-US 5000
  • "Мне нужен помощник по метрикам, чтобы свести мои данные, вычислив Sum/Max/Min/Avg/Count и представив их с помощью {некоторая строка}".

    Некоторые источники данных, такие как Azure Cosmos DB или Хранилище BLOB-объектов Azure, не поддерживают определенные вычисления, такие как группа по кубу или кубу. Помощник по метрикам предоставляет возможность объединения для автоматического создания куба данных во время приема. Этот параметр означает, что вам нужен помощник по метрикам для расчета свертки с использованием выбранного вами алгоритма и использования указанной строки для представления свертки в помощнике по метрикам. Это не приведет к изменению данных в вашем источнике данных. Например, предположим, что у вас есть набор временных рядов, обозначающих показатели продаж с измерением (Страна, Регион). Для данной отметки времени это может выглядеть следующим образом:

    Страна/регион Регион Sales
    Канада Альберта 100
    Канада Британская Колумбия 500
    США Монтана 100

    После включения автоматического объединения с суммой помощник по метрикам вычислит комбинации параметров и суммирует показатели во время приема данных. Результат может быть таким:

    Страна/регион Регион Sales
    Канада Альберта 100
    NULL Альберта 100
    Канада Британская Колумбия 500
    NULL Британская Колумбия 500
    США Монтана 100
    NULL Монтана 100
    NULL NULL 700
    Канада NULL 600
    США NULL 100

    (Country=Canada, Region=NULL, Sales=600) означает, что сумма продаж в Канаде (все регионы) составляет 600.

    Ниже приводится преобразование на языке SQL.

    SELECT
        dimension_1,
        dimension_2,
        ...
        dimension_n,
        sum (metrics_1) AS metrics_1,
        sum (metrics_2) AS metrics_2,
        ...
        sum (metrics_n) AS metrics_n
    FROM
        each_timestamp_data
    GROUP BY
        CUBE (dimension_1, dimension_2, ..., dimension_n);
    

    Прежде чем использовать функцию автоматического сворачивания, примите во внимание следующее:

    • Если вы хотите использовать SUM для агрегирования данных, убедитесь, что ваши показатели складываются по каждому измерению. Ниже приведены некоторые примеры недитивных метрик:
      • Метрики на основе дробей. Это включает соотношение, процент и т. д. Например, не следует добавлять уровень безработицы каждого штата, чтобы вычислить уровень безработицы всей страны или региона.
      • Пересечение в измерении. Например, вы не должны добавлять количество людей, занимающихся каждым видом спорта, чтобы рассчитать количество людей, которые любят спорт, потому что между ними существует совпадение, один человек может любить несколько видов спорта.
    • Для обеспечения работоспособности всей системы размер куба ограничен. В настоящее время лимит составляет 100 000. Если ваши данные превышают этот предел, прием для этой отметки времени завершится ошибкой.

Расширенные настройки

Существует несколько расширенных настроек, позволяющих настраивать прием данных, например указание смещения приема или параллелизма. Дополнительную информацию см. в разделе дополнительных настроек в статье об управлении каналом данных.

Укажите имя для потока данных и проверьте, как идет загрузка

Укажите для веб-канала данных пользовательское имя, которое будет отображаться в рабочей области. Затем щелкните Отправить. На странице сведений о канале данных вы можете использовать индикатор выполнения для просмотра информации о состоянии.

Ingestion progress bar

Чтобы проверить подробности сбоя при загрузке:

  1. Выберите " Показать сведения".
  2. Выберите "Состояние", а затем нажмите кнопку "Сбой " или "Ошибка".
  3. Наведите указатель мыши на ошибку при загрузке и просмотрите появившееся подробное сообщение.

Check failed ingestion

Состояние сбоя указывает на то, что прием для этого источника данных будет повторен позже. Состояние ошибки указывает, что помощник по метрикам не будет пытаться повторно использовать источник данных. Чтобы перезагрузить данные, вам нужно запустить выполнение задним числом/перезагрузку вручную.

Вы также можете перезагрузить ход загрузки, нажав Обновить ход выполнения. После завершения приема данных вы можете щелкнуть метрики и проверить результаты обнаружения аномалий.

Следующие шаги