Поделиться через


Мониторинг качества и качества данных

Каждый продукт данных, работающий с оператором Azure Аналитика платформы, имеет встроенную поддержку мониторинга качества данных. Качество данных имеет решающее значение, так как оно обеспечивает точную, надежную и надежную информацию для принятия решений. Это предотвращает дорогостоящие ошибки, создает доверие к клиентам и регуляторам и обеспечивает персонализированных интерфейсов.

Оператор Azure Аналитика платформы отслеживает качество данных при приеме данных в хранилище входных данных (блок ввода продукта данных на следующем изображении) и после обработки данных и их доступности клиентам (блок вычислений продукта данных на следующем изображении).

Схема агентов приема и продуктов данных для оператора Azure Аналитика

Измерения качества

Измерения качества данных — это различные аспекты или характеристики, определяющие качество данных. Оператор Azure Аналитика поддерживает следующие измерения:

  • Точность. Указывает, насколько хорошо данные отражают реальность, например правильные имена, адреса и актуальные данные. Высокая точность данных позволяет создавать аналитику, которая может быть доверенным и ведет к правильной отчетности и уверенному принятию решений.
  • Полнота — указывает, присутствуют ли все данные, необходимые для конкретного использования, и доступны ли их использование. Полнота применяется не только на уровне элемента данных, но и на уровне записи. Полнота помогает понять, будут ли отсутствующие данные влиять на надежность аналитических сведений из данных.
  • Уникальность— указывает на отсутствие дубликатов в наборе данных.
  • Согласованность. Указывает, не конфликтует ли один и тот же элемент данных в разных источниках или с течением времени. Согласованность гарантирует, что данные являются универсальными и могут сравниваться между различными источниками.
  • Своевременность— указывает, являются ли данные актуальными и доступными при необходимости. Своевременность гарантирует, что данные актуальны и полезны для принятия решений.
  • Допустимость. Указывает, соответствуют ли данные определенному набору правил или ограничений.

Метрики

Все измерения качества данных охватываются метриками качества, созданными оператором Azure Аналитика платформой. Существует два типа метрик качества:

  • Базовый — стандартный набор проверка для всех продуктов данных.
  • Пользовательский набор проверка, позволяющий всем продуктам данных реализовывать проверка, относящиеся к их продукту.

Базовые метрики качества, созданные платформой, доступны в следующей таблице.

Метрика Аналитика Источник данных
Число приемных строк Своевременность Попадает
Число строк, содержащих значение NULL для обязательных столбцов Полноту Попадает
Количество неудачных проверок строк в схеме Срок действия Попадает
Количество отфильтрованных строк Полноту Попадает
Количество обработанных строк Своевременность Обработано
Количество неполных строк, которые не содержат необходимых данных Полноту Обработано
Число повторяющихся строк Уникальность Обработано
Процентильы для общей задержки между созданием записей и доступными для запроса Своевременность Обработано
Процентили для задержки между созданием записей и приемом в входное хранилище Своевременность Обработано
Процентили для задержки между приемом и обработкой данных Своевременность Обработано
Процентили для задержки между обработанными данными и доступными для запроса Своевременность Обработано
Возраст для материализованных представлений Своевременность Обработано

Пользовательские метрики качества данных реализуются на основе продукта данных. Эти метрики охватывают измерения точности и согласованности. Документация по продукту данных содержит описание доступных пользовательских метрик качества.

Наблюдение

Все продукты аналитики данных оператора Azure развертываются с помощью панели мониторинга с метриками качества. Панель мониторинга можно использовать для мониторинга качества своих данных.

Все метрики качества данных сохраняются в таблицах ADX продукта данных. Для изучения метрик качества данных можно использовать стандартную конечную точку KQL продукта данных, а затем расширить панель мониторинга при необходимости.