Общие сведения о качестве данных в Единый каталог Microsoft Purview
Статья
Качество данных в Единый каталог Microsoft Purview позволяет домену управления и владельцам данных оценивать и контролировать качество своей экосистемы данных, облегчая целенаправленные действия по улучшению. В современном ландшафте на основе ИИ надежность данных напрямую влияет на точность аналитических сведений и рекомендаций на основе ИИ. Без надежных данных существует риск подорвать доверие к системам ИИ и препятствовать их внедрению.
Низкое качество данных или несовместимые структуры данных могут препятствовать бизнес-процессам и возможностям принятия решений. Качество данных решает эти проблемы, предлагая пользователям возможность оценивать качество данных с помощью правил без кода или низкого уровня кода, включая встроенные правила (OOB) и правила, созданные ИИ. Эти правила применяются на уровне столбцов и агрегируются для предоставления оценок на уровнях ресурсов данных, продуктов данных и доменов управления, обеспечивая сквозную видимость качества данных в каждом домене.
Качество данных также включает возможности профилирования данных на основе ИИ, рекомендуя столбцы для профилирования и позволяя человеческому вмешательству уточнить эти рекомендации. Этот итеративный процесс не только повышает точность профилирования данных, но и способствует постоянному улучшению базовых моделей ИИ.
Применяя качество данных, организации могут эффективно измерять, отслеживать и повышать качество своих ресурсов данных, повышая надежность аналитических сведений на основе ИИ и повышая доверие к процессам принятия решений на основе ИИ.
Качество данных для файла Parquet предназначено для поддержки:
Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions} Убедитесь, что у нас нет шаблонов {n} в структуре каталогов или подкаталогов. Это должно быть прямое полное доменное имя, приводящее к {SparkPartitions}.
Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet.
Ограничение: Он не предназначен для или не поддерживает N произвольных иерархий каталогов с файлами Parquet.
Рекомендуется представить данные в (1) или (2) сконструированной структуре.
В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы качества данных работают в Apache Spark 3.4 и Delta Lake 2.4.
Готовые правила для измерения шести отраслевых стандартов Измерения качества данных (полнота, согласованность, соответствие, точность, свежесть и уникальность)
Пользовательские функции создания правил включают количество нестандартных функций и значений выражений.
Автоматически созданные правила с интегрированным интерфейсом ИИ
Оценка качества данных на уровне правила (что такое оценка качества для правила, применяемого к столбцу)
Оценка качества данных для ресурсов данных, продуктов данных и доменов управления (в одном домене управления может быть много продуктов данных, в одном продукте данных может быть много ресурсов данных, в одном ресурсе данных может быть много столбцов данных).
Это одна из ключевых особенностей качества данных, возможность применять правила качества данных к логической конструкции CDE, которые затем распространяются на физические элементы данных, которые их составляют. Определяя правила качества данных на уровне CDEs, организации могут устанавливать конкретные критерии и пороговые значения, которым cdes должны соответствовать для поддержания их качества.
Центр действий для DQ с действиями по устранению состояний аномалий DQ, включая диагностические запросы для DQ steward до нуля в конкретных данных, которые необходимо исправить для каждого состояния аномалии.
Виртуальная сеть, управляемая качеством данных, которая подключается с частными конечными точками к источникам данных Azure.
Расположение и шифрование данных
Метаданные качества данных и сводка по профилированию хранятся в учетной записи microsoft Managed Storage. Они хранятся в том же регионе, что и источник данных, поэтому расположение данных остается неизменным. Все данные шифруются. Для метаданных используется региональное хранилище данных поставщика ресурсов Microsoft Purview, которое обрабатывает все шифрование и является общим для всех служб Microsoft Purview. Если вы хотите получить больший контроль над шифрованием данных с помощью CMK (ключа шифрования, управляемого клиентом), для этого существует отдельный процесс. (Дополнительные сведения о ключе клиента Microsoft Purview.)
Цены на вычисления для качества данных
Плата за использование качества данных взимается на основе единиц обработки данных (DGPU) с оплатой по мере использования. DGPU — это объем производительности службы, потребляемый в течение 60 минут. Он доступен в трех различных вариантах производительности: базовый, стандартный и расширенный. Базовый параметр SKU устанавливается в качестве параметра производительности по умолчанию, пока не будет выбран более высокий параметр. Например, если клиент выполняет 100 правил качества данных за один день и каждое выполнение создает 0,02 DGPU с номером SKU "Базовый", то общий объем DGPU за этот день будет равен двум DGPU и будет стоить клиенту 30 долл. США. Базовая цена SKU составляет 15 долларов за единицу обработки, Standard цена SKU составляет 60 долларов за единицу обработки, а предварительная цена SKU составляет 240 долларов за единицу обработки. Дополнительные сведения о ценах на Единый каталог Microsoft Purview.
Ниже приведен пример потребляемых единиц обработки для базовых и сложных правил для различных томов данных, протестированных для стандартного номера SKU.
Сложность правила
10 000 записей
-
100 000 записей
-
1 000 000 записей
-
10 000 000 записей
-
100 000 000 записей
-
1 000 000 000 записей
-
Duration (Длительность)
PU
Duration (Длительность)
PU
Duration (Длительность)
PU
Duration (Длительность)
PU
Duration (Длительность)
PU
Duration (Длительность)
PU
Простой
Затраченное время: 1 м 1с
0.02
Затраченное время: 1 м 1с
0.02
Затраченное время: 1 м 1с
0.02
Затраченное время: 1m 16s
0.02
Затраченное время: 1m 16s
0.02
Затраченное время: 1m 31s
0.03
Средняя
Затраченное время: 1 м 1с
0.02
Затраченное время: 1 м 1с
0.02
Затраченное время: 1 м 1с
0.02
Затраченное время: 1m 16s
0.02
Затраченное время: 1m 31s
0.03
Затраченное время: 2 м 1с
0.03
Высокая
Затраченное время: 1 м 1с
0.02
Затраченное время: 1 м 1с
0.02
Затраченное время: 1m 31s
0.03
Затраченное время: 1m 32s
0.03
Затраченное время: 2 м 1с
0.03
Затраченное время: 2m 51s
0.04
Ограничение
Виртуальная сеть не поддерживается для Google Big Query, Snowflake и каталога Unity Azure Databricks.
Продемонстрировать понимание распространенных задач проектирования данных для реализации рабочих нагрузок проектирования данных и управления ими в Microsoft Azure с помощью ряда служб Azure.