Поделиться через


Стандарты обработки данных для ИИ и аналитики

Единая платформа данных зависит от согласованного приема, преобразования и публикации стандартов, чтобы руководители могли доверять данным для аналитики и искусственного интеллекта. Рекомендации: Установите стандарты всей организации, которые управляют тем, какие данные входят в OneLake, как команды уточняют эти данные и как управляемые продукты данных достигают потребителей (см. рис. 1). Чтобы применить эту рекомендацию, используйте эту статью в качестве контрольного списка:

Схема, показывающая три основных шага в настройке операционных стандартов. Сначала задайте стандарты обработки данных, такие как перемещение данных через бронзовые, серебряные и золотые слои. Во-вторых, задайте стандарты безопасности для защиты продуктов данных в разных службах Майкрософт. В-третьих, задайте стандарты потребления и жизненного цикла для продуктов данных. Рис. 1. Три шага по настройке операционных стандартов для данных.

1. Настройка стандартов приема данных

OneLake служит центральным озером данных для аналитики и искусственного интеллекта в Microsoft Fabric, поэтому руководители должны контролировать то, что входит. Рекомендация: Установите четкие границы, чтобы команды собирали только те данные, которые поддерживают определенные бизнес-результаты. Чтобы применить эту рекомендацию, используйте следующий контрольный список.

  1. Какие данные вы объединяете? Объединение данных в OneLake означает выбор данных, поддерживающих продукт данных, связанный с измеримым бизнес-результатом. Рекомендации: Только добавьте данные в OneLake, если он поддерживает продукт данных и добавляет бизнес-ценность. Подходить к приему данных как к решению о продукте, а не к технической настройке по умолчанию. Руководство по принятию решений: Принимайте данные, когда они используются для объяснения или измерения бизнес-процесса или результата, который активно отслеживают лидеры. Выбирайте оставлять данные в операционных системах или ведомственных хранилищах, если нет активного варианта их использования. Этот выбор снижает затраты на хранение и затраты на управление.

  2. Сохраняйте содержимое для совместной работы и знаний в Microsoft 365. Данные Microsoft 365 поддерживают агенты Microsoft 365 Copilot. Эти агенты извлекают документы, электронные письма и артефакты совместной работы при выполнении существующих разрешений. См. архитектуру Microsoft 365 Copilot. Рекомендации: Используйте Microsoft 365 в качестве системы записей для содержимого, основное назначение которого — совместная работа, справочник или извлечение знаний. Используйте руководство по внедрению Microsoft 365 для подготовки этих данных.

  3. Интеграция операционных баз данных с помощью поддерживаемых шаблонов. Операционные базы данных часто предоставляют аналитику и сценарии ИИ, но прямой доступ создает риск и нестабильность. Рекомендации: Используйте поддерживаемые Microsoft Fabric шаблоны, такие как сочетания клавиш для виртуального доступа и зеркального отображения для реплицированного доступа. Для надежной интеграции в базах данных Azure часто требуется зеркальное отображение. Руководство по принятию решений: Выберите сочетания клавиш, когда виртуальный доступ соответствует потребностям производительности. Выберите зеркалирование, когда производительность аналитики, изоляция или повторное использование требуют физической копии в OneLake.

  4. Интегрируйте существующие озера данных. Многие организации уже работают с озерами данных, такими как Azure Data Lake Storage (ADLS), Google Cloud Storage или Amazon S3. Рекомендации: Рассматривайте существующие озера как часть единого пространства данных, а не как необходимость немедленной миграции. Используйте сочетания клавиш или зеркальное отображение. Руководство по принятию решений: Решите на основе готовности и риска. Чтобы избежать дублирования, выберите сочетания клавиш. Выберите зеркальное отображение, если затраты на согласованность, производительность или соответствие требованиям перевешивают затраты на дублирование.

  5. Выходные данные Surface Azure Databricks в OneLake. Azure Databricks часто создает проверенные аналитические данные. Рекомендации: Сохраняйте конвейеры Databricks на месте и отображайте финальные золотые выходные данные в OneLake. Руководство по принятию решений: Выбирайте упрощения, чтобы избежать дублирования, и используйте удаленный доступ, когда это отвечает потребностям. Выберите зеркальное отображение, если шаблоны управления или потребления требуют локальных данных.

  6. Отдельное внутреннее и внешнее потребление данных. Для внутренних аналитических данных и внешних данных требуются различные элементы управления. Рекомендации: Создайте отдельные рабочие области или области озера для внешних продуктов данных. Хранить только утвержденные внешние наборы данных в этих местах. Руководство по принятию решений: Определите, поддерживают ли данные внутренние решения или внешний общий доступ. Выберите физическое разделение, чтобы уменьшить случайное воздействие и упростить применение политик безопасности.

2. Настройка стандартов преобразования данных

Получение данных в OneLake — это только первый шаг. Реальное значение происходит от преобразования необработанных данных в высококачественные готовые к использованию продукты данных. Лидеры не проектируют конвейеры, но определяют платформы и архитектурные стандарты, которые предотвращают фрагментацию. Рекомендации: Стандартизируйте платформы преобразований и применяйте согласованную архитектуру уточнения. Чтобы применить эту рекомендацию, используйте следующий контрольный список:

2.1. Использование подходящей платформы данных

Выбор платформы устанавливает операционные требования к продуктам данных в средах Microsoft и Azure. Рекомендации: Для каждого продукта данных балансируйте простоту и интеграцию с необходимостью специализированных инженерных возможностей. Чтобы применить эту рекомендацию, используйте следующий контрольный список:

  1. Ткань (по умолчанию). Fabric предоставляет интегрированные механизмы разработки данных, аналитики и бизнес-аналитики, которые работают непосредственно на OneLake, которая выступает в качестве единого управляемого пространства данных для организации. Рекомендации: Используйте Fabric для стандартной аналитики, подготовки отчетов и данных. Используйте родные движки Fabric, такие как Dataflows Gen2, Spark и SQL, чтобы упростить управление доступом, прослеживаемость и управление затратами. Используйте OneLake в качестве одного уровня хранения. Руководство по принятию решений: Выберите Fabric, когда требования соответствуют встроенным возможностям и руководство ценит унифицированное управление и выставление счетов. Примите ограниченную настройку в обмен на более низкую операционную нагрузку.

  2. Azure Databricks. Многие люди предпочитают Azure Databricks. Она поддерживает крупномасштабные сценарии обработки и расширенного машинного обучения. Рекомендации: Продолжайте использовать Databricks, где уже существует опыт или масштабирование. Требовать, чтобы результаты размещались в OneLake или подключаться через ярлыки OneLake, чтобы управление, безопасность и обнаружение оставались централизованными. Руководство по принятию решений: Выберите Databricks, если Fabric не соответствует текущим требованиям. Примите более высокие затраты на интеграцию и навыки в качестве компромисса.

  3. Обеспечение соблюдения границ владения платформой. Четкие границы платформы предотвращают повторение затрат и несогласованную логику в разных системах. Рекомендации: Назначьте ответственность за каждый класс рабочей нагрузки одной платформе. Перед утверждением кроссплатформенной обработки требуется проверка архитектуры. Руководство по принятию решений: Определите, какая платформа владеет результатами приема, преобразования и аналитики. Предотвращение повторяющихся преобразований и перекрывающихся конвейеров, которые обеспечивают один и тот же бизнес-результат.

2.2. Примените архитектуру медальона

Архитектура медальона устанавливает доверие, согласованность и управление всеми продуктами данных путем определения четкого прогресса от необработанных данных до готовых к бизнесу выходных данных. Рекомендации: Требовать от всех продуктов данных в OneLake следовать бронзовой, серебряной и золотой структуре и запрещать сочетания клавиш, которые обходят эти слои. Чтобы применить эту рекомендацию, используйте следующий контрольный список:

  1. Обеспечьте наличие бронзового слоя в качестве системы записи (необработанные данные): бронзовый слой захватывает данные точно в том виде, в котором они поступают в OneLake, и сохраняет исходную целостность источника. Рекомендации: Хранить данные как доступные только для добавления и неизменяемые. Запретить исправления или обогащение на этом этапе. Требуется, чтобы каждый входящий набор данных сначала попадал в бронзовый уровень. Руководство по принятию решений: Установлено, что бронза существует только для сохранения истины из исходных систем. Примите более медленное удобство использования в обмен на возможность аудита и трассировки.

  2. Установите серебряный слой как надежное представление. Серебряный слой содержит проверенные, стандартизированные и очищенные данные, которые команды используют для согласованного анализа. Рекомендации: Применение правил качества данных, выравнивания формата и базовой бизнес-проверки. Четко документируйте наборы данных silver и управляйте изменениями с помощью процессов управления. Руководство по принятию решений: Выберите серебро в качестве авторитетного очищаемого слоя. Запретить командам повторно удалять необработанные данные независимо, что создает конфликтующие интерпретации.

  3. Gold (бизнес-контекст, продукты данных): Сертифицировать золотые наборы данных в качестве продуктов бизнес-данных. Золотой слой предоставляет управляемые продукты данных, которые лидеры используют для принятия решений, отслеживания производительности и отчетности. Рекомендации: Выровняйте золотые данные с утвержденными бизнес-определениями и метриками. Оптимизация структур для потребления. Зарегистрируйте каждый золотой набор данных в Microsoft Purview в качестве продукта данных с правами владения, целью и сведениями об обновлении. Руководство по принятию решений: Решите, что любой набор данных, используемый в командах или для принятия решений, должен существовать в золоте. Отклонить неуправляемые или несертифицированные наборы данных, которые обходят управление.

  4. Создайте санизированные продукты для внешнего использования. Внешний общий доступ требует преднамеренного разделения от внутренних операционных данных. Рекомендации: Создайте проверенные наборы данных, которые удаляют или маскируют конфиденциальные поля и сокращают сведения, когда это необходимо. Назначьте владение и примените четкие метки, такие как общедоступное или внешнее использование. Храните эти наборы данных в утвержденных расположениях. Руководство по принятию решений: Выберите, чтобы внешние наборы данных рассматривались как независимые продукты. Примите добавленные шаги по управлению, чтобы уменьшить юридический и риск безопасности.

Структура поддерживает эту модель с помощью материализованных представлений озера , которые могут автоматически управлять преобразованиями. См. Архитектуру Medallion Lakehouse в Fabric. Сведения об архитектуре аналитики см. в разделе "Сквозная аналитика" с помощью Microsoft Fabric.

Таблица. Пример архитектуры медальона. Золотой слой объединяет данные из двух наборов данных.

Набор данных Уровень Пример данных Что случилось
Проводки по продаже Бронза OrderID=984321 · StoreID=17 · Amount="1200" · TxnDate="2026-01-05T14:32:09Z" Эта запись прибыла из системы продаж в том виде, в каком было отправлено. Сумма — текст. Метка времени соответствует системному формату. Значение не применяется.
Серебро OrderID=984321 · StoreID=17 · Amount=1200.00 · TxnDate=2026-01-05 Транзакция стандартизирована и проверена. Сумма числовая. Дата соответствует корпоративным правилам. Данные теперь являются надежными.
Справочник по Магазину Бронза StoreID="17" · RegionName="EAST" Эта запись прибыла из системы определения местоположения. Форматирование отражает источник.
Серебро StoreID=17 · Регион=Восточная часть Идентификаторы магазина соответствуют данным о продажах. Значения региона приведены в порядок и консистентны.
Ежедневный доход по регионам Золото Region=East · Date=2026-01-05 · TotalRevenue=425000 Это значение объединяет транзакции с продажами Silver с эталонными данными магазина Silver. Отдельные записи суммируются для ответа на бизнес-вопрос.

2.3. Рассмотрим адаптивный золотой слой

Адаптивный золото включается здесь в качестве перспективных соображений. Идея заключается в том, что вы используете агенты ИИ для создания золотых слоев. Агенты могут замечать закономерности, которые вы можете не заметить. Если пользователи часто запрашивают "основные проблемы с клиентами по регионам в месяц", агенты ИИ могут материализовать этот набор данных. Эта возможность не предоставляется из коробки в Microsoft Fabric сегодня. Для этого потребуется создать пользовательский агент ИИ, работающий с телеметрией Fabric и Power BI.

3. Настройка стандартов публикации продуктов данных

Стандарты публикации определяют, как ваша организация предоставляет доверенные продукты данных через Microsoft Fabric OneLake и Microsoft Purview. Цель заключается в масштабировании повторного использования, применении управления и уменьшении риска для аналитики и рабочих нагрузок искусственного интеллекта. Рекомендации: Создайте единый стандарт публикации, который делает каждый утвержденный продукт данных обнаруживаемым, управляемым и четко предназначенным для определенной аудитории перед широким использованием. Чтобы применить эту рекомендацию, используйте следующий контрольный список:

  1. Стандартизация публикации с помощью каталога OneLake. Каталог OneLake предоставляет унифицированный интерфейс доступа для продуктов данных на платформе Fabric и внешних платформах обработки, таких как Databricks. Рекомендации: Используйте OneLake в качестве уровня выполнения и потребления по умолчанию для всех утвержденных продуктов данных. Рассматривайте Microsoft Purview как систему записей для определений управления и бизнеса. Это согласование позволяет Power BI, агентам данных Fabric и поисковой системе Azure AI последовательно использовать данные, обеспечивая централизованное управление и видимость.

  2. Убедитесь в возможности обнаружения. Обнаружение гарантирует, что лица, принимающие решения, и потребители могут находить надежные продукты данных без использования неофициальных знаний. Рекомендации: Настройте видимость рабочей области Fabric, чтобы соответствующие аудитории могли обнаруживать элементы. Им не нужен доступ, просто возможность запрашивать доступ. Включите рабочие процессы запросов доступа Purview, чтобы пользователи могли запрашивать разрешение непосредственно из каталога. Руководство по принятию решений: Выберите широкую обнаруживаемость, когда целью является повторное использование в разных областях. Выберите ограниченную возможность обнаружения при применении ограничений нормативных или конфиденциальных данных. Балансируйте видимость с помощью элементов управления доступом, а не скрывайте ресурсы.

  3. Обязательное обогащение метаданных при публикации данных. Метаданные предоставляют контекст, позволяющий руководителям оценивать пригодность, повторное использование и доверие продукта данных. Рекомендации: Требовать описательные метаданные в публикации. Используйте теги в Fabric для классификации продуктов по бизнес-домену или инициативам. Убедитесь, что описания объясняют назначение и область данных. Эта практика поддерживает поиск по каталогу и повышает достоверность повторного использования. Руководство по принятию решений: Определите, остаются ли требования к метаданным минимальными или применяют стандартную схему. Выберите стандартную схему, когда организация работает с несколькими доменами и нуждается в согласованности. Выберите более легкий подход для ранних этапов зрелости.

  4. Одобрить и сертифицировать при необходимости. Определите критерии подтверждения и сертификации. Подтверждение сигнализирует об уровне доверия и зрелости управления для организации. Рекомендации: Используйте "Повышено", чтобы указать рекомендуемые для домена продукты. Используйте certified, чтобы указать продукты, прошедшие официальную проверку системы управления. Примените сертификацию к наборам данных Gold, которые поддерживают отчеты руководителей или критически важные аналитические данные. См. руководство Fabric по утверждению в разделе утверждение. Руководство по принятию решений: Определите, какие продукты требуют сертификации. Выберите обязательную сертификацию для исполнительных или нормативных рабочих нагрузок. Выберите необязательную сертификацию, когда скорость и экспериментирование принимают приоритет. Примите более медленное подключение в качестве компромисса для более высокого доверия.

  5. Опубликовать как продукт данных в Purview. Продукты данных Purview предоставляют более высокоуровневое представление, которое группит ресурсы в управляемый жизненный цикл продукта. Рекомендации: Создайте запись продукта данных Purview для каждого опубликованного продукта данных. Включите имя продукта, описание, владельцы, состояние качества и связанные ресурсы, такие как таблицы, модели и отчеты. Указатель данных продуктов в едином каталоге. Руководство по принятию решений: Определите, требуются ли продукты данных Purview для всех опубликованных активов или только для стратегических продуктов. Выберите полный охват, когда важно видимость портфеля. Выберите выборочное покрытие, если возможности управления ограничены.

  6. Объявите целевую аудиторию и использование. Четкое намерение предотвращает неправильное использование и поддерживает соответствие в сценариях аналитики и искусственного интеллекта. Рекомендации: Для каждого продукта данных требуется указать целевую аудиторию и поддерживаемый тип рабочей нагрузки. Укажите внутреннее, партнерское или общедоступное использование. Идентифицировать сценарии использования искусственного интеллекта, аналитики, бизнес-аналитики или общедоступных веб-технологий. Используйте метаданные Purview, термины глоссария и метки конфиденциальности вместе для согласованного выражения этого намерения. Руководство по принятию решений: Определите, требуется ли дополнительное утверждение для внешнего использования или использования агентами. Выберите более строгое утверждение, когда данные покидают границы организации. Примите более медленную публикацию в качестве компромисса для снижения риска.

Следующий шаг