Поделиться через


Скрытие данных в Azure с помощью Delphix и Фабрика данных Azure

Azure Data Factory
Azure Synapse Analytics

Следующая архитектура описывает использование Delphix Непрерывного соответствия в конвейере фабрики данных Azure для извлечения, преобразования, загрузки (ETL) для идентификации и маскирования конфиденциальных данных.

Архитектура

Схема, на которой показана архитектура непрерывного соответствия Delphix.

Скачайте файл Visio для этой архитектуры.

Поток данных

Данные передаются в сценарии следующим образом:

  1. Фабрика данных Azure извлекает данные из исходных хранилищ данных в контейнер в Файлы Azure с помощью действия копирования данных. Этот контейнер называется контейнером исходных данных, а данные — в формате CSV.
  2. Фабрика данных инициирует итератор (действие ForEach), которое циклирует список заданий маскирования, настроенных в Delphix. Эти задания маскирования будут предварительно настроены и будут маскировать конфиденциальные данные, присутствующих в контейнере исходных данных.
  3. Для каждого задания в списке действие "Инициирование маскирования" проходит проверку подлинности и инициирует задание маскирования путем вызова конечных точек REST API в обработчике CC Delphix.
  4. Ядро Delphix CC считывает данные из контейнера исходных данных и выполняется через процесс маскирования.
  5. В этом процессе маскирования Delphix маскирует данные в памяти и записывает результирующий маскированные данные обратно в целевой контейнер Файлы Azure (называемый целевым контейнером данных).
  6. Фабрика данных теперь инициирует второй итератор (действие ForEach), которое отслеживает выполнение.
  7. Для каждого запуска (задание маскирования), которое было запущено, действие проверки состояния проверяет результат маскирования.
  8. После успешного завершения всех заданий маскирования фабрика данных загружает маскированные данные из целевого контейнера данных в указанное место назначения.

Компоненты

  • Фабрика данных Azure — это служба извлечения, преобразования, загрузки (ETL) для интеграции бессерверных данных и преобразования данных. Эта служба предоставляет пользовательский интерфейс без кода для интуитивно понятной разработки с возможностью мониторинга и управления с единой панели.
  • Azure Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, хранение корпоративных данных и аналитику больших данных. Он включает в себя Фабрика данных Azure конвейеры для обеспечения интеграции данных.
  • служба хранилища Azure хранит данные, извлеченные из исходных хранилищ данных, и маскированные данные, которые будут загружены в целевые хранилища данных.
  • Необязательно. Azure виртуальная сеть предоставляет возможности частной сети для ресурсов Azure, которые не являются частью рабочей области Azure Synapse. Он позволяет управлять доступом, безопасностью и маршрутизацией между ресурсами.
  • Другие компоненты. В зависимости от хранилищ данных, используемых в качестве источника и назначения, может потребоваться добавить другие компоненты. Эти хранилища данных могут отличаться в зависимости от ваших требований.

Альтернативные варианты

Вы также можете выполнять маскировку данных с помощью Microsoft Presidio. Дополнительные сведения об этом варианте см. в руководстве По защите данных и пакете SDK для деидентификации.

Подробности сценария

В последние годы произошел взрыв данных. Чтобы разблокировать стратегическое значение данных, он должен быть динамическим и переносимым. Данные, присутствующих в силосах, ограничивают свое стратегическое значение и трудно использовать в аналитических целях.

Нарушение силосов данных сложно:

  • Данные должны управляться для соответствия общему формату. Конвейеры ETL должны быть адаптированы к каждой системе записей и должны масштабироваться для поддержки массовых наборов данных современных предприятий.
  • При перемещении данных из систем записей необходимо обеспечить соответствие нормативным требованиям в отношении конфиденциальной информации. Содержимое клиента и другие конфиденциальные элементы должны быть скрыты, не влияя на ценность бизнес-набора данных.

Что такое Фабрика данных Azure?

Фабрика данных Azure — это полностью управляемая бессерверная служба интеграции данных. Он предоставляет широкий визуальный интерфейс для интеграции источников данных с более чем 100 встроенными соединителями без дополнительных затрат. Легко создавать ETL и извлекать, загружать, преобразовывать (ELT) процессы без кода в интуитивно понятной среде или писать собственный код. Затем доставьте интегрированные данные в Azure Synapse Analytics, чтобы разблокировать возможности ваших данных с помощью бизнес-аналитики. Конвейеры фабрики данных также доступны в Azure Synapse Analytics.

Что такое непрерывное соответствие Delphix (Delphix CC)?

Delphix Непрерывное соответствие определяет конфиденциальную информацию и автоматизирует маскирование данных. Он предлагает быстрый, автоматизированный, управляемый API способ предоставления безопасных данных, в которых он необходим в организациях.

Как Delphix CC и Фабрика данных решают автоматизацию совместимых данных?

Перемещение защищенных данных является проблемой для всех организаций. Delphix упрощает обеспечение согласованного соответствия данным, а фабрика данных позволяет легко подключать и перемещать данные. Вместе Delphix и Фабрика данных объединяют ведущие в отрасли предложения по соответствию и автоматизации, чтобы обеспечить доставку по требованию совместимых данных для всех.

С помощью соединителей источников данных, предлагаемых фабрикой данных, мы создали два конвейера ETL, которые автоматизируют следующие действия:

  • Считывает данные из системы записи и записывает его в CSV-файлы в Хранилище BLOB-объектов Azure.

  • Предоставьте Delphix Непрерывное соответствие требованиям, необходимые для идентификации столбцов, которые могут содержать конфиденциальные данные и назначать соответствующие алгоритмы маскирования.

  • Выполните задание маскирования Delphix для файлов, чтобы заменить элементы конфиденциальных данных похожими, но вымышленными значениями.

  • Загрузите соответствующие данные в любое хранилище данных, поддерживаемое фабрикой данных.

Потенциальные варианты использования

Безопасная активация служб данных Azure для отраслевых решений

  • Определение и маскирование конфиденциальных данных в крупных и сложных приложениях, где содержимое клиента в противном случае было бы трудно определить. Delphix позволяет конечным пользователям автоматически перемещать соответствующие данные из таких источников, как SAP, Salesforce и Oracle EBS на уровни служб с высоким уровнем ценности, например Microsoft Synapse.
  • Используйте мощные и комплексные соединители, предоставляемые Microsoft Azure, для безопасного разблокировки, маскирования и переноса данных независимо от того, где он происходит.

Решение сложного соответствия нормативным требованиям для данных

  • Автоматически поместите исчерпывающую платформу алгоритма Delphix для решения любых нормативных требований к данным.
  • Применение правил, готовых к данным, для нормативных требований, таких как CCPA, LGPD, HIPAA и другие.

Ускорение смены "DevSecOps" влево

  • Обнаружьте конвейеры разработчика и аналитики (Azure DevOps, Jenkins, Harness) и другие рабочие процессы автоматизации с данными о рабочем классе путем систематического и детерминированного маскирования конфиденциальных данных в конвейерах центральной фабрики данных.
  • Маскируйте данные последовательно в разных источниках данных, сохраняя целостность ссылочных данных для интегрированного тестирования приложений. Например, имя Джорджа всегда должно быть маскировано для Эллиота или заданного номера социального страхования (SSN) всегда должно быть маскировано в один и тот же SSN, независимо от того, отображается ли Джордж и его SSN в Oracle, Salesforce или SAP.

Сокращение времени обучения алгоритма искусственного интеллекта и машинного обучения с помощью соответствующей аналитики

  • Маскирование данных таким образом, что не увеличивает циклы обучения.
  • Сохранение целостности данных во время маскирования, чтобы избежать влияния на точность модели или прогнозирования.

Для упрощения конкретного варианта использования можно использовать любую фабрику данных Azure или соединитель Azure Synapse Analytics.

Ключевые преимущества

  • Универсальное подключение
  • Реалистичная детерминированная маскировка, которая поддерживает целостность ссылок
  • Предварительная идентификация конфиденциальных данных для ключевых корпоративных приложений
  • Выполнение собственного облака
  • Развертывание на основе шаблона
  • Масштабируемость

Пример архитектуры

Следующий пример предоставлен анонимным клиентом. Он предназначен только в качестве примера для разработки среды для этого варианта использования маскирования.

Схема примера архитектуры, предоставленной анонимным клиентом.

В приведенном выше примере архитектуры:

  • Фабрика данных Azure или приемы в Azure Synapse Analytics / подключается к рабочим, незамеченным данным в целевой зоне
  • Данные перемещаются в промежуточный режим данных в служба хранилища Azure
  • Подключение рабочих данных к POD Delphix CC позволяет конвейеру вызывать службу Delphix CC
  • Маскированные данные возвращаются для распределения в фабрике данных и более низких средах

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

Delphix CC необратимо маскирует значения данных с реалистичными данными, которые остаются полностью функциональными, что позволяет разрабатывать более качественный код. Среди богатого набора алгоритмов, доступных для преобразования данных в спецификации пользователей, Delphix CC имеет патентованный алгоритм, который намеренно создает столкновения данных, в то же время позволяет солеть данные с определенными значениями, необходимыми для потенциальных процедур проверки, выполняемых в маскированного набора данных. С точки зрения нулевого доверия операторы не нуждаются в доступе к фактическим данным, чтобы маскировать его. Кроме того, всю доставку маскированных данных из точки A в точку B можно автоматизировать с помощью API.

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

Изменив значения в калькуляторе цен Azure, вы можете узнать, как влияют на конкретные требования затраты. Azure Synapse: вы можете масштабировать уровни вычислений и хранилища независимо. Стоимость за использование вычислительных ресурсов взимается каждый час. По требованию пользователя может быть выполнена приостановка использования данных ресурсов или их масштабируемость. В ресурсах хранилища стоимость взимается за используемые терабайты, что значит, что при получении большего количества данных стоимость увеличится.

Фабрика данных или Azure Synapse Analytics. Затраты основаны на количестве операций чтения и записи, операций мониторинга и действий оркестрации, выполняемых в рабочей нагрузке. Затраты будут увеличиваться с каждым дополнительным потоком данных и объемом данных, обрабатываемых каждым из них.

Delphix CC: в отличие от других продуктов соответствия данным на рынке, маскирование не требует полной физической копии среды, маскируемой. Избыточность среды может быть чрезвычайно дорогой из-за времени настройки и обслуживания инфраструктуры, стоимости самой инфраструктуры и времени, затраченного многократной загрузкой физических данных в среду маскирования.

Оптимизация производительности

Уровень производительности — это способность вашей рабочей нагрузки эффективно масштабироваться в соответствии с требованиями, предъявляемыми к ней пользователями. Дополнительные сведения см. в разделе "Общие сведения о эффективности производительности".

Delphix CC является горизонтально и вертикально масштабируемым. Преобразования происходят в памяти и могут быть параллелизованы. Продукт работает как в качестве службы, так и в качестве устройства с несколькими узлами, позволяя архитектуры решений всех размеров в зависимости от приложения. Delphix является лидером рынка в доставке чрезвычайно больших маскированных наборов данных.

Маскирование потоков можно увеличить для привлечения нескольких ядер ЦП в задании. (Рекомендации по настройке и подробные сведения об изменении выделения памяти можно найти здесь: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/

Чтобы обеспечить оптимальную производительность наборов данных размером более 1 ТБ, Delphix Hyperscale Masking разбивает большие и сложные наборы данных на многочисленные модули, а затем управляет заданиями маскирования в нескольких модулях непрерывного соответствия требованиям.

Развертывание этого сценария

  1. Развертывание обработчика CC Delphix в Azure
  2. В фабрике данных разверните шаблоны фабрики данных для непрерывного соответствия Delphix: профилирование (Delphix CC Profiling) и Delphix Непрерывное соответствие: маскирование (Маскирование delphix CC) шаблонов фабрики данных. Эти шаблоны работают как для конвейеров Azure Synapse Analytics, так и для Фабрика данных Azure.
  3. В компонентах копирования данных настройте нужный источник и целевые хранилища данных. В компонентах веб-действий введите IP-адрес или имя узла приложения Delphix и учетные данные для проверки подлинности с помощью API Delphix CC.
  4. Запустите шаблон Фабрики данных профилирования Delphix CC для начальной настройки и в любое время, когда вы хотите повторно определить конфиденциальные данные (например, если произошло изменение схемы). Этот шаблон предоставляет Delphix CC с начальной конфигурацией, необходимой для проверки столбцов, которые могут содержать конфиденциальные данные.
  5. Создайте набор правил, указывающий коллекцию данных, которые вы хотите профилировать. Запустите задание профилирования в пользовательском интерфейсе Delphix, чтобы определить и классифицировать конфиденциальные поля для этого набора правил и назначить соответствующие алгоритмы маскирования.
  6. Просмотрите и измените результаты на экране инвентаризации по мере необходимости. Когда вы удовлетворены результатами и хотите маскировать соответствующим образом, создайте задание маскирования.
  7. Вернитесь в пользовательский интерфейс фабрики данных, откройте шаблон Фабрики данных Delphix CC Masking Data Factory. Укажите идентификатор задания маскирования из приведенного выше шага, а затем запустите шаблон.
  8. В конце этого шага вы будете иметь маскированные данные в целевом хранилище данных вашего выбора.

Примечание.

Вам потребуется IP-адрес приложения Delphix и имя узла с учетными данными для проверки подлинности в API Delphix.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основные авторы:

  • Тесс Маггио | Product Manager 2
  • Arun Saju | Старший инженер по персоналу
  • Дэвид Уэллс | Старший директор, ведущий по непрерывному соответствию продуктам

Другие участники:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги

См. следующие ресурсы Delphix:

Дополнительные сведения о ключевых службах Azure в этом решении: