управляемая виртуальная сеть Фабрики данных Azure

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье рассматриваются управляемая виртуальная сеть и управляемые частные конечные точки в Фабрике данных Azure.

Управляемая виртуальная сеть

При создании среды выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных подготавливается среда выполнения интеграции с управляемой виртуальной сетью. В ней используются частные конечные точки для безопасного подключения к поддерживаемым хранилищам данных.

Создание среды выполнения интеграции в управляемой виртуальной сети обеспечивает изолированность и безопасность процесса интеграции данных.

Преимущества использования управляемой виртуальной сети:

  • Благодаря управляемой виртуальной сети можно перенести нагрузку, связанную с управлением виртуальной сетью, в Фабрику данных. Вам не нужно создавать подсеть для среды выполнения интеграции, которая в конечном итоге могла бы использовать множество частных IP-адресов из вашей виртуальной сети и потребовала бы предварительного планирования сетевой инфраструктуры.
  • Для безопасной интеграции данных не требуются глубокие знания о сетях Azure. Наоборот, инженерам данных значительно проще приступить к извлечению, преобразованию и загрузке данных с учетом всех требований к безопасности.
  • Управляемая виртуальная сеть вместе с управляемыми частными конечными точками обеспечивает защиту от кражи данных.

В настоящее время управляемая виртуальная сеть поддерживается только в регионе Фабрики данных.

Примечание.

Существующую глобальную среду выполнения интеграции нельзя переключить на среду выполнения интеграции в управляемой виртуальной сети Фабрики данных и наоборот.

Diagram that shows Data Factory managed virtual network architecture.

Включить управляемую виртуальную сеть в фабрике данных можно двумя способами:

  1. во время создания фабрики данных;

Screenshot of enabling managed virtual network during the creation of data factory.

  1. в среде выполнения интеграции.

Screenshot of enabling managed virtual network in integration runtime

Управляемые частные конечные точки

Управляемые частные конечные точки — это частные конечные точки, созданные в управляемой виртуальной сети Фабрики данных с установкой приватного канала для доступа к ресурсам Azure. Фабрика данных управляет этими частными конечными точками от вашего имени.

Фабрика данных поддерживает приватные каналы. Вы можете использовать Приватный канал Azure для доступа к службам Azure PaaS (платформа как услуга), таким как служба хранилища Azure, Azure Cosmos DB и Azure Synapse Analytics.

При использовании приватного канала трафик между вашими хранилищами данных и управляемой виртуальной сетью полностью проходит через магистральную сеть Майкрософт. Приватный канал защищает от угроз кражи данных. Чтобы установить приватный канал для ресурса, создайте частную конечную точку.

Частная конечная точка использует частный IP-адрес в управляемой виртуальной сети, по сути перемещая службу в нее. Частная конечная точка сопоставляется с конкретным ресурсом в Azure, а не со всей службой. Клиенты могут ограничить возможности подключения к определенному ресурсу, утверждаемому их организацией. Дополнительные сведения см. в статье Сведения о приватных каналах и частных конечных точках.

Примечание.

Поставщик ресурсов Microsoft.Network должен быть зарегистрирован в вашей подписке.

  1. Убедитесь, что в фабрике данных включена управляемая виртуальная сеть.
  2. Создайте новую управляемую частную конечную точку в Центре управления.

Screenshot that shows new managed private endpoints.

  1. При создании управляемой частной конечной точки в Фабрике данных подключение к ней создается в состоянии ожидания. Инициируется рабочий процесс утверждения. Владелец ресурса для приватного канала должен утвердить или отклонить это подключение.

Screenshot that shows the option Manage approvals in Azure portal.

  1. Если владелец утверждает подключение, устанавливается приватный канал. В противном случае приватный канал не будет установлен. В любом случае состояние подключения к управляемой частной конечной точке будет обновлено.

Screenshot that shows approving a managed private endpoint.

Только управляемая частная конечная точка в утвержденном состоянии может передавать трафик на определенный ресурс приватного канала.

Примечание.

Пользовательская служба доменных имен (DNS) не поддерживается в управляемой виртуальной сети.

Интерактивная разработка

Возможности интерактивной разработки используются для таких операций, как тестирование подключения, просмотр списка папок и списка таблиц, получение схемы и предварительный просмотр данных. Вы можете включить интерактивную разработку при создании или изменении среды выполнения интеграции Azure, которая находится в виртуальной сети, управляемой Фабрикой данных Azure. Серверная служба будет предварительно выделять вычислительные ресурсы для операций интерактивной разработки. В противном случае вычислительные ресурсы будут выделяться при каждом выполнении любой интерактивной операции, что займет больше времени. Срок жизни для интерактивной разработки составляет 60 минут по умолчанию. Это означает, что она автоматически отключается через 60 минут после последней операции интерактивной разработки. Вы можете изменить значение срока жизни в соответствии с фактическими потребностями.

Screenshot that shows interactive authoring.

Срок жизни

Действие копирования

По умолчанию каждое действие копирования запускает новое вычисление на основе конфигурации в действии копирования. Если управляемая виртуальная сеть включена, время запуска холодных вычислений занимает несколько минут, а перемещение данных начинается только после его окончания. Если конвейеры содержат несколько последовательных действий копирования или имеется много действий копирования в цикле foreach, которые невозможно выполнять параллельно, можно включить значение срока жизни (TTL) в конфигурации среды выполнения интеграции Azure. Указание значения срока жизни и количества DIU, необходимых для действия копирования, сохраняет соответствующие вычисления активными в течение определенного периода времени после завершения его выполнения. Если в течение срока жизни запускается какое-либо новое действие копирования, оно будет использовать уже существующие вычисления, и время запуска значительно уменьшится. После выполнения второго действия копирования вычисления снова будут оставаться активными в течение срока жизни. У вас есть гибкость, чтобы выбрать из предварительно определенных размеров вычислительных ресурсов, начиная от небольших до средних и больших. Кроме того, можно настроить размер вычислительных ресурсов на основе конкретных требований и потребностей в режиме реального времени.

Примечание.

Перенастройка количества DIU не повлияет на текущее выполнение действия копирования.

Примечание.

Мера единиц интеграции данных (DIU) 2 DIU не поддерживается для действия Copy в управляемой виртуальной сети.

Выбранный в TTL параметр DIU будет использоваться для выполнения всех действий копирования, при этом размер DIU не будет автоматически масштабироваться в соответствии с фактическими потребностями. Таким образом, выбранное значение DIU должно быть достаточным.

Предупреждение

Если значение DIU будет слишком мало, а число выполняемых действий — слишком велико, многие действия попадут в очередь, что серьезно повлияет на общую производительность.

Конвейер и внешние действия

Как и в случае с копией, вы можете настроить размер вычислительных ресурсов и длительность TTL в соответствии с вашими требованиями. Однако, в отличие от копирования, обратите внимание, что конвейер и внешний TTL не могут быть отключены.

Примечание.

Срок жизни (TTL) применим только к управляемой виртуальной сети.

Screenshot that shows the TTL configuration.

В таблице ниже можно использовать ссылку, чтобы определить оптимальное количество узлов для выполнения конвейеров и внешних действий.

Тип действия Capacity
Действие конвейера Приблизительно 50 на узел
Действие скрипта и действие подстановки с SQL alwaysEncrypted, как правило, потребляет больше ресурсов по сравнению с другими действиями конвейера, при этом предлагаемое число составляет около 10 на узел
Внешнее действие Приблизительно 800 на узел

Сравнение различных значений сроков жизни

В таблице ниже перечислены различия между типами сроков жизни.

Компонент Интерактивная разработка Копирование масштаба вычислений Конвейер и масштаб внешних вычислений
Время применения Сразу после включения Первое выполнение действия Первое выполнение действия
Можн отключить Y Y N
Зарезервированное вычисление можно настроить N Y Y

Примечание.

Вы не можете включить TTL в среде выполнения интеграции Azure по умолчанию. Вы можете создать новую среду выполнения интеграции Azure для нее.

Примечание.

При активации TTL для копирования и конвейера или внешнего масштаба вычислений выставление счетов определяется зарезервированными вычислительными ресурсами. В результате выходные данные действия не включают выставление счетовReference, так как это относится исключительно в сценариях, отличных от TTL.

Создание управляемой виртуальной сети с помощью Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Примечание.

Значения groupId других источников данных можно получить из ресурса приватного канала.

Исходящее подключение

Поддерживаемые источники данных и службы

Следующие службы имеют встроенную поддержку частных конечных точек. Их можно подключить через приватный канал из управляемой виртуальной сети Фабрики данных:

  • Azure Databricks
  • Функции Azure (План "Премиум")
  • Azure Key Vault
  • Машинное обучение Azure
  • Приватный канал Azure
  • Microsoft Purview

Сведения о поддержке источников данных см. в обзоре соединителя. Вы можете работать со всеми источниками данных, поддерживаемыми Фабрикой данных, через общедоступную сеть.

Локальные источники данных

Сведения о доступе к локальным источникам данных из управляемой виртуальной сети через частную конечную точку см. в статье Учебник. Получение доступа к локальному серверу SQL Server из управляемой виртуальной сети Фабрики данных с помощью частной конечной точки.

Исходящие подключения через общедоступную конечную точку из управляемой виртуальной сети Фабрики данных

Все порты открыты для исходящих подключений.

Известные проблемы и ограничения

Создание связанной службы для Key Vault

При создании связанной службы для Key Vault ссылка на среду выполнения интеграции отсутствует. По этой причине при создании связанной службы Key Vault создать частную конечную точку невозможно. Однако вы можете создать частную конечную точку для Key Vault при создании связанной службы для хранилищ данных, которая ссылается на Key Vault и среду выполнения интеграции с включенной управляемой виртуальной сетью.

  • Операция Тестирование подключения для связанной службы Key Vault только проверяет формат URL-адреса, но не выполняет никаких сетевых операций.
  • Столбец Использование частной конечной точки всегда отображается как пустой, даже если вы создали для Key Vault частную конечную точку.

Создание связанной службы Azure HDInsight

Столбец Использование частной конечной точки всегда отображается как пустой, даже если вы создаете частную конечную точку для HDInsight с помощью службы Приватного канала и подсистемы балансировки нагрузки с переадресацией портов.

Screenshot that shows a private endpoint for Key Vault.

Полное доменное имя (FQDN) Azure HDInsight

Если вы создали пользовательскую службу приватного канала, полное доменное имя должно заканчиваться azurehdinsight.net без приватного канала в доменном имени при создании частной конечной точки. Если вы используете приватный канал в доменном имени, убедитесь, что он действителен, и вы можете устранить его.

Ограничения доступа в управляемой виртуальной сети с частными конечными точками

Невозможно получить доступ к ресурсу PaaS, если обе стороны имеют доступ к приватному каналу и частной конечной точке. Это известное ограничение приватного канала и частной конечной точки.

Предположим, у вас есть управляемая частная конечная точка для учетной записи хранения A. Вы также можете обращаться к учетной записи хранения B через общедоступную сеть в той же управляемой виртуальной сети. Однако если у учетной записи хранения B есть подключение к частной конечной точке из другой управляемой виртуальной сети или виртуальной сети клиента, вы не сможете получить доступ к учетной записи хранения B в управляемой виртуальной сети через общедоступную сеть.

Ознакомьтесь со следующими руководствами: