Spravovaná virtuální síť služby Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek vysvětluje spravované virtuální sítě a spravované privátní koncové body ve službě Azure Data Factory.

Spravovaná virtuální síť

Když vytvoříte prostředí Azure Integration Runtime ve spravované virtuální síti služby Data Factory, prostředí Integration Runtime se zřídí se spravovanou virtuální sítí. K zabezpečenému připojení k podporovaným úložištům dat používá privátní koncové body.

Vytvoření prostředí Integration Runtime ve spravované virtuální síti zajišťuje izolaci a zabezpečení procesu integrace dat.

Výhody používání spravované virtuální sítě:

  • Se spravovanou virtuální sítí můžete přesměrovat zátěž správy virtuální sítě do služby Data Factory. Pro prostředí Integration Runtime nemusíte vytvářet podsíť, která by nakonec mohla používat mnoho privátních IP adres z vaší virtuální sítě a vyžadovala by před plánováním síťové infrastruktury.
  • Hluboké znalosti sítí Azure se k bezpečné integraci dat nevyžadují. Místo toho je pro datové inženýry mnohem jednodušší začít se zabezpečeným ETL.
  • Spravovaná virtuální síť spolu se spravovanými privátními koncovými body chrání před exfiltrací dat.

Spravovaná virtuální síť se v současné době podporuje jenom ve stejné oblasti jako oblast služby Data Factory.

Poznámka:

Stávající globální prostředí Integration Runtime nemůže přepnout na prostředí Integration Runtime ve spravované virtuální síti služby Data Factory a naopak.

Diagram that shows Data Factory managed virtual network architecture.

Spravované virtuální sítě ve vaší datové továrně můžete povolit dvěma způsoby:

  1. Povolte spravovanou virtuální síť během vytváření datové továrny.

Screenshot of enabling managed virtual network during the creation of data factory.

  1. Povolení spravované virtuální sítě v prostředí Integration Runtime

Screenshot of enabling managed virtual network in integration runtime

Spravované privátní koncové body

Spravované privátní koncové body jsou privátní koncové body vytvořené ve virtuální síti spravované službou Azure Data Factory, která navazuje privátní propojení s prostředky Azure. Data Factory spravuje tyto privátní koncové body za vás.

Data Factory podporuje privátní propojení. Privátní propojení Azure můžete použít pro přístup ke službám Azure Jako služba (PaaS), jako je Azure Storage, Azure Cosmos DB a Azure Synapse Analytics.

Když používáte privátní propojení, provoz mezi úložišti dat a spravovanou virtuální sítí prochází zcela přes páteřní síť Microsoftu. Private Link chrání před riziky exfiltrace dat. Privátní propojení s prostředkem vytvoříte vytvořením privátního koncového bodu.

Privátní koncový bod používá privátní IP adresu ve spravované virtuální síti k efektivnímu přenesení služby do ní. Privátní koncové body se mapují na konkrétní prostředek v Azure, nikoli na celou službu. Zákazníci mohou omezit možnosti připojení ke konkrétnímu prostředku schválenému jejich organizací. Další informace najdete v tématu Privátní propojení a privátní koncové body.

Poznámka:

Poskytovatel prostředků Microsoft.Network musí být zaregistrovaný ve vašem předplatném.

  1. Ujistěte se, že ve vaší datové továrně povolíte spravovanou virtuální síť.
  2. Vytvořte nový spravovaný privátní koncový bod ve správě centra.

Screenshot that shows new managed private endpoints.

  1. Při vytváření spravovaného privátního koncového bodu ve službě Data Factory se vytvoří připojení privátního koncového bodu ve stavu Čeká na vyřízení . Zahájí se pracovní postup schválení. Vlastník prostředku privátního propojení zodpovídá za schválení nebo odmítnutí připojení.

Screenshot that shows the option Manage approvals in Azure portal.

  1. Pokud vlastník připojení schválí, vytvoří se privátní propojení. Jinak se privátní propojení nenaváže. V obou případech se spravovaný privátní koncový bod aktualizuje o stav připojení.

Screenshot that shows approving a managed private endpoint.

Provoz do konkrétního prostředku privátního propojení může odesílat pouze spravovaný privátní koncový bod ve schváleném stavu.

Poznámka:

Vlastní DNS není ve spravované virtuální síti podporováno.

Interaktivní vytváření obsahu

Možnosti interaktivního vytváření se používají pro funkce, jako je testovací připojení, seznam složek a seznam tabulek, získání schématu a náhled dat. Interaktivní vytváření můžete povolit při vytváření nebo úpravách prostředí Azure Integration Runtime, které je ve spravované virtuální síti azure Data Factory. Back-endová služba předem přidělí výpočetní prostředky pro funkce interaktivního vytváření. V opačném případě se výpočetní prostředky přidělí při každém provedení interaktivní operace, což bude trvat déle. Hodnota TTL (Time to Live) pro interaktivní vytváření je ve výchozím nastavení 60 minut, což znamená, že se automaticky zakáže po 60 minutách poslední interaktivní operace vytváření. Hodnotu TTL můžete změnit podle vašich skutečných potřeb.

Screenshot that shows interactive authoring.

Hodnota TTL (Time to Live)

Aktivita kopírování

Ve výchozím nastavení se každá aktivita kopírování roztáčí na základě konfigurace aktivity kopírování. Když je povolená spravovaná virtuální síť, počáteční doba studeného výpočetního prostředí trvá několik minut a přesun dat se nedá spustit, dokud se nedokončí. Pokud vaše kanály obsahují více sekvenčních aktivit kopírování nebo máte mnoho aktivit kopírování ve smyčce foreach a nemůžete je spustit všechny paralelně, můžete povolit hodnotu TTL (Time to Live) v konfiguraci prostředí Azure Integration Runtime. Když zadáte hodnotu TTL (Time to Live Value) a čísla DIU požadovaná pro aktivitu kopírování, zůstane odpovídající výpočetní funkce po určitou dobu po dokončení provádění aktivní. Pokud se nová aktivita kopírování spustí v době TTL, znovu použije stávající výpočetní prostředky a doba spuštění se výrazně sníží. Po dokončení druhé aktivity kopírování budou výpočty opět aktivní po dobu TTL. Máte možnost vybírat si z předem definovaných velikostí výpočetních prostředků v rozsahu od malých po střední až velké. Alternativně máte také možnost přizpůsobit velikost výpočetních prostředků na základě konkrétních požadavků a potřeb v reálném čase.

Poznámka:

Změna konfigurace čísla DIU neovlivní provádění aktuální aktivity kopírování.

Poznámka:

Míra 2 JEDNOTEK pro integraci dat (DIU) se u aktivita Copy ve spravované virtuální síti nepodporuje.

Diu, kterou vyberete v hodnotě TTL, se použije ke spuštění všech aktivit kopírování, velikost diu se automaticky škáluje podle skutečných potřeb. Takže si musíte vybrat dostatek jednotek DIU.

Upozorňující

Výběr několika jednotek DIU pro spuštění mnoha aktivit způsobí, že ve frontě čeká mnoho aktivit, což vážně ovlivní celkový výkon.

Kanál a externí aktivita

Podobně jako u kopie máte možnost přizpůsobit velikost výpočetních prostředků a dobu trvání hodnoty TTL podle vašich specifických požadavků. Na rozdíl od kopie však upozorňujeme, že kanál a externí hodnota TTL nelze zakázat.

Poznámka:

Hodnota TTL (Time to Live) se vztahuje pouze na spravovanou virtuální síť.

Screenshot that shows the TTL configuration.

Následující tabulku můžete využít jako referenci k určení optimálního počtu uzlů pro provádění kanálů i externích aktivit.

Typ aktivity Kapacita
Aktivita kanálu Přibližně 50 na uzel
Aktivita skriptu a aktivita vyhledávání s SQL AlwaysEncrypted obvykle spotřebovávají více prostředků v porovnání s jinými aktivitami kanálu s navrhovaným číslem přibližně 10 na uzel.
Externí aktivita Přibližně 800 na uzel

Porovnání různých hodnot TTL

Následující tabulka uvádí rozdíly mezi různými typy hodnoty TTL:

Funkce Interaktivní vytváření obsahu Kopírování škálování výpočetních prostředků Škálování kanálů a externích výpočetních prostředků
Kdy se má projevit Okamžitě po povolení První spuštění aktivity První spuštění aktivity
Je možné zakázat Y Y N
Rezervované výpočetní prostředky je možné konfigurovat N Y Y

Poznámka:

Ve výchozím automatickém překladu prostředí Azure Integration Runtime nemůžete povolit hodnotu TTL. Můžete pro něj vytvořit nový prostředí Azure Integration Runtime.

Poznámka:

Při aktivaci hodnoty TTL kopírování, kanálu nebo externího výpočetního škálování se fakturace určuje rezervovanými výpočetními prostředky. Výsledkem je, že výstup aktivity nezahrnuje fakturaciReference, protože to je výhradně relevantní ve scénářích mimo hodnotu TTL.

Vytvoření spravované virtuální sítě přes Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Poznámka:

Id skupiny jiných zdrojů dat můžete získat z prostředku privátního propojení.

Odchozí připojení

Podporované zdroje dat a služby

Následující služby mají nativní podporu privátních koncových bodů. Můžou být připojené prostřednictvím privátního propojení ze spravované virtuální sítě služby Data Factory:

  • Azure Databricks
  • Azure Functions (plán Premium)
  • Azure Key Vault
  • Azure Machine Learning
  • Azure Private Link
  • Microsoft Purview

Informace o podpoře zdrojů dat najdete v přehledu konektorů. Přístup ke všem zdrojům dat podporovaným službou Data Factory můžete získat prostřednictvím veřejné sítě.

Místní zdroje dat

Informace o přístupu k místním zdrojům dat ze spravované virtuální sítě pomocí privátního koncového bodu najdete v tématu Přístup k místnímu SQL Serveru ze spravované virtuální sítě služby Data Factory pomocí privátního koncového bodu.

Odchozí komunikace prostřednictvím veřejného koncového bodu ze spravované virtuální sítě služby Data Factory

Všechny porty jsou otevřeny pro odchozí komunikaci.

Omezení a známé problémy

Vytvoření propojené služby pro Key Vault

Při vytváření propojené služby pro Key Vault neexistuje žádný odkaz na prostředí Integration Runtime. Proto během vytváření propojené služby Key Vault nemůžete vytvářet privátní koncové body. Když ale vytvoříte propojenou službu pro úložiště dat, která odkazuje na službu Key Vault, a tato propojená služba odkazuje na prostředí Integration Runtime s povolenou spravovanou virtuální sítí, můžete během vytváření vytvořit privátní koncový bod pro službu Key Vault.

  • Testovací připojení: Tato operace pro propojenou službu Key Vault ověřuje pouze formát adresy URL, ale neprovádí žádnou síťovou operaci.
  • Použití privátního koncového bodu: Tento sloupec se vždy zobrazuje jako prázdný, i když pro Key Vault vytvoříte privátní koncový bod.

Vytvoření propojené služby Azure HDInsight

Sloupec Použití privátního koncového bodu se vždy zobrazuje jako prázdný, i když vytvoříte privátní koncový bod pro HDInsight pomocí služby privátního propojení a nástroje pro vyrovnávání zatížení s předáváním portů.

Screenshot that shows a private endpoint for Key Vault.

Plně kvalifikovaný název domény (FQDN) služby Azure HDInsight

Pokud jste vytvořili vlastní službu privátního propojení, měl by plně kvalifikovaný název domény končit azurehdinsight.net bez počátečního názvu privátního propojení v názvu domény při vytváření privátního koncového bodu. Pokud v názvu domény používáte privatelink, ujistěte se, že je platný a můžete ho přeložit.

Omezení přístupu ve spravované virtuální síti s privátními koncovými body

Nemůžete získat přístup k jednotlivým prostředkům PaaS, když jsou obě strany vystavené službě Private Link a privátnímu koncovému bodu. Tento problém je známým omezením privátních koncových bodů služby Private Link a privátních koncových bodů.

Máte například spravovaný privátní koncový bod pro účet úložiště A. K účtu úložiště B můžete přistupovat také přes veřejnou síť ve stejné spravované virtuální síti. Pokud má ale účet úložiště B připojení privátního koncového bodu z jiné spravované virtuální sítě nebo zákaznické virtuální sítě, nemůžete získat přístup k účtu úložiště B ve spravované virtuální síti prostřednictvím veřejné sítě.

Projděte si tyto kurzy: