Azure Data Factory spravovaná virtuální síť

VZTAHUJE SE NA: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

Tento článek vysvětluje spravované virtuální sítě a spravované privátní koncové body v Azure Data Factory.

Spravovaná virtuální síť

Když vytvoříte prostředí Azure Integration Runtime ve spravované virtuální síti služby Data Factory, prostředí Integration Runtime se zřídí se spravovanou virtuální sítí. K zabezpečenému připojení k podporovaným úložištům dat používá privátní koncové body.

Vytvoření prostředí Integration Runtime ve spravované virtuální síti zajišťuje izolaci a zabezpečení procesu integrace dat.

Výhody používání spravované virtuální sítě:

  • Se spravovanou virtuální sítí můžete přesměrovat zátěž správy virtuální sítě do služby Data Factory. Pro prostředí Integration Runtime nemusíte vytvářet podsíť, která by nakonec mohla používat mnoho privátních IP adres z vaší virtuální sítě a vyžadovala by před plánováním síťové infrastruktury.
  • Hluboké Azure znalosti sítí se k bezpečné integraci dat nevyžadují. Místo toho je pro datové inženýry mnohem jednodušší začít se zabezpečeným ETL.
  • Spravovaná virtuální síť spolu se spravovanými privátními koncovými body chrání před exfiltrací dat.

Spravovaná virtuální síť se v současné době podporuje jenom ve stejné oblasti jako oblast služby Data Factory.

Poznámka:

Stávající globální prostředí pro integraci nelze změnit na prostředí ve virtuální síti spravované službou Data Factory, ani naopak.

Diagram znázorňující architekturu virtuální sítě spravovanou službou Data Factory

Spravované virtuální sítě ve vaší datové továrně můžete povolit dvěma způsoby:

  1. Povolte spravovanou virtuální síť během vytváření datové továrny.

Snímek obrazovky s povolením spravované virtuální sítě během vytváření datové továrny

  1. Povolení spravované virtuální sítě v prostředí Integration Runtime

Snímek obrazovky s povolením spravované virtuální sítě v prostředí Integration Runtime

Spravované privátní koncové body

Spravované privátní koncové body jsou privátní koncové body vytvořené ve spravované virtuální síti služby Data Factory, která vytváří privátní propojení s Azure prostředky. Data Factory spravuje tyto privátní koncové body za vás.

Data Factory podporuje privátní propojení. Privátní propojení Azure můžete použít k přístupu ke službám paaS (Azure platforma jako služba), jako jsou Azure Storage, Azure Cosmos DB a Azure Synapse Analytics.

Když používáte privátní propojení, provoz mezi úložišti dat a spravovanou virtuální sítí prochází zcela přes páteřní síť Microsoft. Private Link chrání před riziky exfiltrace dat. Privátní propojení s prostředkem vytvoříte vytvořením privátního koncového bodu.

Privátní koncový bod používá privátní IP adresu ve spravované virtuální síti k efektivnímu přenesení služby do ní. Privátní koncové body se mapují na konkrétní prostředek v Azure a ne na celou službu. Zákazníci mohou omezit možnosti připojení ke konkrétnímu prostředku schválenému jejich organizací. Další informace najdete v tématu Privátní propojení a privátní koncové body.

Poznámka:

Poskytovatel prostředků Microsoft.Network musí být zaregistrován ve vašem předplatném.

  1. Ujistěte se, že ve vaší datové továrně povolíte spravovanou virtuální síť.
  2. Vytvořte nový spravovaný privátní koncový bod ve správě centra.

Snímek obrazovky znázorňující nové spravované privátní koncové body

  1. Při vytváření spravovaného privátního koncového bodu ve službě Data Factory se vytvoří připojení privátního koncového bodu ve stavu Čeká na vyřízení . Zahájí se pracovní postup schválení. Vlastník prostředku privátního propojení zodpovídá za schválení nebo odmítnutí připojení.

Screenshot, která zobrazuje možnost Spravovat schválení na portálu Azure portal.

  1. Pokud vlastník připojení schválí, vytvoří se privátní propojení. Jinak se privátní propojení nenaváže. V obou případech se spravovaný privátní koncový bod aktualizuje o stav připojení.

Snímek obrazovky znázorňující schválení spravovaného privátního koncového bodu

Provoz do konkrétního prostředku privátního propojení může odesílat pouze spravovaný privátní koncový bod ve schváleném stavu.

Poznámka:

Vlastní DNS není ve spravované virtuální síti podporováno.

Poznámka:

Spravovaná virtuální síť i spravovaný privátní koncový bod jsou v rámci předplatného Microsoft.

Interaktivní vytváření obsahu

Možnosti interaktivního vytváření se používají pro funkce, jako je testovací připojení, seznam složek a seznam tabulek, získání schématu a náhled dat. Interaktivní vytváření můžete povolit při vytváření nebo úpravách prostředí Azure Integration Runtime, které je ve Azure Data Factory spravované virtuální síti. Back-endová služba předem přidělí výpočetní prostředky pro funkce interaktivního vytváření. V opačném případě se výpočetní prostředky přidělí při každém provedení interaktivní operace, což bude trvat déle. Hodnota TTL (Time to Live) pro interaktivní vytváření je ve výchozím nastavení 60 minut, což znamená, že se automaticky zakáže po 60 minutách poslední interaktivní operace vytváření. Hodnotu TTL můžete změnit podle vašich skutečných potřeb.

Snímek obrazovky znázorňující interaktivní vytváření

Čas života

aktivita Copy

Ve výchozím nastavení každá aktivita kopírování spouští nové výpočetní prostředky na základě konfigurace uvedené v aktivitě kopírování. Když je povolená spravovaná virtuální síť, počáteční doba studeného výpočetního prostředí trvá několik minut a přesun dat se nedá spustit, dokud se nedokončí. Pokud vaše kanály obsahují více sekvenčních aktivit kopírování nebo máte mnoho aktivit kopírování ve smyčce foreach a nemůžete je spustit všechny paralelně, můžete povolit hodnotu TTL (Time to Live) v konfiguraci prostředí Azure Integration Runtime. Když zadáte hodnotu TTL (Time to Live Value) a čísla DIU požadovaná pro aktivitu kopírování, zůstane odpovídající výpočetní funkce po určitou dobu po dokončení provádění aktivní. Pokud se nová aktivita kopírování spustí v době TTL, znovu použije stávající výpočetní prostředky a doba spuštění se výrazně sníží. Po dokončení druhé aktivity kopírování budou výpočty opět aktivní po dobu TTL. Máte možnost vybírat si z předem definovaných velikostí výpočetních prostředků v rozsahu od malých po střední až velké. Alternativně máte také možnost přizpůsobit velikost výpočetních prostředků na základě konkrétních požadavků a potřeb v reálném čase.

Poznámka:

Změna konfigurace čísla DIU neovlivní provádění aktuální aktivity kopírování.

Poznámka:

Měřítko 2 jednotek integrace dat (DIU) není podporováno pro Copy activity ve spravované virtuální síti.

DIU, kterou vyberete v TTL, se použije ke spuštění všech aktivit kopírování, velikost DIU se nebude automaticky škálovat podle skutečných potřeb. Takže si musíte vybrat dostatek DIU jednotek.

Upozornění

Výběr několika jednotek DIU pro spuštění mnoha aktivit způsobí, že ve frontě čeká mnoho aktivit, což vážně ovlivní celkový výkon.

Kanál a externí aktivita

Podobně jako u kopie máte možnost přizpůsobit velikost výpočetních prostředků a dobu trvání doby životnosti TTL podle vašich požadavků. Na rozdíl od kopie však vezměte prosím na vědomí, že proces a externí TTL nelze zakázat.

Poznámka:

Hodnota TTL (Time to Live) se vztahuje pouze na spravovanou virtuální síť.

Snímek obrazovky znázorňující konfiguraci hodnoty TTL

Následující tabulku můžete využít jako referenci k určení optimálního počtu uzlů pro provádění kanálů i externích aktivit.

Typ aktivity Kapacita
Aktivita kanálu Přibližně 50 na uzel
Aktivita skriptu a aktivita vyhledávání s SQL AlwaysEncrypted obvykle spotřebovávají více prostředků v porovnání s jinými aktivitami kanálu, přičemž navrhované číslo je přibližně 4 na uzel.
Externí aktivita Přibližně 800 na uzel

Porovnání různých hodnot TTL

Následující tabulka uvádí rozdíly mezi různými typy TTL:

Funkce Interaktivní vytváření obsahu Kopírování škálování výpočetních kapacit Škálování potrubí a externích výpočetních zdrojů
Kdy se má projevit Okamžitě po povolení Spuštění první aktivity Spuštění první aktivity
Je možné zakázat Y Y N
Rezervované výpočetní prostředky je možné konfigurovat N Y Y

Poznámka:

Hodnotu TTL nemůžete povolit ve výchozím automatickém řešení konfliktů Azure Integration Runtime. Můžete pro něj vytvořit nový modul Azure Integration Runtime.

Poznámka:

Při aktivaci škálování TTL pro kopírování, kanál nebo externí výpočet se fakturace určuje podle rezervovaných výpočetních prostředků. Výsledkem je, že výstup aktivity nezahrnuje billingReference, protože to je výhradně relevantní v nestandardních scénářích TTL.

Vytvoření spravované virtuální sítě prostřednictvím Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Poznámka:

ID skupiny jiných zdrojů dat můžete získat z prostředku soukromého propojení.

Poznámka:

Vlastnost referenceName by měla být nastavena pouze jako výchozí, pokud vytvoříte příkazem PowerShellu.

Odchozí připojení

Podporované zdroje dat a služby

Následující služby mají nativní podporu privátních koncových bodů. Můžou být připojené prostřednictvím privátního propojení ze spravované virtuální sítě služby Data Factory:

  • Azure Databricks
  • Azure Functions (plán Premium)
  • Azure Key Vault
  • Azure Machine Learning
  • Azure Private Link
  • Microsoft Purview

Informace o podpoře zdrojů dat najdete v přehledu konektorů. Přístup ke všem zdrojům dat podporovaným službou Data Factory můžete získat prostřednictvím veřejné sítě.

Místní zdroje dat

Informace o přístupu k místním zdrojům dat ze spravované virtuální sítě pomocí privátního koncového bodu najdete v tématu Přístup k místnímu serveru SQL ze spravované virtuální sítě Data Factory pomocí privátního koncového bodu.

Odchozí komunikace prostřednictvím veřejného koncového bodu ze spravované virtuální sítě služby Data Factory

Všechny porty jsou otevřeny pro odchozí komunikaci.

Omezení a známé problémy

Vytvoření propojené služby pro Key Vault

Při vytváření propojené služby pro Key Vault chybí reference na prostředí Integration Runtime. Během vytváření propojené služby Key Vault tedy nemůžete vytvářet privátní koncové body. Když ale vytvoříte propojenou službu pro úložiště dat, která odkazují na Key Vault, a tato propojená služba odkazuje na prostředí Integration Runtime s povolenou spravovanou virtuální sítí, můžete během vytváření vytvořit privátní koncový bod pro Key Vault.

  • Test connection: Tato operace pro propojenou službu Key Vault ověřuje pouze formát adresy URL, ale neprovádí žádnou síťovou operaci.
  • Using private endpoint: Tento sloupec se vždy zobrazuje jako prázdný, i když pro Key Vault vytvoříte privátní koncový bod.

Vytvoření propojené služby Azure HDInsight

Sloupec Použití privátního koncového bodu se vždy zobrazuje jako prázdný, i když vytvoříte privátní koncový bod pro HDInsight pomocí služby privátního propojení a nástroje pro vyrovnávání zatížení s předáváním portů.

Screenshot, který zobrazuje privátní koncový bod pro Key Vault.

Plně kvalifikovaný název domény (FQDN) Azure HDInsight

Pokud jste vytvořili vlastní službu privátního propojení, plně kvalifikovaný název domény by měl končit azurehdinsight.net bez předchozího privatelink v názvu domény při vytváření privátního koncového bodu. Pokud v názvu domény používáte privatelink, ujistěte se, že je platný a že jste schopni ho vyřešit.

Omezení přístupu ve spravované virtuální síti s privátními koncovými body

Nemůžete získat přístup k jednotlivým prostředkům PaaS, když jsou obě strany vystavené Private Link a privátnímu koncovému bodu. Tento problém představuje známé omezení Private Link a privátních koncových bodů.

Máte například spravovaný privátní koncový bod pro účet úložiště A. K účtu úložiště B můžete přistupovat také přes veřejnou síť ve stejné spravované virtuální síti. Pokud má ale účet úložiště B připojení privátního koncového bodu z jiné spravované virtuální sítě nebo zákaznické virtuální sítě, nemůžete získat přístup k účtu úložiště B ve spravované virtuální síti prostřednictvím veřejné sítě.

Projděte si tyto kurzy: