Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
VZTAHUJE SE NA:
Azure Data Factory
Azure Synapse Analytics
Tip
Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.
Important
Podpora azure Machine Learning Studio (classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning.
Od 1. prosince 2021 nemůžete vytvářet nové prostředky Machine Learning Studio (klasické) jako pracovní prostor a plán webových služeb. Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace najdete tady:
Machine Learning Studio (klasická) dokumentace se vyřadí z provozu a v budoucnu se nemusí aktualizovat.
Tento článek vysvětluje různá výpočetní prostředí, která můžete použít ke zpracování nebo transformaci dat. Poskytuje také podrobnosti o různých konfiguracích (na vyžádání vs. přineste si vlastní), které jsou podporovány při konfiguraci propojených služeb pro připojení těchto výpočetních prostředí.
Následující tabulka obsahuje seznam podporovaných výpočetních prostředí a aktivit, které na nich můžou běžet.
Výpočetní prostředí HDInsight
Podrobnosti o podporovaných typech propojených služeb pro úložiště určených ke konfiguraci v prostředích On-demand a BYOC (Bring your own compute) najdete v následující tabulce.
| Ve službě propojené s výpočetními prostředky | Název vlastnosti | Description | Blob | ADLS Gen2 | Azure SQL DB | ADLS Gen1 |
|---|---|---|---|---|---|---|
| On-demand | linkedServiceName | Azure Storage propojená služba, kterou bude na vyžádání používat cluster k ukládání a zpracování dat. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Určuje další storage účty pro propojenou službu HDInsight, aby je služba mohl zaregistrovat vaším jménem. | Yes | No | No | No | |
| hcatalogLinkedServiceName | Název propojené služby Azure SQL, která odkazuje na databázi HCatalog. Cluster HDInsight na vyžádání se vytvoří pomocí Azure SQL databáze jako metastoru. | No | No | Yes | No | |
| BYOC | linkedServiceName | Odkaz na propojenou službu Azure Storage. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Určuje další storage účty pro propojenou službu HDInsight, aby je služba mohl zaregistrovat vaším jménem. | No | No | No | No | |
| hcatalogLinkedServiceName | Odkaz na propojenou službu Azure SQL, která odkazuje na databázi HCatalog. | No | No | No | No |
Azure HDInsight propojená služba na vyžádání
V tomto typu konfigurace je výpočetní prostředí plně spravované službou. Služba ji automaticky vytvoří před odesláním úlohy ke zpracování dat a odebrání po dokončení úlohy. Můžete vytvořit propojenou službu pro výpočetní prostředí na vyžádání, nakonfigurovat ji a řídit podrobná nastavení spouštění úloh, správy clusteru a spouštěcích akcí.
Note
Konfigurace na vyžádání se v současné době podporuje jenom pro clustery Azure HDInsight. Azure Databricks také podporuje úlohy na vyžádání pomocí clusterů úloh. Další informace najdete v tématu propojená služba Azure Databricks.
Služba může automaticky vytvořit cluster HDInsight na vyžádání pro zpracování dat. Cluster se vytvoří ve stejné oblasti jako účet storage (vlastnost linkedServiceName ve formátu JSON) přidružený ke clusteru. Účet úložiště must být standardním účtem Azure Storage pro obecné účely.
Všimněte si následujících důležitých bodů týkající se propojené služby HDInsight na vyžádání:
- Cluster HDInsight na vyžádání se vytvoří v rámci vašeho předplatného Azure. Cluster uvidíte na portálu Azure, když je cluster spuštěný.
- Protokoly úloh spuštěných na HDInsight clusteru na vyžádání se zkopírují do účtu úložiště, který je přidružen ke clusteru HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword definovaný v definici propojené služby se používají k přihlášení ke clusteru pro podrobné řešení potíží během životního cyklu clusteru.
- Účtuje se vám pouze čas, kdy je cluster HDInsight spuštěn a běží úlohy.
- Pomocí propojené služby Azure HDInsight na vyžádání můžete použít skriptové akce.
Important
Zřízení clusteru Azure HDInsight na vyžádání obvykle trvá 20 minut nebo více.
Příklad použití klíče objektu služby
Následující JSON definuje propojenou službu HDInsight založenou na linuxu. Služba automaticky vytvoří cluster HDInsight se systémem Linux , který zpracuje požadovanou aktivitu.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "ServicePrincipalKey",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad použití spravované identity přiřazené systémem
Následující JSON definuje propojenou službu HDInsight založenou na linuxu. Služba automaticky vytvoří cluster HDInsight se systémem Linux , který zpracuje požadovanou aktivitu.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad použití spravované identity přiřazené uživatelem
Následující JSON definuje propojenou službu HDInsight založenou na linuxu. Služba automaticky vytvoří cluster HDInsight se systémem Linux , který zpracuje požadovanou aktivitu.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Important
Cluster HDInsight vytvoří default kontejner v blob storage, který jste zadali ve formátu JSON (linkedServiceName). HdInsight tento kontejner při odstranění clusteru neodstraní. Toto chování je záměrné. S propojenou službou HDInsight na vyžádání se cluster HDInsight vytvoří pokaždé, když je potřeba zpracovat řez, pokud neexistuje existující živý cluster (timeToLive) a po dokončení zpracování se odstraní.
Jakmile se spustí více aktivit, uvidíte mnoho kontejnerů ve svém Azure blob úložišti. Pokud je nepotřebujete pro řešení potíží s úlohami, můžete je odstranit, abyste snížili náklady na storage. Názvy těchto kontejnerů se řídí vzorem: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Pomocí nástrojů, jako je Microsoft Azure Storage Explorer, odstraňte kontejnery v úložišti objektů blob Azure.
Properties
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu by měla být nastavena na HDInsightOnDemand. | Yes |
| clusterSize | Počet pracovních a datových uzlů v clusteru Cluster HDInsight je vytvořen se 2 hlavními uzly a s počtem pracovních uzlů, který zadáte jako parametr této vlastnosti. Uzly mají velikost Standard_D3, které mají 4 jádra, takže cluster 4 pracovních uzlů má 24 jader (4*4 = 16 jader pro pracovní uzly, plus 2*4 = 8 jader pro hlavní uzly). Podrobnosti najdete v tématu Nastavení clusterů v HDInsight s Hadoopem, Sparkem, Kafkou a dalšími. | Yes |
| linkedServiceName | Azure Storage propojená služba, kterou bude na vyžádání používat cluster k ukládání a zpracování dat. Cluster HDInsight se vytvoří ve stejné oblasti jako tento účet Azure Storage. Azure HDInsight má omezení celkového počtu jader, která můžete použít v každé Azure oblasti, kterou podporuje. Ujistěte se, že v této Azure oblasti máte dostatek kvót jader, aby se splnily požadované clustery. Podrobnosti najdete v tématu Nastavení clusterů ve službě HDInsight s Hadoopem, Sparkem, Kafka a dalšími funkcemi. V současné době nemůžete vytvořit cluster HDInsight na vyžádání, který jako úložiště používá Azure Data Lake Storage (Gen 2). Pokud chcete uložit výsledná data ze zpracování HDInsight v Azure Data Lake Storage (Gen 2), pomocí aktivity kopírování zkopírujte data z Azure Blob Storage do Azure Data Lake Storage (Gen 2). |
Yes |
| clusterResourceGroup | Cluster HDInsight je vytvořen v této skupině prostředků. | Yes |
| TypAutentizaceSkupinyZdrojuClusteru | Zadejte typ ověřování pro skupinu prostředků na vyžádání clusteru HDInsight. Podporované typy ověřování jsou ServicePrincipalKey, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. | Vyžaduje se pro použití ověřování spravované identity. Pokud tam pole není, použije se výchozí hodnota ServicePrincipalKey. |
| přihlašovací údaje | Zadejte odkaz na přihlašovací údaje obsahující objekt spravované identity, který má přístup ke skupině prostředků. | Vyžaduje se pouze pro ověřování UserAssignedManagedIdentity. |
| timetolive | Povolený čas nečinnosti pro cluster na vyžádání HDInsight Určuje, jak dlouho cluster HDInsight na vyžádání zůstane v provozu po dokončení aktivity, pokud v clusteru nejsou žádné další aktivní úlohy. Minimální povolená hodnota je 5 minut (00:05:00). Pokud například spuštění aktivity trvá 6 minut a časový limit je nastavený na 5 minut, cluster zůstane aktivní po dobu 5 minut po 6 minutách zpracování spuštění aktivity. Pokud se spustí jiné spuštění aktivity s intervalem 6 minut, zpracuje ho stejný cluster. Vytvoření clusteru HDInsight na vyžádání je náročná operace (může nějakou dobu trvat), takže toto nastavení použijte podle potřeby ke zlepšení výkonu služby opětovným použitím clusteru HDInsight na vyžádání. Pokud nastavíte hodnotu časového limitu na hodnotu 0, cluster se odstraní, jakmile se aktivita dokončí. Vzhledem k tomu, že pokud nastavíte vysokou hodnotu, může cluster zůstat nečinný, abyste se mohli přihlásit k určitému účelu řešení potíží, ale mohlo by to vést k vysokým nákladům. Proto je důležité nastavit odpovídající hodnotu na základě vašich potřeb. Pokud je hodnota vlastnosti timetolive správně nastavena, může více pipelines sdílet instanci clusteru HDInsight na vyžádání. |
Yes |
| clusterType | Typ clusteru HDInsight, který se má vytvořit. Povolené hodnoty jsou hadoop a Spark. Pokud není zadána, výchozí hodnota je hadoop. Cluster s povoleným Enterprise Security Paket nelze vytvořit dle požadavku, místo toho použijte existující cluster nebo přinést vlastní výpočetní prostředky. | No |
| verze | Verze clusteru HDInsight Pokud není zadaný, používá aktuální výchozí verzi služby HDInsight. | No |
| hostSubscriptionId | ID Azure předplatného použité k vytvoření clusteru HDInsight. Pokud není zadaný, použije ID předplatného vašeho Azure přihlašovacího kontextu. | No |
| clusterNamePrefix | Předpona názvu clusteru HDI, časové razítko se automaticky připojí na konec názvu clusteru. | No |
| sparkVersion | Verze Sparku, pokud je typ clusteru Spark | No |
| additionalLinkedServiceNames | Určuje další storage účty pro propojenou službu HDInsight, aby je služba mohl zaregistrovat vaším jménem. Tyto úložiště musí být ve stejné oblasti jako cluster HDInsight, který se vytvoří ve stejné oblasti jako úložiště specifikované linkedServiceName. | No |
| osType | Typ operačního systému. Povolené hodnoty jsou: Linux a Windows (pouze pro HDInsight 3.3). Výchozí hodnota je Linux. | No |
| hcatalogLinkedServiceName | Název propojené služby Azure SQL, která odkazuje na databázi HCatalog. Cluster HDInsight na vyžádání se vytvoří pomocí Azure SQL Database jako metastoru. | No |
| connectVia | Integration Runtime, která se má použít k odeslání aktivit do této propojené služby HDInsight. Pro propojenou službu HDInsight dostupnou na vyžádání podporuje pouze Azure Integration Runtime. Pokud není zadaný, použije výchozí Azure Integration Runtime. | No |
| clusterUserName | Uživatelské jméno pro přístup ke clusteru. | No |
| clusterPassword | Heslo ve formě zabezpečeného řetězce pro přístup ke clusteru. | No |
| clusterSshUserName | Uživatelské jméno ke vzdálenému připojení SSH k uzlu clusteru (pro Linux). | No |
| clusterSshPassword | Heslo typu zabezpečeného řetězce pro vzdálené připojení uzlu clusteru s protokolem SSH (pro Linux). | No |
| scriptActions | Zadejte skript pro přizpůsobení clusteru HDInsight během vytváření clusteru na vyžádání. Nástroj pro vytváření uživatelského rozhraní v současné době podporuje zadávání pouze 1 akce skriptu, ale toto omezení můžete provést ve formátu JSON (zadat více akcí skriptů ve formátu JSON). |
No |
Important
HDInsight podporuje více verzí clusteru Hadoop, které je možné nasadit. Každá volba verze vytvoří konkrétní verzi distribuce Hortonworks Data Platform (HDP) a sadu komponent obsažených v dané distribuci. Seznam podporovaných verzí HDInsight se neustále aktualizuje, aby poskytoval nejnovější součásti ekosystému Hadoop a opravy. Ujistěte se, že vždy odkazujete na nejnovější informace o podporované verzi HDInsight a typu operačního systému , abyste měli jistotu, že používáte podporovanou verzi SLUŽBY HDInsight.
Important
Propojené služby HDInsight v současné době nepodporují HBase, Interactive Query (Hive LLAP), Storm.
- Příklad JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Autentizace
Ověřování servisního principála
Propojená služba HDInsight na vyžádání vyžaduje ověření služebního objektu pro vytvoření clusterů HDInsight ve vašem zastoupení. Pokud chcete použít autentizaci služebního principálu, zaregistrujte aplikaci v Microsoft Entra ID a přiřaďte jí roli Contributor v rámci předplatného nebo skupiny prostředků, kde je cluster HDInsight vytvořen. Podrobný postup najdete v tématu Použití portálu k vytvoření aplikace Microsoft Entra a služebního principála, který může přistupovat k prostředkům. Poznamenejte si následující hodnoty, které slouží k definování propojené služby:
- Identifikátor aplikace
- Klíč aplikace
- Identifikátor nájemce
Ověřování službového principálu použijte zadáním následujících vlastností:
| Property | Description | Required |
|---|---|---|
| servicePrincipalId | Zadejte ID klienta aplikace. | Yes |
| servicePrincipalKey | Zadejte klíč aplikace. | Yes |
| tenant | Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. | Yes |
Ověřování spravované identity
Při použití ověřování spravované identity pro propojené služby Azure HDInsight na vyžádání se ujistěte, že má objekt spravované identity přístup k roli Contributor ve skupině prostředků.
Primární účty ADLS Gen2 storage teď kromě stávajícího ověřování založeného na klíčích podporují ověřování na základě uživatelem přiřazené spravované identity (UAMI). UAMI musí mít oprávnění vlastníka dat Storage Blob na hlavním účtu úložiště.
Omezení:
- Účet úložiště ADLS Gen2 a UAMI musí být ve stejné skupině prostředků jako skupina prostředků použitá k vytvoření clusteru HDInsight na vyžádání.
- Název objektu přihlašovacích údajů pro UAMI ve službě Data Factory musí přesně odpovídat názvu UAMI.
Další informace najdete v tématu Vytvoření Azure HDInsight – Azure Data Lake Storage Gen2 – portál a Spravované identity v Azure HDInsight
Pokročilé vlastnosti
Můžete také zadat následující vlastnosti podrobné konfigurace clusteru HDInsight na vyžádání.
| Property | Description | Required |
|---|---|---|
| coreConfiguration | Určuje základní konfigurační parametry (jako v core-site.xml) pro vytvoření clusteru HDInsight. | No |
| hBaseConfiguration | Určuje parametry konfigurace HBase (hbase-site.xml) pro cluster HDInsight. | No |
| hdfsConfiguration | Určuje parametry konfigurace HDFS (hdfs-site.xml) pro cluster HDInsight. | No |
| hiveConfiguration | Určuje parametry konfigurace hive (hive-site.xml) pro cluster HDInsight. | No |
| mapReduceConfiguration | Určuje parametry konfigurace MapReduce (mapred-site.xml) pro cluster HDInsight. | No |
| oozieConfiguration | Určuje parametry konfigurace Oozie (oozie-site.xml) pro cluster HDInsight. | No |
| stormConfiguration | Určuje parametry konfigurace Stormu (storm-site.xml) pro cluster HDInsight. | No |
| yarnConfiguration | Určuje parametry konfigurace Yarn (yarn-site.xml) pro cluster HDInsight. | No |
- Příklad – Konfigurace clusteru HDInsight na vyžádání s pokročilými vlastnostmi
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Velikosti uzlů
Velikost uzlů head, data a zookeeper můžete zadat pomocí následujících vlastností:
| Property | Description | Required |
|---|---|---|
| headNodeSize | Určuje velikost hlavního uzlu. Výchozí hodnota je: Standard_D3. Podrobnosti najdete v části Určení velikostí uzlů . | No |
| dataNodeSize | Určuje velikost datového uzlu. Výchozí hodnota je: Standard_D3. | No |
| zookeeperNodeSize | Určuje velikost uzlu Zoo Keeper. Výchozí hodnota je: Standard_D3. | No |
- Specifikace velikostí uzlů Podívejte se na článek Velikosti virtuálních počítačů pro řetězcové hodnoty, které musíte zadat pro vlastnosti uvedené v předchozí části. Hodnoty musí odpovídat CMDLETs a APIS , na které odkazuje článek. Jak vidíte v článku, datový uzel velké (výchozí) velikosti má 7 GB paměti, což nemusí být pro váš scénář dostatečné.
Pokud chcete vytvořit hlavní uzly a pracovní uzly velikosti D4, zadejte Standard_D4 jako hodnotu vlastností headNodeSize a dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Pokud pro tyto vlastnosti zadáte nesprávnou hodnotu, může se zobrazit následující chyba: Vytvoření clusteru se nezdařilo. Výjimka: Operaci vytvoření clusteru nelze dokončit. Operace selhala s kódem 400. Cluster skončil ve stavu: Chyba. Zpráva: PreClusterCreationValidationFailure. Pokud se zobrazí tato chyba, ujistěte se, že používáte název
Přineste si své vlastní výpočetní prostředí
V tomto typu konfigurace můžou uživatelé zaregistrovat již existující výpočetní prostředí jako propojenou službu. Výpočetní prostředí spravuje uživatel a služba ho používá k provádění aktivit.
Tento typ konfigurace je podporován pro následující výpočetní prostředí:
- Azure HDInsight
- Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Azure SQL DB, Azure Synapse Analytics, SQL Server
propojená služba Azure HDInsight
Můžete vytvořit Azure HDInsight propojenou službu pro registraci vlastního clusteru HDInsight v datové továrně nebo pracovním prostoru Synapse.
Příklad použití základního ověřování
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad použití spravované identity přiřazené systémem
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "SystemAssignedManagedIdentity",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad použití spravované identity přiřazené uživatelem
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu by měla být nastavena na HDInsight. | Yes |
| clusterUri | Identifikátor URI clusteru HDInsight. | Yes |
| uživatelské jméno | Zadejte jméno uživatele, který se má použít pro připojení k existujícímu clusteru HDInsight. | Yes |
| heslo | Zadejte heslo pro uživatelský účet. | Yes |
| linkedServiceName | Název propojené služby Azure Storage, která odkazuje na úložiště objektů blob Azure používané clusterem HDInsight. V současné době nelze pro tuto vlastnost zadat propojenou službu Azure Data Lake Storage (Gen 2). Pokud má cluster HDInsight přístup ke službě Data Lake Store, můžete přistupovat k datům ve skriptech Hive/Pig v Azure Data Lake Storage (Gen 2). |
Yes |
| isEspEnabled | Zadejte true, pokud je cluster HDInsight povolený balíčkem zabezpečení podniku . Výchozí hodnota je false. | No |
| connectVia | Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. Pro cluster HDInsight s podporou balíčku zabezpečení podniku (ESP) použijte místní prostředí Integration Runtime, které má přehled o clusteru nebo by se mělo nasadit ve stejném Virtual Network jako cluster ESP HDInsight. |
No |
| typ ověřování clusteru | Zadejte typ ověřování clusteru HDInsight. Podporované typy ověřování jsou BasicAuth, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. | Vyžaduje se pro použití ověřování spravované identity. Pokud pole neexistuje, použije se výchozí hodnota BasicAuth. |
| přihlašovací údaje | Zadejte odkaz na přihlašovací údaje obsahující informace o objektu spravované identity pro cluster HDInsight. | Vyžaduje se pouze pro autentizaci UserAssignedManagedIdentity. |
Autentizace
Propojená služba Azure Storage pro ADLS Gen2 teď kromě stávajících metod ověřování podporuje spravované identity přiřazené systémem a přiřazené uživatelem. Tato podpora je ve výchozím nastavení dostupná při použití Azure Integration Runtime (Azure IR) a je podporovaná v místním prostředí Integration Runtime (SHIR) od verze 5.55.9306.2 nebo novější. U Azure Blob Storage nadále podporuje propojená služba Azure Storage pouze ověřování pomocí klíče účtu. Ověřování spravovaných identit clusteru je teď také ve výchozím nastavení dostupné při použití Azure IR a podporované v prostředí SHIR počínaje verzí 5.58 nebo novější. Při vytváření clusteru lze pro každý cluster použít pouze jednu metodu ověřování. Podrobnosti o vytváření a správě clusterů pomocí spravované identity najdete v tématu Vytvoření a správa clusteru Azure HDInsight s ověřováním Entra ID
Important
HDInsight podporuje více verzí clusteru Hadoop, které je možné nasadit. Každá volba verze vytvoří konkrétní verzi distribuce Hortonworks Data Platform (HDP) a sadu komponent obsažených v dané distribuci. Seznam podporovaných verzí HDInsight se neustále aktualizuje, aby poskytoval nejnovější součásti ekosystému Hadoop a opravy. Ujistěte se, že vždy odkazujete na nejnovější informace o podporované verzi HDInsight a typu operačního systému , abyste měli jistotu, že používáte podporovanou verzi SLUŽBY HDInsight.
Important
Propojené služby HDInsight v současné době nepodporují HBase, Interactive Query (Hive LLAP), Storm.
propojená služba Azure Batch
Note
K interakci s Azure doporučujeme použít modul Azure Az PowerShell. Pokud chcete začít, přečtěte si téma Install Azure PowerShell. Informace o migraci do modulu Az PowerShell najdete v tématu Migrace Azure PowerShell z AzureRM do Az.
Můžete vytvořit propojenou službu Azure Batch pro registraci skupiny virtuálních počítačů v Batch do datového nebo Synapse pracovního prostoru. Vlastní aktivitu můžete spustit pomocí Azure Batch.
Pokud s Azure Batch službou začínáte, přečtěte si následující články:
- Základy služby Azure Batch pro přehled služby Azure Batch.
- New-AzBatchAccount k vytvoření účtu Azure Batch, nebo Azure portál k vytvoření účtu Azure Batch prostřednictvím Azure portálu. Podrobné pokyny k používání cmdletu najdete v článku Použití PowerShell ke správě účtu Azure Batch.
- New-AzBatchPool příkaz k vytvoření fondu Azure Batch.
Important
Při vytváření nového fondu Azure Batch se musí použít VirtualMachineConfiguration a NE CloudServiceConfiguration.
Example
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu by měla být nastavena na AzureBatch. | Yes |
| accountName | Název účtu Azure Batch. | Yes |
| accessKey | Přístupový klíč pro účet Azure Batch. | Yes |
| batchUri | Adresa URL vašeho účtu Azure Batch ve formátu https://batchaccountname.region.batch.azure.com. | Yes |
| poolName | Název fondu virtuálních počítačů. | Yes |
| linkedServiceName | Název propojené služby Azure Storage přidružené k této Azure Batch propojené službě. Tato propojená služba se používá pro přípravné soubory potřebné ke spuštění aktivity. | Yes |
| connectVia | Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. | No |
propojená služba Machine Learning Studio (classic)
Important
Podpora azure Machine Learning Studio (classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning.
Od 1. prosince 2021 nemůžete vytvářet nové prostředky Machine Learning Studio (klasické) jako pracovní prostor a plán webových služeb. Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace najdete tady:
Machine Learning Studio (klasická) dokumentace se vyřadí z provozu a v budoucnu se nemusí aktualizovat.
Vytvoříte propojenou službu Machine Learning Studio (Classic) pro registraci koncového bodu dávkového vyhodnocování Machine Learning Studio (classic) do datové továrny nebo pracovního prostoru Synapse.
Example
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Typ | Vlastnost typu by měla být nastavená na: AzureML. | Yes |
| mlEndpoint | Adresa URL pro dávkové vyhodnocení. | Yes |
| apiKey | Rozhraní API publikovaného modelu pracovního prostoru. | Yes |
| updateResourceEndpoint | Adresa URL prostředku aktualizace pro koncový bod webové služby ML Studio (Classic) sloužící k aktualizaci prediktivní webové služby pomocí vytrénovaného souboru modelu | No |
| servicePrincipalId | Zadejte ID klienta aplikace. | Požadováno, pokud je zadán parametr updateResourceEndpoint. |
| servicePrincipalKey | Zadejte klíč aplikace. | Požadováno, pokud je zadán parametr updateResourceEndpoint. |
| klient | Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. | Požadováno, pokud je zadán parametr updateResourceEndpoint. |
| connectVia | Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. | No |
propojená služba Azure Machine Learning
Vytvoříte Azure Machine Learning propojenou službu pro připojení pracovního prostoru Azure Machine Learning k datové továrně nebo pracovnímu prostoru Synapse.
Note
V současné době se pro propojenou službu Azure Machine Learning podporuje pouze ověřování pomocí objektu služby.
Example
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Typ | Vlastnost typu by měla být nastavená na: AzureMLService. | Yes |
| subscriptionId | ID předplatného Azure | Yes |
| resourceGroupName | name | Yes |
| mlWorkspaceName | název pracovního prostoru Azure Machine Learning | Yes |
| servicePrincipalId | Zadejte ID klienta aplikace. | Yes |
| servicePrincipalKey | Zadejte klíč aplikace. | Yes |
| klient | Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. | Požadováno, pokud je zadán parametr updateResourceEndpoint. |
| connectVia | Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. | No |
propojená služba Azure Data Lake Analytics
Vytvoříte propojenou službu Azure Data Lake Analytics, která propojí výpočetní službu Azure Data Lake Analytics s pracovním prostorem datové továrny nebo Synapse. Analytická aktivita Data Lake U-SQL v datovém toku odkazuje na tuto propojenou službu.
Example
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu by měla být nastavena na: AzureDataLakeAnalytics. | Yes |
| accountName | Azure Data Lake Analytics název účtu. | Yes |
| dataLakeAnalyticsUri | Azure Data Lake Analytics identifikátor URI. | No |
| subscriptionId | ID předplatného Azure | No |
| resourceGroupName | název skupiny prostředků Azure | No |
| servicePrincipalId | Zadejte ID klienta aplikace. | Yes |
| servicePrincipalKey | Zadejte klíč aplikace. | Yes |
| klient | Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. | Yes |
| connectVia | Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. | No |
Azure Databricks propojená služba
Můžete vytvořit Azure Databricks propojenou službu a zaregistrovat pracovní prostor Databricks, který používáte ke spuštění úloh Databricks (poznámkový blok, jar, python).
Important
Služby propojené s Databricks podporují fondy instancí a autentizaci spravované identity, která je přiřazena systémem.
Příklad – Použití nového clusteru úloh v Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Příklad – Použití existujícího interaktivního clusteru v Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Název propojené služby | Yes |
| typ | Vlastnost typu by měla být nastavena na: Azure Databricks. | Yes |
| doména | Podle oblasti pracovního prostoru Databricks zadejte odpovídající oblast Azure. Příklad: https://eastus.azuredatabricks.net | Yes |
| accessToken | Přístupový token se vyžaduje, aby se služba ověřila pro Azure Databricks. Access token je potřeba vygenerovat z pracovního prostoru Databricks. Podrobnější postup vyhledání tokenu access najdete | No |
| MSI | Použijte spravovanou identitu služby (přiřazenou systémem) k ověření v Azure Databricks. Při použití ověřování MSI nepotřebujete Access token. Další podrobnosti o ověřování spravovaných identit najdete | No |
| existingClusterId | ID existujícího clusteru pro spuštění všech úloh na tomto clusteru. Mělo by se jednat o již vytvořený interaktivní cluster. Pokud cluster přestane reagovat, budete možná muset cluster restartovat ručně. Databricks navrhuje spouštění úloh v nových clusterech pro větší spolehlivost. ID clusteru interaktivního clusteru najdete v pracovním prostoru Databricks –> Clustery –> Název interaktivního clusteru –> Konfigurace –> Značky. Další podrobnosti | No |
| instancePoolId | ID poolu instancí existujícího poolu v pracovním prostoru Databricks | No |
| newClusterVersion | Verze clusteru Sparku. Vytvoří cluster úloh v Databricks. | No |
| newClusterNumOfWorker | Počet pracovních jednotek, které by tento cluster měl mít. Cluster má jeden ovladač Sparku a num_workers Exekutory pro celkem num_workers + 1 uzly Spark. Řetězec formátovaný v int32, například "1", znamená, že numOfWorker je 1 nebo "1:10" znamená automatické škálování od 1 do min a 10 jako maximum. | No |
| newClusterNodeType | Toto pole kóduje prostředky dostupné pro každý z uzlů Sparku v tomto clusteru prostřednictvím jedné hodnoty. Například uzly Spark mohou být nakonfigurovány a optimalizovány pro pracovní zátěže náročné na paměť nebo výpočetní výkon. Toto pole se vyžaduje pro nový cluster. | No |
| newClusterSparkConf | sada volitelných, uživatelem specifikovaných párů klíč-hodnota pro konfiguraci Spark. Uživatelé mohou také předat řetězec dalších možností JVM ovladači a exekutorům prostřednictvím spark.driver.extraJavaOptions a spark.executor.extraJavaOptions. | No |
| newClusterInitScripts | sada volitelných uživatelsky definovaných inicializačních skriptů pro nový cluster. Inicializační skripty můžete zadat v souborech pracovního prostoru (doporučeno) nebo prostřednictvím cesty DBFS (starší verze). | No |
Azure SQL Database propojená služba
Vytvoříte propojenou službu Azure SQL a použijete ji s aktivitou Storovaná procedura k vyvolání uložené procedury z kanálu. Podrobnosti o této propojené službě najdete v článku Azure SQL Connector.
propojená služba Azure Synapse Analytics
Vytvoříte propojenou službu Azure Synapse Analytics a použijete ji s aktivitou Aktivita uložené procedury k vyvolání uložené procedury z datového kanálu. Podrobnosti o této propojené službě najdete v článku Azure Synapse Analytics Connector.
propojená služba SQL Server
Vytvoříte propojenou službu SQL Server a použijete ji s aktivitou Stored Procedure k vyvolání uložené procedury z kanálu. Podrobnosti o této propojené službě najdete v článku SQL Server connector.
Propojená služba Azure Synapse Analytics (Artefakty)
Vytvoříte propojenou službu Azure Synapse Analytics (Artifacts) a použijete ji s aktivitou Synapse Notebook a Synapse Spark job definition Activity.
Example
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Název propojené služby | Yes |
| description | popis propojené služby | No |
| annotations | poznámky k propojené službě | No |
| typ | Vlastnost typu by měla být nastavená na AzureSynapseArtifacts. | Yes |
| koncový bod | URL adresa služby Azure Synapse Analytics | Yes |
| ověřování | Výchozí nastavení je spravovaná identita přiřazená systémem. | Yes |
| workspaceResourceId | Identifikátor prostředku pracovního prostoru | Yes |
| connectVia | Integration runtime, která se má použít pro připojení k úložišti dat. Můžete použít Azure Integration Runtime. Pokud není zadaný, použije výchozí Azure Integration Runtime. Samohostovaný integration runtime není v současné době podporován. | Yes |
propojená služba Azure Function
Vytvoříte propojenou službu Azure Function a použijete ji s aktivitou Azure Function ke spuštění Azure Functions v pipeline. Návratový typ funkce Azure musí být platný JObject. (Mějte na paměti, že JArrayneníJObject.) Jakýkoli jiný návratový typ než JObject selže a vyvolá chybu uživatelského obsahu Obsah odpovědi není platný JObject.
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu musí být nastavená na: AzureFunction. | yes |
| URL adresa funkční aplikace | Adresa URL aplikace funkcí Azure Formát je https://<accountname>.azurewebsites.net. Tato adresa URL je hodnota v části URL při prohlížení aplikace funkcí na portálu Azure. |
yes |
| funkční klávesa | Přístupový klíč pro funkci Azure. Klikněte na oddíl Správa příslušné funkce a zkopírujte klíč funkce nebo klíč hostitele. Další informace najdete tady: Práce s přístupovými klíči | yes |
Související obsah
Seznam podporovaných aktivit transformace najdete v tématu Transformace dat.