Výpočetní prostředí podporovaná kanály Azure Data Factory a Synapse

VZTAHUJE SE NA: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

Important

Podpora azure Machine Learning Studio (classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning.

Od 1. prosince 2021 nemůžete vytvářet nové prostředky Machine Learning Studio (klasické) jako pracovní prostor a plán webových služeb. Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace najdete tady:

Machine Learning Studio (klasická) dokumentace se vyřadí z provozu a v budoucnu se nemusí aktualizovat.

Tento článek vysvětluje různá výpočetní prostředí, která můžete použít ke zpracování nebo transformaci dat. Poskytuje také podrobnosti o různých konfiguracích (na vyžádání vs. přineste si vlastní), které jsou podporovány při konfiguraci propojených služeb pro připojení těchto výpočetních prostředí.

Následující tabulka obsahuje seznam podporovaných výpočetních prostředí a aktivit, které na nich můžou běžet.

Výpočetní prostředí Activities
Cluster HDInsight na vyžádání nebo vlastní cluster HDInsight Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Custom
ML Studio (classic) Aktivity nástroje ML Studio (klasické): Dávkové spouštění a aktualizace prostředku
Azure Machine Learning Azure Machine Learning Spustit Pipeline
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Uložená procedura
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (Artifacts) Aktivita poznámkového bloku Synapse, definice úlohy Synapse Spark
funkce Azure aktivita funkce Azure

Výpočetní prostředí HDInsight

Podrobnosti o podporovaných typech propojených služeb pro úložiště určených ke konfiguraci v prostředích On-demand a BYOC (Bring your own compute) najdete v následující tabulce.

Ve službě propojené s výpočetními prostředky Název vlastnosti Description Blob ADLS Gen2 Azure SQL DB ADLS Gen1
On-demand linkedServiceName Azure Storage propojená služba, kterou bude na vyžádání používat cluster k ukládání a zpracování dat. Yes Yes No No
additionalLinkedServiceNames Určuje další storage účty pro propojenou službu HDInsight, aby je služba mohl zaregistrovat vaším jménem. Yes No No No
hcatalogLinkedServiceName Název propojené služby Azure SQL, která odkazuje na databázi HCatalog. Cluster HDInsight na vyžádání se vytvoří pomocí Azure SQL databáze jako metastoru. No No Yes No
BYOC linkedServiceName Odkaz na propojenou službu Azure Storage. Yes Yes No No
additionalLinkedServiceNames Určuje další storage účty pro propojenou službu HDInsight, aby je služba mohl zaregistrovat vaším jménem. No No No No
hcatalogLinkedServiceName Odkaz na propojenou službu Azure SQL, která odkazuje na databázi HCatalog. No No No No

Azure HDInsight propojená služba na vyžádání

V tomto typu konfigurace je výpočetní prostředí plně spravované službou. Služba ji automaticky vytvoří před odesláním úlohy ke zpracování dat a odebrání po dokončení úlohy. Můžete vytvořit propojenou službu pro výpočetní prostředí na vyžádání, nakonfigurovat ji a řídit podrobná nastavení spouštění úloh, správy clusteru a spouštěcích akcí.

Note

Konfigurace na vyžádání se v současné době podporuje jenom pro clustery Azure HDInsight. Azure Databricks také podporuje úlohy na vyžádání pomocí clusterů úloh. Další informace najdete v tématu propojená služba Azure Databricks.

Služba může automaticky vytvořit cluster HDInsight na vyžádání pro zpracování dat. Cluster se vytvoří ve stejné oblasti jako účet storage (vlastnost linkedServiceName ve formátu JSON) přidružený ke clusteru. Účet úložiště must být standardním účtem Azure Storage pro obecné účely.

Všimněte si následujících důležitých bodů týkající se propojené služby HDInsight na vyžádání:

  • Cluster HDInsight na vyžádání se vytvoří v rámci vašeho předplatného Azure. Cluster uvidíte na portálu Azure, když je cluster spuštěný.
  • Protokoly úloh spuštěných na HDInsight clusteru na vyžádání se zkopírují do účtu úložiště, který je přidružen ke clusteru HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword definovaný v definici propojené služby se používají k přihlášení ke clusteru pro podrobné řešení potíží během životního cyklu clusteru.
  • Účtuje se vám pouze čas, kdy je cluster HDInsight spuštěn a běží úlohy.
  • Pomocí propojené služby Azure HDInsight na vyžádání můžete použít skriptové akce.

Important

Zřízení clusteru Azure HDInsight na vyžádání obvykle trvá 20 minut nebo více.

Příklad použití klíče objektu služby

Následující JSON definuje propojenou službu HDInsight založenou na linuxu. Služba automaticky vytvoří cluster HDInsight se systémem Linux , který zpracuje požadovanou aktivitu.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "ServicePrincipalKey",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Příklad použití spravované identity přiřazené systémem

Následující JSON definuje propojenou službu HDInsight založenou na linuxu. Služba automaticky vytvoří cluster HDInsight se systémem Linux , který zpracuje požadovanou aktivitu.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Příklad použití spravované identity přiřazené uživatelem

Následující JSON definuje propojenou službu HDInsight založenou na linuxu. Služba automaticky vytvoří cluster HDInsight se systémem Linux , který zpracuje požadovanou aktivitu.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
      "credential": {
            "referenceName": "CredentialName",
            "type": "CredentialReference"
       },
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Cluster HDInsight vytvoří default kontejner v blob storage, který jste zadali ve formátu JSON (linkedServiceName). HdInsight tento kontejner při odstranění clusteru neodstraní. Toto chování je záměrné. S propojenou službou HDInsight na vyžádání se cluster HDInsight vytvoří pokaždé, když je potřeba zpracovat řez, pokud neexistuje existující živý cluster (timeToLive) a po dokončení zpracování se odstraní.

Jakmile se spustí více aktivit, uvidíte mnoho kontejnerů ve svém Azure blob úložišti. Pokud je nepotřebujete pro řešení potíží s úlohami, můžete je odstranit, abyste snížili náklady na storage. Názvy těchto kontejnerů se řídí vzorem: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Pomocí nástrojů, jako je Microsoft Azure Storage Explorer, odstraňte kontejnery v úložišti objektů blob Azure.

Properties

Property Description Required
typ Vlastnost typu by měla být nastavena na HDInsightOnDemand. Yes
clusterSize Počet pracovních a datových uzlů v clusteru Cluster HDInsight je vytvořen se 2 hlavními uzly a s počtem pracovních uzlů, který zadáte jako parametr této vlastnosti. Uzly mají velikost Standard_D3, které mají 4 jádra, takže cluster 4 pracovních uzlů má 24 jader (4*4 = 16 jader pro pracovní uzly, plus 2*4 = 8 jader pro hlavní uzly). Podrobnosti najdete v tématu Nastavení clusterů v HDInsight s Hadoopem, Sparkem, Kafkou a dalšími. Yes
linkedServiceName Azure Storage propojená služba, kterou bude na vyžádání používat cluster k ukládání a zpracování dat. Cluster HDInsight se vytvoří ve stejné oblasti jako tento účet Azure Storage. Azure HDInsight má omezení celkového počtu jader, která můžete použít v každé Azure oblasti, kterou podporuje. Ujistěte se, že v této Azure oblasti máte dostatek kvót jader, aby se splnily požadované clustery. Podrobnosti najdete v tématu Nastavení clusterů ve službě HDInsight s Hadoopem, Sparkem, Kafka a dalšími funkcemi.

V současné době nemůžete vytvořit cluster HDInsight na vyžádání, který jako úložiště používá Azure Data Lake Storage (Gen 2). Pokud chcete uložit výsledná data ze zpracování HDInsight v Azure Data Lake Storage (Gen 2), pomocí aktivity kopírování zkopírujte data z Azure Blob Storage do Azure Data Lake Storage (Gen 2).

Yes
clusterResourceGroup Cluster HDInsight je vytvořen v této skupině prostředků. Yes
TypAutentizaceSkupinyZdrojuClusteru Zadejte typ ověřování pro skupinu prostředků na vyžádání clusteru HDInsight. Podporované typy ověřování jsou ServicePrincipalKey, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. Vyžaduje se pro použití ověřování spravované identity. Pokud tam pole není, použije se výchozí hodnota ServicePrincipalKey.
přihlašovací údaje Zadejte odkaz na přihlašovací údaje obsahující objekt spravované identity, který má přístup ke skupině prostředků. Vyžaduje se pouze pro ověřování UserAssignedManagedIdentity.
timetolive Povolený čas nečinnosti pro cluster na vyžádání HDInsight Určuje, jak dlouho cluster HDInsight na vyžádání zůstane v provozu po dokončení aktivity, pokud v clusteru nejsou žádné další aktivní úlohy. Minimální povolená hodnota je 5 minut (00:05:00).

Pokud například spuštění aktivity trvá 6 minut a časový limit je nastavený na 5 minut, cluster zůstane aktivní po dobu 5 minut po 6 minutách zpracování spuštění aktivity. Pokud se spustí jiné spuštění aktivity s intervalem 6 minut, zpracuje ho stejný cluster.

Vytvoření clusteru HDInsight na vyžádání je náročná operace (může nějakou dobu trvat), takže toto nastavení použijte podle potřeby ke zlepšení výkonu služby opětovným použitím clusteru HDInsight na vyžádání.

Pokud nastavíte hodnotu časového limitu na hodnotu 0, cluster se odstraní, jakmile se aktivita dokončí. Vzhledem k tomu, že pokud nastavíte vysokou hodnotu, může cluster zůstat nečinný, abyste se mohli přihlásit k určitému účelu řešení potíží, ale mohlo by to vést k vysokým nákladům. Proto je důležité nastavit odpovídající hodnotu na základě vašich potřeb.

Pokud je hodnota vlastnosti timetolive správně nastavena, může více pipelines sdílet instanci clusteru HDInsight na vyžádání.
Yes
clusterType Typ clusteru HDInsight, který se má vytvořit. Povolené hodnoty jsou hadoop a Spark. Pokud není zadána, výchozí hodnota je hadoop. Cluster s povoleným Enterprise Security Paket nelze vytvořit dle požadavku, místo toho použijte existující cluster nebo přinést vlastní výpočetní prostředky. No
verze Verze clusteru HDInsight Pokud není zadaný, používá aktuální výchozí verzi služby HDInsight. No
hostSubscriptionId ID Azure předplatného použité k vytvoření clusteru HDInsight. Pokud není zadaný, použije ID předplatného vašeho Azure přihlašovacího kontextu. No
clusterNamePrefix Předpona názvu clusteru HDI, časové razítko se automaticky připojí na konec názvu clusteru. No
sparkVersion Verze Sparku, pokud je typ clusteru Spark No
additionalLinkedServiceNames Určuje další storage účty pro propojenou službu HDInsight, aby je služba mohl zaregistrovat vaším jménem. Tyto úložiště musí být ve stejné oblasti jako cluster HDInsight, který se vytvoří ve stejné oblasti jako úložiště specifikované linkedServiceName. No
osType Typ operačního systému. Povolené hodnoty jsou: Linux a Windows (pouze pro HDInsight 3.3). Výchozí hodnota je Linux. No
hcatalogLinkedServiceName Název propojené služby Azure SQL, která odkazuje na databázi HCatalog. Cluster HDInsight na vyžádání se vytvoří pomocí Azure SQL Database jako metastoru. No
connectVia Integration Runtime, která se má použít k odeslání aktivit do této propojené služby HDInsight. Pro propojenou službu HDInsight dostupnou na vyžádání podporuje pouze Azure Integration Runtime. Pokud není zadaný, použije výchozí Azure Integration Runtime. No
clusterUserName Uživatelské jméno pro přístup ke clusteru. No
clusterPassword Heslo ve formě zabezpečeného řetězce pro přístup ke clusteru. No
clusterSshUserName Uživatelské jméno ke vzdálenému připojení SSH k uzlu clusteru (pro Linux). No
clusterSshPassword Heslo typu zabezpečeného řetězce pro vzdálené připojení uzlu clusteru s protokolem SSH (pro Linux). No
scriptActions Zadejte skript pro přizpůsobení clusteru HDInsight během vytváření clusteru na vyžádání.
Nástroj pro vytváření uživatelského rozhraní v současné době podporuje zadávání pouze 1 akce skriptu, ale toto omezení můžete provést ve formátu JSON (zadat více akcí skriptů ve formátu JSON).
No

Important

HDInsight podporuje více verzí clusteru Hadoop, které je možné nasadit. Každá volba verze vytvoří konkrétní verzi distribuce Hortonworks Data Platform (HDP) a sadu komponent obsažených v dané distribuci. Seznam podporovaných verzí HDInsight se neustále aktualizuje, aby poskytoval nejnovější součásti ekosystému Hadoop a opravy. Ujistěte se, že vždy odkazujete na nejnovější informace o podporované verzi HDInsight a typu operačního systému , abyste měli jistotu, že používáte podporovanou verzi SLUŽBY HDInsight.

Important

Propojené služby HDInsight v současné době nepodporují HBase, Interactive Query (Hive LLAP), Storm.

  • Příklad JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Autentizace

Ověřování servisního principála

Propojená služba HDInsight na vyžádání vyžaduje ověření služebního objektu pro vytvoření clusterů HDInsight ve vašem zastoupení. Pokud chcete použít autentizaci služebního principálu, zaregistrujte aplikaci v Microsoft Entra ID a přiřaďte jí roli Contributor v rámci předplatného nebo skupiny prostředků, kde je cluster HDInsight vytvořen. Podrobný postup najdete v tématu Použití portálu k vytvoření aplikace Microsoft Entra a služebního principála, který může přistupovat k prostředkům. Poznamenejte si následující hodnoty, které slouží k definování propojené služby:

  • Identifikátor aplikace
  • Klíč aplikace
  • Identifikátor nájemce

Ověřování službového principálu použijte zadáním následujících vlastností:

Property Description Required
servicePrincipalId Zadejte ID klienta aplikace. Yes
servicePrincipalKey Zadejte klíč aplikace. Yes
tenant Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. Yes

Ověřování spravované identity

Při použití ověřování spravované identity pro propojené služby Azure HDInsight na vyžádání se ujistěte, že má objekt spravované identity přístup k roli Contributor ve skupině prostředků.

Primární účty ADLS Gen2 storage teď kromě stávajícího ověřování založeného na klíčích podporují ověřování na základě uživatelem přiřazené spravované identity (UAMI). UAMI musí mít oprávnění vlastníka dat Storage Blob na hlavním účtu úložiště.

Omezení:

  • Účet úložiště ADLS Gen2 a UAMI musí být ve stejné skupině prostředků jako skupina prostředků použitá k vytvoření clusteru HDInsight na vyžádání.
  • Název objektu přihlašovacích údajů pro UAMI ve službě Data Factory musí přesně odpovídat názvu UAMI.

Další informace najdete v tématu Vytvoření Azure HDInsight – Azure Data Lake Storage Gen2 – portál a Spravované identity v Azure HDInsight

Pokročilé vlastnosti

Můžete také zadat následující vlastnosti podrobné konfigurace clusteru HDInsight na vyžádání.

Property Description Required
coreConfiguration Určuje základní konfigurační parametry (jako v core-site.xml) pro vytvoření clusteru HDInsight. No
hBaseConfiguration Určuje parametry konfigurace HBase (hbase-site.xml) pro cluster HDInsight. No
hdfsConfiguration Určuje parametry konfigurace HDFS (hdfs-site.xml) pro cluster HDInsight. No
hiveConfiguration Určuje parametry konfigurace hive (hive-site.xml) pro cluster HDInsight. No
mapReduceConfiguration Určuje parametry konfigurace MapReduce (mapred-site.xml) pro cluster HDInsight. No
oozieConfiguration Určuje parametry konfigurace Oozie (oozie-site.xml) pro cluster HDInsight. No
stormConfiguration Určuje parametry konfigurace Stormu (storm-site.xml) pro cluster HDInsight. No
yarnConfiguration Určuje parametry konfigurace Yarn (yarn-site.xml) pro cluster HDInsight. No
  • Příklad – Konfigurace clusteru HDInsight na vyžádání s pokročilými vlastnostmi
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Velikosti uzlů

Velikost uzlů head, data a zookeeper můžete zadat pomocí následujících vlastností:

Property Description Required
headNodeSize Určuje velikost hlavního uzlu. Výchozí hodnota je: Standard_D3. Podrobnosti najdete v části Určení velikostí uzlů . No
dataNodeSize Určuje velikost datového uzlu. Výchozí hodnota je: Standard_D3. No
zookeeperNodeSize Určuje velikost uzlu Zoo Keeper. Výchozí hodnota je: Standard_D3. No
  • Specifikace velikostí uzlů Podívejte se na článek Velikosti virtuálních počítačů pro řetězcové hodnoty, které musíte zadat pro vlastnosti uvedené v předchozí části. Hodnoty musí odpovídat CMDLETs a APIS , na které odkazuje článek. Jak vidíte v článku, datový uzel velké (výchozí) velikosti má 7 GB paměti, což nemusí být pro váš scénář dostatečné.

Pokud chcete vytvořit hlavní uzly a pracovní uzly velikosti D4, zadejte Standard_D4 jako hodnotu vlastností headNodeSize a dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Pokud pro tyto vlastnosti zadáte nesprávnou hodnotu, může se zobrazit následující chyba: Vytvoření clusteru se nezdařilo. Výjimka: Operaci vytvoření clusteru nelze dokončit. Operace selhala s kódem 400. Cluster skončil ve stavu: Chyba. Zpráva: PreClusterCreationValidationFailure. Pokud se zobrazí tato chyba, ujistěte se, že používáte název CMDLET & APIS z tabulky v článku Velikosti virtuálních počítačů.

Přineste si své vlastní výpočetní prostředí

V tomto typu konfigurace můžou uživatelé zaregistrovat již existující výpočetní prostředí jako propojenou službu. Výpočetní prostředí spravuje uživatel a služba ho používá k provádění aktivit.

Tento typ konfigurace je podporován pro následující výpočetní prostředí:

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

propojená služba Azure HDInsight

Můžete vytvořit Azure HDInsight propojenou službu pro registraci vlastního clusteru HDInsight v datové továrně nebo pracovním prostoru Synapse.

Příklad použití základního ověřování

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Příklad použití spravované identity přiřazené systémem

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "clusterAuthType": "SystemAssignedManagedIdentity",
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Příklad použití spravované identity přiřazené uživatelem

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
         "clusterAuthType": "UserAssignedManagedIdentity",
         "credential": {
                "referenceName": "CredentialName",
                "type": "CredentialReference"
            },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
typ Vlastnost typu by měla být nastavena na HDInsight. Yes
clusterUri Identifikátor URI clusteru HDInsight. Yes
uživatelské jméno Zadejte jméno uživatele, který se má použít pro připojení k existujícímu clusteru HDInsight. Yes
heslo Zadejte heslo pro uživatelský účet. Yes
linkedServiceName Název propojené služby Azure Storage, která odkazuje na úložiště objektů blob Azure používané clusterem HDInsight.

V současné době nelze pro tuto vlastnost zadat propojenou službu Azure Data Lake Storage (Gen 2). Pokud má cluster HDInsight přístup ke službě Data Lake Store, můžete přistupovat k datům ve skriptech Hive/Pig v Azure Data Lake Storage (Gen 2).

Yes
isEspEnabled Zadejte true, pokud je cluster HDInsight povolený balíčkem zabezpečení podniku . Výchozí hodnota je false. No
connectVia Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime.
Pro cluster HDInsight s podporou balíčku zabezpečení podniku (ESP) použijte místní prostředí Integration Runtime, které má přehled o clusteru nebo by se mělo nasadit ve stejném Virtual Network jako cluster ESP HDInsight.
No
typ ověřování clusteru Zadejte typ ověřování clusteru HDInsight. Podporované typy ověřování jsou BasicAuth, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. Vyžaduje se pro použití ověřování spravované identity. Pokud pole neexistuje, použije se výchozí hodnota BasicAuth.
přihlašovací údaje Zadejte odkaz na přihlašovací údaje obsahující informace o objektu spravované identity pro cluster HDInsight. Vyžaduje se pouze pro autentizaci UserAssignedManagedIdentity.

Autentizace

Propojená služba Azure Storage pro ADLS Gen2 teď kromě stávajících metod ověřování podporuje spravované identity přiřazené systémem a přiřazené uživatelem. Tato podpora je ve výchozím nastavení dostupná při použití Azure Integration Runtime (Azure IR) a je podporovaná v místním prostředí Integration Runtime (SHIR) od verze 5.55.9306.2 nebo novější. U Azure Blob Storage nadále podporuje propojená služba Azure Storage pouze ověřování pomocí klíče účtu. Ověřování spravovaných identit clusteru je teď také ve výchozím nastavení dostupné při použití Azure IR a podporované v prostředí SHIR počínaje verzí 5.58 nebo novější. Při vytváření clusteru lze pro každý cluster použít pouze jednu metodu ověřování. Podrobnosti o vytváření a správě clusterů pomocí spravované identity najdete v tématu Vytvoření a správa clusteru Azure HDInsight s ověřováním Entra ID

Important

HDInsight podporuje více verzí clusteru Hadoop, které je možné nasadit. Každá volba verze vytvoří konkrétní verzi distribuce Hortonworks Data Platform (HDP) a sadu komponent obsažených v dané distribuci. Seznam podporovaných verzí HDInsight se neustále aktualizuje, aby poskytoval nejnovější součásti ekosystému Hadoop a opravy. Ujistěte se, že vždy odkazujete na nejnovější informace o podporované verzi HDInsight a typu operačního systému , abyste měli jistotu, že používáte podporovanou verzi SLUŽBY HDInsight.

Important

Propojené služby HDInsight v současné době nepodporují HBase, Interactive Query (Hive LLAP), Storm.

propojená služba Azure Batch

Note

K interakci s Azure doporučujeme použít modul Azure Az PowerShell. Pokud chcete začít, přečtěte si téma Install Azure PowerShell. Informace o migraci do modulu Az PowerShell najdete v tématu Migrace Azure PowerShell z AzureRM do Az.

Můžete vytvořit propojenou službu Azure Batch pro registraci skupiny virtuálních počítačů v Batch do datového nebo Synapse pracovního prostoru. Vlastní aktivitu můžete spustit pomocí Azure Batch.

Pokud s Azure Batch službou začínáte, přečtěte si následující články:

Important

Při vytváření nového fondu Azure Batch se musí použít VirtualMachineConfiguration a NE CloudServiceConfiguration.

Example

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
typ Vlastnost typu by měla být nastavena na AzureBatch. Yes
accountName Název účtu Azure Batch. Yes
accessKey Přístupový klíč pro účet Azure Batch. Yes
batchUri Adresa URL vašeho účtu Azure Batch ve formátu https://batchaccountname.region.batch.azure.com. Yes
poolName Název fondu virtuálních počítačů. Yes
linkedServiceName Název propojené služby Azure Storage přidružené k této Azure Batch propojené službě. Tato propojená služba se používá pro přípravné soubory potřebné ke spuštění aktivity. Yes
connectVia Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. No

propojená služba Machine Learning Studio (classic)

Important

Podpora azure Machine Learning Studio (classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning.

Od 1. prosince 2021 nemůžete vytvářet nové prostředky Machine Learning Studio (klasické) jako pracovní prostor a plán webových služeb. Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace najdete tady:

Machine Learning Studio (klasická) dokumentace se vyřadí z provozu a v budoucnu se nemusí aktualizovat.

Vytvoříte propojenou službu Machine Learning Studio (Classic) pro registraci koncového bodu dávkového vyhodnocování Machine Learning Studio (classic) do datové továrny nebo pracovního prostoru Synapse.

Example

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property Description Required
Typ Vlastnost typu by měla být nastavená na: AzureML. Yes
mlEndpoint Adresa URL pro dávkové vyhodnocení. Yes
apiKey Rozhraní API publikovaného modelu pracovního prostoru. Yes
updateResourceEndpoint Adresa URL prostředku aktualizace pro koncový bod webové služby ML Studio (Classic) sloužící k aktualizaci prediktivní webové služby pomocí vytrénovaného souboru modelu No
servicePrincipalId Zadejte ID klienta aplikace. Požadováno, pokud je zadán parametr updateResourceEndpoint.
servicePrincipalKey Zadejte klíč aplikace. Požadováno, pokud je zadán parametr updateResourceEndpoint.
klient Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. Požadováno, pokud je zadán parametr updateResourceEndpoint.
connectVia Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. No

propojená služba Azure Machine Learning

Vytvoříte Azure Machine Learning propojenou službu pro připojení pracovního prostoru Azure Machine Learning k datové továrně nebo pracovnímu prostoru Synapse.

Note

V současné době se pro propojenou službu Azure Machine Learning podporuje pouze ověřování pomocí objektu služby.

Example

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
Typ Vlastnost typu by měla být nastavená na: AzureMLService. Yes
subscriptionId ID předplatného Azure Yes
resourceGroupName name Yes
mlWorkspaceName název pracovního prostoru Azure Machine Learning Yes
servicePrincipalId Zadejte ID klienta aplikace. Yes
servicePrincipalKey Zadejte klíč aplikace. Yes
klient Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. Požadováno, pokud je zadán parametr updateResourceEndpoint.
connectVia Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. No

propojená služba Azure Data Lake Analytics

Vytvoříte propojenou službu Azure Data Lake Analytics, která propojí výpočetní službu Azure Data Lake Analytics s pracovním prostorem datové továrny nebo Synapse. Analytická aktivita Data Lake U-SQL v datovém toku odkazuje na tuto propojenou službu.

Example

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
typ Vlastnost typu by měla být nastavena na: AzureDataLakeAnalytics. Yes
accountName Azure Data Lake Analytics název účtu. Yes
dataLakeAnalyticsUri Azure Data Lake Analytics identifikátor URI. No
subscriptionId ID předplatného Azure No
resourceGroupName název skupiny prostředků Azure No
servicePrincipalId Zadejte ID klienta aplikace. Yes
servicePrincipalKey Zadejte klíč aplikace. Yes
klient Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Můžete ho načíst tak, že umístíte kurzor myši do pravého horního rohu portálu Azure. Yes
connectVia Integration Runtime, která se má použít k odeslání aktivit do této propojené služby. Můžete použít Azure Integration Runtime nebo Integration Runtime v místním prostředí. Pokud není zadaný, použije výchozí Azure Integration Runtime. No

Azure Databricks propojená služba

Můžete vytvořit Azure Databricks propojenou službu a zaregistrovat pracovní prostor Databricks, který používáte ke spuštění úloh Databricks (poznámkový blok, jar, python).

Important

Služby propojené s Databricks podporují fondy instancí a autentizaci spravované identity, která je přiřazena systémem.

Příklad – Použití nového clusteru úloh v Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Příklad – Použití existujícího interaktivního clusteru v Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property Description Required
name Název propojené služby Yes
typ Vlastnost typu by měla být nastavena na: Azure Databricks. Yes
doména Podle oblasti pracovního prostoru Databricks zadejte odpovídající oblast Azure. Příklad: https://eastus.azuredatabricks.net Yes
accessToken Přístupový token se vyžaduje, aby se služba ověřila pro Azure Databricks. Access token je potřeba vygenerovat z pracovního prostoru Databricks. Podrobnější postup vyhledání tokenu access najdete No
MSI Použijte spravovanou identitu služby (přiřazenou systémem) k ověření v Azure Databricks. Při použití ověřování MSI nepotřebujete Access token. Další podrobnosti o ověřování spravovaných identit najdete No
existingClusterId ID existujícího clusteru pro spuštění všech úloh na tomto clusteru. Mělo by se jednat o již vytvořený interaktivní cluster. Pokud cluster přestane reagovat, budete možná muset cluster restartovat ručně. Databricks navrhuje spouštění úloh v nových clusterech pro větší spolehlivost. ID clusteru interaktivního clusteru najdete v pracovním prostoru Databricks –> Clustery –> Název interaktivního clusteru –> Konfigurace –> Značky. Další podrobnosti No
instancePoolId ID poolu instancí existujícího poolu v pracovním prostoru Databricks No
newClusterVersion Verze clusteru Sparku. Vytvoří cluster úloh v Databricks. No
newClusterNumOfWorker Počet pracovních jednotek, které by tento cluster měl mít. Cluster má jeden ovladač Sparku a num_workers Exekutory pro celkem num_workers + 1 uzly Spark. Řetězec formátovaný v int32, například "1", znamená, že numOfWorker je 1 nebo "1:10" znamená automatické škálování od 1 do min a 10 jako maximum. No
newClusterNodeType Toto pole kóduje prostředky dostupné pro každý z uzlů Sparku v tomto clusteru prostřednictvím jedné hodnoty. Například uzly Spark mohou být nakonfigurovány a optimalizovány pro pracovní zátěže náročné na paměť nebo výpočetní výkon. Toto pole se vyžaduje pro nový cluster. No
newClusterSparkConf sada volitelných, uživatelem specifikovaných párů klíč-hodnota pro konfiguraci Spark. Uživatelé mohou také předat řetězec dalších možností JVM ovladači a exekutorům prostřednictvím spark.driver.extraJavaOptions a spark.executor.extraJavaOptions. No
newClusterInitScripts sada volitelných uživatelsky definovaných inicializačních skriptů pro nový cluster. Inicializační skripty můžete zadat v souborech pracovního prostoru (doporučeno) nebo prostřednictvím cesty DBFS (starší verze). No

Azure SQL Database propojená služba

Vytvoříte propojenou službu Azure SQL a použijete ji s aktivitou Storovaná procedura k vyvolání uložené procedury z kanálu. Podrobnosti o této propojené službě najdete v článku Azure SQL Connector.

propojená služba Azure Synapse Analytics

Vytvoříte propojenou službu Azure Synapse Analytics a použijete ji s aktivitou Aktivita uložené procedury k vyvolání uložené procedury z datového kanálu. Podrobnosti o této propojené službě najdete v článku Azure Synapse Analytics Connector.

propojená služba SQL Server

Vytvoříte propojenou službu SQL Server a použijete ji s aktivitou Stored Procedure k vyvolání uložené procedury z kanálu. Podrobnosti o této propojené službě najdete v článku SQL Server connector.

Propojená služba Azure Synapse Analytics (Artefakty)

Vytvoříte propojenou službu Azure Synapse Analytics (Artifacts) a použijete ji s aktivitou Synapse Notebook a Synapse Spark job definition Activity.

Example

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
name Název propojené služby Yes
description popis propojené služby No
annotations poznámky k propojené službě No
typ Vlastnost typu by měla být nastavená na AzureSynapseArtifacts. Yes
koncový bod URL adresa služby Azure Synapse Analytics Yes
ověřování Výchozí nastavení je spravovaná identita přiřazená systémem. Yes
workspaceResourceId Identifikátor prostředku pracovního prostoru Yes
connectVia Integration runtime, která se má použít pro připojení k úložišti dat. Můžete použít Azure Integration Runtime. Pokud není zadaný, použije výchozí Azure Integration Runtime. Samohostovaný integration runtime není v současné době podporován. Yes

propojená služba Azure Function

Vytvoříte propojenou službu Azure Function a použijete ji s aktivitou Azure Function ke spuštění Azure Functions v pipeline. Návratový typ funkce Azure musí být platný JObject. (Mějte na paměti, že JArrayneníJObject.) Jakýkoli jiný návratový typ než JObject selže a vyvolá chybu uživatelského obsahu Obsah odpovědi není platný JObject.

Property Description Required
typ Vlastnost typu musí být nastavená na: AzureFunction. yes
URL adresa funkční aplikace Adresa URL aplikace funkcí Azure Formát je https://<accountname>.azurewebsites.net. Tato adresa URL je hodnota v části URL při prohlížení aplikace funkcí na portálu Azure. yes
funkční klávesa Přístupový klíč pro funkci Azure. Klikněte na oddíl Správa příslušné funkce a zkopírujte klíč funkce nebo klíč hostitele. Další informace najdete tady: Práce s přístupovými klíči yes

Seznam podporovaných aktivit transformace najdete v tématu Transformace dat.