Compute-omgevingen die worden ondersteund door Azure Data Factory- en Synapse-pijplijnen

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

In dit artikel worden verschillende rekenomgevingen uitgelegd die u kunt gebruiken om gegevens te verwerken of te transformeren. Het biedt ook informatie over verschillende configuraties (on-demand versus bring your own) die worden ondersteund bij het configureren van gekoppelde services die deze rekenomgevingen koppelen.

De volgende tabel bevat een lijst met ondersteunde rekenomgevingen en de activiteiten die erop kunnen worden uitgevoerd.

Compute-omgeving Activiteiten
HdInsight-cluster op aanvraag of uw eigen HDInsight-cluster Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Aangepast
ML Studio (klassiek) ML Studio-activiteiten (klassiek): Batch-uitvoering en resource bijwerken
Azure Machine Learning Pijplijn uitvoeren van Azure Machine Learning
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Opgeslagen procedure
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (artefacten) Synapse Notebook-activiteit, Synapse Spark-taakdefinitie
Azure-functie Azure Function-activiteit

HDInsight-rekenomgeving

Raadpleeg de onderstaande tabel voor meer informatie over de ondersteunde gekoppelde opslagservicetypen voor configuratie in een on-demand en BYOC-omgeving (Bring Your Own Compute).

Gekoppelde compute-service Eigenschapsnaam Beschrijving Blob ADLS Gen2 Azure SQL Database ADLS Gen 1
Op aanvraag linkedServiceName Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens. Ja Ja No Nr.
additionalLinkedServiceNames Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. Ja No No Nr.
hcatalogLinkedServiceName De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL-database als metastore. Nee No Ja Nr.
BYOC linkedServiceName De naslaginformatie over de gekoppelde Azure Storage-service. Ja Ja No Nr.
additionalLinkedServiceNames Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. Nee No No Nr.
hcatalogLinkedServiceName Een verwijzing naar de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Nee No No Nr.

Een gekoppelde Azure HDInsight-service op aanvraag

In dit type configuratie wordt de computeromgeving volledig beheerd door de service. Deze wordt automatisch door de service gemaakt voordat een taak wordt verzonden om gegevens te verwerken en te verwijderen wanneer de taak is voltooid. U kunt een gekoppelde service maken voor de on-demand rekenomgeving, deze configureren en gedetailleerde instellingen beheren voor taakuitvoering, clusterbeheer en bootstrapping-acties.

Notitie

De configuratie op aanvraag wordt momenteel alleen ondersteund voor Azure HDInsight-clusters. Azure Databricks biedt ook ondersteuning voor on-demand taken met behulp van taakclusters. Zie de gekoppelde Azure Databricks-service voor meer informatie.

De service kan automatisch een HDInsight-cluster op aanvraag maken om gegevens te verwerken. Het cluster wordt gemaakt in dezelfde regio als het opslagaccount (de eigenschap linkedServiceName in de JSON) die is gekoppeld aan het cluster. Het opslagaccount must is een standaard Azure Storage-account voor algemeen gebruik.

Let op de volgende belangrijke punten over gekoppelde HDInsight-service op aanvraag:

  • Het HDInsight-cluster op aanvraag wordt gemaakt onder uw Azure-abonnement. U kunt het cluster in Azure Portal zien wanneer het cluster actief is.
  • De logboeken voor taken die worden uitgevoerd op een HDInsight-cluster op aanvraag, worden gekopieerd naar het opslagaccount dat is gekoppeld aan het HDInsight-cluster. De clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword die in uw gekoppelde servicedefinitie is gedefinieerd, worden gebruikt om u aan te melden bij het cluster voor uitgebreide probleemoplossing tijdens de levenscyclus van het cluster.
  • Er worden alleen kosten in rekening gebracht voor het moment waarop het HDInsight-cluster actief en actief is.
  • U kunt een scriptactie gebruiken met de gekoppelde Azure HDInsight-service op aanvraag.

Belangrijk

Het duurt doorgaans 20 minuten of langer om een Azure HDInsight-cluster op aanvraag in te richten.

Opmerking

De volgende JSON definieert een gekoppelde HDInsight-service op basis van Linux op aanvraag. De service maakt automatisch een HDInsight-cluster op basis van Linux om de vereiste activiteit te verwerken.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Belangrijk

Het HDInsight-cluster maakt een standaardcontainer in de blobopslag die u hebt opgegeven in de JSON (linkedServiceName). HDInsight verwijdert deze container niet wanneer het cluster wordt verwijderd. Dit is zo ontworpen. Met een gekoppelde on-demand HDInsight-service wordt er steeds een HDInsight-cluster gemaakt wanneer er een segment moet worden verwerkt, tenzij er een bestaand livecluster is (timeToLive). Het cluster wordt verwijderd wanneer het verwerken is voltooid.

Naarmate er meer activiteit wordt uitgevoerd, ziet u veel containers in uw Azure Blob Storage. Als u ze niet nodig hebt voor het oplossen van problemen met de taken, kunt u ze verwijderen om de opslagkosten te verlagen. De namen van deze containers volgen een patroon: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Gebruik hulpprogramma's zoals Microsoft Azure Storage Explorer om containers in uw Azure-blobopslag te verwijderen.

Eigenschappen

Eigenschappen Beschrijving Vereist
type De eigenschap type moet worden ingesteld op HDInsightOnDemand. Ja
clusterSize Aantal werkknooppunten/gegevensknooppunten in het cluster. Het HDInsight-cluster wordt gemaakt met 2 hoofdknooppunten, samen met het aantal werkknooppunten dat u voor deze eigenschap opgeeft. De knooppunten hebben een grootte Standard_D3 met vier kernen, dus een cluster met 4 werkknooppunten heeft 24 kernen (4*4 = 16 kernen voor werkknooppunten, plus 2*4 = 8 kernen voor hoofdknooppunten). Zie Clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie. Ja
linkedServiceName Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens. Het HDInsight-cluster wordt gemaakt in dezelfde regio als dit Azure Storage-account. Voor Azure HDInsight geldt een beperking voor het totale aantal kernen dat u kunt gebruiken in elke Azure-regio die wordt ondersteund. Zorg ervoor dat u voldoende kernquota in die Azure-regio hebt om te voldoen aan de vereiste clusterSize. Raadpleeg clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie.

Op dit moment kunt u geen HDInsight-cluster op aanvraag maken dat gebruikmaakt van een Azure Data Lake Storage (Gen 2) als opslag. Als u de resultaatgegevens uit HDInsight-verwerking wilt opslaan in een Azure Data Lake Storage (Gen 2), gebruikt u een kopieeractiviteit om de gegevens van Azure Blob Storage naar Azure Data Lake Storage (Gen 2) te kopiëren.

Ja
clusterResourceGroup Het HDInsight-cluster wordt gemaakt in deze resourcegroep. Ja
tijdtolief De toegestane niet-actieve tijd voor het HDInsight-cluster op aanvraag. Hiermee geeft u op hoe lang het HDInsight-cluster op aanvraag actief blijft na voltooiing van een activiteitsuitvoering als er geen andere actieve taken in het cluster zijn. De minimaal toegestane waarde is 5 minuten (00:05:00).

Als een activiteitsuitvoering bijvoorbeeld 6 minuten duurt en tijdtolief is ingesteld op 5 minuten, blijft het cluster 5 minuten actief na de 6 minuten na het verwerken van de activiteitsuitvoering. Als een andere activiteitsuitvoering wordt uitgevoerd met het venster van 6 minuten, wordt deze door hetzelfde cluster verwerkt.

Het maken van een HDInsight-cluster op aanvraag is een dure bewerking (kan enige tijd duren). Gebruik deze instelling dus indien nodig om de prestaties van de service te verbeteren door een HDInsight-cluster op aanvraag opnieuw te gebruiken.

Als u een tijdtolieve waarde instelt op 0, wordt het cluster verwijderd zodra de uitvoering van de activiteit is voltooid. Terwijl, als u een hoge waarde instelt, het cluster niet actief kan blijven om u aan te melden voor een bepaald doel voor probleemoplossing, maar dit kan leiden tot hoge kosten. Daarom is het belangrijk dat u de juiste waarde instelt op basis van uw behoeften.

Als de waarde van de tijdtolieve eigenschap op de juiste wijze is ingesteld, kunnen meerdere pijplijnen het exemplaar van het HDInsight-cluster op aanvraag delen.
Ja
clusterType Het type HDInsight-cluster dat moet worden gemaakt. Toegestane waarden zijn 'hadoop' en 'spark'. Als dit niet is opgegeven, is de standaardwaarde hadoop. Een cluster waarvoor Enterprise Security Package is ingeschakeld, kan niet op aanvraag worden gemaakt. Gebruik in plaats daarvan een bestaand cluster of bring your own compute. Nee
version Versie van het HDInsight-cluster. Als dit niet is opgegeven, wordt de huidige standaardversie van HDInsight gebruikt. Nee
hostSubscriptionId De Azure-abonnements-id die wordt gebruikt voor het maken van een HDInsight-cluster. Als dit niet is opgegeven, wordt de abonnements-id van uw Azure-aanmeldingscontext gebruikt. Nee
clusterNamePrefix Het voorvoegsel van de HDI-clusternaam, een tijdstempel wordt automatisch toegevoegd aan het einde van de clusternaam Nee
sparkVersion De versie van Spark als het clustertype Spark is Nee
additionalLinkedServiceNames Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. Deze opslagaccounts moeten zich in dezelfde regio bevinden als het HDInsight-cluster, dat wordt gemaakt in dezelfde regio als het opslagaccount dat is opgegeven door linkedServiceName. Nee
osType Type besturingssysteem. Toegestane waarden zijn: Linux en Windows (alleen voor HDInsight 3.3). Standaard is Linux. Nee
hcatalogLinkedServiceName De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL Database als metastore. Nee
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde HDInsight-service te verzenden. Voor een gekoppelde HDInsight-service op aanvraag ondersteunt deze alleen Azure Integration Runtime. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Nee
clusterUserName De gebruikersnaam voor toegang tot het cluster. Nee
clusterPassword Het wachtwoord in het type beveiligde tekenreeks voor toegang tot het cluster. Nee
clusterSshUserName De gebruikersnaam voor SSH maakt extern verbinding met het knooppunt van het cluster (voor Linux). Nee
clusterSshPassword Het wachtwoord in het type beveiligde tekenreeks om het clusterknooppunt (voor Linux) op afstand te verbinden met SSH. Nee
scriptActions Geef een script op voor HDInsight-clusteraanpassingen tijdens het maken van een cluster op aanvraag.
Het bewerkingsprogramma voor de gebruikersinterface ondersteunt momenteel het opgeven van slechts één scriptactie, maar u kunt deze beperking in de JSON doorlopen (geef meerdere scriptacties op in de JSON).
Nee

Belangrijk

HDInsight ondersteunt meerdere Hadoop-clusterversies die kunnen worden geïmplementeerd. Elke versiekeuze maakt een specifieke versie van de HDP-distributie (Hortonworks Data Platform) en een set onderdelen die zich in die distributie bevinden. De lijst met ondersteunde HDInsight-versies wordt bijgewerkt om de meest recente Onderdelen en oplossingen van het Hadoop-ecosysteem te bieden. Zorg ervoor dat u altijd verwijst naar de meest recente informatie van de ondersteunde HDInsight-versie en het besturingssysteemtype om ervoor te zorgen dat u een ondersteunde versie van HDInsight gebruikt.

Belangrijk

Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.

  • additionalLinkedServiceNames JSON-voorbeeld
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Verificatie van service-principal

Voor de gekoppelde on-demand HDInsight-service is een service-principal-verificatie vereist voor het maken van HDInsight-clusters namens u. Als u service-principalverificatie wilt gebruiken, registreert u een toepassingsentiteit in Microsoft Entra ID en verleent u deze de rol Inzender van het abonnement of de resourcegroep waarin het HDInsight-cluster wordt gemaakt. Zie De portal gebruiken om een Microsoft Entra-toepassing en service-principal te maken die toegang heeft tot resources voor gedetailleerde stappen. Noteer de volgende waarden die u gebruikt om de gekoppelde service te definiëren:

  • Toepassings-id
  • Toepassingssleutel
  • Tenant-id

Gebruik service-principalverificatie door de volgende eigenschappen op te geven:

Eigenschappen Beschrijving Vereist
servicePrincipalId Geef de client-id van de toepassing op. Ja
servicePrincipalKey Geef de sleutel van de toepassing op. Ja
tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Ja

Geavanceerde eigenschappen

U kunt ook de volgende eigenschappen opgeven voor de gedetailleerde configuratie van het HDInsight-cluster op aanvraag.

Eigenschappen Beschrijving Vereist
coreConfiguration Hiermee geeft u de kernconfiguratieparameters (zoals in core-site.xml) op voor het HDInsight-cluster dat moet worden gemaakt. Nee
hBaseConfiguration Hiermee geeft u de HBase-configuratieparameters (hbase-site.xml) voor het HDInsight-cluster op. Nee
hdfsConfiguration Hiermee geeft u de HDFS-configuratieparameters (hdfs-site.xml) voor het HDInsight-cluster op. Nee
hiveConfiguration Hiermee geeft u de hive-configuratieparameters (hive-site.xml) voor het HDInsight-cluster op. Nee
mapReduceConfiguration Hiermee geeft u de MapReduce-configuratieparameters (mapred-site.xml) voor het HDInsight-cluster op. Nee
oozieConfiguration Hiermee geeft u de Oozie-configuratieparameters (oozie-site.xml) voor het HDInsight-cluster op. Nee
stormConfiguration Hiermee geeft u de Storm-configuratieparameters (storm-site.xml) voor het HDInsight-cluster op. Nee
yarnConfiguration Hiermee geeft u de Yarn-configuratieparameters (yarn-site.xml) voor het HDInsight-cluster op. Nee
  • Voorbeeld: on-demand HDInsight-clusterconfiguratie met geavanceerde eigenschappen
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Knooppuntgrootten

U kunt de grootte van hoofd-, gegevens- en zookeeper-knooppunten opgeven met behulp van de volgende eigenschappen:

Eigenschappen Beschrijving Vereist
headNodeSize Hiermee geeft u de grootte van het hoofdknooppunt. De standaardwaarde is: Standard_D3. Zie de sectie Knooppuntgrootten opgeven voor meer informatie. Nee
dataNodeSize Hiermee geeft u de grootte van het gegevensknooppunt. De standaardwaarde is: Standard_D3. Nee
zookeeperNodeSize Hiermee geeft u de grootte van het Zoo Keeper-knooppunt. De standaardwaarde is: Standard_D3. Nee
  • Knooppuntgrootten opgeven Zie het artikel Grootten van virtuele machines voor tekenreekswaarden die u moet opgeven voor de eigenschappen die in de vorige sectie worden genoemd. De waarden moeten voldoen aan de CMDLETs & APIS waarnaar in het artikel wordt verwezen. Zoals u in het artikel kunt zien, heeft het gegevensknooppunt van grote grootte (standaard) 7 GB geheugen, wat mogelijk niet goed genoeg is voor uw scenario.

Als u hoofdknooppunten en werkknooppunten van D4-grootte wilt maken, geeft u Standard_D4 op als de waarde voor de eigenschappen headNodeSize en dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Als u een verkeerde waarde voor deze eigenschappen opgeeft, wordt mogelijk de volgende fout weergegeven: Kan cluster niet maken. Uitzondering: Kan het cluster niet maken. Bewerking is mislukt met code 400. Cluster heeft status: 'Fout'. Bericht: 'PreClusterCreationValidationFailure'. Wanneer u deze fout ontvangt, moet u ervoor zorgen dat u de naam van de CMDLET & APIS uit de tabel in het artikel Grootten van virtuele machines gebruikt.

Uw eigen rekenomgeving gebruiken

In dit type configuratie kunnen gebruikers een al bestaande computeromgeving registreren als een gekoppelde service. De computeromgeving wordt beheerd door de gebruiker en de service gebruikt deze om de activiteiten uit te voeren.

Dit type configuratie wordt ondersteund voor de volgende rekenomgevingen:

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

Gekoppelde Azure HDInsight-service

U kunt een gekoppelde Azure HDInsight-service maken om uw eigen HDInsight-cluster te registreren met een data factory of Synapse-werkruimte.

Opmerking

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Eigenschappen

Eigenschappen Beschrijving Vereist
type De eigenschap type moet worden ingesteld op HDInsight. Ja
clusterUri De URI van het HDInsight-cluster. Ja
gebruikersnaam Geef de naam op van de gebruiker die moet worden gebruikt om verbinding te maken met een bestaand HDInsight-cluster. Ja
password Geef het wachtwoord op voor het gebruikersaccount. Ja
linkedServiceName Naam van de gekoppelde Azure Storage-service die verwijst naar de Azure Blob Storage die wordt gebruikt door het HDInsight-cluster.

Momenteel kunt u geen gekoppelde Azure Data Lake Storage-service (Gen 2) voor deze eigenschap opgeven. Als het HDInsight-cluster toegang heeft tot Data Lake Store, hebt u toegang tot gegevens in Azure Data Lake Storage (Gen 2) vanuit Hive/Pig-scripts.

Ja
isEspEnabled Geef 'true' op als het HDInsight-cluster Enterprise Security Package is ingeschakeld. De standaardwaarde is 'false'. Nee
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.
Voor HDInsight-cluster met Enterprise Security Package (ESP) gebruikt u een zelf-hostende Integration Runtime, die een detectieregel heeft voor het cluster of moet worden geïmplementeerd in hetzelfde virtuele netwerk als het ESP HDInsight-cluster.
Nee

Belangrijk

HDInsight ondersteunt meerdere Hadoop-clusterversies die kunnen worden geïmplementeerd. Elke versiekeuze maakt een specifieke versie van de HDP-distributie (Hortonworks Data Platform) en een set onderdelen die zich in die distributie bevinden. De lijst met ondersteunde HDInsight-versies wordt bijgewerkt om de meest recente Onderdelen en oplossingen van het Hadoop-ecosysteem te bieden. Zorg ervoor dat u altijd verwijst naar de meest recente informatie van de ondersteunde HDInsight-versie en het besturingssysteemtype om ervoor te zorgen dat u een ondersteunde versie van HDInsight gebruikt.

Belangrijk

Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.

Gekoppelde Azure Batch-service

Notitie

Het wordt aanbevolen de Azure Az PowerShell-module te gebruiken om te communiceren met Azure. Zie Azure PowerShell installeren om aan de slag te gaan. Raadpleeg Azure PowerShell migreren van AzureRM naar Az om te leren hoe u naar de Azure PowerShell-module migreert.

U kunt een gekoppelde Azure Batch-service maken om een Batch-pool met virtuele machines (VM's) te registreren bij een gegevens- of Synapse-werkruimte. U kunt aangepaste activiteiten uitvoeren met Behulp van Azure Batch.

Zie de volgende artikelen als u geen gebruik hebt gemaakt van de Azure Batch-service:

Belangrijk

Bij het maken van een nieuwe Azure Batch-pool moet VirtualMachineConfiguration worden gebruikt en NIET CloudServiceConfiguration. Raadpleeg de migratierichtlijnen voor Azure Batch-pool voor meer informatie.

Opmerking

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Eigenschappen

Eigenschappen Beschrijving Vereist
type De typeeigenschap moet worden ingesteld op AzureBatch. Ja
accountName Naam van het Azure Batch-account. Ja
Accesskey Toegangssleutel voor het Azure Batch-account. Ja
batchUri URL naar uw Azure Batch-account, in de indeling van https:// batchaccountname.region.batch.azure.com. Ja
poolName Naam van de pool van virtuele machines. Ja
linkedServiceName Naam van de gekoppelde Azure Storage-service die is gekoppeld aan deze gekoppelde Azure Batch-service. Deze gekoppelde service wordt gebruikt voor faseringsbestanden die nodig zijn om de activiteit uit te voeren. Ja
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Nee

Gekoppelde Machine Learning Studio-service (klassiek)

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

U maakt een gekoppelde Machine Learning Studio-service (klassiek) om een score-eindpunt voor Machine Learning Studio (klassiek) te registreren voor een data factory of Synapse-werkruimte.

Opmerking

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Eigenschappen

Eigenschappen Beschrijving Vereist
Type De typeeigenschap moet worden ingesteld op: AzureML. Ja
mlEndpoint De batchscore-URL. Ja
apiKey De API van het gepubliceerde werkruimtemodel. Ja
updateResourceEndpoint De RESOURCE-URL bijwerken voor een ML Studio-webservice-eindpunt (klassiek) dat wordt gebruikt om de voorspellende webservice bij te werken met een getraind modelbestand Nee
servicePrincipalId Geef de client-id van de toepassing op. Vereist als updateResourceEndpoint is opgegeven
servicePrincipalKey Geef de sleutel van de toepassing op. Vereist als updateResourceEndpoint is opgegeven
AD-tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Vereist als updateResourceEndpoint is opgegeven
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Nee

Gekoppelde Azure Machine Learning-service

U maakt een gekoppelde Azure Machine Learning-service om een Azure Machine Learning-werkruimte te verbinden met een data factory of Synapse-werkruimte.

Notitie

Momenteel wordt alleen verificatie van service-principals ondersteund voor de gekoppelde Azure Machine Learning-service.

Opmerking

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen

Eigenschappen Beschrijving Vereist
Type De typeeigenschap moet worden ingesteld op: AzureMLService. Ja
subscriptionId Azure-abonnements-id Ja
resourceGroupName name Ja
mlWorkspaceName Naam van Azure Machine Learning-werkruimte Ja
servicePrincipalId Geef de client-id van de toepassing op. Ja
servicePrincipalKey Geef de sleutel van de toepassing op. Ja
AD-tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Vereist als updateResourceEndpoint is opgegeven
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Nee

Gekoppelde Azure Data Lake Analytics-service

U maakt een gekoppelde Azure Data Lake Analytics-service om een Azure Data Lake Analytics-rekenservice te koppelen aan een data factory of Synapse-werkruimte. De Data Lake Analytics U-SQL-activiteit in de pijplijn verwijst naar deze gekoppelde service.

Opmerking

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen

Eigenschappen Beschrijving Vereist
type De typeeigenschap moet worden ingesteld op: AzureDataLakeAnalytics. Ja
accountName Azure Data Lake Analytics-accountnaam. Ja
dataLakeAnalyticsUri Azure Data Lake Analytics-URI. Nee
subscriptionId Azure-abonnements-id Nee
resourceGroupName Naam van Azure-resourcegroep Nee
servicePrincipalId Geef de client-id van de toepassing op. Ja
servicePrincipalKey Geef de sleutel van de toepassing op. Ja
AD-tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Ja
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Nee

Gekoppelde Azure Databricks-service

U kunt een gekoppelde Azure Databricks-service maken om de Databricks-werkruimte te registreren die u gebruikt om de Databricks-workloads (notebook, jar, python) uit te voeren.

Belangrijk

Gekoppelde Databricks-services ondersteunen instantiegroepen en door het systeem toegewezen verificatie van beheerde identiteiten.

Voorbeeld: nieuw taakcluster gebruiken in Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "dapif33c9c721144c3a790b35000b57f7124f"
            }
        }
    }
}

Voorbeeld: bestaand interactief cluster gebruiken in Databricks

{
    "name": " AzureDataBricksLinedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "dapif33c9c72344c3a790b35000b57f7124f"
          },
        "existingClusterId": "{clusterId}"
        }
}

Eigenschappen

Eigenschappen Beschrijving Vereist
name Naam van de gekoppelde service Ja
type De eigenschap type moet worden ingesteld op: Azure Databricks. Ja
domain Geef de Azure-regio dienovereenkomstig op op basis van de regio van de Databricks-werkruimte. Voorbeeld: https://eastus.azuredatabricks.net Ja
accessToken Toegangstoken is vereist voor de service om te verifiëren bij Azure Databricks. Het toegangstoken moet worden gegenereerd op basis van de databricks-werkruimte. Meer gedetailleerde stappen voor het vinden van het toegangstoken vindt u hier Nee
MSI Gebruik de beheerde identiteit van de service (door het systeem toegewezen) om te verifiëren bij Azure Databricks. U hebt geen toegangstoken nodig bij het gebruik van MSI-verificatie. Meer informatie over verificatie van beheerde identiteiten vindt u hier Nee
existingClusterId Cluster-id van een bestaand cluster om alle taken op dit cluster uit te voeren. Dit moet een al gemaakt interactief cluster zijn. Mogelijk moet u het cluster handmatig opnieuw opstarten als het niet meer reageert. Databricks stelt voor om taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. U vindt de cluster-id van een interactief cluster in de Databricks-werkruimte - Clusters ->> Interactieve clusternaam -> Configuratie -> Tags. Meer informatie Nee
instancePoolId Exemplaargroep-id van een bestaande pool in databricks-werkruimte. Nee
newClusterVersion De Spark-versie van het cluster. Er wordt een taakcluster gemaakt in Databricks. Nee
newClusterNumOfWorker Het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers Executors voor in totaal num_workers + 1 Spark-knooppunten. Een tekenreeks die is opgemaakt int32, zoals '1', betekent dat numOfWorker 1 of 1:10 is, betekent automatisch schalen van 1 als min en 10 als max. Nee
newClusterNodeType Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Dit veld is vereist voor een nieuw cluster Nee
newClusterSparkConf een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. Gebruikers kunnen ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via spark.driver.extraJavaOptions en spark.executor.extraJavaOptions. Nee
newClusterInitScripts een set optionele door de gebruiker gedefinieerde initialisatiescripts voor het nieuwe cluster. U kunt de init-scripts opgeven in werkruimtebestanden (aanbevolen) of via het DBFS-pad (verouderd). Nee

Een gekoppelde Azure SQL Database-service

U maakt een gekoppelde Azure SQL-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het Artikel over Azure SQL Verbinding maken or voor meer informatie over deze gekoppelde service.

Gekoppelde Azure Synapse Analytics-service

U maakt een gekoppelde Azure Synapse Analytics-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure aan te roepen vanuit een pijplijn. Zie het artikel azure Synapse Analytics Verbinding maken or voor meer informatie over deze gekoppelde service.

Gekoppelde SQL Server-service

U maakt een gekoppelde SQL Server-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het artikel over de SQL Server-connector voor meer informatie over deze gekoppelde service.

Gekoppelde Azure Synapse Analytics-service (artefacten)

U maakt een gekoppelde Azure Synapse Analytics-service (Artifacts) en gebruikt deze met de Synapse Notebook-activiteit en synapse Spark-taakdefinitieactiviteit.

Opmerking

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

Eigenschappen

Eigenschappen Beschrijving Vereist
name Naam van de gekoppelde service Ja
beschrijving beschrijving van de gekoppelde service Nee
Aantekeningen aantekeningen van de gekoppelde service Nee
type De eigenschap type moet worden ingesteld op AzureSynapseArtifacts Ja
endpoint De URL van Azure Synapse Analytics Ja
verificatie De standaardinstelling is Door het systeem toegewezen beheerde identiteit Ja
workspaceResourceId werkruimteresource-id Ja
connectVia De Integration Runtime die moet worden gebruikt om verbinding te maken met het gegevensarchief. U kunt Azure Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. De zelf-hostende Integration Runtime wordt momenteel niet ondersteund. Ja

Gekoppelde Azure Function-service

U maakt een gekoppelde Azure-functieservice en gebruikt deze met de Azure Function-activiteit om Azure Functions in een pijplijn uit te voeren. Het retourtype van de Azure-functie moet een geldige JObjectwaarde zijn. (Houd er rekening mee dat JArray is geenJObject.) Een ander retourtype dan JObject mislukt en genereert de inhoud van het antwoord van de gebruiker een ongeldig JObject.

Eigenschappen Beschrijving Vereist
type De eigenschap Type moet worden ingesteld op: AzureFunction ja
URL van functie-app URL voor de Azure Function-app. Indeling is https://<accountname>.azurewebsites.net. Deze URL is de waarde onder de URL-sectie bij het weergeven van uw functie-app in Azure Portal ja
functietoets Toegangssleutel voor de Azure-functie. Klik op de sectie Beheren voor de respectieve functie en kopieer de functiesleutel of de hostsleutel. Meer informatie hier: HTTP-triggers en -bindingen van Azure Functions ja

Zie Gegevens transformeren voor een lijst met de ondersteunde transformatieactiviteiten.