Delen via


Compute-omgevingen die worden ondersteund door Azure Data Factory- en Synapse-pijplijnen

Van toepassing op: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Important

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Voor meer informatie, zie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

In dit artikel worden verschillende rekenomgevingen uitgelegd die u kunt gebruiken om gegevens te verwerken of te transformeren. Het biedt ook informatie over verschillende configuraties (on-demand versus bring your own) die worden ondersteund bij het configureren van gekoppelde services die deze rekenomgevingen koppelen.

De volgende tabel bevat een lijst met ondersteunde rekenomgevingen en de activiteiten die erop kunnen worden uitgevoerd.

Compute-omgeving Activities
HdInsight-cluster op aanvraag of uw eigen HDInsight-cluster Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Custom
ML Studio (klassiek) ML Studio-activiteiten (klassiek): Batch-uitvoering en resource bijwerken
Azure Machine Learning Pijplijn uitvoeren van Azure Machine Learning
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Opgeslagen procedure
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (artefacts) Synapse Notebook-activiteit, Synapse Spark-taakdefinitie
Azure-functie Azure Function-activiteit

HDInsight-rekenomgeving

Raadpleeg de onderstaande tabel voor meer informatie over de ondersteunde gekoppelde opslagservicetypen voor configuratie in een on-demand en BYOC-omgeving (Bring Your Own Compute).

Gekoppelde compute-service Naam van propertie Description Blob ADLS Gen2 Azure SQL Database ADLS Gen 1
On-demand linkedServiceName Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens. Yes Yes No No
additionalLinkedServiceNames Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. Yes No No No
hcatalogLinkedServiceName De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL-database als metastore. No No Yes No
BYOC linkedServiceName De naslaginformatie over de gekoppelde Azure Storage-service. Yes Yes No No
additionalLinkedServiceNames Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. No No No No
hcatalogLinkedServiceName Een verwijzing naar de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. No No No No

Gekoppelde Azure HDInsight-service op aanvraag

In dit type configuratie wordt de computeromgeving volledig beheerd door de service. Deze wordt automatisch door de service gemaakt voordat een taak wordt verzonden om gegevens te verwerken en te verwijderen wanneer de taak is voltooid. U kunt een gekoppelde service maken voor de on-demand rekenomgeving, deze configureren en gedetailleerde instellingen beheren voor taakuitvoering, clusterbeheer en bootstrapping-acties.

Note

De configuratie op aanvraag wordt momenteel alleen ondersteund voor Azure HDInsight-clusters. Azure Databricks biedt ook ondersteuning voor on-demand taken met behulp van taakclusters. Zie de gekoppelde Azure Databricks-service voor meer informatie.

De service kan automatisch een HDInsight-cluster op aanvraag maken om gegevens te verwerken. Het cluster wordt gemaakt in dezelfde regio als het opslagaccount (de eigenschap linkedServiceName in de JSON) die is gekoppeld aan het cluster. Het opslagaccount must is een standaard Azure Storage-account voor algemeen gebruik.

Let op de volgende belangrijke punten over gekoppelde HDInsight-service op aanvraag:

  • Het HDInsight-cluster op aanvraag wordt gemaakt onder uw Azure-abonnement. U kunt het cluster in Azure Portal zien wanneer het cluster actief is.
  • De logboeken voor taken die worden uitgevoerd op een HDInsight-cluster op aanvraag, worden gekopieerd naar het opslagaccount dat is gekoppeld aan het HDInsight-cluster. De clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword die in uw gekoppelde servicedefinitie is gedefinieerd, worden gebruikt om u aan te melden bij het cluster voor uitgebreide probleemoplossing tijdens de levenscyclus van het cluster.
  • Er worden alleen kosten in rekening gebracht wanneer het HDInsight-cluster operationeel is en taken uitvoert.
  • U kunt een scriptactie gebruiken met de gekoppelde Azure HDInsight-service op aanvraag.

Important

Het duurt doorgaans 20 minuten of langer om een Azure HDInsight-cluster op aanvraag in te richten.

Voorbeeld van gebruik van serviceprincipalsleutel

De volgende JSON definieert een gekoppelde HDInsight-service op basis van Linux op aanvraag. De service maakt automatisch een HDInsight-cluster op basis van Linux om de vereiste activiteit te verwerken.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "ServicePrincipalKey",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Voorbeeld van het gebruik van door het systeem toegewezen beheerde identiteit

De volgende JSON definieert een gekoppelde HDInsight-service op basis van Linux op aanvraag. De service maakt automatisch een HDInsight-cluster op basis van Linux om de vereiste activiteit te verwerken.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Voorbeeld van het gebruik van door de gebruiker toegewezen beheerde identiteit

De volgende JSON definieert een gekoppelde HDInsight-service op basis van Linux op aanvraag. De service maakt automatisch een HDInsight-cluster op basis van Linux om de vereiste activiteit te verwerken.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
      "credential": {
            "referenceName": "CredentialName",
            "type": "CredentialReference"
       },
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Het HDInsight-cluster maakt een standaardcontainer in de blobopslag die u hebt opgegeven in de JSON (linkedServiceName). HDInsight verwijdert deze container niet wanneer het cluster wordt verwijderd. Dit gedrag is opzettelijk ontworpen. Met een gekoppelde on-demand HDInsight-service wordt er elke keer als een onderdeel moet worden verwerkt een HDInsight-cluster gemaakt, tenzij er al een bestaand livecluster (timeToLive) is. Het cluster wordt verwijderd wanneer de verwerking is voltooid.

Naarmate er meer activiteit wordt uitgevoerd, ziet u veel containers in uw Azure Blob Storage. Als u ze niet nodig hebt voor het oplossen van problemen met de taken, kunt u ze verwijderen om de opslagkosten te verlagen. De namen van deze containers volgen een patroon: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Gebruik hulpprogramma's zoals Microsoft Azure Storage Explorer om containers in uw Azure Blob Storage te verwijderen.

Properties

Property Description Required
type De eigenschap type moet worden ingesteld op HDInsightOnDemand. Yes
clusterSize Aantal werkknooppunten/gegevensknooppunten in het cluster. Het HDInsight-cluster wordt gemaakt met 2 hoofdknooppunten, samen met het aantal werkknooppunten dat u voor deze eigenschap opgeeft. De knooppunten hebben een grootte Standard_D3 met vier kernen, dus een cluster met 4 werkknooppunten heeft 24 kernen (4*4 = 16 kernen voor werkknooppunten, plus 2*4 = 8 kernen voor hoofdknooppunten). Zie Clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie. Yes
linkedServiceName Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens. Het HDInsight-cluster wordt gemaakt in dezelfde regio als dit Azure Storage-account. Azure HDInsight heeft een beperking voor het totale aantal kernen dat u kunt gebruiken in elke Azure-regio die wordt ondersteund. Zorg ervoor dat u voldoende kernquota in die Azure-regio hebt om te voldoen aan de vereiste clusterSize. Raadpleeg clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie.

Op dit moment kunt u geen HDInsight-cluster op aanvraag maken dat gebruikmaakt van een Azure Data Lake Storage (Gen 2) als opslag. Als u de resultaatgegevens uit HDInsight-verwerking wilt opslaan in een Azure Data Lake Storage (Gen 2), gebruikt u een kopieeractiviteit om de gegevens van Azure Blob Storage naar Azure Data Lake Storage (Gen 2) te kopiëren.

Yes
clusterResourceGroup Het HDInsight-cluster wordt gemaakt in deze resourcegroep. Yes
clusterResourceGroupAuthType Geef het verificatietype van de HDInsight On-demand-cluster-resourcegroep op. Ondersteunde verificatietypen zijn ServicePrincipalKey, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. Vereist voor het gebruik van managed identity-verificatie. Als het veld niet aanwezig is, wordt standaard ServicePrincipalKey gebruikt
credential Geef de referentieverwijzing op met het beheerde identiteitsobject dat toegang heeft tot de resourcegroep. Alleen vereist voor 'UserAssignedManagedIdentity'-verificatie.
timetolive De toegestane niet-actieve tijd voor het HDInsight-cluster op aanvraag. Hiermee geeft u op hoe lang het HDInsight-cluster op aanvraag actief blijft na voltooiing van een activiteitsuitvoering als er geen andere actieve taken in het cluster zijn. De minimaal toegestane waarde is 5 minuten (00:05:00).

Als een activiteitsuitvoering bijvoorbeeld 6 minuten duurt en de levensduur is ingesteld op 5 minuten, blijft het cluster 5 minuten actief na de 6 minuten van het verwerken van de activiteitsuitvoering. Als een andere activiteitsuitvoering wordt uitgevoerd met het venster van 6 minuten, wordt deze door hetzelfde cluster verwerkt.

Het maken van een HDInsight-cluster op aanvraag is een dure bewerking (kan enige tijd duren). Gebruik deze instelling dus indien nodig om de prestaties van de service te verbeteren door een HDInsight-cluster op aanvraag opnieuw te gebruiken.

Als u een time-to-live waarde instelt op 0, wordt het cluster verwijderd zodra de uitvoering van de activiteit is voltooid. Hoewel, als u een hoge waarde instelt, kan het cluster inactief blijven, zodat u kunt inloggen voor probleemoplossingsdoeleinden, maar dit kan leiden tot hoge kosten. Daarom is het belangrijk dat u de juiste waarde instelt op basis van uw behoeften.

Als de waarde van de timetolive-eigenschap op de juiste wijze is ingesteld, kunnen meerdere pijplijnen de instantie van het HDInsight-cluster op aanvraag delen.
Yes
clusterType Het type HDInsight-cluster dat moet worden gemaakt. Toegestane waarden zijn 'hadoop' en 'spark'. Als dit niet is opgegeven, is de standaardwaarde hadoop. Een cluster met een ingeschakeld Enterprise Security Package kan niet zomaar op aanvraag worden gemaakt. Gebruik in plaats daarvan een bestaande cluster of je eigen rekencapaciteit. No
version Versie van het HDInsight-cluster. Als dit niet is opgegeven, wordt de huidige standaardversie van HDInsight gebruikt. No
hostSubscriptionId De Azure-abonnements-id die wordt gebruikt voor het maken van een HDInsight-cluster. Als dit niet is opgegeven, wordt de abonnements-id van uw Azure-aanmeldingscontext gebruikt. No
clusterNamePrefix Het voorvoegsel van de HDI-clusternaam en een tijdstempel worden automatisch toegevoegd aan het einde van de clusternaam. No
sparkVersion De versie van Spark als het clustertype Spark is No
additionalLinkedServiceNames Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. Deze opslagaccounts moeten zich in dezelfde regio bevinden als het HDInsight-cluster, dat wordt gemaakt in dezelfde regio als het opslagaccount dat is opgegeven door linkedServiceName. No
osType Type besturingssysteem. Toegestane waarden zijn: Linux en Windows (alleen voor HDInsight 3.3). Standaard is Linux. No
hcatalogLinkedServiceName De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL Database als metastore. No
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde HDInsight-service te verzenden. Voor een gekoppelde HDInsight-service op aanvraag ondersteunt deze alleen Azure Integration Runtime. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. No
clusterUserName De gebruikersnaam voor toegang tot het cluster. No
clusterPassword Het wachtwoord in het type beveiligde tekenreeks voor toegang tot het cluster. No
clusterSshUserName De gebruikersnaam voor SSH maakt extern verbinding met het knooppunt van het cluster (voor Linux). No
clusterSshPassword Het wachtwoord als een beveiligde tekenreeks om met SSH op afstand verbinding te maken met de knooppunten van een cluster (voor Linux). No
scriptActions Geef een script op voor HDInsight-clusteraanpassingen tijdens het maken van een cluster op aanvraag.
Het bewerkingsprogramma voor de gebruikersinterface ondersteunt momenteel het opgeven van slechts één scriptactie, maar u kunt deze beperking in de JSON doorlopen (geef meerdere scriptacties op in de JSON).
No

Important

HDInsight ondersteunt meerdere Hadoop-clusterversies die kunnen worden geïmplementeerd. Elke versiekeuze maakt een specifieke versie van de HDP-distributie (Hortonworks Data Platform) en een set onderdelen die zich in die distributie bevinden. De lijst met ondersteunde HDInsight-versies wordt bijgewerkt om de meest recente Onderdelen en oplossingen van het Hadoop-ecosysteem te bieden. Zorg ervoor dat u altijd verwijst naar de meest recente informatie van de ondersteunde HDInsight-versie en het besturingssysteemtype om ervoor te zorgen dat u een ondersteunde versie van HDInsight gebruikt.

Important

Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.

  • additionalLinkedServiceNames JSON-voorbeeld
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authenticatie

Authenticatie van service-principal

Voor de gekoppelde on-demand HDInsight-service is een service-principal-verificatie vereist voor het maken van HDInsight-clusters namens u. Als u service-principalverificatie wilt gebruiken, registreert u een toepassingsentiteit in Microsoft Entra ID en verleent u deze de rol Inzender van het abonnement of de resourcegroep waarin het HDInsight-cluster wordt gemaakt. Zie De portal gebruiken om een Microsoft Entra-toepassing en service-principal te maken die toegang heeft tot resources voor gedetailleerde stappen. Noteer de volgende waarden die u gebruikt om de gekoppelde service te definiëren:

  • Applicatie-ID
  • Toepassingssleutel
  • Huurder-ID

Gebruik service-principalverificatie door de volgende eigenschappen op te geven:

Property Description Required
servicePrincipalId Geef de client-id van de toepassing op. Yes
servicePrincipalKey Geef de sleutel van de toepassing op. Yes
tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Yes

Verificatie van beheerde identiteit

Wanneer u beheerde identiteitsverificatie gebruikt voor gekoppelde Azure HDInsight-services on-demand, moet u ervoor zorgen dat het object Beheerde identiteit toegang heeft tot de rol Bijdrager voor de resourcegroep.

Primaire ADLS Gen2-opslagaccounts ondersteunen nu UAMI-verificatie (Door de gebruiker toegewezen beheerde identiteit) naast bestaande verificatie op basis van sleutels. De UAMI moet machtigingen hebben voor de eigenaar van opslagblobgegevens voor het primaire opslagaccount.

Beperkingen:

  • Het primaire ADLS Gen2-opslagaccount en de UAMI moeten zich in dezelfde resourcegroep bevinden als de resourcegroep die wordt gebruikt om het HDInsight-cluster op aanvraag te maken.
  • De naam van het referentieobject voor de UAMI in Data Factory moet exact overeenkomen met de UAMI-naam.

Zie Azure HDInsight maken - Azure Data Lake Storage Gen2 - portal en beheerde identiteiten in Azure HDInsight voor meer informatie

Geavanceerde eigenschappen

U kunt ook de volgende eigenschappen opgeven voor de gedetailleerde configuratie van het HDInsight-cluster op aanvraag.

Property Description Required
coreConfiguration Hiermee geeft u de kernconfiguratieparameters (zoals in core-site.xml) op voor het HDInsight-cluster dat moet worden gemaakt. No
hBaseConfiguration Hiermee geeft u de HBase-configuratieparameters (hbase-site.xml) voor het HDInsight-cluster op. No
hdfsConfiguration Hiermee geeft u de HDFS-configuratieparameters (hdfs-site.xml) voor het HDInsight-cluster op. No
hiveConfiguration Hiermee geeft u de hive-configuratieparameters (hive-site.xml) voor het HDInsight-cluster op. No
mapReduceConfiguration Hiermee geeft u de MapReduce-configuratieparameters (mapred-site.xml) voor het HDInsight-cluster op. No
oozieConfiguration Hiermee geeft u de Oozie-configuratieparameters (oozie-site.xml) op voor het HDInsight-cluster. No
stormConfiguration Hiermee geeft u de Storm-configuratieparameters (storm-site.xml) voor het HDInsight-cluster op. No
yarnConfiguration Hiermee geeft u de Yarn-configuratieparameters (yarn-site.xml) voor het HDInsight-cluster op. No
  • Voorbeeld: on-demand HDInsight-clusterconfiguratie met geavanceerde eigenschappen
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Knooppuntgrootten

U kunt de grootte van hoofd-, gegevens- en zookeeper-knooppunten opgeven met behulp van de volgende eigenschappen:

Property Description Required
headNodeSize De grootte van het hoofdknooppunt wordt aangegeven. De standaardwaarde is: Standard_D3. Zie de sectie Knooppuntgrootten opgeven voor meer informatie. No
dataNodeSize Hiermee geeft u de grootte van het gegevensknooppunt. De standaardwaarde is: Standard_D3. No
zookeeperNodeSize Hiermee specificeert u de grootte van het ZooKeeper-knooppunt. De standaardwaarde is: Standard_D3. No
  • Knooppuntgrootten opgeven Zie het artikel Grootten van virtuele machines voor tekenreekswaarden die u moet opgeven voor de eigenschappen die in de vorige sectie worden genoemd. De waarden moeten voldoen aan de CMDLETs & APIS waarnaar in het artikel wordt verwezen. Zoals u in het artikel kunt zien, heeft het gegevensknooppunt van grote grootte (standaard) 7 GB geheugen, wat mogelijk niet goed genoeg is voor uw scenario.

Als u hoofdknooppunten en werkknooppunten van D4-grootte wilt maken, geeft u Standard_D4 op als de waarde voor de eigenschappen headNodeSize en dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Als u een verkeerde waarde voor deze eigenschappen opgeeft, wordt mogelijk de volgende fout weergegeven: Kan cluster niet maken. Uitzondering: kan de bewerking voor het maken van het cluster niet voltooien. De bewerking is mislukt met code 400. Cluster bevindt zich in de reststatus 'Fout'. Bericht: 'PreClusterCreationValidationFailure'. Wanneer u deze fout ontvangt, controleer dan of u de naam CMDLET & APIS gebruikt zoals aangegeven in de tabel van het artikel Grootten van virtuele machines.

Uw eigen rekenomgeving gebruiken

In dit type configuratie kunnen gebruikers een al bestaande computeromgeving registreren als een gekoppelde service. De computeromgeving wordt beheerd door de gebruiker en de service gebruikt deze om de activiteiten uit te voeren.

Dit type configuratie wordt ondersteund voor de volgende rekenomgevingen:

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

Gekoppelde Azure HDInsight-service

U kunt een gekoppelde Azure HDInsight-service maken om uw eigen HDInsight-cluster te registreren met een data factory of Synapse-werkruimte.

Voorbeeld van basisverificatie

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Voorbeeld van het gebruik van door het systeem toegewezen beheerde identiteit

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "clusterAuthType": "SystemAssignedManagedIdentity",
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Voorbeeld van het gebruik van door de gebruiker toegewezen beheerde identiteit

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
         "clusterAuthType": "UserAssignedManagedIdentity",
         "credential": {
                "referenceName": "CredentialName",
                "type": "CredentialReference"
            },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
type De eigenschap type moet worden ingesteld op HDInsight. Yes
clusterUri De URI van het HDInsight-cluster. Yes
username Geef de naam op van de gebruiker die moet worden gebruikt om verbinding te maken met een bestaand HDInsight-cluster. Yes
password Geef het wachtwoord op voor het gebruikersaccount. Yes
linkedServiceName Naam van de gekoppelde Azure Storage-service die verwijst naar de Azure Blob Storage die wordt gebruikt door het HDInsight-cluster.

Momenteel kunt u geen gekoppelde Azure Data Lake Storage-service (Gen 2) voor deze eigenschap opgeven. Als het HDInsight-cluster toegang heeft tot Data Lake Store, hebt u toegang tot gegevens in Azure Data Lake Storage (Gen 2) vanuit Hive/Pig-scripts.

Yes
isEspEnabled Geef 'true' op als het HDInsight-cluster Enterprise Security Package is ingeschakeld. De standaardwaarde is 'false'. No
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.
Voor HDInsight-cluster met Enterprise Security Package (ESP) gebruikt u een zelf-gehoste Integration Runtime, die een lijn van zicht heeft op het cluster of in hetzelfde virtuele netwerk als het ESP HDInsight-cluster moet worden geïmplementeerd.
No
clusterAuthType Specificeer het HDInsight-cluster verificatietype. Ondersteunde verificatietypen zijn 'BasicAuth', 'SystemAssignedManagedIdentity', 'UserAssignedManagedIdentity'. Vereist voor het gebruik van verificatie voor beheerde identiteiten. Als er geen veld is, wordt standaard BasicAuth gebruikt
credential Geef de referentieverwijzing op met objectgegevens voor beheerde identiteiten voor het HDInsight-cluster. Alleen vereist voor authenticatie met de UserAssignedManagedIdentity

Authenticatie

De gekoppelde Azure Storage-service voor ADLS Gen2 biedt nu ondersteuning voor door het systeem toegewezen en door de gebruiker toegewezen beheerde identiteiten, naast de bestaande verificatiemethoden. Deze ondersteuning is standaard beschikbaar wanneer u Azure Integration Runtime (Azure IR) gebruikt en wordt ondersteund in zelf-hostende Integration Runtime (SHIR) vanaf versie 5.55.9306.2 of hoger. Voor Azure Blob Storage blijft de gekoppelde Azure Storage-service alleen verificatie van accountsleutels ondersteunen. Verificatie van beheerde identiteiten voor clusters is nu ook standaard beschikbaar wanneer u Azure IR gebruikt en wordt ondersteund in SHIR vanaf versie 5.58 of hoger. Bij het maken van een cluster kan slechts één verificatiemethode per cluster worden gebruikt. Zie Azure HDInsight-cluster maken en beheren met Entra ID-verificatie voor meer informatie over het maken en beheren van clusters met een beheerde identiteit

Important

HDInsight ondersteunt meerdere Hadoop-clusterversies die kunnen worden geïmplementeerd. Elke versiekeuze maakt een specifieke versie van de HDP-distributie (Hortonworks Data Platform) en een set onderdelen die zich in die distributie bevinden. De lijst met ondersteunde HDInsight-versies wordt bijgewerkt om de meest recente Onderdelen en oplossingen van het Hadoop-ecosysteem te bieden. Zorg ervoor dat u altijd verwijst naar de meest recente informatie van de ondersteunde HDInsight-versie en het besturingssysteemtype om ervoor te zorgen dat u een ondersteunde versie van HDInsight gebruikt.

Important

Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.

Gekoppelde Azure Batch-service

Note

We raden u aan om de Azure Az PowerShell-module te gebruiken om met Azure te communiceren. Zie Azure PowerShell installeren om aan de slag te gaan. Om te leren hoe u naar de Az PowerShell-module kunt migreren, zie Migrate Azure PowerShell from AzureRM to Az.

U kunt een gekoppelde Azure Batch-service maken om een Batch-pool met virtuele machines (VM's) te registreren bij een gegevens- of Synapse-werkruimte. U kunt aangepaste activiteiten uitvoeren met behulp van Azure Batch.

Zie de volgende artikelen als u geen gebruik hebt gemaakt van de Azure Batch-service:

Important

Bij het maken van een nieuwe Azure Batch-pool moet VirtualMachineConfiguration worden gebruikt en NIET CloudServiceConfiguration.

Example

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
type De typeeigenschap moet worden ingesteld op AzureBatch. Yes
accountName Naam van het Azure Batch-account. Yes
accessKey Toegangssleutel voor het Azure Batch-account. Yes
batchUri URL naar uw Azure Batch-account, in de indeling van https:// batchaccountname.region.batch.azure.com. Yes
poolName Naam van de pool van virtuele machines. Yes
linkedServiceName Naam van de gekoppelde Azure Storage-service die is gekoppeld aan deze gekoppelde Azure Batch-service. Deze gekoppelde service wordt gebruikt voor faseringsbestanden die nodig zijn om de activiteit uit te voeren. Yes
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. No

Gekoppelde Machine Learning Studio-service (klassiek)

Important

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Voor meer informatie, zie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

U maakt een klassieke gekoppelde service voor Machine Learning Studio aan om een batchscore-eindpunt voor Machine Learning Studio (klassiek) te registreren bij een data factory of Synapse-werkruimte.

Example

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property Description Required
Type De typeeigenschap moet worden ingesteld op: AzureML. Yes
mlEndpoint De batchscore-URL. Yes
apiKey De API van het gepubliceerde werkruimtemodel. Yes
updateResourceEndpoint De RESOURCE-URL bijwerken voor een ML Studio-webservice-eindpunt (klassiek) dat wordt gebruikt om de voorspellende webservice bij te werken met een getraind modelbestand No
servicePrincipalId Geef de client-id van de toepassing op. Vereist als updateResourceEndpoint is opgegeven
servicePrincipalKey Geef de sleutel van de toepassing op. Vereist als updateResourceEndpoint is opgegeven
tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Vereist als updateResourceEndpoint is opgegeven
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. No

Gekoppelde Azure Machine Learning-service

U maakt een gekoppelde Azure Machine Learning-service om een Azure Machine Learning-werkruimte te verbinden met een data factory of Synapse-werkruimte.

Note

Momenteel wordt alleen verificatie van service-principals ondersteund voor de gekoppelde Azure Machine Learning-service.

Example

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
Type De typeeigenschap moet worden ingesteld op: AzureMLService. Yes
subscriptionId Azure-abonnements-id Yes
resourceGroupName name Yes
mlWorkspaceName Naam van Azure Machine Learning-werkruimte Yes
servicePrincipalId Geef de client-id van de toepassing op. Yes
servicePrincipalKey Geef de sleutel van de toepassing op. Yes
tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Vereist als updateResourceEndpoint is opgegeven
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. No

Gekoppelde Azure Data Lake Analytics-service

U maakt een gekoppelde Azure Data Lake Analytics-service om een Azure Data Lake Analytics-rekenservice te koppelen aan een data factory of Synapse-werkruimte. De Data Lake Analytics U-SQL-activiteit in de pijplijn verwijst naar deze gekoppelde service.

Example

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
type De typeeigenschap moet worden ingesteld op: AzureDataLakeAnalytics. Yes
accountName Azure Data Lake Analytics-accountnaam. Yes
dataLakeAnalyticsUri Azure Data Lake Analytics-URI. No
subscriptionId Azure-abonnements-id No
resourceGroupName Naam van Azure-resourcegroep No
servicePrincipalId Geef de client-id van de toepassing op. Yes
servicePrincipalKey Geef de sleutel van de toepassing op. Yes
tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. Yes
connectVia De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. No

Gekoppelde Azure Databricks-service

U kunt een gekoppelde Azure Databricks-service maken om de Databricks-werkruimte te registreren die u gebruikt om de Databricks-workloads (notebook, jar, python) uit te voeren.

Important

Gekoppelde Databricks-services ondersteunen instantiegroepen en door het systeem toegewezen verificatie van beheerde identiteiten.

Voorbeeld: nieuw taakcluster gebruiken in Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Voorbeeld: bestaand interactief cluster gebruiken in Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property Description Required
name Naam van de gekoppelde service Yes
type De eigenschap type moet worden ingesteld op: Azure Databricks. Yes
domain Geef de Azure-regio dienovereenkomstig op op basis van de regio van de Databricks-werkruimte. Voorbeeld: https://eastus.azuredatabricks.net Yes
accessToken Toegangstoken is vereist voor de service om te verifiëren bij Azure Databricks. Het toegangstoken moet worden gegenereerd vanuit de databricks-werkruimte. Meer gedetailleerde stappen voor het vinden van het toegangstoken vindt u hier No
MSI Gebruik de beheerde identiteit van de service (door het systeem toegewezen) om te verifiëren bij Azure Databricks. U hebt geen toegangstoken nodig bij het gebruik van MSI-verificatie. Meer informatie over verificatie van beheerde identiteiten vindt u hier No
existingClusterId Cluster-id van een bestaand cluster om alle taken op dit cluster uit te voeren. Dit moet een al gemaakt interactief cluster zijn. Mogelijk moet u het cluster handmatig opnieuw opstarten als het niet meer reageert. Databricks stelt voor om taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. U vindt de cluster-id van een interactief cluster in de Databricks-werkruimte - Clusters ->> Interactieve clusternaam -> Configuratie -> Tags. Meer informatie No
instancePoolId Instance Pool-ID van een bestaande pool in de Databricks-werkruimte. No
newClusterVersion De Spark-versie van het cluster. Er wordt een taakcluster gemaakt in Databricks. No
newClusterNumOfWorker Aantal werkernodes dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers Executors voor in totaal num_workers + 1 Spark-knooppunten. Een tekenreeks die is opgemaakt als Int32, zoals '1', betekent dat numOfWorker gelijk is aan 1, of '1:10' duidt op automatisch schalen van 1 als minimum en 10 als maximum. No
newClusterNodeType Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Dit veld is vereist voor een nieuw cluster No
newClusterSparkConf een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. Gebruikers kunnen ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via spark.driver.extraJavaOptions en spark.executor.extraJavaOptions. No
newClusterInitScripts een set optionele door de gebruiker gedefinieerde initialisatiescripts voor het nieuwe cluster. U kunt de init-scripts opgeven in werkruimtebestanden (aanbevolen) of via het DBFS-pad (verouderd). No

Gekoppelde Azure SQL Database-dienst

U maakt een gekoppelde Azure SQL-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het artikel over Azure SQL Connector voor meer informatie over deze gekoppelde service.

Gekoppelde Azure Synapse Analytics-service

U maakt een gekoppelde Azure Synapse Analytics-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure aan te roepen vanuit een pijplijn. Zie het artikel azure Synapse Analytics Connector voor meer informatie over deze gekoppelde service.

Gekoppelde SQL Server-service

U maakt een gekoppelde SQL Server-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het artikel over de SQL Server-connector voor meer informatie over deze gekoppelde service.

Gekoppelde service voor Azure Synapse Analytics (Artefacten)

U maakt een gekoppelde Azure Synapse Analytics-service (Artifacts) en gebruikt deze met de Synapse Notebook-activiteit en synapse Spark-taakdefinitieactiviteit.

Example

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
name Naam van de gekoppelde service Yes
description beschrijving van de gekoppelde service No
annotations annotaties van de Linked Service No
type De eigenschap type moet worden ingesteld op AzureSynapseArtifacts Yes
endpoint De URL van Azure Synapse Analytics Yes
authentication De standaardinstelling is Door het systeem toegewezen beheerde identiteit Yes
workspaceResourceId werkruimteresource-id Yes
connectVia De Integration Runtime die moet worden gebruikt om verbinding te maken met de datastore. U kunt Azure Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. De zelf-hostende Integration Runtime wordt momenteel niet ondersteund. Yes

Gekoppelde Azure Function-service

U maakt een gekoppelde Azure-functieservice en gebruikt deze met de Azure Function-activiteit om Azure Functions in een pijplijn uit te voeren. Het retourtype van de Azure-functie moet een geldige JObjectwaarde zijn. (Houd er rekening mee dat JArraygeen is.) Een ander retourtype dan mislukt en genereert de gebruikersfout Response Content is not a valid JObject.

Property Description Required
type De eigenschap Type moet worden ingesteld op: AzureFunction yes
URL van functie-app URL voor de Azure Function-app. Indeling is https://<accountname>.azurewebsites.net. Deze URL is de waarde onder de URL-sectie bij het weergeven van uw Function App in de Azure portal yes
functietoets Toegangssleutel voor de Azure-functie. Klik op de sectie Beheren voor de respectieve functie en kopieer de functiesleutel of de hostsleutel. Meer informatie hier: Werken met toegangssleutels yes

Zie Gegevens transformeren voor een lijst met de ondersteunde transformatieactiviteiten.