Beräkningsmiljöer som stöds av Azure Data Factory- och Synapse-pipelines

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Viktigt!

Stödet för Azure Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du övergår till Azure Machine Learning vid det datumet.

Från och med den 1 december 2021 kan du inte skapa nya Machine Learning Studio-resurser (klassiska) (arbetsyta och webbtjänstplan). Till och med den 31 augusti 2024 kan du fortsätta att använda befintliga Machine Learning Studio-experiment (klassiska) och webbtjänster. Mer information finns i:

Dokumentationen för Machine Learning Studio (klassisk) dras tillbaka och kanske inte uppdateras i framtiden.

Den här artikeln beskriver olika beräkningsmiljöer som du kan använda för att bearbeta eller transformera data. Den innehåller också information om olika konfigurationer (på begäran jämfört med bring your own) som stöds när du konfigurerar länkade tjänster som länkar dessa beräkningsmiljöer.

Följande tabell innehåller en lista över beräkningsmiljöer som stöds och de aktiviteter som kan köras på dem.

Compute-miljö Aktiviteter
HDInsight-kluster på begäran eller ditt eget HDInsight-kluster Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Egen
ML Studio (klassisk) ML Studio-aktiviteter (klassisk): Batch-körning och uppdateringsresurs
Azure Machine Learning Kör pipeline för Azure Machine Learning
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Lagrad procedur
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (artefakter) Synapse Notebook-aktivitet, Synapse Spark-jobbdefinition
Azure-funktion Azure-funktionsaktivitet

HDInsight-beräkningsmiljö

Se tabellen nedan för mer information om de lagringslänkade tjänsttyper som stöds för konfiguration i miljöerna På begäran och BYOC (Bring Your Own Compute).

I länkad beräkningstjänst Egenskapsnamn beskrivning Blob ADLS Gen2 Azure SQL-databas ADLS Gen 1
På begäran linkedServiceName Länkad Azure Storage-tjänst som ska användas av klustret på begäran för lagring och bearbetning av data. Ja Ja No Nej
additionalLinkedServiceNames Anger ytterligare lagringskonton för den länkade HDInsight-tjänsten så att tjänsten kan registrera dem åt dig. Ja No No Nej
hcatalogLinkedServiceName Namnet på den länkade Azure SQL-tjänsten som pekar på HCatalog-databasen. HDInsight-klustret på begäran skapas med hjälp av Azure SQL-databasen som metaarkiv. Nej No Ja Nej
BYOC linkedServiceName Referens för den länkade Azure Storage-tjänsten. Ja Ja No Nej
additionalLinkedServiceNames Anger ytterligare lagringskonton för den länkade HDInsight-tjänsten så att tjänsten kan registrera dem åt dig. Nej No No Nej
hcatalogLinkedServiceName En referens till den länkade Azure SQL-tjänsten som pekar på HCatalog-databasen. Nej No No Nej

Länkad tjänst för Azure HDInsight på begäran

I den här typen av konfiguration hanteras databehandlingsmiljön helt av tjänsten. Den skapas automatiskt av tjänsten innan ett jobb skickas för att bearbeta data och tas bort när jobbet har slutförts. Du kan skapa en länkad tjänst för beräkningsmiljön på begäran, konfigurera den och kontrollera detaljerade inställningar för jobbkörning, klusterhantering och startåtgärder.

Kommentar

Konfigurationen på begäran stöds för närvarande endast för Azure HDInsight-kluster. Azure Databricks stöder även jobb på begäran med hjälp av jobbkluster. Mer information finns i Länkad Azure databricks-tjänst.

Tjänsten kan automatiskt skapa ett HDInsight-kluster på begäran för att bearbeta data. Klustret skapas i samma region som lagringskontot (linkedServiceName-egenskapen i JSON) som är associerat med klustret. Lagringskontot must är ett Azure Storage-standardkonto för generell användning.

Observera följande viktiga punkter om den länkade HDInsight-tjänsten på begäran:

  • HDInsight-klustret på begäran skapas under din Azure-prenumeration. Du kan se klustret i Azure-portalen när klustret är igång.
  • Loggarna för jobb som körs på ett HDInsight-kluster på begäran kopieras till lagringskontot som är associerat med HDInsight-klustret. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword som definierats i din länkade tjänstdefinition används för att logga in på klustret för djupgående felsökning under klustrets livscykel.
  • Du debiteras endast för den tid då HDInsight-klustret är igång och kör jobb.
  • Du kan använda en skriptåtgärd med den länkade Azure HDInsight-tjänsten på begäran.

Viktigt!

Det tar vanligtvis 20 minuter eller mer att etablera ett Azure HDInsight-kluster på begäran.

Exempel

Följande JSON definierar en Linux-baserad HDInsight-länkad tjänst på begäran. Tjänsten skapar automatiskt ett Linux-baserat HDInsight-kluster för att bearbeta den aktivitet som krävs.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Viktigt!

HDInsight-klustret skapar en standardcontainer i den bloblagring som du angav i JSON (linkedServiceName). HDInsight tar inte bort den här containern när klustret tas bort. Detta beteende är av design. Med en HDInsight-länkad tjänst på begäran skapas ett HDInsight-kluster varje gång en sektor behöver bearbetas, såvida det inte finns ett befintligt livekluster (timeToLive). Det raderas när bearbetningen är klar.

När fler aktiviteter körs ser du många containrar i azure-bloblagringen. Om du inte behöver dem för felsökning av jobben kanske du vill ta bort dem för att minska lagringskostnaden. Namnen på de här containrarna följer ett mönster: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Använd verktyg som Microsoft Azure Storage Explorer för att ta bort containrar i Azure Blob Storage.

Egenskaper

Property Beskrivning Obligatoriskt
type Typegenskapen ska anges till HDInsightOnDemand. Ja
clusterSize Antal arbets-/datanoder i klustret. HDInsight-klustret skapas med 2 huvudnoder tillsammans med det antal arbetsnoder som du anger för den här egenskapen. Noderna är av storlek Standard_D3 som har 4 kärnor, så ett kluster med 4 arbetsnoder tar 24 kärnor (4*4 = 16 kärnor för arbetsnoder, plus 2*4 = 8 kärnor för huvudnoder). Mer information finns i Konfigurera kluster i HDInsight med Hadoop, Spark, Kafka och mer . Ja
linkedServiceName Länkad Azure Storage-tjänst som ska användas av klustret på begäran för lagring och bearbetning av data. HDInsight-klustret skapas i samma region som det här Azure Storage-kontot. Azure HDInsight har en begränsning för hur många kärnor du kan använda i varje Azure-region som stöds. Se till att du har tillräckligt med kärnkvoter i Azure-regionen för att uppfylla de kluster som krävsSize. Mer information finns i Konfigurera kluster i HDInsight med Hadoop, Spark, Kafka med mera

För närvarande kan du inte skapa ett HDInsight-kluster på begäran som använder en Azure Data Lake Storage (Gen 2) som lagring. Om du vill lagra resultatdata från HDInsight-bearbetning i en Azure Data Lake Storage (Gen 2) använder du en kopieringsaktivitet för att kopiera data från Azure Blob Storage till Azure Data Lake Storage (Gen 2).

Ja
clusterResourceGroup HDInsight-klustret skapas i den här resursgruppen. Ja
timetolive Tillåten inaktivitetstid för HDInsight-klustret på begäran. Anger hur länge HDInsight-klustret på begäran förblir vid liv efter slutförandet av en aktivitetskörning om det inte finns några andra aktiva jobb i klustret. Det minsta tillåtna värdet är 5 minuter (00:05:00).

Om en aktivitetskörning till exempel tar 6 minuter och timetolive har angetts till 5 minuter, förblir klustret vid liv i 5 minuter efter 6 minuters bearbetning av aktivitetskörningen. Om en annan aktivitetskörning körs med fönstret på 6 minuter bearbetas den av samma kluster.

Att skapa ett HDInsight-kluster på begäran är en dyr åtgärd (kan ta ett tag), så använd den här inställningen efter behov för att förbättra tjänstens prestanda genom att återanvända ett HDInsight-kluster på begäran.

Om du anger timetolive-värdet till 0 tas klustret bort så snart aktivitetskörningen har slutförts. Om du anger ett högt värde kan klustret vara inaktivt för att du ska kunna logga in i felsökningssyfte, men det kan leda till höga kostnader. Därför är det viktigt att du anger rätt värde baserat på dina behov.

Om egenskapsvärdet timetolive har angetts korrekt kan flera pipelines dela instansen av HDInsight-klustret på begäran.
Ja
clusterType Typen av HDInsight-kluster som ska skapas. Tillåtna värden är "hadoop" och "spark". Om det inte anges är standardvärdet hadoop. Enterprise Security Package-aktiverat kluster kan inte skapas på begäran, i stället använder du ett befintligt kluster/ta med din egen beräkning. Nej
version Version av HDInsight-klustret. Om den inte anges använder den den aktuella HDInsight-definierade standardversionen. Nej
hostSubscriptionId Azure-prenumerations-ID:t som användes för att skapa HDInsight-kluster. Om det inte anges använder den prenumerations-ID:t för din Azure-inloggningskontext. Nej
clusterNamePrefix Prefixet för HDI-klusternamn, en tidsstämpel läggs automatiskt till i slutet av klusternamnet Nej
sparkVersion Spark-versionen om klustertypen är "Spark" Nej
additionalLinkedServiceNames Anger ytterligare lagringskonton för den länkade HDInsight-tjänsten så att tjänsten kan registrera dem åt dig. Dessa lagringskonton måste finnas i samma region som HDInsight-klustret, som skapas i samma region som lagringskontot som anges av linkedServiceName. Nej
osType Typ av operativsystem. Tillåtna värden är: Linux och Windows (endast för HDInsight 3.3). Standardvärdet är Linux. Nej
hcatalogLinkedServiceName Namnet på den länkade Azure SQL-tjänsten som pekar på HCatalog-databasen. HDInsight-klustret på begäran skapas med hjälp av Azure SQL Database som metaarkiv. Nej
connectVia Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade HDInsight-tjänsten. För den länkade HDInsight-tjänsten på begäran stöder den endast Azure Integration Runtime. Om den inte anges använder den standardkörningen för Azure-integrering. Nej
clusterUserName Användarnamnet för att komma åt klustret. Nej
clusterPassword Lösenordet i typ av säker sträng för åtkomst till klustret. Nej
clusterSshUserName Användarnamnet till SSH ansluter via fjärranslutning till klustrets nod (för Linux). Nej
clusterSshPassword Lösenordet i typ av säker sträng till SSH fjärransluter klustrets nod (för Linux). Nej
scriptActions Ange skript för HDInsight-klusteranpassningar när klustret skapas på begäran.
För närvarande stöder UI-redigeringsverktyget endast att ange en skriptåtgärd, men du kan komma igenom den här begränsningen i JSON (ange flera skriptåtgärder i JSON).
Nej

Viktigt!

HDInsight stöder flera Hadoop-klusterversioner som kan distribueras. Varje versionsval skapar en specifik version av Hortonworks Data Platform-distributionen (HDP) och en uppsättning komponenter som ingår i den distributionen. Listan över HDInsight-versioner som stöds uppdateras hela tiden för att tillhandahålla de senaste komponenterna och korrigeringarna i Hadoop-ekosystemet. Se till att du alltid refererar till den senaste informationen om HDInsight-versionen och OS-typen som stöds för att säkerställa att du använder den version av HDInsight som stöds.

Viktigt!

För närvarande stöder inte HDInsight-länkade tjänster HBase, Interaktiv fråga (Hive LLAP), Storm.

  • additionalLinkedServiceNames JSON-exempel
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Tjänstens huvudautentisering

Den länkade HDInsight-tjänsten på begäran kräver en autentisering med tjänstens huvudnamn för att skapa HDInsight-kluster åt dig. Om du vill använda autentisering med tjänstens huvudnamn registrerar du en programentitet i Microsoft Entra-ID och ger den rollen Deltagare för prenumerationen eller resursgruppen där HDInsight-klustret skapas. Detaljerade steg finns i Använda portalen för att skapa ett Microsoft Entra-program och tjänstens huvudnamn som kan komma åt resurser. Anteckna följande värden som du använder för att definiera den länkade tjänsten:

  • Program-ID:t
  • Programnyckel
  • Klientorganisations-ID

Använd autentisering med tjänstens huvudnamn genom att ange följande egenskaper:

Property Beskrivning Obligatoriskt
servicePrincipalId Ange programmets klient-ID. Ja
servicePrincipalKey Ange programmets nyckel. Ja
Hyresgästen Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet i Azure-portalen. Ja

Avancerade egenskaper

Du kan också ange följande egenskaper för den detaljerade konfigurationen av HDInsight-klustret på begäran.

Property Beskrivning Obligatoriskt
coreConfiguration Anger de grundläggande konfigurationsparametrarna (som i core-site.xml) för HDInsight-klustret som ska skapas. Nej
hBaseConfiguration Anger HBase-konfigurationsparametrarna (hbase-site.xml) för HDInsight-klustret. Nej
hdfsConfiguration Anger HDFS-konfigurationsparametrarna (hdfs-site.xml) för HDInsight-klustret. Nej
hiveConfiguration Anger hive-konfigurationsparametrarna (hive-site.xml) för HDInsight-klustret. Nej
mapReduceConfiguration Anger MapReduce-konfigurationsparametrarna (mapred-site.xml) för HDInsight-klustret. Nej
oozieConfiguration Anger Oozie-konfigurationsparametrarna (oozie-site.xml) för HDInsight-klustret. Nej
stormConfiguration Anger Storm-konfigurationsparametrarna (storm-site.xml) för HDInsight-klustret. Nej
yarnConfiguration Anger Yarn-konfigurationsparametrarna (yarn-site.xml) för HDInsight-klustret. Nej
  • Exempel – HDInsight-klusterkonfiguration på begäran med avancerade egenskaper
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Nodstorlekar

Du kan ange storleken på huvud-, data- och zookeeper-noder med hjälp av följande egenskaper:

Property Beskrivning Obligatoriskt
headNodeSize Anger huvudnodens storlek. Standardvärdet är: Standard_D3. Mer information finns i avsnittet Ange nodstorlekar . Nej
dataNodeSize Anger storleken på datanoden. Standardvärdet är: Standard_D3. Nej
zookeeperNodeSize Anger storleken på noden Zoo Keeper. Standardvärdet är: Standard_D3. Nej
  • Ange nodstorlekar Se artikeln Storlekar på virtuella datorer för strängvärden som du behöver ange för de egenskaper som nämns i föregående avsnitt. Värdena måste överensstämma med CMDLETs och APIS som refereras i artikeln. Som du kan se i artikeln har datanoden med storleken Stor (standard) 7 GB minne, vilket kanske inte är tillräckligt bra för ditt scenario.

Om du vill skapa huvudnoder med D4-storlek och arbetsnoder anger du Standard_D4 som värde för headNodeSize- och dataNodeSize-egenskaper.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Om du anger ett fel värde för dessa egenskaper kan du få följande fel: Det gick inte att skapa klustret. Undantag: Unable to complete the cluster create operation. (Det går inte att slutföra åtgärden att skapa ett kluster.) Operation failed with code '400'. (Åtgärden misslyckades med koden 400). Cluster left behind state: 'Error'. (Klustret efterlämnade status: Fel.) Meddelande: "PreClusterCreationValidationFailure". När du får det här felet kontrollerar du att du använder CMDLET- och APIS-namnet från tabellen i artikeln Storlekar på virtuella datorer .

Ta med din egen beräkningsmiljö

I den här typen av konfiguration kan användare registrera en redan befintlig databehandlingsmiljö som en länkad tjänst. Databehandlingsmiljön hanteras av användaren och tjänsten använder den för att köra aktiviteterna.

Den här typen av konfiguration stöds för följande beräkningsmiljöer:

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

Länkad Azure HDInsight-tjänst

Du kan skapa en länkad Azure HDInsight-tjänst för att registrera ett eget HDInsight-kluster med en datafabrik eller En Synapse-arbetsyta.

Exempel

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Egenskaper

Property Beskrivning Obligatoriskt
type Typegenskapen ska vara inställd på HDInsight. Ja
clusterUri URI:n för HDInsight-klustret. Ja
användarnamn Ange namnet på den användare som ska användas för att ansluta till ett befintligt HDInsight-kluster. Ja
password Ange lösenord för användarkontot. Ja
linkedServiceName Namnet på den länkade Azure Storage-tjänsten som refererar till Azure Blob Storage som används av HDInsight-klustret.

För närvarande kan du inte ange en länkad Azure Data Lake Storage-tjänst (Gen 2) för den här egenskapen. Om HDInsight-klustret har åtkomst till Data Lake Store kan du komma åt data i Azure Data Lake Storage (Gen 2) från Hive/Pig-skript.

Ja
isEspEnabled Ange "sant" om HDInsight-klustret är Enterprise Security Package aktiverat. Standardvärdet är "false". Nej
connectVia Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering.
För Enterprise Security Package (ESP) aktiverade HDInsight-kluster använder du en lokalt installerad integrationskörning som har en siktlinje för klustret eller som ska distribueras i samma virtuella nätverk som ESP HDInsight-klustret.
Nej

Viktigt!

HDInsight stöder flera Hadoop-klusterversioner som kan distribueras. Varje versionsval skapar en specifik version av Hortonworks Data Platform-distributionen (HDP) och en uppsättning komponenter som ingår i den distributionen. Listan över HDInsight-versioner som stöds uppdateras hela tiden för att tillhandahålla de senaste komponenterna och korrigeringarna i Hadoop-ekosystemet. Se till att du alltid refererar till den senaste informationen om HDInsight-versionen och OS-typen som stöds för att säkerställa att du använder den version av HDInsight som stöds.

Viktigt!

För närvarande stöder inte HDInsight-länkade tjänster HBase, Interaktiv fråga (Hive LLAP), Storm.

Länkad Azure Batch-tjänst

Kommentar

Vi rekommenderar att du använder Azure Az PowerShell-modulen för att interagera med Azure. Se Installera Azure PowerShell för att komma igång. Information om hur du migrerar till Az PowerShell-modulen finns i artikeln om att migrera Azure PowerShell från AzureRM till Az.

Du kan skapa en länkad Azure Batch-tjänst för att registrera en Batch-pool med virtuella datorer till en data- eller Synapse-arbetsyta. Du kan köra anpassad aktivitet med hjälp av Azure Batch.

Se följande artiklar om du är nybörjare på Azure Batch-tjänsten:

Viktigt!

När du skapar en ny Azure Batch-pool måste "VirtualMachineConfiguration" användas och INTE "CloudServiceConfiguration". Mer information finns i migreringsvägledning för Azure Batch Pool.

Exempel

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Egenskaper

Property Beskrivning Obligatoriskt
type Typegenskapen ska anges till AzureBatch. Ja
accountName Namnet på Azure Batch-kontot. Ja
Accesskey Åtkomstnyckel för Azure Batch-kontot. Ja
batchUri URL till ditt Azure Batch-konto i formatet https:// batchaccountname.region.batch.azure.com. Ja
poolName Namnet på poolen med virtuella datorer. Ja
linkedServiceName Namnet på den länkade Azure Storage-tjänsten som är associerad med den här länkade Azure Batch-tjänsten. Den här länkade tjänsten används för mellanlagring av filer som krävs för att köra aktiviteten. Ja
connectVia Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. Nej

Länkad tjänst för Machine Learning Studio (klassisk)

Viktigt!

Stödet för Azure Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du övergår till Azure Machine Learning vid det datumet.

Från och med den 1 december 2021 kan du inte skapa nya Machine Learning Studio-resurser (klassiska) (arbetsyta och webbtjänstplan). Till och med den 31 augusti 2024 kan du fortsätta att använda befintliga Machine Learning Studio-experiment (klassiska) och webbtjänster. Mer information finns i:

Dokumentationen för Machine Learning Studio (klassisk) dras tillbaka och kanske inte uppdateras i framtiden.

Du skapar en länkad Machine Learning Studio-tjänst (klassisk) för att registrera en batchbedömningsslutpunkt för Machine Learning Studio (klassisk) till en datafabrik eller Synapse-arbetsyta.

Exempel

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Egenskaper

Property Beskrivning Obligatoriskt
Typ Typegenskapen ska anges till: AzureML. Ja
mlEndpoint Batchbedömnings-URL:en. Ja
apiKey Den publicerade arbetsytemodellens API. Ja
updateResourceEndpoint Url:en för uppdateringsresurser för en ML Studio-slutpunkt (klassisk) webbtjänst som används för att uppdatera den förutsägande webbtjänsten med en tränad modellfil Nej
servicePrincipalId Ange programmets klient-ID. Krävs om updateResourceEndpoint har angetts
servicePrincipalKey Ange programmets nyckel. Krävs om updateResourceEndpoint har angetts
tenant Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet i Azure-portalen. Krävs om updateResourceEndpoint har angetts
connectVia Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. Nej

Länkad Azure Machine Learning-tjänst

Du skapar en länkad Azure Machine Learning-tjänst för att ansluta en Azure Machine Learning-arbetsyta till en datafabrik eller Synapse-arbetsyta.

Kommentar

För närvarande stöds endast autentisering med tjänstens huvudnamn för den länkade Azure Machine Learning-tjänsten.

Exempel

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Egenskaper

Property Beskrivning Obligatoriskt
Typ Typegenskapen ska anges till: AzureMLService. Ja
subscriptionId Azure-prenumerations-ID Ja
resourceGroupName name Ja
mlWorkspaceName Namn på Azure Machine Learning-arbetsyta Ja
servicePrincipalId Ange programmets klient-ID. Ja
servicePrincipalKey Ange programmets nyckel. Ja
tenant Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet i Azure-portalen. Krävs om updateResourceEndpoint har angetts
connectVia Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. Nej

Länkad Azure Data Lake Analytics-tjänst

Du skapar en länkad Azure Data Lake Analytics-tjänst för att länka en Azure Data Lake Analytics-beräkningstjänst till en datafabrik eller Synapse-arbetsyta. Data Lake Analytics U-SQL-aktiviteten i pipelinen refererar till den här länkade tjänsten.

Exempel

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Egenskaper

Property Beskrivning Obligatoriskt
type Typegenskapen ska anges till: AzureDataLakeAnalytics. Ja
accountName Azure Data Lake Analytics-kontonamn. Ja
dataLakeAnalyticsUri Azure Data Lake Analytics-URI. Nej
subscriptionId Azure-prenumerations-ID Nej
resourceGroupName Azure-resursgruppsnamn Nej
servicePrincipalId Ange programmets klient-ID. Ja
servicePrincipalKey Ange programmets nyckel. Ja
tenant Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet i Azure-portalen. Ja
connectVia Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. Nej

Länkad Azure Databricks-tjänst

Du kan skapa en länkad Azure Databricks-tjänst för att registrera Databricks-arbetsytan som du använder för att köra Databricks-arbetsbelastningarna (notebook, jar, python).

Viktigt!

Databricks-länkade tjänster stöder instanspooler och systemtilldelad hanterad identitetsautentisering.

Exempel – Använda nytt jobbkluster i Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "dapif33c9c721144c3a790b35000b57f7124f"
            }
        }
    }
}

Exempel – Använda ett befintligt interaktivt kluster i Databricks

{
    "name": " AzureDataBricksLinedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "dapif33c9c72344c3a790b35000b57f7124f"
          },
        "existingClusterId": "{clusterId}"
        }
}

Egenskaper

Property Beskrivning Obligatoriskt
name Namnet på den länkade tjänsten Ja
type Typegenskapen ska anges till: Azure Databricks. Ja
domain Ange Azure-regionen baserat på databricks-arbetsytans region. Exempel: https://eastus.azuredatabricks.net Ja
accessToken Åtkomsttoken krävs för att tjänsten ska kunna autentisera till Azure Databricks. Åtkomsttoken måste genereras från databricks-arbetsytan. Mer detaljerade steg för att hitta åtkomsttoken finns här Nej
MSI Använd tjänstens hanterade identitet (systemtilldelad) för att autentisera till Azure Databricks. Du behöver inte åtkomsttoken när du använder MSI-autentisering. Mer information om autentisering med hanterad identitet finns här Nej
existingClusterId Kluster-ID för ett befintligt kluster för att köra alla jobb på detta. Detta bör vara ett redan skapat interaktivt kluster. Du kan behöva starta om klustret manuellt om det slutar svara. Databricks föreslår att du kör jobb på nya kluster för bättre tillförlitlighet. Du hittar kluster-ID:t för ett interaktivt kluster på Databricks-arbetsytan – Kluster –>> Interaktivt klusternamn –> Konfiguration –> Taggar. Mer information Nej
instancePoolId Instanspools-ID för en befintlig pool på databricks-arbetsytan. Nej
newClusterVersion Spark-versionen av klustret. Det skapar ett jobbkluster i databricks. Nej
newClusterNumOfWorker Antal arbetsnoder som klustret ska ha. Ett kluster har en Spark Driver och num_workers Executors för totalt num_workers + 1 Spark-noder. En sträng formaterad Int32, som "1" innebär att numOfWorker är 1 eller "1:10" innebär autoskalning från 1 som min och 10 som max. Nej
newClusterNodeType Det här fältet kodar, via ett enda värde, de resurser som är tillgängliga för var och en av Spark-noderna i det här klustret. Spark-noderna kan till exempel etableras och optimeras för minnes- eller beräkningsintensiva arbetsbelastningar. Det här fältet krävs för det nya klustret Nej
newClusterSparkConf en uppsättning valfria, användardefinierade Nyckel/värde-par för Spark-konfiguration. Användare kan också skicka in en sträng med extra JVM-alternativ till drivrutinen och körarna via spark.driver.extraJavaOptions respektive spark.executor.extraJavaOptions. Nej
newClusterInitScripts en uppsättning valfria, användardefinierade initieringsskript för det nya klustret. Du kan ange init-skripten i arbetsytefiler (rekommenderas) eller via DBFS-sökvägen (äldre). Nej

Länkad Azure SQL Database-tjänst

Du skapar en länkad Azure SQL-tjänst och använder den med aktiviteten Lagrad procedur för att anropa en lagrad procedur från en pipeline. Mer information om den här länkade tjänsten finns i artikeln azure SQL Anslut or.

Länkad Azure Synapse Analytics-tjänst

Du skapar en länkad Azure Synapse Analytics-tjänst och använder den med aktiviteten Lagrad procedur för att anropa en lagrad procedur från en pipeline. Mer information om den här länkade tjänsten finns i artikeln om Azure Synapse Analytics Anslut or.

Länkad SQL Server-tjänst

Du skapar en länkad SQL Server-tjänst och använder den med aktiviteten Lagrad procedur för att anropa en lagrad procedur från en pipeline. Mer information om den här länkade tjänsten finns i artikeln om SQL Server-anslutningsappen .

Länkad tjänst för Azure Synapse Analytics (Artifacts)

Du skapar en länkad Azure Synapse Analytics-tjänst (Artifacts) och använder den med Synapse Notebook Activity och Synapse Spark-jobbdefinitionsaktiviteten.

Exempel

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

Egenskaper

Property Beskrivning Krävs
name Namnet på den länkade tjänsten Ja
description beskrivning av den länkade tjänsten Nej
Anteckningar anteckningar för den länkade tjänsten Nej
type Typegenskapen ska anges till AzureSynapseArtifacts Ja
slutpunkt URL:en för Azure Synapse Analytics Ja
autentisering Standardinställningen är Systemtilldelad hanterad identitet Ja
workspaceResourceId arbetsytans resurs-ID Ja
connectVia Den integrationskörning som ska användas för att ansluta till datalagret. Du kan använda Azure Integration Runtime. Om den inte anges använder den standardkörningen för Azure-integrering. Den lokalt installerade integrationskörningen stöds inte för närvarande. Ja

Länkad Azure-funktionstjänst

Du skapar en länkad Azure-funktionstjänst och använder den med Azure Function-aktiviteten för att köra Azure Functions i en pipeline. Returtypen för Azure-funktionen måste vara giltig JObject. (Tänk på att JArray är inte en JObject.) Alla andra returtyper än JObject misslyckas och genererar användarfelet Svarsinnehåll är inte en giltig JObject.

Property Beskrivning Krävs
type Typegenskapen måste anges till: AzureFunction ja
url för funktionsapp URL för Azure-funktionsappen. Formatet är https://<accountname>.azurewebsites.net. Den här URL:en är värdet under URL-avsnittet när du visar funktionsappen i Azure-portalen ja
funktionsnyckel Åtkomstnyckel för Azure-funktionen. Klicka på avsnittet Hantera för respektive funktion och kopiera antingen funktionsnyckeln eller värdnyckeln. Läs mer här: Azure Functions HTTP-utlösare och bindningar ja

En lista över de omvandlingsaktiviteter som stöds finns i Transformera data.