Ambienti di calcolo supportati dalle pipeline di Azure Data Factory e Synapse

Articolo
10/20/2023

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

Importante

Il supporto per Azure Machine Learning Studio (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021, non è possibile creare nuove risorse di Machine Learning Studio (versione classica) (area di lavoro e piano di servizio Web). Fino al 31 agosto 2024, è possibile continuare a usare gli esperimenti e i servizi Web esistenti di Machine Learning Studio (versione classica). Per altre informazioni, vedi:

La documentazione di Machine Learning Studio (versione classica) viene ritirata e potrebbe non essere aggiornata in futuro.

Questo articolo spiega i diversi ambienti di calcolo che è possibile utilizzare per elaborare o una trasformare dati. Fornisce anche informazioni dettagliate sulle diverse configurazioni (su richiesta e bring your own) supportate durante la configurazione dei servizi collegati che collegano questi ambienti di calcolo.

Nella tabella seguente è riportato un elenco di ambienti di calcolo supportati e delle attività che possono essere eseguite su di esse.

Ambiente di calcolo	Attività
Cluster HDInsight su richiesta o il proprio cluster HDInsight	Hive, Pig, Spark, MapReduce, Streaming di Hadoop
Azure Batch	Personalizzazione
ML Studio (versione classica)	Attività di ML Studio (versione classica): esecuzione batch e risorsa di aggiornamento
Azure Machine Learning	Esecuzione delle pipeline di Azure Machine Learning
Azure Data Lake Analytics	Attività U-SQL di Data Lake Analytics
Azure SQL, Azure Synapse Analytics, SQL Server	Stored procedure
Azure Databricks	Notebook, Jar, Python
Azure Synapse Analytics (artefatti)	Attività di Synapse Notebook, definizione del processo Synapse Spark
Funzione di Azure	Attività Funzioni di Azure

Ambiente di calcolo di HDInsight

Vedere la tabella seguente per informazioni dettagliate sui tipi di servizi collegati di archiviazione supportati per la configurazione in un ambiente su richiesta e BYOC (Bring Your Own Computer).

Servizi collegati di calcolo	Nome proprietà	Descrizione	BLOB	ADLS Gen2	DB di Azure SQL	ADLS Gen 1
Al bisogno	linkedServiceName	Servizio collegato di Archiviazione di Azure che il cluster su richiesta deve usare per l'archiviazione e l'elaborazione dei dati.	Sì	Sì	No	No
	additionalLinkedServiceNames	Specifica account di archiviazione aggiuntivi per il servizio collegato HDInsight in modo che il servizio possa registrarli per conto dell'utente.	Sì	No	No	No
	hcatalogLinkedServiceName	Il nome del servizio collegato di Azure SQL che fa riferimento al database HCatalog. Viene creato il cluster HDInsight su richiesta usando il database SQL di Azure come metastore.	No	No	Sì	No
BYOC	linkedServiceName	Riferimento al servizio collegato di Archiviazione di Azure.	Sì	Sì	No	No
	additionalLinkedServiceNames	Specifica account di archiviazione aggiuntivi per il servizio collegato HDInsight in modo che il servizio possa registrarli per conto dell'utente.	No	No	No	No
	hcatalogLinkedServiceName	Un riferimento al servizio collegato SQL di Azure che fa riferimento al database HCatalog.	No	No	No	No

Servizio collegato Azure HDInsight su richiesta

In questo tipo di configurazione, l'ambiente di calcolo è completamente gestito dal servizio. Viene creato automaticamente dal servizio prima che un processo venga inviato per elaborare i dati e rimosso al termine del processo. Gli utenti possono configurare e controllare le impostazioni granulari dell'ambiente di elaborazione su richiesta per l'esecuzione del processo, la gestione del cluster e azioni di avvio automatico.

Nota

La configurazione su richiesta è attualmente supportata solo per i cluster HDInsight di Azure. Azure Databricks supporta anche i processi su richiesta usando i cluster di processi. Per altre informazioni, vedere il servizio collegato Azure Databricks.

Il servizio può creare automaticamente un cluster HDInsight su richiesta per elaborare i dati. La creazione del cluster avviene nella stessa area dell'account di archiviazione (proprietà linkedServiceName in JSON) associato al cluster. L'account di archiviazione must essere un account di Archiviazione di Azure standard per utilizzo generico.

Tenere presente i seguenti punti importanti sul servizio collegato HDInsight su richiesta:

Il cluster HDInsight su richiesta verrà creato nella sottoscrizione di Azure. È possibile visualizzare il cluster nel portale di Azure quando questo è attivo e in esecuzione.
I log per i processi eseguiti su un cluster HDInsight su richiesta vengono copiati nell'account di archiviazione associato al cluster HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword definiti nella definizione del servizio collegato vengono usati per accedere al cluster per la risoluzione approfondita dei problemi durante il ciclo di vita del cluster.
Viene addebitato solo il tempo in cui il cluster HDInsight è attivo e i processi in esecuzione.
Si può usare un'azione script con il servizio collegato Azure HDInsight su richiesta.

Importante

Richiede in genere almeno 20 minuti per il provisioning di un cluster HDInsight di Azure su richiesta.

Esempio

Il codice JSON seguente definisce un servizio collegato HDInsight su richiesta basato su Linux. Il servizio crea automaticamente un cluster HDInsight basato su Linux per elaborare l'attività richiesta.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Importante

Il cluster HDInsight crea un contenitore predefinito nell'archivio BLOB specificato nel file JSON (linkedServiceName). HDInsight non elimina il contenitore quando viene eliminato il cluster. Questo comportamento è impostato a livello di progettazione. Con il servizio collegato HDInsight su richiesta, viene creato un cluster HDInsight ogni volta che è necessario elaborare una sezione, a meno che non esista un cluster attivo (timeToLive) che viene eliminato al termine dell'elaborazione.

Man mano che vengono eseguite le attività, vengono visualizzati numerosi contenitori nell'archivio BLOB di Azure. Se non sono necessari per la risoluzione dei problemi dei processi, è possibile eliminarli per ridurre i costi di archiviazione. I nomi dei contenitori seguono il modello adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Per eliminare i contenitori nell'archivio BLOB di Azure, usare strumenti come Microsoft Azure Storage Explorer.

Proprietà

Proprietà	Descrizione	Richiesto
type	La proprietà type deve essere impostata su HDInsightOnDemand.	Sì
clusterSize	Numero di nodi del ruolo di lavoro/nodi dati nel cluster. Il cluster HDInsight viene creato con 2 nodi head e il numero di nodi del ruolo di lavoro specificato per questa proprietà. I nodi sono di dimensioni Standard_D3 con 4 core, quindi un cluster di 4 nodi di lavoro accetta 24 core (44 = 16 core per i nodi di lavoro, più 24 = 8 core per i nodi head). Per altre informazioni vedere Configurare i cluster di HDInsight con Hadoop, Spark, Kafka e altro ancora.	Sì
linkedServiceName	Servizio collegato di Archiviazione di Azure che il cluster su richiesta deve usare per l'archiviazione e l'elaborazione dei dati. Il cluster HDInsight viene creato nella stessa area dell'account di Archiviazione di Azure. Azure HDInsight applica un limite al numero totale di core che è possibile usare in ogni area di Azure supportata. Assicurarsi di avere sufficienti quote di core in tale area di Azure per soddisfare il clusterSize necessario. Per altre informazioni vedere Configurare i cluster di HDInsight con Hadoop, Spark, Kafka e altro ancora Non è attualmente possibile creare un cluster HDInsight su richiesta che usa Azure Data Lake Storage (Gen 2) come risorsa di archiviazione. Per archiviare i dati dei risultati dell'elaborazione di HDInsight in un'istanza di Azure Data Lake Storage (Gen 2), usare un'attività di copia per copiare i dati dall'Archiviazione BLOB di Azure in Azure Data Lake Storage (Gen 2).	Sì
clusterResourceGroup	In questo gruppo di risorse viene creato il cluster di HDInsight.	Sì
timeToLive	Il tempo di inattività consentito per il cluster HDInsight su richiesta. Specifica per quanto tempo il cluster HDInsight su richiesta rimane attivo dopo il completamento di un'attività eseguita se non sono presenti altri processi attivi del cluster. Il valore minimo consentito è 5 minuti (00:05:00). Ad esempio, se un'esecuzione di attività accetta 6 minuti e timetolive è impostato su 5 minuti, il cluster rimane attivo per altri 5 minuti dopo i 6 minuti di elaborazione dell'attività. Se un'altra attività viene eseguita entro i 6 minuti consentiti, verrà elaborata dallo stesso cluster. La creazione di un cluster HDInsight su richiesta è un'operazione costosa (potrebbe richiedere un po'), quindi usare questa impostazione in base alle esigenze per migliorare le prestazioni del servizio riutilizzando un cluster HDInsight su richiesta. Se si imposta il valore della proprietà timetolive su 0, il cluster viene eliminato non appena l'esecuzione dell'attività viene completata. Se invece si imposta un valore elevato, il cluster può rimanere inattiva per l'accesso per alcuni scopi di risoluzione dei problemi, ma potrebbe comportare costi elevati. È quindi importante impostare il valore appropriato in base alle esigenze. Se il valore della proprietà timetolive è impostato in modo appropriato, più pipeline possono condividere la stessa istanza del cluster HDInsight su richiesta.	Sì
clusterType	Tipo di cluster HDInsight da creare. I valori consentiti sono "hadoop" e "spark". Se non è specificato, il valore predefinito è hadoop. Non è possibile creare un cluster abilitato per Enterprise Security Package su richiesta, usare invece un cluster esistente o l'ambiente di calcolo "bring your own".	No
versione	Versione del cluster HDInsight Se non specificato, si usa la versione attuale predefinita da HDInsight.	No
hostSubscriptionId	L'ID della sottoscrizione di Azure usato per creare il cluster di HDInsight. Se non specificato, si usa l'ID della sottoscrizione del contesto di accesso di Azure.	No
clusterNamePrefix	Il prefisso del nome cluster HDI. Un timestamp verrà aggiunto automaticamente alla fine del nome del cluster	No
sparkVersion	Versione di Spark se il tipo di cluster è "Spark"	No
additionalLinkedServiceNames	Specifica account di archiviazione aggiuntivi per il servizio collegato HDInsight in modo che il servizio possa registrarli per conto dell'utente. Questi account di archiviazione devono essere nella stessa area del cluster HDInsight, che viene creato nella stessa area dell'account di archiviazione specificato da linkedServiceName.	No
osType	Tipo di sistema operativo. I valori consentiti sono: Linux e Windows, solo per HDInsight 3.3. Il valore predefinito è Linux.	No
hcatalogLinkedServiceName	Il nome del servizio collegato di Azure SQL che fa riferimento al database HCatalog. Viene creato il cluster HDInsight su richiesta usando il database SQL di Azure come metastore.	No
connectVia	Runtime di integrazione da usare per inviare le attività a questo servizio collegato di HDInsight. Per il servizio collegato di HDInsight su richiesta, supporta solo il runtime di integrazione di Azure. Se non specificato, viene usato il runtime di integrazione di Azure predefinito.	No
clusterUserName	Nome utente per accedere al cluster.	No
clusterPassword	La password nel tipo di stringa protetta per accedere al cluster.	No
clusterSshUserName	Il nome utente a SSH si connette in remoto al nodo del cluster (per Linux).	No
clusterSshPassword	Password nel tipo di stringa sicura per connettersi in remoto al nodo del cluster (per Linux).	No
scriptActions	Specificare uno script per personalizzazioni del cluster HDInsight durante la creazione del cluster su richiesta. Attualmente, lo strumento di creazione dell'interfaccia utente supporta solo l'impostazione di un'azione script, ma è possibile superare questa limitazione nel codice JSON (specificare più azioni script in JSON).	No

Importante

HDInsight supporta più versioni cluster di Hadoop che possono essere distribuite. Ogni versione scelta crea una versione specifica della distribuzione HDP (Hortonworks Data Platform) e un set di componenti contenuti in tale distribuzione. L'elenco delle versioni supportate di HDInsight viene continuamente aggiornato per offrire i componenti dell'ecosistema Hadoop e le correzioni più recenti. Verificare sempre di fare riferimento alle informazioni più recenti della Versione supportata di HDInsight e del tipo di sistema operativo per assicurarsi di usare la versione supportata di HDInsight.

Importante

Attualmente i servizi collegati a HDInsight non supportano HBase, Interactive Query (Hive LLAP) e Storm.

Esempio di codice JSON additionalLinkedServiceNames

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Autenticazione dell'entità servizio

Il servizio collegato di HDInsight su richiesta richiede un'autenticazione dell'entità servizio per creare i cluster HDInsight per conto dell'utente. Per usare l'autenticazione dell'entità servizio, registrare un'entità applicazione in Microsoft Entra ID e concedergli il ruolo Collaboratore della sottoscrizione o del gruppo di risorse in cui viene creato il cluster HDInsight. Per i passaggi dettagliati, vedere Usare il portale per creare un'applicazione Microsoft Entra e un'entità servizio in grado di accedere alle risorse. Prendere nota dei valori seguenti che si usano per definire il servizio collegato:

ID applicazione
Chiave applicazione
ID tenant

Usare l'autenticazione basata su entità servizio specificando le proprietà seguenti:

Proprietà	Descrizione	Richiesto
servicePrincipalId	Specificare l'ID client dell'applicazione.	Sì
servicePrincipalKey	Specificare la chiave dell'applicazione.	Sì
tenant	Specificare le informazioni sul tenant (nome di dominio o ID tenant) in cui si trova l'applicazione. È possibile recuperarlo passando il cursore del mouse sull'angolo superiore destro del portale di Azure.	Sì

Advanced Properties

È inoltre possibile specificare le seguenti proprietà per la configurazione granulare del cluster HDInsight su richiesta.

Proprietà	Descrizione	Richiesto
coreConfiguration	Specifica i parametri di configurazione di base (ad esempio core-site.xml) per il cluster HDInsight da creare.	No
hBaseConfiguration	Specifica i parametri di configurazione HBase (hbase-site.xml) per il cluster HDInsight.	No
hdfsConfiguration	Specifica i parametri di configurazione HDFS (hdfs-site.xml) per il cluster HDInsight.	No
hiveConfiguration	Specifica i parametri di configurazione hive (hive-site.xml) per il cluster HDInsight.	No
mapReduceConfiguration	Specifica i parametri di configurazione MapReduce (mapred-site.xml) per il cluster HDInsight.	No
oozieConfiguration	Specifica i parametri di configurazione Oozie (oozie-site.xml) per il cluster HDInsight.	No
stormConfiguration	Specifica i parametri di configurazione Storm (storm-site.xml) per il cluster HDInsight.	No
yarnConfiguration	Specifica i parametri di configurazione Yarn (yarn-site.xml) per il cluster HDInsight.	No

Esempio: configurazione del cluster HDInsight su richiesta con proprietà avanzate

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Dimensioni dei nodi

È possibile specificare le dimensioni dei nodi head, di dati e zookeeper usando le proprietà seguenti:

Proprietà	Descrizione	Richiesto
headNodeSize	Specifica le dimensioni del nodo head Il valore predefinito è Standard_D3. Vedere la sezione Specificare le dimensioni dei nodi per informazioni dettagliate.	No
dataNodeSize	Specifica le dimensioni del nodo dei dati. Il valore predefinito è Standard_D3.	No
zookeeperNodeSize	Specifica le dimensioni del nodo Zookeeper. Il valore predefinito è Standard_D3.	No

Specificare le dimensioni dei nodi Vedere l'articolo sulle dimensioni delle macchine virtuali per i valori della stringa che è necessario specificare per le proprietà indicate nella sezione precedente. I valori devono essere conformi a CMDLET e API a cui si fa riferimento nell'articolo. Come si può vedere nell'articolo, il nodo dati di dimensioni Large (impostazione predefinita) ha una memoria di 7 GB, che potrebbe non essere sufficiente per lo scenario.

Per creare nodi head e nodi del ruolo di lavoro di dimensioni D4, è necessario specificare Standard_D4 come valore per le proprietà headNodeSize e dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Se si specifica un valore errato per queste proprietà, è possibile che venga visualizzato l'errore seguente : Impossibile creare il cluster. Eccezione: impossibile completare l'operazione di creazione del cluster. L'operazione non è riuscita con codice '400'. Nello stato del cluster è apparso il messaggio 'Errore'. Messaggio: ’PreClusterCreationValidationFailure’. Quando si riceve questo errore, assicurarsi di usare il nome di CMDLET e API della tabella dell'articolo relativo alle dimensioni delle macchine virtuali.

Ambiente di calcolo “bring your own”

In questo tipo di configurazione, gli utenti possono registrare un ambiente di elaborazione già esistente come servizio collegato. L'ambiente di elaborazione viene gestito dall'utente e il servizio lo usa per eseguire le attività.

Questo tipo di configurazione è supportato per gli ambienti di calcolo seguenti:

Azure HDInsight
Azure Batch
Azure Machine Learning
Azure Data Lake Analytics.
Database SQL di Azure, Azure Synapse Analytics, SQL Server

Servizio collegato Azure HDInsight

È possibile creare un servizio collegato Azure HDInsight per registrare il proprio cluster HDInsight con una data factory o un'area di lavoro di Synapse.

Esempio

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Proprietà

Proprietà	Descrizione	Richiesto
type	La proprietà type deve essere impostata su HDInsight.	Sì
clusterUri	L'URI del cluster HDInsight.	Sì
username	Specifica il nome dell'utente da utilizzare per connettersi a un cluster HDInsight esistente.	Sì
password	Specifica la password per l'account utente.	Sì
linkedServiceName	Nome del servizio collegato all'archiviazione di Azure che fa riferimento all'archiviazione BLOB di Azure usata dal cluster HDInsight. Non è attualmente possibile specificare un servizio collegato di Azure Data Lake Storage (Gen 2) per questa proprietà. Se il cluster HDInsight ha accesso a Data Lake Store, è possibile accedere ai dati in Azure Data Lake Storage (Gen 2) dagli script Hive/Pig.	Sì
isEspEnabled	Specificare "true" se il cluster HDInsight è abilitato per Enterprise Security Package. L'impostazione predefinita è "false".	No
connectVia	Il runtime di integrazione da usare per inviare le attività a questo servizio collegato. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted. Se non specificato, viene usato il runtime di integrazione di Azure predefinito. Per un cluster HDInsight abilitato per Enterprise Security Package (ESP), usare un runtime di integrazione self-hosted che comunichi con il cluster oppure distribuirlo all'interno della stessa Rete virtuale del cluster HDInsight ESP.	No

Importante

Attualmente i servizi collegati a HDInsight non supportano HBase, Interactive Query (Hive LLAP) e Storm.

Servizio collegato Azure Batch

Nota

È consigliabile usare il modulo Azure Az PowerShell per interagire con Azure. Per iniziare, vedere Installare Azure PowerShell. Per informazioni su come eseguire la migrazione al modulo AZ PowerShell, vedere Eseguire la migrazione di Azure PowerShell da AzureRM ad Az.

È possibile creare un servizio collegato di Azure Batch per registrare un pool di macchine virtuali (VM) batch in un'area di lavoro dati o Synapse. È possibile eseguire l'attività personalizzata usando Azure Batch.

Vedere gli articoli seguenti se non si ha familiarità con il servizio Azure Batch:

Nozioni di base di Azure Batch per una panoramica del servizio Azure Batch.
Cmdlet New-AzureBatchAccount per creare un account di Azure Batch oppure portale di Azure per creare l'account di Azure Batch usando il portale di Azure. Per istruzioni dettagliate sull'uso del cmdlet, vedere l'articolo Uso di Azure PowerShell per gestire l'account di Azure Batch.
Cmdlet New AzureBatchPool per creare un pool di Azure Batch.

Importante

Quando si crea un nuovo pool di Azure Batch, è necessario usare 'VirtualMachineConfiguration' e NON 'CloudServiceConfiguration'. Per altre informazioni, vedere Le indicazioni sulla migrazione del pool di Azure Batch.

Esempio

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Proprietà

Proprietà	Descrizione	Richiesto
type	La proprietà type deve essere impostata su AzureBatch.	Sì
accountName	Nome dell'account Azure Batch.	Sì
accessKey	Chiave di accesso per l'account Azure Batch.	Sì
batchUri	URL di indirizzamento al proprio account di Azure Batch, nel formato https://batchaccountname.region.batch.azure.com.	Sì
poolName	Nome del pool di macchine virtuali.	Sì
linkedServiceName	Nome dello spazio di archiviazione del servizio collegato Azure associato al servizio collegato Azure Batch. Questo servizio collegato viene usato per organizzare i file necessari per eseguire l'attività.	Sì
connectVia	Il runtime di integrazione da usare per inviare le attività a questo servizio collegato. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted. Se non specificato, viene usato il runtime di integrazione di Azure predefinito.	No

Servizio collegato di Machine Learning Studio (versione classica)

Importante

Il supporto per Azure Machine Learning Studio (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

La documentazione di Machine Learning Studio (versione classica) viene ritirata e potrebbe non essere aggiornata in futuro.

Si crea un servizio collegato di Machine Learning Studio (versione classica) per registrare un endpoint di assegnazione dei punteggi batch di Machine Learning Studio (versione classica) in un'area di lavoro di Data Factory o Synapse.

Esempio

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Proprietà

Proprietà	Descrizione	Richiesto
Type	La proprietà type deve essere impostata su AzureML.	Sì
mlEndpoint	L’URL del batch punteggio.	Sì
apiKey	API del modello dell'area di lavoro pubblicata.	Sì
updateResourceEndpoint	URL della risorsa di aggiornamento per un endpoint servizio Web di ML Studio (versione classica) usato per aggiornare il servizio Web predittivo con il file del modello sottoposto a training	No
servicePrincipalId	Specificare l'ID client dell'applicazione.	Obbligatorio se è specificato updateResourceEndpoint
servicePrincipalKey	Specificare la chiave dell'applicazione.	Obbligatorio se è specificato updateResourceEndpoint
tenant	Specificare le informazioni sul tenant (nome di dominio o ID tenant) in cui si trova l'applicazione. È possibile recuperarlo passando il cursore del mouse sull'angolo superiore destro del portale di Azure.	Obbligatorio se è specificato updateResourceEndpoint
connectVia	Il runtime di integrazione da usare per inviare le attività a questo servizio collegato. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted. Se non specificato, viene usato il runtime di integrazione di Azure predefinito.	No

Servizio collegato di Azure Machine Learning

Si crea un servizio collegato di Azure Machine Learning per connettere un'area di lavoro di Azure Machine Learning a una data factory o a un'area di lavoro di Synapse.

Nota

Attualmente è supportata solo l'autenticazione dell'entità servizio per il servizio collegato Azure Machine Learning.

Esempio

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Proprietà

Proprietà	Descrizione	Richiesto
Type	La proprietà type deve essere impostata su: AzureMLService.	Sì
subscriptionId	ID sottoscrizione di Azure	Sì
resourceGroupName	name	Sì
mlWorkspaceName	Nome delle aree di lavoro di Azure Machine Learning	Sì
servicePrincipalId	Specificare l'ID client dell'applicazione.	Sì
servicePrincipalKey	Specificare la chiave dell'applicazione.	Sì
tenant	Specificare le informazioni sul tenant (nome di dominio o ID tenant) in cui si trova l'applicazione. È possibile recuperarlo passando il cursore del mouse sull'angolo superiore destro del portale di Azure.	Obbligatorio se è specificato updateResourceEndpoint
connectVia	Il runtime di integrazione da usare per inviare le attività a questo servizio collegato. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted. Se non specificato, viene usato il runtime di integrazione di Azure predefinito.	No

Servizio collegato di Azure Data Lake Analytics

Si crea un servizio collegato di Azure Data Lake Analytics per collegare un servizio di calcolo di Azure Data Lake Analytics a una data factory o a un'area di lavoro di Synapse. L'attività U-SQL di Data Lake Analytics nella pipeline fa riferimento a questo servizio collegato.

Esempio

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Proprietà

Proprietà	Descrizione	Richiesto
type	La proprietà type deve essere impostata su AzureDataLakeAnalytics.	Sì
accountName	Nome dell'account di Azure Data Lake Analytics.	Sì
dataLakeAnalyticsUri	URI di Azure Data Lake Analytics.	No
subscriptionId	ID sottoscrizione di Azure	No
resourceGroupName	Nome del gruppo di risorse di Azure	No
servicePrincipalId	Specificare l'ID client dell'applicazione.	Sì
servicePrincipalKey	Specificare la chiave dell'applicazione.	Sì
tenant	Specificare le informazioni sul tenant (nome di dominio o ID tenant) in cui si trova l'applicazione. È possibile recuperarlo passando il cursore del mouse sull'angolo superiore destro del portale di Azure.	Sì
connectVia	Il runtime di integrazione da usare per inviare le attività a questo servizio collegato. È possibile usare il runtime di integrazione di Azure o il runtime di integrazione self-hosted. Se non specificato, viene usato il runtime di integrazione di Azure predefinito.	No

Servizio collegato Azure Databricks

È possibile creare un servizio collegato Azure Databricks per registrare l'area di lavoro di Databricks che si userà per eseguire i carichi di lavoro di Databricks (notebook, jar, python).

Importante

I servizi collegati di Databricks supportano i pool di istanze e l'autenticazione dell'identità gestita assegnata dal sistema.

Esempio - Uso di un nuovo cluster dei processi in Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Esempio - Uso di un cluster interattivo esistente in Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Proprietà

Proprietà	Descrizione	Richiesto
name	Nome del servizio collegato	Sì
type	La proprietà type deve essere impostata su: Azure Databricks.	Sì
dominio	Specificare l'area di Azure in base all'area dell'area di lavoro di Databricks. Esempio: https://eastus.azuredatabricks.net	Sì
accessToken	Il token di accesso è necessario affinché il servizio esegua l'autenticazione in Azure Databricks. Deve essere generato dall'area di lavoro di Databricks. Per una procedura più dettagliata per trovare il token di accesso, fare clic qui	No
MSI	Usare l'identità gestita del servizio (assegnata dal sistema) per eseguire l'autenticazione in Azure Databricks. Non è necessario un token di accesso quando si usa l'autenticazione 'MSI'. Altre informazioni sull'autenticazione dell'identità gestita sono disponibili qui	No
existingClusterId	ID cluster di un cluster esistente in cui eseguire tutti i processi. Dovrebbe essere un cluster interattivo già creato. Potrebbe essere necessario riavviare manualmente il cluster se smette di rispondere. Databricks suggerisce di eseguire i processi su nuovi cluster per una maggiore affidabilità. È possibile trovare l'ID cluster di un cluster interattivo nell'area di lavoro di Databricks -> Cluster -> Nome cluster interattivo -> Configurazione -> Tag. Altri dettagli	No
instancePoolId	ID pool di istanze di un pool esistente nell'area di lavoro di Databricks.	No
newClusterVersion	Versione Spark del cluster. Crea un cluster dei processi in Databricks.	No
newClusterNumOfWorker	Numero di nodi del ruolo di lavoro che il cluster dovrebbe avere. Un cluster ha un driver Spark e num_ruoli_lavoro executor per un totale di num_ruoli_lavoro + 1 nodi Spark. Una stringa formattata int32, ad esempio "1", significa che numOfWorker è 1 o "1:10" indica la scalabilità automatica da 1 come min e 10 come max.	No
newClusterNodeType	Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e l'ottimizzazione della memoria dei nodi Spark o calcolare i carichi di lavoro intensivi. Questo campo è obbligatorio per il nuovo cluster	No
newClusterSparkConf	Set di coppia chiave-valore di configurazione Spark facoltative specificate dall'utente. Gli utenti possono anche passare una stringa di opzioni JVM aggiuntive al driver e agli executor rispettivamente tramite spark.driver.extraJavaOptions e spark.executor.extraJavaOptions.	No
newClusterInitScripts	set di script facoltativi di inizializzazione definiti dall'utente per il nuovo cluster. È possibile specificare gli script init nei file dell'area di lavoro (scelta consigliata) o tramite il percorso DBFS (legacy).	No

Servizio collegato per il database SQL di Azure

Si crea un servizio collegato SQL di Azure e lo si usa con l'attività stored procedure per richiamare una stored procedure da una pipeline. Vedere l’articolo Connettore di Azure SQL per informazioni dettagliate su questo servizio collegato.

Servizio collegato di Azure Synapse Analytics

Si crea un servizio collegato di Azure Synapse Analytics e lo si usa con l'attività stored procedure per richiamare una stored procedure da una pipeline. Per informazioni dettagliate su questo servizio collegato, vedere l'articolo connettore di Azure Synapse Analytics.

Servizio collegato di SQL Server

Creare un servizio collegato di SQL Server e usarlo con l'attività stored procedure per richiamare una stored procedure da una pipeline. Vedere l'articolo Proprietà del servizio collegato SQL Server per informazioni dettagliate su questo servizio collegato.

Servizio collegato Azure Synapse Analytics (Artifacts)

Si crea un servizio collegato di Azure Synapse Analytics (Artifacts) e lo si usa con l'attività di definizione del processo Synapse Notebook e Synapse Spark.

Esempio

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

Proprietà

Proprietà	Descrizione	Obbligatorio
name	Nome del servizio collegato	Sì
description	descrizione del servizio collegato	No
annotations	annotazioni del servizio collegato	No
type	La proprietà type deve essere impostata su AzureSynapseArtifacts	Sì
endpoint	URL di Azure Synapse Analytics	Sì
autenticazione	L'impostazione predefinita è Identità gestita assegnata dal sistema	Sì
workspaceResourceId	ID risorsa area di lavoro	Sì
connectVia	Runtime di integrazione da usare per la connessione all'archivio dati. È possibile usare Azure Integration Runtime. Se non specificato, viene usato il runtime di integrazione di Azure predefinito. Il runtime di integrazione self-hosted non è attualmente supportato.	Sì

Servizio collegato della funzione di Azure

Si crea un servizio collegato funzione di Azure e lo si usa con l'attività funzione di Azure per eseguire Funzioni di Azure in una pipeline. Il tipo restituito della funzione di Azure deve essere un JObject valido. (Tenere presente che JArray non è un .JObject) Qualsiasi tipo restituito diverso da JObject non riesce e genera il contenuto della risposta dell'errore utente non è un JObject valido.

Proprietà	Descrizione	Obbligatorio
type	La proprietà type deve essere impostata su: AzureFunction	yes
function app url	URL dell'app per le funzioni di Azure. Il formato è `https://<accountname>.azurewebsites.net`. Questo URL è il valore presente nella sezione URL quando si visualizza l'app per le funzioni nel portale di Azure	yes
function key	Chiave di accesso per la funzione di Azure. Fare clic sulla sezione Gestisci per la funzione corrispondente e copiare il tasto funzione o la chiave host. Altre informazioni sono disponibili qui: trigger e associazioni HTTP Funzioni di Azure	yes

Per un elenco delle attività di trasformazione supportate, vedere Trasformare i dati.

Condividi tramite

Ambienti di calcolo supportati dalle pipeline di Azure Data Factory e Synapse

Ambiente di calcolo di HDInsight

Servizio collegato Azure HDInsight su richiesta

Esempio

Proprietà

Autenticazione dell'entità servizio

Advanced Properties

Dimensioni dei nodi

Ambiente di calcolo “bring your own”

Servizio collegato Azure HDInsight

Esempio

Proprietà

Servizio collegato Azure Batch

Esempio

Proprietà

Servizio collegato di Machine Learning Studio (versione classica)

Esempio

Proprietà

Servizio collegato di Azure Machine Learning

Esempio

Proprietà

Servizio collegato di Azure Data Lake Analytics

Esempio

Proprietà

Servizio collegato Azure Databricks

Esempio - Uso di un nuovo cluster dei processi in Databricks

Esempio - Uso di un cluster interattivo esistente in Databricks

Proprietà

Servizio collegato per il database SQL di Azure

Servizio collegato di Azure Synapse Analytics

Servizio collegato di SQL Server

Servizio collegato Azure Synapse Analytics (Artifacts)

Esempio

Proprietà

Servizio collegato della funzione di Azure

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Ambienti di calcolo supportati dalle pipeline di Azure Data Factory e Synapse

Ambiente di calcolo di HDInsight

Servizio collegato Azure HDInsight su richiesta

Esempio

Proprietà

Autenticazione dell'entità servizio

Advanced Properties

Dimensioni dei nodi

Ambiente di calcolo “bring your own”

Servizio collegato Azure HDInsight

Esempio

Proprietà

Servizio collegato Azure Batch

Esempio

Proprietà

Servizio collegato di Machine Learning Studio (versione classica)

Esempio

Proprietà

Servizio collegato di Azure Machine Learning

Esempio

Proprietà

Servizio collegato di Azure Data Lake Analytics

Esempio

Proprietà

Servizio collegato Azure Databricks

Esempio - Uso di un nuovo cluster dei processi in Databricks

Esempio - Uso di un cluster interattivo esistente in Databricks

Proprietà

Servizio collegato per il database SQL di Azure

Servizio collegato di Azure Synapse Analytics

Servizio collegato di SQL Server

Servizio collegato Azure Synapse Analytics (Artifacts)

Esempio

Proprietà

Servizio collegato della funzione di Azure

Contenuto correlato

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive