Environnements de calcul pris en charge par les pipelines Azure Data Factory et Synapse

S'APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Tip

Data Factory dans Microsoft Fabric est la prochaine génération de Azure Data Factory, avec une architecture plus simple, une IA intégrée et de nouvelles fonctionnalités. Si vous débutez avec l'intégration des données, commencez par Fabric Data Factory. Les charges de travail ADF existantes peuvent être mises à niveau vers Fabric pour accéder à de nouvelles fonctionnalités dans la science des données, l’analytique en temps réel et la création de rapports.

Important

La prise en charge d’Azure Machine Learning Studio (classique) prendra fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning à cette date.

Depuis le 1er décembre 2021, vous ne pouvez pas créer de ressources Machine Learning Studio (classique) (plan d'espace de travail et de service web). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les expériences et services web existants Machine Learning Studio (classique). Pour plus d'informations, consultez les pages suivantes :

Machine Learning Studio documentation (classique) est en cours de mise hors service et peut ne pas être mise à jour ultérieurement.

Cet article décrit les différents environnements de calcul que vous pouvez utiliser pour traiter ou transformer des données. Il fournit également des détails sur les différentes configurations (à la demande ou de type « apporter votre propre configuration ») prises en charge lors de la configuration des services liés qui relient ces environnements Compute.

Le tableau suivant fournit une liste d’environnements Compute pris en charge et les activités qui peuvent s’exécuter sur ces derniers.

Environnement de calcul	Activities
Cluster HDInsight à la demande ou votre propre cluster HDInsight	Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch	Custom
ML Studio (classique)	Activités ML Studio (classique) : Batch Execution et Update Resource
Azure Machine Learning	Pipeline de déploiement Azure Machine Learning
Azure Data Lake Analytics	Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server	Procédure stockée
Azure Databricks	Notebook, Jar, Python
Azure Synapse Analytics (Artefacts)	Activité Synapse Notebook, définition de travail Synapse Spark
Fonction Azure	Activité de fonction Azure

Environnement de calcul HDInsight à la demande

Reportez-vous au tableau ci-dessous pour obtenir des détails sur les types de services de stockage liés pris en charge pour la configuration dans l'environnement à la demande et BYOC (Bring your own compute).

Dans Services liés de calcul	Nom de la propriété	Description	Blob	ADLS Gen2	base de données Azure SQL	ADLS Gen 1
On-demand	linkedServiceName	Le service lié Azure Storage utilisé par le cluster à la demande pour le stockage et le traitement des données.	Yes	Yes	No	No
	additionalLinkedServiceNames	Spécifie des comptes storage supplémentaires pour le service lié HDInsight afin que le service puisse les inscrire en votre nom.	Yes	No	No	No
	hcatalogLinkedServiceName	Le nom du service lié à SQL Azure pointant vers la base de données HCatalog. Le cluster HDInsight à la demande est créé à l’aide de la base de données Azure SQL en tant que metastore.	No	No	Yes	No
BYOC	linkedServiceName	Référence du service lié du Stockage Azure.	Yes	Yes	No	No
	additionalLinkedServiceNames	Spécifie des comptes storage supplémentaires pour le service lié HDInsight afin que le service puisse les inscrire en votre nom.	No	No	No	No
	hcatalogLinkedServiceName	Référence au service lié Azure SQL pointant vers la base de données HCatalog.	No	No	No	No

Azure HDInsight service lié à la demande

Dans ce type de configuration, l'environnement de calcul est entièrement géré par le service. Il est automatiquement créé par le service avant qu'une tâche de traitement des données ne soit soumise, puis il est supprimé lorsque la tâche est terminée. Vous pouvez créer un service lié pour un environnement de calcul à la demande, le configurer et contrôler les paramètres granulaires pour l'exécution de la tâche, la gestion du cluster et les actions d'amorçage.

Note

La configuration à la demande est actuellement prise en charge uniquement pour les clusters Azure HDInsight. Azure Databricks prend également en charge les travaux à la demande à l’aide de clusters de travaux. Pour plus d’informations, consultez service lié Azure Databricks.

Le service peut créer automatiquement un cluster HDInsight à la demande pour traiter des données. Le cluster est créé dans la même région que le compte storage (propriété linkedServiceName dans le JSON) associé au cluster. Le compte de stockage must soit un compte Azure Storage standard à usage général.

Notez les points importants suivants concernant le service lié HDInsight à la demande :

Le cluster HDInsight à la demande est créé sous votre abonnement Azure. Vous pouvez voir le cluster dans votre portail Azure lorsque le cluster est opérationnel.
Les journaux des travaux exécutés sur un cluster HDInsight à la demande sont copiés dans le compte storage associé au cluster HDInsight. Les valeurs clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword spécifiées dans votre définition de service lié sont utilisées pour la connexion au cluster à des fins de dépannage approfondi pendant le cycle de vie du cluster.
Vous êtes facturé uniquement lorsque le cluster HDInsight est actif et exécute des tâches.
Vous pouvez utiliser une action de script avec le service lié à la demande Azure HDInsight.

Important

Il faut généralement 20 minutes ou plus pour approvisionner un cluster Azure HDInsight à la demande.

Exemple d'utilisation de la clé du service principal

Le JSON suivant définit un service lié HDInsight à la demande sous Linux. Le service crée automatiquement un cluster HDInsight linux pour traiter l’activité requise.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "ServicePrincipalKey",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Exemple utilisant l'identité gérée attribuée par le système

Le JSON suivant définit un service lié HDInsight à la demande sous Linux. Le service crée automatiquement un cluster HDInsight linux pour traiter l’activité requise.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Exemple utilisant l'identité gérée assignée à un utilisateur

Le JSON suivant définit un service lié HDInsight à la demande sous Linux. Le service crée automatiquement un cluster HDInsight linux pour traiter l’activité requise.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
      "credential": {
            "referenceName": "CredentialName",
            "type": "CredentialReference"
       },
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Le cluster HDInsight crée un conteneur default dans le blob storage que vous avez spécifié dans le json (linkedServiceName). HDInsight ne supprime pas ce conteneur lorsque le cluster est supprimé. Ce comportement est normal. Avec le service lié HDInsight à la demande, un cluster HDInsight est créé chaque fois qu’une tranche doit être traitée, sauf s’il existe un cluster en direct existant (timeToLive) et est supprimé une fois le traitement terminé.

À mesure que davantage d’activités sont exécutées, vous voyez de nombreux conteneurs dans votre stockage Azure Blob. Si vous n'en avez pas besoin pour le dépannage des tâches, vous pouvez les supprimer pour réduire le coût de stockage. Les noms de ces conteneurs sont conformes au modèle suivant : adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Utilisez des outils tels que Microsoft Azure Storage Explorer pour supprimer des conteneurs dans votre stockage d’objets blob Azure.

Properties

Property	Description	Required
type	La propriété type doit être définie sur HDInsightOnDemand.	Yes
clusterSize	Nombre de nœuds worker/données dans le cluster. Le cluster HDInsight est créé avec 2 nœuds principaux et le nombre de nœuds worker que vous spécifiez pour cette propriété. Les nœuds étant de taille Standard_D3 à 4 cœurs, un cluster à 4 nœuds de travail prend 24 cœurs (44 = 16 cœurs pour les nœuds Worker + 24 = 8 cœurs pour les nœuds principaux). Pour plus de détails, voir Configurer des clusters dans HDInsight avec Hadoop, Spark, Kafka et bien plus encore.	Yes
linkedServiceName	Le service lié Azure Storage utilisé par le cluster à la demande pour le stockage et le traitement des données. Le cluster HDInsight est créé dans la même région que ce compte Azure Storage. Azure HDInsight limite le nombre total de cœurs que vous pouvez utiliser dans chaque région Azure prise en charge. Vérifiez que vous disposez de suffisamment de quotas de base dans cette région Azure pour répondre au clusterSize requis. Pour plus de détails, voir, Configurer des clusters dans HDInsight avec Hadoop, Spark, Kafka et bien plus encore Actuellement, vous ne pouvez pas créer un cluster HDInsight à la demande qui utilise un Azure Data Lake Storage (Gen 2) comme stockage. Si vous souhaitez stocker les données de résultat à partir du traitement HDInsight dans un Azure Data Lake Storage (Gen 2), utilisez une activité de copie pour copier les données du Azure Blob Storage vers le Azure Data Lake Storage (Gen 2).	Yes
clusterResourceGroup	Le cluster HDInsight est créé dans ce groupe de ressources.	Yes
clusterResourceGroupAuthType	Spécifiez le type d’authentification pour le groupe de ressources du cluster HDInsight à la demande. Les types d’authentification pris en charge sont « ServicePrincipalKey », « SystemAssignedManagedIdentity », « UserAssignedManagedIdentity ».	Obligatoire pour l’utilisation de l’authentification d’identité managée. Si le champ n’est pas là, il sera défini par défaut comme ServicePrincipalKey.
credential	Spécifiez la référence d’informations d’identification contenant l’objet Managed Identity qui a accès au groupe de ressources.	Obligatoire uniquement pour l’authentification « UserAssignedManagedIdentity ».
timetolive	La durée d’inactivité autorisée pour le cluster HDInsight à la demande. Spécifie la durée pendant laquelle le cluster HDInsight à la demande reste actif après l’achèvement d’une exécution d’activité s’il n’existe aucun autre travail actif dans le cluster. La valeur minimale autorisée est 5 minutes (00:05:00). Par exemple, si une exécution d’activité prend 6 minutes et si la propriété TimeToLive est définie sur 5 minutes, le cluster reste actif pendant 5 minutes après les 6 minutes du traitement de l’exécution d’activité. Si une autre exécution d’activité intervient dans la fenêtre de 6 minutes, elle est traitée par le même cluster. La création d’un cluster HDInsight à la demande étant une opération coûteuse (elle peut prendre du temps), utilisez ce paramètre selon le besoin pour améliorer les performances du service en réutilisant un cluster HDInsight à la demande. Si vous définissez la valeur de la propriété TimeToLive sur 0, le cluster est supprimé dès que l’exécution d’activité est terminée. Alors que, si vous définissez une valeur élevée, le cluster peut rester inactif pour vous permettre de vous connecter à des fins de dépannage, mais cela peut entraîner des coûts importants. Par conséquent, il est important de définir la valeur appropriée en fonction de vos besoins. Si la valeur de propriété timetolive est correctement définie, plusieurs pipelines peuvent partager l’instance du cluster HDInsight à la demande.	Yes
clusterType	Type du cluster HDInsight à créer. Valeurs autorisées : « hadoop » et « spark ». Si aucune valeur n’est spécifiée, la valeur par défaut est hadoop. Le cluster Enterprise Security Package activé ne peut pas être créé à la demande. Utilisez plutôt un cluster existant/ apportez votre propre calcul.	No
version	Version du cluster HDInsight. À défaut de spécification, la version actuelle par défaut de HDInsight est utilisée.	No
hostSubscriptionId	ID d’abonnement Azure utilisé pour créer un cluster HDInsight. S’il n’est pas spécifié, il utilise l’ID d’abonnement de votre contexte de connexion Azure.	No
clusterNamePrefix	Préfixe du nom de cluster HDI. Un horodatage est ajouté automatiquement à la fin du nom du cluster.	No
sparkVersion	Version de spark si le type de cluster est « Spark »	No
additionalLinkedServiceNames	Spécifie des comptes storage supplémentaires pour le service lié HDInsight afin que le service puisse les inscrire en votre nom. Ces comptes storage doivent se trouver dans la même région que le cluster HDInsight, qui est créé dans la même région que le compte storage spécifié par linkedServiceName.	No
osType	Type de système d'exploitation. Les valeurs autorisées sont : Linux et Windows (pour HDInsight 3.3 uniquement). Par défaut, c’est Linux.	No
hcatalogLinkedServiceName	Le nom du service lié à SQL Azure pointant vers la base de données HCatalog. Le cluster HDInsight à la demande est créé à l’aide du Azure SQL Database en tant que metastore.	No
connectVia	Runtime d’intégration à utiliser pour répartir les activités à ce service lié HDInsight. Pour le service lié HDInsight à la demande, il prend uniquement en charge un runtime d’intégration Azure. S’il n’est pas spécifié, il utilise la Azure Integration Runtime par défaut.	No
clusterUserName	Le nom d’utilisateur pour accéder au cluster.	No
clusterPassword	Mot de passe de type chaîne sécurisée pour accéder au cluster.	No
clusterSshUserName	Nom d'utilisateur SSH pour se connecter à distance au nœud du cluster (pour Linux).	No
clusterSshPassword	Mot de passe sous forme de chaîne sécurisée pour établir une connexion SSH à distance au nœud du cluster (pour Linux).	No
scriptActions	Spécifiez un script pour les personnalisations de cluster HDInsight lors de la création d'un cluster à la demande. Actuellement, l'outil de création d'interface utilisateur prend en charge la spécification d'une seule action de script, mais vous pouvez contourner cette limitation dans le JSON (spécifiez plusieurs actions de script dans le JSON).	No

Important

HDInsight prend en charge plusieurs versions de cluster Hadoop qui peuvent être déployées. Le choix d'une version crée une version spécifique de la distribution de la plateforme de données Hortonworks (HDP) et un ensemble de composants qui sont contenus dans cette distribution. La liste des versions de HDInsight prises en charge continue à être actualisée afin de fournir les correctifs et composants les plus récents de l’écosystème Hadoop. Assurez-vous de toujours faire référence aux informations les plus récentes sur la version de HDInsight et le type de système d’exploitation pris en charge pour être certain d’utiliser la version prise en charge de HDInsight.

Important

Actuellement, les services liés HDInsight ne prennent pas en charge HBase, Interactive Query (Hive LLAP), Storm.

Exemple JSON additionalLinkedServiceNames

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authentication

Authentification d’un principal du service

Le service lié de HDInsight à la demande nécessite une authentification du principal du service pour créer des clusters HDInsight à votre place. Pour utiliser l’authentification du principal de service, inscrivez une entité d’application dans Microsoft Entra ID et accordez-la au rôle Contributor de l’abonnement ou du groupe de ressources dans lequel le cluster HDInsight est créé. Pour obtenir des instructions détaillées, consultez Utilisez le portail pour créer une application et un principal de service Microsoft Entra qui peuvent accéder aux ressources. Prenez note des valeurs suivantes, qui vous permettent de définir le service lié :

ID de l'application
Clé de l'application
ID du locataire

Utilisez l’authentification par principal de service en spécifiant les propriétés suivantes :

Property	Description	Required
servicePrincipalId	Spécifiez l’ID client de l’application.	Yes
servicePrincipalKey	Spécifiez la clé de l’application.	Yes
tenant	Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.	Yes

Authentification d’identité managée

Lorsque vous utilisez l’authentification d’identité managée pour Azure HDInsight services liés à la demande, vérifiez que l’objet Managed Identity dispose d’un accès de rôle Contributeur au groupe de ressources.

Les comptes de stockage principaux ADLS Gen2 prennent désormais en charge l'authentification via l'identité managée affectée par l'utilisateur (UAMI), en plus de l'authentification par clés existantes. L’UAMI doit disposer d’autorisations propriétaire des données blob de stockage sur le compte de stockage principal.

Limitations:

Le compte de storage principal ADLS Gen2 et l’UAMI doivent résider dans le même groupe de ressources que le groupe de ressources utilisé pour créer le cluster HDInsight à la demande.
Le nom de l’objet d’informations d’identification pour l’UAMI dans Data Factory doit correspondre exactement au nom UAMI.

Pour plus d’informations, consultez Create Azure HDInsight - Azure Data Lake Storage Gen2 - portail et Identités managées dans Azure HDInsight

Propriétés avancées

Vous pouvez également spécifier les propriétés suivantes pour la configuration granulaire du cluster HDInsight à la demande.

Property	Description	Required
coreConfiguration	Spécifie les paramètres de configuration de base (par exemple, core-site.xml) pour le cluster HDInsight à créer.	No
hBaseConfiguration	Spécifie les paramètres de configuration HBase (hbase-site.xml) pour le cluster HDInsight.	No
hdfsConfiguration	Spécifie les paramètres de configuration HDFS (hdfs-site.xml) pour le cluster HDInsight.	No
hiveConfiguration	Spécifie les paramètres de configuration Hive (hive-site.xml) pour le cluster HDInsight.	No
mapReduceConfiguration	Spécifie les paramètres de configuration MapReduce (mapred-site.xml) pour le cluster HDInsight.	No
oozieConfiguration	Spécifie les paramètres de configuration Oozie (oozie-site.xml) pour le cluster HDInsight.	No
stormConfiguration	Spécifie les paramètres de configuration Storm (storm-site.xml) pour le cluster HDInsight.	No
yarnConfiguration	Spécifie les paramètres de configuration Yarn (yarn-site.xml) pour le cluster HDInsight.	No

Exemple – Configuration de cluster HDInsight à la demande avec les propriétés avancées

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Tailles de nœuds

Vous pouvez spécifier les tailles du nœud principal, du nœud de données et du nœud zookeeper en utilisant les propriétés suivantes :

Property	Description	Required
headNodeSize	Spécifie la taille du nœud principal. La valeur par défaut est Standard_D3. Pour plus d’informations, consultez la section Spécification des tailles de nœud.	No
dataNodeSize	Spécifie la taille du nœud de données. La valeur par défaut est Standard_D3.	No
zookeeperNodeSize	Spécifie la taille du nœud ZooKeeper. La valeur par défaut est Standard_D3.	No

Spécification des tailles de nœud Consultez l’article Sizes de Virtual Machines pour connaître les valeurs de chaîne que vous devez spécifier pour les propriétés mentionnées dans la section précédente. Les valeurs doivent être conformes aux applets de commande et API référencées dans l’article. Comme vous pouvez le voir dans l’article, le nœud de données de grande taille (par défaut) a 7 Go de mémoire, ce qui risque de s’avérer insuffisant pour votre scénario.

Si vous souhaitez créer des nœuds principaux de taille D4 et des nœuds Worker, spécifiez Standard_D4 comme valeur pour les propriétés headNodeSize et dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Si vous spécifiez une valeur incorrecte pour ces propriétés, vous pouvez recevoir l’erreur suivante : Échec de la création du cluster. Exception : Impossible de terminer l’opération de création du cluster. Operation failed with code ’400’. (L’opération a échoué avec le code « 400 ».) Cluster left behind state: 'Error'. Message : « PreClusterCreationValidationFailure ». Lorsque vous recevez cette erreur, assurez-vous que vous utilisez le nom CMDLET & APIS figurant dans le tableau de l’article Tailles des machines virtuelles.

Apportez votre propre environnement de calcul

Dans ce type de configuration, les utilisateurs peuvent inscrire un environnement de calcul existant en tant que service lié. C’est l’utilisateur qui gère l'environnement de calcul, et le service l'utilise pour exécuter les activités.

Ce type de configuration est pris en charge pour les environnements de calcul suivants :

Azure HDInsight
Azure Batch
Azure Machine Learning
Azure Data Lake Analytics
base de données Azure SQL, Azure Synapse Analytics, SQL Server

Service lié Azure HDInsight

Vous pouvez créer un service lié Azure HDInsight pour inscrire votre propre cluster HDInsight avec une fabrique de données ou l’espace de travail Synapse.

Exemple utilisant l’authentification de base

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Exemple d'utilisation d'une identité managée attribuée par le système

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "clusterAuthType": "SystemAssignedManagedIdentity",
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Exemple utilisant l'identité managée assignée par l'utilisateur

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
         "clusterAuthType": "UserAssignedManagedIdentity",
         "credential": {
                "referenceName": "CredentialName",
                "type": "CredentialReference"
            },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property	Description	Required
type	La propriété type doit être définie sur HDInsight.	Yes
clusterUri	L'URI du cluster HDInsight.	Yes
username	Spécifiez le nom de l'utilisateur à utiliser pour se connecter à un cluster HDInsight existant.	Yes
password	Spécifiez le mot de passe du compte d'utilisateur.	Yes
linkedServiceName	Nom du service lié de stockage Azure faisant référence au stockage Blob Azure utilisé par le cluster HDInsight. Actuellement, vous ne pouvez pas spécifier un service lié Azure Data Lake Storage (Gen2) pour cette propriété. Si le cluster HDInsight a accès au magasin Data Lake, vous pouvez accéder aux données dans les Azure Data Lake Storage (Gen 2) à partir de scripts Hive/Pig.	Yes
isEspEnabled	Spécifiez « true » si le cluster HDInsight est activé avec Enterprise Security Package. La valeur par défaut est « false ».	No
connectVia	Le Integration Runtime à utiliser pour acheminer les activités à ce service lié. Vous pouvez utiliser des Azure Integration Runtime ou des Integration Runtime auto-hébergés. S’il n’est pas spécifié, il utilise la Azure Integration Runtime par défaut. Pour un cluster HDInsight activé avec le Pack Sécurité Entreprise, utilisez un runtime d'intégration auto-hébergé qui dispose d’une visibilité directe sur le cluster ou qui doit être déployé dans le même réseau virtuel que le cluster HDInsight activé avec le Pack Sécurité Entreprise.	No
clusterAuthType	Spécifiez le type d’authentification du cluster HDInsight. Les types d’authentification pris en charge sont « BasicAuth », « SystemAssignedManagedIdentity », « UserAssignedManagedIdentity ».	Requis pour l'utilisation de l'authentification d'identité managée. Si le champ n'existe pas, le système utilisera automatiquement BasicAuth par défaut.
credential	Spécifiez la référence des informations d’identification contenant les informations de l’objet d’identité managée pour le cluster HDInsight.	Obligatoire uniquement pour l’authentification « UserAssignedManagedIdentity »

Authentication

Le service lié Azure Storage pour ADLS Gen2 prend désormais en charge les identités managées affectées par le système et affectées par l’utilisateur en plus des méthodes d’authentification existantes. Cette prise en charge est disponible par défaut lors de l’utilisation de Azure Integration Runtime (Azure IR) et prise en charge dans les Integration Runtime auto-hébergés (SHIR) à partir de la version 5.55.9306.2 ou ultérieure. Pour Azure Blob Storage, le service lié Azure Storage continue de prendre en charge uniquement l’authentification par clé de compte. L’authentification par identité managée de cluster est désormais disponible par défaut lors de l’utilisation de Azure IR et prise en charge sur SHIR à compter de la version 5.58 ou ultérieure. Lors de la création d’un cluster, une seule méthode d’authentification peut être utilisée par cluster. Pour plus d’informations sur la création et la gestion de clusters avec l’identité managée, consultez Créer et gérer Azure HDInsight cluster avec l’authentification Entra ID

Important

Actuellement, les services liés HDInsight ne prennent pas en charge HBase, Interactive Query (Hive LLAP), Storm.

Azure Batch service lié

Note

Nous vous recommandons d’utiliser le module Azure Az PowerShell pour interagir avec Azure. Pour commencer, consultez Install Azure PowerShell. Pour savoir comment migrer vers le module Az PowerShell, consultez Migrate Azure PowerShell d’AzureRM vers Az.

Vous pouvez créer un service lié Azure Batch pour inscrire un pool de machines virtuelles (VM) Batch dans une fabrique de données ou un espace de travail Synapse. Vous pouvez exécuter une activité personnalisée à l’aide de Azure Batch.

Consultez les articles suivants si vous débutez avec Azure Batch service :

Azure Batch de base pour obtenir une vue d’ensemble du service Azure Batch.
New-AzBatchAccount cmdlet pour créer un compte Azure Batch (ou) Azure portail pour créer le compte Azure Batch à l’aide du portail Azure. Consultez Utilisant PowerShell pour gérer Azure Batch compte pour obtenir des instructions détaillées sur l’utilisation de l’applet de commande.
New-AzBatchPool cmdlet pour créer un pool Azure Batch.

Important

Lors de la création d'un pool Azure Batch, « VirtualMachineConfiguration » doit être utilisé et NOT « CloudServiceConfiguration ».

Example

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property	Description	Required
type	La propriété type doit être définie sur AzureBatch.	Yes
accountName	Nom du compte Azure Batch.	Yes
accessKey	Clé d’accès pour le compte Azure Batch.	Yes
batchUri	URL de votre compte Azure Batch, au format https://batchaccountname.region.batch.azure.com.	Yes
poolName	Nom du pool de virtual machines.	Yes
linkedServiceName	Nom du service lié Azure Storage qui est associé au service lié Azure Batch. Ce service lié est utilisé pour les fichiers intermédiaires requis pour exécuter l’activité.	Yes
connectVia	Le Integration Runtime à utiliser pour acheminer les activités à ce service lié. Vous pouvez utiliser des Azure Integration Runtime ou des Integration Runtime auto-hébergés. S’il n’est pas spécifié, il utilise la Azure Integration Runtime par défaut.	No

Service lié à Machine Learning Studio (classique)

Important

La prise en charge d’Azure Machine Learning Studio (classique) prendra fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning à cette date.

Machine Learning Studio documentation (classique) est en cours de mise hors service et peut ne pas être mise à jour ultérieurement.

Vous créez un service lié dans Machine Learning Studio (classique) pour inscrire un point de terminaison de scoring par lot dans Machine Learning Studio (classique) pour une fabrique de données ou un espace de travail Synapse.

Example

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property	Description	Required
Type	La propriété type doit être définie sur : AzureML.	Yes
mlEndpoint	L'URL de la notation par lot.	Yes
apiKey	API du modèle d'espace de travail publié.	Yes
updateResourceEndpoint	URL d’Update Resource pour un point de terminaison du service web ML Studio (classique) utilisé pour mettre à jour le service web prédictif avec le fichier de modèle entrainé	No
servicePrincipalId	Spécifiez l’ID client de l’application.	Obligatoire si updateResourceEndpoint est spécifié
servicePrincipalKey	Spécifiez la clé de l’application.	Obligatoire si updateResourceEndpoint est spécifié
tenant	Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.	Obligatoire si updateResourceEndpoint est spécifié
connectVia	Le Integration Runtime à utiliser pour acheminer les activités à ce service lié. Vous pouvez utiliser des Azure Integration Runtime ou des Integration Runtime auto-hébergés. S’il n’est pas spécifié, il utilise la Azure Integration Runtime par défaut.	No

Service lié Microsoft Azure Machine Learning

Vous créez un service lié Azure Machine Learning pour connecter un espace de travail Azure Machine Learning à une fabrique de données ou à un espace de travail Synapse.

Note

Actuellement, seule l’authentification du principal de service est prise en charge pour le service lié Azure Machine Learning.

Example

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	Description	Required
Type	La propriété type doit être définie sur : AzureMLService.	Yes
subscriptionId	ID d’abonnement Azure	Yes
resourceGroupName	name	Yes
mlWorkspaceName	nom de l’espace de travail Azure Machine Learning	Yes
servicePrincipalId	Spécifiez l’ID client de l’application.	Yes
servicePrincipalKey	Spécifiez la clé de l’application.	Yes
tenant	Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.	Obligatoire si updateResourceEndpoint est spécifié
connectVia	Le Integration Runtime à utiliser pour acheminer les activités à ce service lié. Vous pouvez utiliser des Azure Integration Runtime ou des Integration Runtime auto-hébergés. S’il n’est pas spécifié, il utilise la Azure Integration Runtime par défaut.	No

Service lié Azure Data Lake Analytics

Vous créez un service lié Azure Data Lake Analytics pour lier un service de calcul Azure Data Lake Analytics à une fabrique de données ou à un espace de travail Synapse. L’activité U-SQL dans le pipeline Data Lake Analytics fait référence à ce service lié.

Example

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	Description	Required
type	La propriété type doit être définie sur : AzureDataLakeAnalytics.	Yes
accountName	nom du compte Azure Data Lake Analytics.	Yes
dataLakeAnalyticsUri	URI d'Azure Data Lake Analytics	No
subscriptionId	ID d’abonnement Azure	No
resourceGroupName	nom du groupe de ressources Azure	No
servicePrincipalId	Spécifiez l’ID client de l’application.	Yes
servicePrincipalKey	Spécifiez la clé de l’application.	Yes
tenant	Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.	Yes
connectVia	Le Integration Runtime à utiliser pour acheminer les activités à ce service lié. Vous pouvez utiliser des Azure Integration Runtime ou des Integration Runtime auto-hébergés. S’il n’est pas spécifié, il utilise la Azure Integration Runtime par défaut.	No

Service Azure Databricks lié

Vous pouvez créer un service lié Azure Databricks afin d'enregistrer l'espace de travail Databricks que vous utilisez pour exécuter des charges de travail Databricks (notebook, Jar, Python).

Important

Les services liés Databricks prennent en charge les Pools d'instances et l'authentification par identité gérée assignée par le système.

Exemple : utilisation d’un nouveau cluster de travail dans Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Exemple : utilisation d’un cluster interactif existant dans Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property	Description	Required
name	Nom du service lié	Yes
type	La propriété type doit être définie sur : Azure Databricks.	Yes
domain	Spécifiez la région Azure en conséquence en fonction de la région de l’espace de travail Databricks. Exemple : https://eastus.azuredatabricks.net	Yes
accessToken	Le jeton d’accès est requis pour que le service s’authentifie auprès de Azure Databricks. Le jeton d'accès doit être généré depuis l'espace de travail Databricks. Vous pouvez trouver des étapes plus détaillées pour trouver le jeton d'accès ici	No
MSI	Utilisez l'identité managée du service (affectée par le système) pour s'authentifier auprès de Azure Databricks. Vous n'avez pas besoin de Access Jeton lors de l'utilisation de l'authentification « MSI ». Vous trouverez plus d’informations sur l’authentification d’identité managée here	No
existingClusterId	ID de cluster d’un cluster existant pour exécuter tous les travaux dessus. Il doit s’agit d’un cluster interactif déjà créé. Vous devrez peut-être redémarrer manuellement le cluster s’il ne répond pas. Databricks suggère d’exécuter des travaux sur les nouveaux clusters pour une plus grande fiabilité. Vous pouvez trouver l’ID de cluster d’un cluster interactif dans l’espace de travail Databricks -> Clusters -> Nom du cluster interactif -> Configuration -> Étiquettes. En savoir plus	No
instancePoolId	ID d’un pool d’instances existant dans l’espace de travail Databricks.	No
newClusterVersion	La version Spark du cluster. Cela crée un cluster de travail dans Databricks.	No
newClusterNumOfWorker	Nombre de nœuds de travail que ce cluster doit avoir. Un cluster dispose d’un pilote de Spark et num_workers exécuteurs pour un total de num_workers + 1 nœuds Spark. Une chaîne au format Int32, telle que « 1 », signifie que numOfWorker est égal à 1, ou « 1:10 » désigne une mise à l'échelle automatique à partir de 1 comme minimum et 10 comme maximum.	No
newClusterNodeType	Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster. Par exemple, les nœuds Spark peuvent être configurés et optimisés pour des charges de travail gourmandes en mémoire ou en calcul. Ce champ est obligatoire pour les nouveaux clusters	No
newClusterSparkConf	un ensemble de paires clé-valeur de configuration Spark spécifiées par l’utilisateur et facultatives. Les utilisateurs peuvent également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs, respectivement via spark.driver.extraJavaOptions et spark.executor.extraJavaOptions.	No
newClusterInitScripts	un ensemble de scripts d’initialisation facultatifs définis par l’utilisateur pour le nouveau cluster. Vous pouvez spécifier les scripts init dans les fichiers d’espace de travail (recommandé) ou via le chemin DBFS (hérité).	No

Service lié Azure SQL Database

Vous créez un service lié Azure SQL et l’utilisez avec l’activité de procédure Stored Procedure pour appeler une procédure stockée à partir d’un pipeline. Pour plus d’informations sur ce service lié, consultez Azure SQL Connector.

service lié à Azure Synapse Analytics

Vous créez un service lié Azure Synapse Analytics et l’utilisez avec l’activité de procédure Stored Procedure pour appeler une procédure stockée à partir d’un pipeline. Pour plus d’informations sur ce service lié, consultez Azure Synapse Analytics Connector.

SQL Server service lié

Vous créez un service lié SQL Server et l’utilisez avec l’activité de procédure Stored Procedure pour appeler une procédure stockée à partir d’un pipeline. Pour plus d’informations sur ce service lié, consultez SQL Server connecteur.

Service lié Azure Synapse Analytics (Artifacts)

Vous créez un service lié Azure Synapse Analytics (Artéfacts) et l'utilisez avec l'activité de Synapse Notebook et l'activité de définition de tâche Synapse Spark.

Example

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	Description	Required
name	Nom du service lié	Yes
description	description du service lié	No
annotations	annotations du service lié	No
type	La propriété type doit être définie sur AzureSynapseArtifacts	Yes
endpoint	URL d'Azure Synapse Analytics	Yes
authentication	Le paramètre par défaut est Identité managée affectée par le système	Yes
workspaceResourceId	ID de la ressource d’espace de travail	Yes
connectVia	Le runtime d'intégration à utiliser pour se connecter au stockage de données. Vous pouvez utiliser Azure Integration Runtime. S’il n’est pas spécifié, il utilise la Azure Integration Runtime par défaut. Le runtime d'intégration auto-hébergé n’est actuellement pas pris en charge.	Yes

Service lié de fonction Azure

Vous créez un service lié fonction Azure et l'utilisez avec l'activité Azure Function pour exécuter des fonctions Azure dans un pipeline. Le type de retour de la fonction Azure doit être un JObject valide. (Gardez à l’esprit que JArrayn’est pas un JObject.) Tout type de retour autre que JObject échoue et déclenche l'erreur utilisateur Le contenu de la réponse n’est pas un JObject valide.

Property	Description	Required
type	La propriété type doit être définie sur : AzureFunction	yes
URL de l’application de fonction	URL de l’application de fonction Azure. Le format est `https://<accountname>.azurewebsites.net`. Cette URL est la valeur sous URL lors de l’affichage de votre application de fonction dans le portail Azure	yes
clé de fonction	Clé d’accès pour la fonction Azure. Cliquez sur la section Gérer pour la fonction respective, puis copiez la clé de fonction ou la clé hôte. En savoir plus ici : Travailler avec des clés d'accès	yes

Pour obtenir la liste des activités de transformation prises en charge, consultez Transformer les données.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-07

Environnements de calcul pris en charge par les pipelines Azure Data Factory et Synapse

Environnement de calcul HDInsight à la demande

Azure HDInsight service lié à la demande

Exemple d'utilisation de la clé du service principal

Exemple utilisant l'identité gérée attribuée par le système

Exemple utilisant l'identité gérée assignée à un utilisateur

Properties

Authentication

Authentification d’un principal du service

Authentification d’identité managée

Propriétés avancées

Tailles de nœuds

Apportez votre propre environnement de calcul

Service lié Azure HDInsight

Exemple utilisant l’authentification de base

Exemple d'utilisation d'une identité managée attribuée par le système

Exemple utilisant l'identité managée assignée par l'utilisateur

Properties

Authentication

Azure Batch service lié

Example

Properties

Service lié à Machine Learning Studio (classique)

Example

Properties

Service lié Microsoft Azure Machine Learning

Example

Properties

Service lié Azure Data Lake Analytics

Example

Properties

Service Azure Databricks lié

Exemple : utilisation d’un nouveau cluster de travail dans Databricks

Exemple : utilisation d’un cluster interactif existant dans Databricks

Properties

Service lié Azure SQL Database

service lié à Azure Synapse Analytics

SQL Server service lié

Service lié Azure Synapse Analytics (Artifacts)

Example

Properties

Service lié de fonction Azure

Contenu connexe

Commentaires

Ressources supplémentaires