Se connecter à Syncsort

Article
01.03.2024

Important

Cette fonctionnalité est disponible en préversion publique.

Syncsort vous permet de décomposer des silos de données en intégrant des données héritées, des données mainframe et des données IBM à Azure Databricks. Vous pouvez tirer (pull) facilement les données de ces sources dans Delta Lake.

Voici les étapes à suivre pour utiliser Syncsort avec Azure Databricks.

Étape 1 : Générer un jeton d’accès personnel Databricks

Syncsort s’authentifie auprès d’Azure Databricks à l’aide d’un jeton d’accès personnel Azure Databricks.

Note

En guise de bonne pratique de sécurité, quand vous vous authentifiez avec des outils, systèmes, scripts et applications automatisés, Databricks recommande d’utiliser des jetons d’accès personnels appartenant à des principaux de service et non des utilisateurs de l’espace de travail. Pour créer des jetons d’accès pour des principaux de service, consultez la section Gérer les jetons pour un principal de service.

Étape 2 : Configurer un cluster pour prendre en charge l’intégration

Syncsort écrit des données dans un chemin Azure Data Lake Storage et le cluster d’intégration Azure Databricks lit les données à partir de cet emplacement. Par conséquent, le cluster d’intégration nécessite un accès sécurisé au chemin Azure Data Lake Storage.

Sécuriser l’accès à un chemin Azure Data Lake Storage

Pour sécuriser l’accès aux données dans Azure Data Lake Storage (ADLS), vous pouvez utiliser une clé d’accès au compte de stockage Azure (recommandé) ou un principal de service Microsoft Entra ID.

Utiliser une clé d’accès au compte de stockage Azure

Vous pouvez configurer une clé d’accès au compte de stockage dans le cluster d’intégration dans le cadre d’une configuration Spark. Vérifiez que le compte de stockage a accès au conteneur ADLS et au système de fichiers qui sont utilisés pour les données intermédiaires, ainsi qu’au conteneur ADLS et au système de fichiers dans lesquels vous souhaitez écrire les tables Delta Lake. Pour configurer le cluster d’intégration afin qu’il utilise la clé, suivez les étapes décrites dans Se connecter à Azure Data Lake Storage Gen2 et au Stockage Blob.

Utiliser un principal de service Microsoft Entra ID

Vous pouvez configurer un principal de service dans le cluster d’intégration Azure Databricks dans le cadre de la configuration Spark. Vérifiez que le principal de service a accès au conteneur ADLS qui est utilisé pour les données intermédiaires, ainsi qu’au conteneur ADLS dans lequel vous souhaitez écrire les tables Delta. Pour configurer le cluster d’intégration afin qu’il utilise le principal de service, suivez les étapes décrites dans Accéder à ADLS Gen2 à l’aide d’un principal de service.

Spécifier la configuration du cluster

Définissez le mode de cluster sur Standard.
Dans Databricks Runtime Version, sélectionnez une version pour Databricks Runtime.
Activez les écritures optimisées et le compactage automatique en ajoutant les propriétés suivantes à votre configuration Spark :

ini
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configurez votre cluster en fonction de vos besoins en matière d’intégration et de mise à l’échelle.

Pour plus d’informations sur la configuration du cluster, consultez Informations de référence sur la configuration de calcul.

Pour connaître les étapes à suivre pour obtenir l’URL JDBC et le chemin d’accès HTTP, consultez Obtenir les détails de connexion pour une ressource de calcul Azure Databricks.

Étape 3 : Obtenir les détails de connexion JDBC et ODBC pour se connecter à un cluster

Pour connecter un cluster Azure Databricks à Syncsort, vous avez besoin des propriétés de connexion JDBC/ODBC suivantes :

URL JDBC
HTTP Path

Étape 4 : Configurer Syncsort avec Azure Databricks

Accédez à la page de connexion Databricks and Connect for Big Data et suivez les instructions.

Ressources supplémentaires

Support

Ressources supplémentaires

Documentation

Classe d’erreur UDF_USER_CODE_ERROR – Azure Databricks

Documentation relative à la classe d’erreur UDF_USER_CODE_ERROR dans Azure Databricks
Classe d’erreur UC_COMMAND_NOT_SUPPORTED - Azure Databricks

Documentation relative à la classe d’erreur UC_COMMAND_NOT_SUPPORTED dans Azure Databricks
Exécutions de l’interface CLI (héritée) – Azure Databricks

Découvrez comment utiliser l’interface de ligne de commande des exécutions Databricks
Référence des utilitaires Databricks (dbutils) – Azure Databricks

Comprenez et apprenez comment utiliser Databricks Utilities pour travailler avec des fichiers, un stockage d'objets et des secrets.
Fonction table read_kafka : Azure Databricks - Databricks SQL

Découvrez la syntaxe de la fonction read_kafka du langage SQL dans Databricks SQL et Databricks Runtime.
Gérer l’Explorateur de fichiers DBFS - Azure Databricks

Découvrez comment activer et désactiver la possibilité de parcourir les données dans le système de fichiers Databricks avec l’interface du navigateur visuel.
Utiliser le connecteur Databricks pour se connecter à un autre espace de travail Databricks - Azure Databricks

Découvrez comment utiliser le connecteur Databricks avec le pilote JDBC Databricks pour vous connecter à un autre espace de travail Azure Databricks.
Delta Lives Tables version 2023.16 – Azure Databricks

Découvrez les nouvelles fonctionnalités, améliorations et correctifs de bogues dans Delta Live Tables version 2023.16.

Formation

Module

Intégrer des pools SQL et Apache Spark dans Azure Synapse Analytics - Training

Intégrer des pools SQL et Apache Spark dans Azure Synapse Analytics

Certification

Microsoft Certified : Azure Data Engineer Associate - Certifications

Faites la démonstration d’une compréhension des tâches d’engineering données courantes pour implémenter et gérer des charges de travail d’engineering données sur Microsoft Azure en utilisant un certain nombre de services Azure.

Partager via

Se connecter à Syncsort

Étape 1 : Générer un jeton d’accès personnel Databricks

Étape 2 : Configurer un cluster pour prendre en charge l’intégration

Sécuriser l’accès à un chemin Azure Data Lake Storage

Utiliser une clé d’accès au compte de stockage Azure

Utiliser un principal de service Microsoft Entra ID

Spécifier la configuration du cluster

Étape 3 : Obtenir les détails de connexion JDBC et ODBC pour se connecter à un cluster

Étape 4 : Configurer Syncsort avec Azure Databricks

Ressources supplémentaires

Commentaires

Ressources supplémentaires