Verbinding maken met Syncsort
Belangrijk
Deze functie is beschikbaar als openbare preview.
Met Syncsort kunt u gegevenssilo's opsplitsen door verouderde, mainframe- en IBM-gegevens te integreren met Azure Databricks. U kunt eenvoudig gegevens uit deze bronnen ophalen in Delta Lake.
Hier volgen de stappen voor het gebruik van Syncsort met Azure Databricks.
Stap 1: Een persoonlijk databricks-toegangstoken genereren
Syncsort verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.
Notitie
Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.
Stap 2: Een cluster instellen ter ondersteuning van integratiebehoeften
Syncsort schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.
Beveiligde toegang tot een Azure Data Lake Storage-pad
Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.
Een toegangssleutel voor een Azure-opslagaccount gebruiken
U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken met Azure Data Lake Storage Gen2 en Blob Storage.
Een Microsoft Entra ID-service-principal gebruiken
U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Access ADLS Gen2 met een service-principal.
De clusterconfiguratie opgeven
Stel de clustermodus in op Standard.
Stel databricks Runtime-versie in op een Databricks Runtime-versie.
Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.
Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.
Zie Verbindingsgegevens ophalen voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.
Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster
Als u een Azure Databricks-cluster wilt verbinden met Syncsort, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:
- JDBC-URL
- HTTP-pad
Stap 4: Syncsort configureren met Azure Databricks
Ga naar de aanmeldingspagina van Databricks en Connect for Big Data en volg de instructies.