Verbinding maken met Syncsort

Artikel
11/05/2024

Belangrijk

Deze functie is beschikbaar als openbare preview.

Met Syncsort kunt u gegevenssilo's opsplitsen door verouderde, mainframe- en IBM-gegevens te integreren met Azure Databricks. U kunt eenvoudig gegevens uit deze bronnen ophalen in Delta Lake.

Hier volgen de stappen voor het gebruik van Syncsort met Azure Databricks.

Stap 1: Een persoonlijk databricks-toegangstoken genereren

Syncsort verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.

Notitie

Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.

Stap 2: Een cluster instellen ter ondersteuning van integratiebehoeften

Syncsort schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.

Beveiligde toegang tot een Azure Data Lake Storage-pad

Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.

Een toegangssleutel voor een Azure-opslagaccount gebruiken

U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken met Azure Data Lake Storage Gen2 en Blob Storage.

Een Microsoft Entra ID-service-principal gebruiken

U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Access ADLS Gen2 met een service-principal.

De clusterconfiguratie opgeven

Stel de clustermodus in op Standard.
Stel databricks Runtime-versie in op een Databricks Runtime-versie.
Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.

Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.

Zie Verbindingsgegevens ophalen voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.

Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster

Als u een Azure Databricks-cluster wilt verbinden met Syncsort, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:

JDBC-URL
HTTP-pad

Stap 4: Syncsort configureren met Azure Databricks

Ga naar de aanmeldingspagina van Databricks en Connect for Big Data en volg de instructies.

Aanvullende bronnen

Ondersteuning

Delen via