Verbinding maken naar Infoworks

Artikel
03/01/2024

Belangrijk

Deze functie is beschikbaar als openbare preview.

Infoworks DataFoundry is een geautomatiseerd systeem voor zakelijke gegevens en indeling dat systeemeigen wordt uitgevoerd op Azure Databricks en gebruikmaakt van de volledige kracht van Azure Databricks om een eenvoudige oplossing te bieden voor het onboarden van gegevens. Dit is een belangrijke eerste stap bij het operationeel maken van uw Data Lake. DataFoundry automatiseert niet alleen gegevensopname, maar automatiseert ook de belangrijkste functionaliteit die bij opname moet worden geleverd om een basis voor analyse tot stand te brengen. Onboarding van gegevens met DataFoundry automatiseert:

Gegevensopname: van alle bedrijfs- en externe gegevensbronnen
Gegevenssynchronisatie: CDC om gegevens gesynchroniseerd te houden met de bron
Gegevensbeheer: catalogiseren, herkomst, metagegevensbeheer, controle en geschiedenis

Hier volgen de stappen voor het gebruik van Infoworks met Azure Databricks.

Stap 1: Een persoonlijk databricks-toegangstoken genereren

Infoworks verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.

Notitie

Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.

Stap 2: Een cluster instellen ter ondersteuning van integratiebehoeften

Infoworks schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.

Beveiligde toegang tot een Azure Data Lake Storage-pad

Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.

Een toegangssleutel voor een Azure-opslagaccount gebruiken

U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken naar Azure Data Lake Storage Gen2 en Blob Storage.

Een Microsoft Entra ID-service-principal gebruiken

U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Access ADLS Gen2 met een service-principal.

De clusterconfiguratie opgeven

Stel de clustermodus in op Standard.
Stel databricks Runtime-versie in op een Databricks Runtime-versie.
Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.

Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.

Zie Verbindingsgegevens ophalen voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.

Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster

Als u een Azure Databricks-cluster wilt verbinden met Infoworks, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:

JDBC-URL
HTTP-pad

Stap 4: Infoworks voor Azure Databricks ophalen

Ga naar Infoworks voor meer informatie en krijg een demo.

Aanvullende bronnen

Ondersteuning

Delen via