Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Deze functie bevindt zich in openbare preview.
Infoworks DataFoundry is een geautomatiseerd systeem voor zakelijke gegevens en indeling dat systeemeigen wordt uitgevoerd op Azure Databricks en gebruikmaakt van de volledige kracht van Azure Databricks om een eenvoudige oplossing te bieden voor het onboarden van gegevens. Dit is een belangrijke eerste stap bij het operationeel maken van uw Data Lake. DataFoundry automatiseert niet alleen gegevensopname, maar automatiseert ook de belangrijkste functionaliteit die bij opname moet worden geleverd om een basis voor analyse tot stand te brengen. Onboarding van gegevens met DataFoundry automatiseert:
- Gegevensopname: van alle bedrijfs- en externe gegevensbronnen
- Gegevenssynchronisatie: CDC om gegevens gesynchroniseerd te houden met de bron
- Gegevensbeheer: catalogiseren, herkomst, metagegevensbeheer, controle en geschiedenis
Hier volgen de stappen voor het gebruik van Infoworks met Azure Databricks.
stap 1: een persoonlijk databricks-toegangstoken genereren
Infoworks verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.
Notitie
Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Zie Beheer van tokens voor een service-principal om tokens voor service-principals te maken.
Stap 2: Een cluster instellen ter ondersteuning van integratiebehoeften
Infoworks schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.
Beveiligde toegang tot een Azure Data Lake Storage-pad
Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.
Een toegangssleutel voor een Azure-opslagaccount gebruiken
U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken met Azure Data Lake Storage en Blob Storage.
Een Microsoft Entra ID-service-principal gebruiken
U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Access ADLS met een service-principal.
De clusterconfiguratie opgeven
Stel de clustermodus in op Standard.
Stel Databricks Runtime-versie in op een Databricks Runtime-versie.
Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.
Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.
Zie Verbindingsgegevens ophalen voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.
Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster
Als u een Azure Databricks-cluster wilt verbinden met Infoworks, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:
- JDBC-URL
- HTTP-pad
Stap 4: Infoworks voor Azure Databricks ophalen
Ga naar Infoworks voor meer informatie en krijg een demo.