Condividi tramite


Connettersi a Syncsort

Importante

Questa documentazione è stata ritirata e potrebbe non essere aggiornata. Il prodotto, il servizio o la tecnologia citati in questo contenuto non sono più supportati. Vedere la documentazione precisa.

Syncsort aiuta a superare i silos di dati integrando i dati legacy, mainframe e IBM con la piattaforma Azure Databricks. È possibile importare facilmente i dati da queste origini in Delta Lake. Syncsort fa ora parte di Con precisione.

Ecco i passaggi per l'uso di Syncsort con Azure Databricks.

Passaggio 1: Generare un token di accesso personale di Databricks

Syncsort esegue l'autenticazione con Azure Databricks usando un token di accesso personale di Azure Databricks.

Annotazioni

Come procedura consigliata per la sicurezza, quando si esegue l'autenticazione con strumenti automatizzati, sistemi, script e app, Databricks consiglia di usare token di accesso personali appartenenti alle entità servizio anziché agli utenti dell'area di lavoro. Per creare token per le entità servizio, vedere Gestire i token per un'entità servizio.

Passaggio 2: Configurare un cluster per supportare le esigenze di integrazione

Syncsort scriverà i dati in un percorso di Azure Data Lake Storage e il cluster di integrazione di Azure Databricks leggerà i dati da tale posizione. Di conseguenza, il cluster di integrazione richiede l'accesso sicuro al percorso di Azure Data Lake Storage.

Proteggere l'accesso a un percorso di archiviazione di Azure Data Lake

Per proteggere l'accesso ai dati in Azure Data Lake Storage (ADLS), è possibile utilizzare una chiave di accesso dell'account di archiviazione di Azure (scelta consigliata) o un principale del servizio Entra ID di Microsoft.

Usare una chiave di accesso dell'account di archiviazione di Azure

È possibile configurare una chiave di accesso dell'account di archiviazione nel cluster di integrazione come parte della configurazione di Spark. Assicurarsi che l'account di archiviazione abbia accesso al contenitore e al file system ADLS usati per la gestione temporanea dei dati e al contenitore e al file system ADLS in cui si vogliono scrivere le tabelle Delta Lake. Per configurare il cluster di integrazione per utilizzare la chiave, segui la procedura descritta in Connettersi ad Azure Data Lake Storage e Blob Storage.

Usare un principale del servizio di identificatore Microsoft Entra

È possibile configurare un'entità servizio nel cluster di integrazione di Azure Databricks come parte della configurazione di Spark. Assicurarsi che il Principal di Servizio abbia accesso al contenitore ADLS utilizzato per lo staging dei dati e al contenitore ADLS in cui si desidera scrivere le Tabelle Delta. Per configurare il cluster di integrazione per l'uso dell'entità servizio, seguire la procedura descritta in Accedere ad ADLS con l'entità servizio.

Specificare la configurazione del cluster

  1. Impostare Modalità cluster su Standard.

  2. Impostare Versione di Databricks Runtime su una versione di runtime di Databricks.

  3. Abilitare operazioni di scrittura ottimizzate e compattazione automatica aggiungendo le proprietà seguenti alla configurazione di Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configurare il cluster in base alle esigenze di integrazione e scalabilità.

Per informazioni dettagliate sulla configurazione del cluster, vedere Informazioni di riferimento sulla configurazione del calcolo.

Vedere Ottenere i dettagli della connessione per una risorsa di calcolo di Azure Databricks per la procedura per ottenere l'URL JDBC e il percorso HTTP.

Passaggio 3: Ottenere i dettagli di connessione JDBC e ODBC per connettersi a un cluster

Per connettere un cluster Azure Databricks a Syncsort, sono necessarie le proprietà di connessione JDBC/ODBC seguenti:

  • JDBC URL
  • Percorso HTTP

Passaggio 4: Configurare Syncsort con Azure Databricks

Vai alla pagina di accesso di Databricks e Collegamento per Big Data e seguire le istruzioni.

Risorse aggiuntive

Appoggiare