Share via


Csatlakozás StreamSets-hez

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

A StreamSets segítségével teljes életciklusa során kezelheti és figyelheti az adatfolyamokat. A StreamSets natív integrációja az Azure Databricks és a Delta Lake használatával különböző forrásokból származó adatokat kér le, és egyszerűen kezelheti a folyamatokat.

A StreamSets általános bemutatásához tekintse meg a következő YouTube-videót (10 perc).

A StreamSets és az Azure Databricks használatának lépései.

1. lépés: Databricks személyes hozzáférési jogkivonat létrehozása

A StreamSets egy Azure Databricks személyes hozzáférési jogkivonat használatával hitelesíti az Azure Databrickset.

Feljegyzés

Ajánlott biztonsági eljárásként, ha automatizált eszközökkel, rendszerekkel, szkriptekkel és alkalmazásokkal hitelesít, a Databricks azt javasolja, hogy munkaterület-felhasználók helyett a szolgáltatásnevekhez tartozó személyes hozzáférési jogkivonatokat használja. A szolgáltatásnevek jogkivonatainak létrehozásáról a szolgáltatásnév jogkivonatainak kezelése című témakörben olvashat.

2. lépés: Fürt beállítása az integrációs igények támogatására

A StreamSets adatokat fog írni egy Azure Data Lake Storage-elérési útra, és az Azure Databricks integrációs fürt ebből a helyről fogja beolvasni az adatokat. Az integrációs fürt ezért biztonságos hozzáférést igényel az Azure Data Lake Storage elérési úthoz.

Biztonságos hozzáférés egy Azure Data Lake Storage-elérési úthoz

Az Azure Data Lake Storage (ADLS) adataihoz való hozzáférés biztonságossá tételéhez használhatja az Azure Storage-fiók hozzáférési kulcsát (ajánlott) vagy a Microsoft Entra ID szolgáltatásnevet.

Azure Storage-fiók hozzáférési kulcsának használata

A Spark-konfiguráció részeként konfigurálhat egy tárfiók hozzáférési kulcsát az integrációs fürtön. Győződjön meg arról, hogy a tárfiók rendelkezik hozzáféréssel az előkészítéshez használt ADLS-tárolóhoz és fájlrendszerhez, valamint ahhoz az ADLS-tárolóhoz és fájlrendszerhez, ahol a Delta Lake-táblákat meg szeretné írni. Az integrációs fürt kulcs használatára való konfigurálásához kövesse a Csatlakozás lépéseit az Azure Data Lake Storage Gen2 és a Blob Storage felé.

Microsoft Entra ID szolgáltatásnév használata

A Spark-konfiguráció részeként konfigurálhat egy szolgáltatásnevet az Azure Databricks integrációs fürtön. Győződjön meg arról, hogy a szolgáltatásnév hozzáfér az előkészítéshez használt ADLS-tárolóhoz és ahhoz az ADLS-tárolóhoz, ahová a Delta-táblákat meg szeretné írni. Az integrációs fürt szolgáltatásnév használatára való konfigurálásához kövesse az Access ADLS Gen2 szolgáltatásnévvel kapcsolatos lépéseit.

A fürtkonfiguráció megadása

  1. Fürtmód beállítása Standard értékre.

  2. Állítsa a Databricks Futtatókörnyezet verzióját futtatókörnyezetre: 6.3 vagy újabb verzióra.

  3. Az optimalizált írás és az automatikus tömörítés engedélyezéséhez adja hozzá a következő tulajdonságokat a Spark-konfigurációhoz:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Konfigurálja a fürtöt az integrációs és skálázási igényeknek megfelelően.

A fürtkonfiguráció részleteiért lásd : Számítási konfigurációs referencia.

A JDBC URL-címének és HTTP-elérési útjának beszerzéséhez szükséges lépésekért tekintse meg az Azure Databricks számítási erőforrás kapcsolati adatainak lekérését.

3. lépés: JDBC- és ODBC-kapcsolatadatok beszerzése a fürthöz való csatlakozáshoz

Az Azure Databricks-fürt StreamSetekhez való csatlakoztatásához a következő JDBC/ODBC kapcsolati tulajdonságokra van szükség:

  • JDBC URL-címe
  • HTTP elérési útja

4. lépés: StreamSetek lekérése az Azure Databrickshez

Ha még nem rendelkezik StreamSets-fiókkal, regisztráljona Databricks StreamSets szolgáltatására. Ha készen áll, ingyenesen kezdheti el a frissítést, és frissíthet. lásd a StreamSets DataOps Platform díjszabását.

5. lépés: Megtudhatja, hogyan tölthet be adatokat a StreamSets használatával a Delta Lake-be

Kezdjen egy mintafolyamattal, vagy tekintse meg a StreamSets-megoldásokat , amelyekből megtudhatja, hogyan hozhat létre olyan folyamatot, amely adatokat fogad be a Delta Lake-be.

További erőforrások

Támogatás