Csatlakozás StreamSets-hez
Fontos
Ez a funkció a nyilvános előzetes verzióban érhető el.
A StreamSets segítségével teljes életciklusa során kezelheti és figyelheti az adatfolyamokat. A StreamSets natív integrációja az Azure Databricks és a Delta Lake használatával különböző forrásokból származó adatokat kér le, és egyszerűen kezelheti a folyamatokat.
A StreamSets általános bemutatásához tekintse meg a következő YouTube-videót (10 perc).
A StreamSets és az Azure Databricks használatának lépései.
1. lépés: Databricks személyes hozzáférési jogkivonat létrehozása
A StreamSets egy Azure Databricks személyes hozzáférési jogkivonat használatával hitelesíti az Azure Databrickset.
Feljegyzés
Ajánlott biztonsági eljárásként, ha automatizált eszközökkel, rendszerekkel, szkriptekkel és alkalmazásokkal hitelesít, a Databricks azt javasolja, hogy munkaterület-felhasználók helyett a szolgáltatásnevekhez tartozó személyes hozzáférési jogkivonatokat használja. A szolgáltatásnevek jogkivonatainak létrehozásáról a szolgáltatásnév jogkivonatainak kezelése című témakörben olvashat.
2. lépés: Fürt beállítása az integrációs igények támogatására
A StreamSets adatokat fog írni egy Azure Data Lake Storage-elérési útra, és az Azure Databricks integrációs fürt ebből a helyről fogja beolvasni az adatokat. Az integrációs fürt ezért biztonságos hozzáférést igényel az Azure Data Lake Storage elérési úthoz.
Biztonságos hozzáférés egy Azure Data Lake Storage-elérési úthoz
Az Azure Data Lake Storage (ADLS) adataihoz való hozzáférés biztonságossá tételéhez használhatja az Azure Storage-fiók hozzáférési kulcsát (ajánlott) vagy a Microsoft Entra ID szolgáltatásnevet.
Azure Storage-fiók hozzáférési kulcsának használata
A Spark-konfiguráció részeként konfigurálhat egy tárfiók hozzáférési kulcsát az integrációs fürtön. Győződjön meg arról, hogy a tárfiók rendelkezik hozzáféréssel az előkészítéshez használt ADLS-tárolóhoz és fájlrendszerhez, valamint ahhoz az ADLS-tárolóhoz és fájlrendszerhez, ahol a Delta Lake-táblákat meg szeretné írni. Az integrációs fürt kulcs használatára való konfigurálásához kövesse a Csatlakozás lépéseit az Azure Data Lake Storage Gen2 és a Blob Storage felé.
Microsoft Entra ID szolgáltatásnév használata
A Spark-konfiguráció részeként konfigurálhat egy szolgáltatásnevet az Azure Databricks integrációs fürtön. Győződjön meg arról, hogy a szolgáltatásnév hozzáfér az előkészítéshez használt ADLS-tárolóhoz és ahhoz az ADLS-tárolóhoz, ahová a Delta-táblákat meg szeretné írni. Az integrációs fürt szolgáltatásnév használatára való konfigurálásához kövesse az Access ADLS Gen2 szolgáltatásnévvel kapcsolatos lépéseit.
A fürtkonfiguráció megadása
Fürtmód beállítása Standard értékre.
Állítsa a Databricks Futtatókörnyezet verzióját futtatókörnyezetre: 6.3 vagy újabb verzióra.
Az optimalizált írás és az automatikus tömörítés engedélyezéséhez adja hozzá a következő tulajdonságokat a Spark-konfigurációhoz:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Konfigurálja a fürtöt az integrációs és skálázási igényeknek megfelelően.
A fürtkonfiguráció részleteiért lásd : Számítási konfigurációs referencia.
A JDBC URL-címének és HTTP-elérési útjának beszerzéséhez szükséges lépésekért tekintse meg az Azure Databricks számítási erőforrás kapcsolati adatainak lekérését.
3. lépés: JDBC- és ODBC-kapcsolatadatok beszerzése a fürthöz való csatlakozáshoz
Az Azure Databricks-fürt StreamSetekhez való csatlakoztatásához a következő JDBC/ODBC kapcsolati tulajdonságokra van szükség:
- JDBC URL-címe
- HTTP elérési útja
4. lépés: StreamSetek lekérése az Azure Databrickshez
Ha még nem rendelkezik StreamSets-fiókkal, regisztráljona Databricks StreamSets szolgáltatására. Ha készen áll, ingyenesen kezdheti el a frissítést, és frissíthet. lásd a StreamSets DataOps Platform díjszabását.
5. lépés: Megtudhatja, hogyan tölthet be adatokat a StreamSets használatával a Delta Lake-be
Kezdjen egy mintafolyamattal, vagy tekintse meg a StreamSets-megoldásokat , amelyekből megtudhatja, hogyan hozhat létre olyan folyamatot, amely adatokat fogad be a Delta Lake-be.
További erőforrások
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: