A Lakehouse referenciaarchitektúráinak letöltése

Cikk
08/09/2024

Ez a cikk az adatforrás, a betöltés, az átalakítás, a lekérdezés és a feldolgozás, a kiszolgálás, az elemzés/kimenet és a tárolás szempontjából nyújt architekturális útmutatást a lakehouse-hoz.

Minden referenciaarchitektúra 11 x 17 (A3) formátumban letölthető PDF-fájlokat használ.

Általános referenciaarchitektúra

A lakehouse általános referenciaarchitektúrája

Letöltés: A Databricks általános lakehouse-referenciaarchitektúrája (PDF)

A referenciaarchitektúrák szervezése

A referenciaarchitektúra a Forrás, az Ingest, az Átalakítás, a Lekérdezés és a Feldolgozás, a Kiszolgálás, az Elemzés és a Tárolás sávok mentén van felépítve:

Forrás

Az architektúra megkülönbözteti a részben strukturált és strukturálatlan adatokat (érzékelők és IoT, média, fájlok/naplók) és a strukturált adatokat (RDBMS, üzleti alkalmazások). Az SQL-források (RDBMS) az ETL nélkül is integrálhatók a lakehouse-ba és a Unity-katalógusba a lakehouse-összevonáson keresztül. Emellett előfordulhat, hogy az adatok más felhőszolgáltatóktól is betölthetők.
Bevesz

Az adatok köteg vagy streamelés útján betölthetők a lakehouse-ba:
- A felhőbeli tárolóba szállított fájlok közvetlenül a Databricks Automatikus betöltővel tölthetők be.
- A Vállalati alkalmazásokból a Delta Lake-be történő kötegelt adatbetöltéshez a Databricks lakehouse a partneri betöltési eszközökre támaszkodik, amelyek speciális adapterekkel rendelkeznek ezekhez a rekordrendszerekhez.
- A streamelési események közvetlenül betölthetők olyan eseménystreamelési rendszerekből, mint például a Kafka a Databricks Strukturált streamelés használatával. A streamelő források lehetnek érzékelők, IoT vagy adatrögzítési folyamatok módosítása.
Tárolás

Az adatokat általában a felhőbeli tárolórendszer tárolja, ahol az ETL-folyamatok a medallion architektúrát használják az adatok válogatott módon történő tárolására Delta-fájlokként/táblákként.
Átalakítás és lekérdezés és folyamat

A Databricks lakehouse az Apache Spark és a Photon motorjait használja minden átalakításhoz és lekérdezéshez.

Egyszerűsége miatt a DLT (Delta Live Tables) deklaratív keretrendszer jó választás megbízható, karbantartható és tesztelhető adatfeldolgozási folyamatok létrehozásához.

Az Apache Spark és a Photon által működtetett Databricks Adatintelligencia-platform mindkét számítási feladatot támogatja: SQL-lekérdezéseket SQL-raktárakon keresztül, valamint sql-, Python- és Scala-számítási feladatokat munkaterületfürtökön keresztül.

A Databricks AI és a Machine Learning platform az adatelemzés (ML-modellezés és gen AI) számára speciális ml-futtatókörnyezeteket biztosít az AutoML-hez és az ML-feladatok kódolásához. Az MLflow minden adatelemzési és MLOps-munkafolyamatot a legjobban támogat.
Szolgál

DWH- és BI-használati esetek esetén a Databricks lakehouse biztosítja a Databricks SQL-t, az SQL-raktárak által üzemeltetett adattárházat és a kiszolgáló nélküli SQL-raktárakat.

A gépi tanuláshoz a modell-kiszolgálás egy skálázható, valós idejű, nagyvállalati szintű modellmegjelenítési képesség, amely a Databricks vezérlősíkon fut.

Operatív adatbázisok: A külső rendszerek, például az operatív adatbázisok felhasználhatók a végfelhasználói alkalmazások végső adattermékeinek tárolására és továbbítására.

Együttműködés: Az üzleti partnerek biztonságos hozzáférést kapnak a szükséges adatokhoz a Delta Sharing használatával. A Delta Sharing alapján a Databricks Marketplace egy nyílt fórum az adattermékek cseréjére.
Elemzés

A végső üzleti alkalmazások ebben a sávban vannak. Ilyenek például az egyéni ügyfelek, például a Mozaik AI-modellhez csatlakoztatott AI-alkalmazások, amelyek valós idejű következtetést szolgálnak ki, vagy olyan alkalmazások, amelyek hozzáférnek a lakehouse-ból egy operatív adatbázisba leküldött adatokhoz.

Bi-használati esetek esetén az elemzők általában BI-eszközöket használnak az adattárház eléréséhez. Az SQL-fejlesztők a Databricks SQL Editort is használhatják (a diagramon nem látható) lekérdezésekhez és irányítópultokhoz.

Az adatintelligencia-platform irányítópultokat is kínál az adatvizualizációk létrehozásához és az elemzések megosztásához.

A számítási feladatok képességei

A Databricks lakehouse emellett olyan felügyeleti képességekkel is rendelkezik, amelyek az összes számítási feladatot támogatják:

Adatok és AI-szabályozás

A Databricks Adatintelligencia-platform központi adat- és AI-szabályozási rendszere a Unity Catalog. A Unity Catalog egyetlen helyen kezeli az összes munkaterületre vonatkozó adatelérési szabályzatokat, és támogatja a lakehouse-ban létrehozott vagy használt összes objektumot, például táblákat, köteteket, funkciókat (funkciótárolót) és modelleket (modellregisztrációs adatbázis). A Unity Catalog a Databricksen futtatott lekérdezések futtatókörnyezeti adatsorainak rögzítésére is használható.

A Databricks lakehouse monitorozása lehetővé teszi az adatok minőségének monitorozását a fiók összes táblájában. A gépi tanulási modellek és a modellkiszolgáló végpontok teljesítményét is nyomon követheti.

A megfigyelhetőség érdekében a rendszertáblák a fiók működési adatainak Databricks által üzemeltetett elemzési tárai. A rendszertáblák felhasználhatók a fiók előzményeinek megfigyelhetőségére.
Adatintelligencia-motor

A Databricks Adatintelligencia-platform lehetővé teszi a teljes szervezet számára az adatok és az AI használatát. A DatabricksIQ működteti, és egyesíti a generatív AI-t a lakehouse egyesítő előnyeivel az adatok egyedi szemantikájának megértéséhez.

A Databricks Assistant a Databricks-jegyzetfüzetekben, az SQL-szerkesztőben és a fájlszerkesztőben érhető el környezetfüggő AI-asszisztensként fejlesztők számára.
Vezénylés

A Databricks Jobs vezényli az adatfeldolgozási, gépi tanulási és elemzési folyamatokat a Databricks Adatintelligencia-platformon. A Delta Live Tables lehetővé teszi, hogy megbízható és karbantartható ETL-folyamatokat hozzon létre deklaratív szintaxissal.

A Data Intelligence Platform referenciaarchitektúrája az Azure-ban

Az Azure Databricks referenciaarchitektúrája az általános referenciaarchitektúrából származik, és Azure-specifikus szolgáltatásokat ad hozzá a Forrás, az Ingest, a Serve, az Analysis/Output és a Storage elemekhez.

Az Azure Databricks lakehouse referenciaarchitektúrája

Letöltés: Referenciaarchitektúra az Azure-beli Databricks lakehouse-hoz

Az Azure referenciaarchitektúrája az alábbi Azure-specifikus szolgáltatásokat jeleníti meg az Ingest, a Storage, a Serve és az Analysis/Output szolgáltatáshoz:

Az Azure Synapse és az SQL Server mint a Lakehouse Federation forrásrendszerei
Azure IoT Hub és Azure Event Hubs streamelési célokra
Azure Data Factory kötegbetöltéshez
Az Azure Data Lake Storage Gen 2 (ADLS) objektumtárolóként
Az Azure SQL DB és az Azure Cosmos DB operatív adatbázisokként
Az Azure Purview mint nagyvállalati katalógus, amelybe az UC exportálni fogja a sémát és az életút adatait
Power BI mint BI-eszköz

Feljegyzés

A referenciaarchitektúra ezen nézete csak az Azure-szolgáltatásokra és a Databricks lakehouse-ra összpontosít. A Databricks lakehouse egy nyílt platform, amely a partnereszközök nagy ökoszisztémájával integrálható.
A megjelenített felhőszolgáltatói szolgáltatások nem teljesek. Ezek a koncepció szemléltetésére vannak kiválasztva.

Használati eset: Batch ETL

Referenciaarchitektúra a batch ETL-hez az Azure Databricksben

Letöltés: Batch ETL referenciaarchitektúra az Azure Databrickshez

Az betöltési eszközök forrásspecifikus adapterekkel olvasnak adatokat a forrásból, majd vagy a felhőbeli tárolóban tárolják, ahonnan az automatikus betöltő elolvashatja őket, vagy közvetlenül meghívhatják a Databrickset (például a Databricks lakehouse-ba integrált partnerbetöltési eszközökkel). Az adatok betöltéséhez a Databricks ETL és a feldolgozó motor a DLT-n keresztül futtatja a lekérdezéseket. Az egy- vagy többfeladatos munkafolyamatokat a Databricks Jobs vezényli, és a Unity Catalog szabályozza (hozzáférés-vezérlés, naplózás, életút stb.). Ha az alacsony késésű üzemeltetési rendszerek bizonyos aranytáblákhoz való hozzáférést igényelnek, exportálhatók egy operatív adatbázisba, például RDBMS-be vagy kulcs-érték tárolóba az ETL-folyamat végén.

Használati eset: Streamelés és adatrögzítés módosítása (CDC)

Spark strukturált streamelési architektúra az Azure Databricksben

Letöltés: Spark strukturált streamelési architektúra az Azure Databrickshez

A Databricks ETL-motor spark strukturált streamelést használ az olyan eseménysorokból való olvasáshoz, mint az Apache Kafka vagy az Azure Event Hub. Az alsóbb rétegbeli lépések a fenti Batch-használati eset megközelítését követik.

A valós idejű változásadat-rögzítés (CDC) általában egy eseménysort használ a kinyert események tárolására. Innen a használati eset a streamelési használati esetet követi.

Ha a CDC olyan kötegben történik, amelyben a kinyert rekordok először a felhőbeli tárolóban vannak tárolva, akkor a Databricks Autoloader felolvassa őket, és a használati eset a Batch ETL-t követi.

Használati eset: Gépi tanulás és AI

Gépi tanulási és AI-referenciaarchitektúra az Azure Databrickshez

Letöltés: Gépi tanulási és AI-referenciaarchitektúra az Azure Databrickshez

A gépi tanuláshoz a Databricks Adatintelligencia-platform mozaik AI-t biztosít, amely a legkorszerűbb gépi és mélytanulási kódtárakkal rendelkezik. Olyan képességeket biztosít, mint a Funkciótár és a modellregisztrációs adatbázis (mindkettő a Unity Katalógusba integrálva), az AutoML alacsony kódú funkciói és az MLflow integrálása az adatelemzési életciklusba.

Az adatelemzéshez kapcsolódó összes objektumot (táblákat, funkciókat és modelleket) a Unity Catalog szabályozza, és az adattudósok a Databricks Jobs használatával vezényelhetik a feladataikat.

A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.

Használati eset: Bővített generáció lekérése (Gen AI)

Gen AI RAG referenciaarchitektúra az Azure Databrickshez

Letöltés: Gen AI RAG referenciaarchitektúra az Azure Databrickshez

A generatív AI-használati esetek esetében a Mozaik AI a legkorszerűbb kódtárakkal és speciális Gen AI-képességekkel rendelkezik, a gyors tervezéstől a meglévő modellek finomhangolásán át az előzetes betanításig. A fenti architektúra egy példát mutat be arra, hogyan integrálható a vektoros keresés egy RAG (lekéréses kiterjesztett generációs) AI-alkalmazás létrehozásához.

A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.

Használati eset: BI és SQL Analytics

BI- és SQL Analytics-referenciaarchitektúra az Azure Databrickshez

Letöltés: BI- és SQL Analytics-referenciaarchitektúra az Azure Databrickshez

Üzletiintelligráns-használati esetekben az üzleti elemzők irányítópultokat, a Databricks SQL-szerkesztőt vagy adott BI-eszközöket, például Tableau-t vagy Power BI-t használhatnak. A motor minden esetben a Databricks SQL (kiszolgáló nélküli vagy nem kiszolgáló nélküli), az adatfelderítést, a feltárást és a hozzáférés-vezérlést pedig a Unity Catalog biztosítja.

Használati eset: Lakehouse-összevonás

Lakehouse összevonási referenciaarchitektúra az Azure Databrickshez

Letöltés: Lakehouse összevonási referenciaarchitektúra az Azure Databrickshez

A Lakehouse-összevonás lehetővé teszi, hogy külső adat SQL-adatbázisok (például MySQL, Postgres, SQL Server vagy Azure Synapse) integrálhatók legyenek a Databricksbe.

Minden számítási feladat (AI, DWH és BI) kihasználhatja ezt anélkül, hogy először ETL-be kellene helyeznie az adatokat az objektumtárolóba. A külső forráskatalógus a Unity-katalógusba van leképezve, és a databricks platformon keresztüli hozzáférés-vezérlés részletes hozzáférés-vezérlést alkalmaz.

Vállalati adatmegosztási referenciaarchitektúra az Azure Databrickshez

Letöltés: Vállalati adatmegosztási referenciaarchitektúra az Azure Databrickshez

A nagyvállalati szintű adatmegosztást a Delta Sharing biztosítja. Közvetlen hozzáférést biztosít a Unity Catalog által védett objektumtároló adataihoz, a Databricks Marketplace pedig nyílt fórum az adattermékek cseréjéhez.

Megosztás a következőn keresztül:

A Lakehouse referenciaarchitektúráinak letöltése

Általános referenciaarchitektúra

A referenciaarchitektúrák szervezése

A számítási feladatok képességei

A Data Intelligence Platform referenciaarchitektúrája az Azure-ban

Használati eset: Batch ETL

Használati eset: Streamelés és adatrögzítés módosítása (CDC)

Használati eset: Gépi tanulás és AI

Használati eset: Bővített generáció lekérése (Gen AI)

Használati eset: BI és SQL Analytics

Használati eset: Lakehouse-összevonás

Visszajelzés

További források

Megosztás a következőn keresztül:

A Lakehouse referenciaarchitektúráinak letöltése

Általános referenciaarchitektúra

A referenciaarchitektúrák szervezése

A számítási feladatok képességei

A Data Intelligence Platform referenciaarchitektúrája az Azure-ban

Használati eset: Batch ETL

Használati eset: Streamelés és adatrögzítés módosítása (CDC)

Használati eset: Gépi tanulás és AI

Használati eset: Bővített generáció lekérése (Gen AI)

Használati eset: BI és SQL Analytics

Használati eset: Lakehouse-összevonás

Használati eset: Vállalati adatmegosztás

Visszajelzés

További források