A Lakehouse referenciaarchitektúráinak letöltése
Ez a cikk az adatforrás, a betöltés, az átalakítás, a lekérdezés és a feldolgozás, a kiszolgálás, az elemzés/kimenet és a tárolás szempontjából nyújt architekturális útmutatást a lakehouse-hoz.
Minden referenciaarchitektúra 11 x 17 (A3) formátumban letölthető PDF-fájlokat használ.
Általános referenciaarchitektúra
Letöltés: A Databricks általános lakehouse-referenciaarchitektúrája (PDF)
A referenciaarchitektúrák szervezése
A referenciaarchitektúra a Forrás, az Ingest, az Átalakítás, a Lekérdezés és a Feldolgozás, a Kiszolgálás, az Elemzés és a Tárolás sávok mentén van felépítve:
Forrás
Az architektúra megkülönbözteti a részben strukturált és strukturálatlan adatokat (érzékelők és IoT, média, fájlok/naplók) és a strukturált adatokat (RDBMS, üzleti alkalmazások). Az SQL-források (RDBMS) az ETL nélkül is integrálhatók a lakehouse-ba és a Unity-katalógusba a lakehouse-összevonáson keresztül. Emellett előfordulhat, hogy az adatok más felhőszolgáltatóktól is betölthetők.
Bevesz
Az adatok köteg vagy streamelés útján betölthetők a lakehouse-ba:
- A felhőbeli tárolóba szállított fájlok közvetlenül a Databricks Automatikus betöltővel tölthetők be.
- A Vállalati alkalmazásokból a Delta Lake-be történő kötegelt adatbetöltéshez a Databricks lakehouse a partneri betöltési eszközökre támaszkodik, amelyek speciális adapterekkel rendelkeznek ezekhez a rekordrendszerekhez.
- A streamelési események közvetlenül betölthetők olyan eseménystreamelési rendszerekből, mint például a Kafka a Databricks Strukturált streamelés használatával. A streamelő források lehetnek érzékelők, IoT vagy adatrögzítési folyamatok módosítása.
Tárolás
Az adatokat általában a felhőbeli tárolórendszer tárolja, ahol az ETL-folyamatok a medallion architektúrát használják az adatok válogatott módon történő tárolására Delta-fájlokként/táblákként.
Átalakítás és lekérdezés és folyamat
A Databricks lakehouse az Apache Spark és a Photon motorjait használja minden átalakításhoz és lekérdezéshez.
Egyszerűsége miatt a DLT (Delta Live Tables) deklaratív keretrendszer jó választás megbízható, karbantartható és tesztelhető adatfeldolgozási folyamatok létrehozásához.
Az Apache Spark és a Photon által működtetett Databricks Adatintelligencia-platform mindkét számítási feladatot támogatja: SQL-lekérdezéseket SQL-raktárakon keresztül, valamint sql-, Python- és Scala-számítási feladatokat munkaterületfürtökön keresztül.
A Databricks AI és a Machine Learning platform az adatelemzés (ML-modellezés és gen AI) számára speciális ml-futtatókörnyezeteket biztosít az AutoML-hez és az ML-feladatok kódolásához. Az MLflow minden adatelemzési és MLOps-munkafolyamatot a legjobban támogat.
Szolgál
DWH- és BI-használati esetek esetén a Databricks lakehouse biztosítja a Databricks SQL-t, az SQL-raktárak által üzemeltetett adattárházat és a kiszolgáló nélküli SQL-raktárakat.
A gépi tanuláshoz a modell-kiszolgálás egy skálázható, valós idejű, nagyvállalati szintű modellmegjelenítési képesség, amely a Databricks vezérlősíkon fut.
Operatív adatbázisok: A külső rendszerek, például az operatív adatbázisok felhasználhatók a végfelhasználói alkalmazások végső adattermékeinek tárolására és továbbítására.
Együttműködés: Az üzleti partnerek biztonságos hozzáférést kapnak a szükséges adatokhoz a Delta Sharing használatával. A Delta Sharing alapján a Databricks Marketplace egy nyílt fórum az adattermékek cseréjére.
Elemzés
A végső üzleti alkalmazások ebben a sávban vannak. Ilyenek például az egyéni ügyfelek, például a Mozaik AI-modellhez csatlakoztatott AI-alkalmazások, amelyek valós idejű következtetést szolgálnak ki, vagy olyan alkalmazások, amelyek hozzáférnek a lakehouse-ból egy operatív adatbázisba leküldött adatokhoz.
Bi-használati esetek esetén az elemzők általában BI-eszközöket használnak az adattárház eléréséhez. Az SQL-fejlesztők a Databricks SQL Editort is használhatják (a diagramon nem látható) lekérdezésekhez és irányítópultokhoz.
Az adatintelligencia-platform irányítópultokat is kínál az adatvizualizációk létrehozásához és az elemzések megosztásához.
A számítási feladatok képességei
A Databricks lakehouse emellett olyan felügyeleti képességekkel is rendelkezik, amelyek az összes számítási feladatot támogatják:
Adatok és AI-szabályozás
A Databricks Adatintelligencia-platform központi adat- és AI-szabályozási rendszere a Unity Catalog. A Unity Catalog egyetlen helyen kezeli az összes munkaterületre vonatkozó adatelérési szabályzatokat, és támogatja a lakehouse-ban létrehozott vagy használt összes objektumot, például táblákat, köteteket, funkciókat (funkciótárolót) és modelleket (modellregisztrációs adatbázis). A Unity Catalog a Databricksen futtatott lekérdezések futtatókörnyezeti adatsorainak rögzítésére is használható.
A Databricks lakehouse monitorozása lehetővé teszi az adatok minőségének monitorozását a fiók összes táblájában. A gépi tanulási modellek és a modellkiszolgáló végpontok teljesítményét is nyomon követheti.
A megfigyelhetőség érdekében a rendszertáblák a fiók működési adatainak Databricks által üzemeltetett elemzési tárai. A rendszertáblák felhasználhatók a fiók előzményeinek megfigyelhetőségére.
Adatintelligencia-motor
A Databricks Adatintelligencia-platform lehetővé teszi a teljes szervezet számára az adatok és az AI használatát. A DatabricksIQ működteti, és egyesíti a generatív AI-t a lakehouse egyesítő előnyeivel az adatok egyedi szemantikájának megértéséhez.
A Databricks Assistant a Databricks-jegyzetfüzetekben, az SQL-szerkesztőben és a fájlszerkesztőben érhető el környezetfüggő AI-asszisztensként fejlesztők számára.
Vezénylés
A Databricks Jobs vezényli az adatfeldolgozási, gépi tanulási és elemzési folyamatokat a Databricks Adatintelligencia-platformon. A Delta Live Tables lehetővé teszi, hogy megbízható és karbantartható ETL-folyamatokat hozzon létre deklaratív szintaxissal.
A Data Intelligence Platform referenciaarchitektúrája az Azure-ban
Az Azure Databricks referenciaarchitektúrája az általános referenciaarchitektúrából származik, és Azure-specifikus szolgáltatásokat ad hozzá a Forrás, az Ingest, a Serve, az Analysis/Output és a Storage elemekhez.
Letöltés: Referenciaarchitektúra az Azure-beli Databricks lakehouse-hoz
Az Azure referenciaarchitektúrája az alábbi Azure-specifikus szolgáltatásokat jeleníti meg az Ingest, a Storage, a Serve és az Analysis/Output szolgáltatáshoz:
- Az Azure Synapse és az SQL Server mint a Lakehouse Federation forrásrendszerei
- Azure IoT Hub és Azure Event Hubs streamelési célokra
- Azure Data Factory kötegbetöltéshez
- Az Azure Data Lake Storage Gen 2 (ADLS) objektumtárolóként
- Az Azure SQL DB és az Azure Cosmos DB operatív adatbázisokként
- Az Azure Purview mint nagyvállalati katalógus, amelybe az UC exportálni fogja a sémát és az életút adatait
- Power BI mint BI-eszköz
Feljegyzés
- A referenciaarchitektúra ezen nézete csak az Azure-szolgáltatásokra és a Databricks lakehouse-ra összpontosít. A Databricks lakehouse egy nyílt platform, amely a partnereszközök nagy ökoszisztémájával integrálható.
- A megjelenített felhőszolgáltatói szolgáltatások nem teljesek. Ezek a koncepció szemléltetésére vannak kiválasztva.
Használati eset: Batch ETL
Letöltés: Batch ETL referenciaarchitektúra az Azure Databrickshez
Az betöltési eszközök forrásspecifikus adapterekkel olvasnak adatokat a forrásból, majd vagy a felhőbeli tárolóban tárolják, ahonnan az automatikus betöltő elolvashatja őket, vagy közvetlenül meghívhatják a Databrickset (például a Databricks lakehouse-ba integrált partnerbetöltési eszközökkel). Az adatok betöltéséhez a Databricks ETL és a feldolgozó motor a DLT-n keresztül futtatja a lekérdezéseket. Az egy- vagy többfeladatos munkafolyamatokat a Databricks Jobs vezényli, és a Unity Catalog szabályozza (hozzáférés-vezérlés, naplózás, életút stb.). Ha az alacsony késésű üzemeltetési rendszerek bizonyos aranytáblákhoz való hozzáférést igényelnek, exportálhatók egy operatív adatbázisba, például RDBMS-be vagy kulcs-érték tárolóba az ETL-folyamat végén.
Használati eset: Streamelés és adatrögzítés módosítása (CDC)
Letöltés: Spark strukturált streamelési architektúra az Azure Databrickshez
A Databricks ETL-motor spark strukturált streamelést használ az olyan eseménysorokból való olvasáshoz, mint az Apache Kafka vagy az Azure Event Hub. Az alsóbb rétegbeli lépések a fenti Batch-használati eset megközelítését követik.
A valós idejű változásadat-rögzítés (CDC) általában egy eseménysort használ a kinyert események tárolására. Innen a használati eset a streamelési használati esetet követi.
Ha a CDC olyan kötegben történik, amelyben a kinyert rekordok először a felhőbeli tárolóban vannak tárolva, akkor a Databricks Autoloader felolvassa őket, és a használati eset a Batch ETL-t követi.
Használati eset: Gépi tanulás és AI
Letöltés: Gépi tanulási és AI-referenciaarchitektúra az Azure Databrickshez
A gépi tanuláshoz a Databricks Adatintelligencia-platform mozaik AI-t biztosít, amely a legkorszerűbb gépi és mélytanulási kódtárakkal rendelkezik. Olyan képességeket biztosít, mint a Funkciótár és a modellregisztrációs adatbázis (mindkettő a Unity Katalógusba integrálva), az AutoML alacsony kódú funkciói és az MLflow integrálása az adatelemzési életciklusba.
Az adatelemzéshez kapcsolódó összes objektumot (táblákat, funkciókat és modelleket) a Unity Catalog szabályozza, és az adattudósok a Databricks Jobs használatával vezényelhetik a feladataikat.
A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.
Használati eset: Bővített generáció lekérése (Gen AI)
Letöltés: Gen AI RAG referenciaarchitektúra az Azure Databrickshez
A generatív AI-használati esetek esetében a Mozaik AI a legkorszerűbb kódtárakkal és speciális Gen AI-képességekkel rendelkezik, a gyors tervezéstől a meglévő modellek finomhangolásán át az előzetes betanításig. A fenti architektúra egy példát mutat be arra, hogyan integrálható a vektoros keresés egy RAG (lekéréses kiterjesztett generációs) AI-alkalmazás létrehozásához.
A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.
Használati eset: BI és SQL Analytics
Letöltés: BI- és SQL Analytics-referenciaarchitektúra az Azure Databrickshez
Üzletiintelligráns-használati esetekben az üzleti elemzők irányítópultokat, a Databricks SQL-szerkesztőt vagy adott BI-eszközöket, például Tableau-t vagy Power BI-t használhatnak. A motor minden esetben a Databricks SQL (kiszolgáló nélküli vagy nem kiszolgáló nélküli), az adatfelderítést, a feltárást és a hozzáférés-vezérlést pedig a Unity Catalog biztosítja.
Használati eset: Lakehouse-összevonás
Letöltés: Lakehouse összevonási referenciaarchitektúra az Azure Databrickshez
A Lakehouse-összevonás lehetővé teszi, hogy külső adat SQL-adatbázisok (például MySQL, Postgres, SQL Server vagy Azure Synapse) integrálhatók legyenek a Databricksbe.
Minden számítási feladat (AI, DWH és BI) kihasználhatja ezt anélkül, hogy először ETL-be kellene helyeznie az adatokat az objektumtárolóba. A külső forráskatalógus a Unity-katalógusba van leképezve, és a databricks platformon keresztüli hozzáférés-vezérlés részletes hozzáférés-vezérlést alkalmaz.
Használati eset: Vállalati adatmegosztás
Letöltés: Vállalati adatmegosztási referenciaarchitektúra az Azure Databrickshez
A nagyvállalati szintű adatmegosztást a Delta Sharing biztosítja. Közvetlen hozzáférést biztosít a Unity Catalog által védett objektumtároló adataihoz, a Databricks Marketplace pedig nyílt fórum az adattermékek cseréjéhez.