Megosztás a következőn keresztül:


A lakehouse platform hatóköre

Modern adat- és AI-platform-keretrendszer

A Databricks adatintelligencia-platform hatókörének megvitatásához hasznos először meghatározni a modern adat- és AI-platform alapvető keretrendszerét:

Felhőbeli adatelemzési keretrendszer

A lakehouse hatókörének áttekintése

A Databricks Data Intelligence Platform a teljes modern adatplatform-keretrendszert fedi le. A lakehouse architektúrára épül, és egy adatintelligencia-motor hajtja, amely megérti az adatok egyedi tulajdonságait. Ez egy nyitott és egységes alap az ETL, az ML/AI és a DWH/BI számítási feladatokhoz, és központi adat- és AI-szabályozási megoldásként a Unity Catalogot tartalmazza.

A platform-keretrendszer személyiségei

A keretrendszer a keretrendszerben az alkalmazásokkal együttműködő elsődleges adatcsoporttagokat (persona-kat) fedi le:

  • Az adatszakértők pontos és reprodukálható adatokat biztosítanak az adattudósoknak és az üzleti elemzőknek az időszerű döntéshozatalhoz és a valós idejű elemzésekhez. Rendkívül konzisztens és megbízható ETL-folyamatokat implementálnak a felhasználói bizalom és az adatokba vetett bizalom növelése érdekében. Biztosítják, hogy az adatok megfelelően integrálva legyenek az üzlet különböző pilléreivel, és általában a szoftverfejlesztés ajánlott eljárásait követik.
  • Az adattudósok az elemzési szakértelem és az üzleti ismeretek ötvözése révén stratégiai elemzésekké és prediktív modellekké alakítják az adatokat. Képesek az üzleti kihívásokat adatvezérelt megoldásokká alakítani, legyen az visszamenőleges elemzési megállapítások vagy előretekintő prediktív modellezés. Az adatmodellezési és gépi tanulási technikákat kihasználva olyan modelleket terveznek, fejlesztenek és helyeznek üzembe, amelyek mintázatokat, trendeket és előrejelzéseket mutatnak be az adatokból. Hídként működnek, összetett adat narratívákat alakítanak át érthető történetekké, biztosítva, hogy az üzleti szereplők ne csak megértsék, hanem az adatvezérelt javaslatokra is reagáljanak, ezáltal pedig a szervezeten belüli problémamegoldás adatközpontú megközelítését irányítják.
  • A gépi tanulási mérnökök (gépi tanulási mérnökök) a gépi tanulási modellek létrehozásával, üzembe helyezésével és karbantartásával vezetik az adatelemzés gyakorlati alkalmazását a termékekben és megoldásokban. Elsődleges fókuszuk a modellfejlesztés és az üzembe helyezés mérnöki aspektusa felé mutat. Az ml-mérnökök biztosítják a gépi tanulási rendszerek robusztusságát, megbízhatóságát és méretezhetőségét élő környezetben, az adatminőséggel, az infrastruktúrával és a teljesítménnyel kapcsolatos kihívások kezelése érdekében. Az AI- és ML-modellek működési üzleti folyamatokba és felhasználói termékekbe való integrálásával megkönnyítik az adatelemzés használatát az üzleti kihívások megoldásában, így a modellek nem csak a kutatásban maradnak, hanem kézzelfogható üzleti értéket is teremtenek.
  • Az üzleti elemzők az érdekelt feleket és az üzleti csapatokat is hasznosítható adatokkal támogatják. Gyakran szabványos BI-eszközökkel értelmezik az adatokat, és jelentéseket vagy más dokumentációkat hoznak létre a vezetés számára. Ezek általában a nem műszaki üzleti és üzemeltetési munkatársak kapcsolattartói a gyors elemzési kérdésekhez.
  • Az üzleti partnerek fontos érdekelt felek az egyre inkább hálózatos üzleti világban. Ezek olyan vállalatként vagy magánszemélyekként vannak definiálva, akikkel egy vállalkozás formális kapcsolatban áll egy közös cél elérése érdekében, és beszállítókat, szállítókat, forgalmazókat és más külső partnereket is tartalmazhatnak. Az adatmegosztás az üzleti partnerségek fontos eleme, mivel lehetővé teszi az adatok átvitelét és cseréjét az együttműködés és az adatvezérelt döntéshozatal javítása érdekében.

A platform-keretrendszer tartományai

A platform több tartományból áll:

  • Tárolás: A felhőben az adatok elsősorban skálázható, hatékony és rugalmas objektumtárolókban tárolódnak a felhőszolgáltatókon.
  • Irányítás: Az adatszabályozással kapcsolatos képességek, például a hozzáférés-vezérlés, a naplózás, a metaadatok kezelése, a leálláskövetés és az összes adat és AI-eszköz monitorozása.
  • AI-motor: Az AI-motor generatív AI-képességeket biztosít a teljes platform számára.
  • Betöltés > az ETL-számítási feladatok képességeinek átalakítása .
  • Fejlett elemzési, gépi tanulási és AI-képességek a gépi tanulás, az AI, a Generatív AI és a streamelemzés terén.
  • Adattárház A DWH- és BI-használati eseteket támogató tartomány.
  • Az adatfeldolgozási, gépi tanulási és elemzési folyamatok központi munkafolyamat-kezelésének vezénylése .
  • ETL > DS-eszközök: Az adatmérnökök, adattudósok és gépi tanulási mérnökök által elsősorban a munkához használt előtérbeli eszközök.
  • BI-eszközök: Azok az előtérbeli eszközök, amelyeket a BI-elemzők elsősorban a munkához használnak.
  • Együttműködés: Képességek két vagy több fél közötti adatmegosztáshoz.

A Databricks Platform hatóköre

A Databricks Adatintelligencia-platform és összetevői a következő módon képezhetők le a keretrendszerre:

A tóház hatóköre

Letöltés: A lakehouse hatóköre – Databricks-összetevők

Adatterhelések az Azure Databricksben

A legfontosabb, hogy a Databricks Adatintelligencia-platform az adattartomány összes releváns számítási feladatát lefedi egy platformon, motorként pedig az Apache Spark/Photont:

  • Betöltés > átalakítás

    Az adatbetöltéshez az Automatikus betöltő növekményesen és automatikusan feldolgozza a felhőbeli tárolóba érkező fájlokat ütemezett vagy folyamatos feladatokban – állapotinformációk kezelése nélkül. A betöltést követően a nyers adatokat át kell alakítani, hogy azok készen legyenek a BI-ra és az ML/AI-re. A Databricks hatékony ETL-képességeket biztosít az adatmérnökök, adattudósok és elemzők számára.

    A Delta Live Tables (DLT) lehetővé teszi az ETL-feladatok deklaratív módon történő írását, ami leegyszerűsíti a teljes megvalósítási folyamatot. Az adatminőség az adat elvárásainak meghatározásával javítható.

  • Speciális elemzés, gépi tanulás és AI

    A platform magában foglalja a Databricks Mozaik AI-t, amely a klasszikus gépi és mély tanuláshoz készült teljes körűen integrált gépi tanulást és AI-eszközöket, valamint a generatív AI-t és a nagy nyelvi modelleket (LLM-eket) tartalmazza. A teljes munkafolyamatot lefedi az adatok előkészítésétől a gépi tanuláson és mélytanulási modelleken át a Mozaik AI-modell-szolgáltatásig.

    A Spark strukturált streamelése és a DLT lehetővé teszi a valós idejű elemzést.

  • Adattárház

    A Databricks Adatintelligencia-platform egy teljes adattárház-megoldást is biztosít a Databricks SQL-vel, amely központilag a Unity Catalog felügyelete alatt áll, részletes hozzáférés-vezérléssel.

Az Azure Databricks szolgáltatásterületeinek vázlata

Ez a Databricks Adatintelligencia-platform funkcióinak leképezése a keretrendszer többi rétegére, alulról felülre:

  • Felhőtárhely

    A tóház összes adata a felhőszolgáltató objektumtárolójában van tárolva. A Databricks három felhőszolgáltatót támogat: az AWS-t, az Azure-t és a GCP-t. A különböző strukturált és félig strukturált formátumokban (például Parquet, CSV, JSON és Avro), valamint strukturálatlan formátumokban (például képekben és dokumentumokban) lévő fájlok kötegelt vagy streamelési folyamatokkal vannak betöltve és átalakítva.

    A Delta Lake a lakehouse ajánlott adatformátuma (fájltranzakciók, megbízhatóság, konzisztencia, frissítések stb.), és teljesen nyílt forráskód a zárolás elkerülése érdekében. A Delta Universal Format (UniForm) lehetővé teszi a Delta-táblák olvasását Iceberg-olvasó ügyfelekkel.

    A Databricks Adatintelligencia-platform nem használ védett adatformátumokat.

  • Adatszabályozás

    A tárolási rétegen felül a Unity Catalog számos adatszabályozási képességet kínál, beleértve a metaadat-kezelést a metaadattárban, a hozzáférés-vezérlést, a naplózást, az adatfelderítést és az adatsorokat.

    A Lakehouse monitorozása beépített minőségi metrikákat biztosít az adatokhoz és az AI-eszközökhöz, valamint automatikusan létrehozott irányítópultokat ezeknek a metrikáknak a megjelenítéséhez.

    A külső SQL-források lakehouse-összevonással integrálhatók a lakehouse-ba és a Unity-katalógusba.

  • AI-motor

    Az adatintelligencia-platform a lakehouse architektúrára épül, és a DatabricksIQ adatintelligencia-motorja fokozza. A DatabricksIQ egyesíti a generatív AI-t a lakehouse-architektúra egyesítési előnyeivel az adatok egyedi szemantikájának megértéséhez. Az Intelligens keresés és a Databricks Assistant olyan AI-alapú szolgáltatások, amelyek leegyszerűsítik a platformmal való munkát minden felhasználó számára.

  • Vezénylés

    A Databricks-munkafolyamatok lehetővé teszik különböző számítási feladatok futtatását a teljes adatokhoz és az AI-életciklushoz bármilyen felhőben. Lehetővé teszik a feladatok, valamint a Delta Live Tables for SQL, Spark, notebookok, DBT, ML-modellek és egyebek vezénylésére.

  • ETL > DS-eszközök

    A felhasználói rétegben az adatmérnökök és az ml-mérnökök általában idE-k használatával dolgoznak a platformon. Az adattudósok gyakran a jegyzetfüzeteket részesítik előnyben, és az ML > AI-futtatókörnyezeteket, valamint a gépi tanulási munkafolyamat-rendszer MLflow-ját használják a kísérletek nyomon követéséhez és a modell életciklusának kezeléséhez.

  • BI-eszközök

    Az üzleti elemzők általában az előnyben részesített BI-eszközüket használják a Databricks adattárház eléréséhez. A Databricks SQL különböző elemzési és BI-eszközökkel kérdezhető le, lásd: BI és vizualizáció

    A platform emellett lekérdezési és elemzési eszközöket is kínál a dobozból:

  • Együttműködés

    A Delta Sharing egy nyílt protokoll , amelyet a Databricks fejlesztett ki a más szervezetekkel való biztonságos adatmegosztáshoz, függetlenül attól, hogy milyen számítási platformokat használnak.

    A Databricks Marketplace egy nyílt fórum az adattermékek cseréjéhez. Kihasználja a Delta Sharing előnyeit, hogy az adatszolgáltatók számára olyan eszközöket biztosítson az adattermékek biztonságos megosztásához, valamint az adatfelhasználók számára, hogy felfedezhessék és bővíthessék a szükséges adatokhoz és adatszolgáltatásokhoz való hozzáférésüket.