Megosztás:


Adatfeldolgozás a Databricks használatával

A Databricks a Lakeflow egy végpontok közötti adatmérnöki megoldás, amely lehetővé teszi az adatmérnökök, szoftverfejlesztők, SQL-fejlesztők, elemzők és adattudósok számára, hogy kiváló minőségű adatokat nyújtsanak az alsóbb rétegbeli elemzésekhez, az AI-hoz és az operatív alkalmazásokhoz. A Lakeflow egy egységes megoldás az adatok betöltésére, átalakítására és vezénylésére, beleértve a Lakeflow Connectet, a Lakeflow Spark Deklaratív folyamatokat és a Lakeflow-feladatokat.

Lakeflow Connect

A Lakeflow Connect leegyszerűsíti az adatbetöltést a népszerű vállalati alkalmazásokhoz, adatbázisokhoz, felhőtárhelyekhez, üzenetbuszokhoz és helyi fájlokhoz csatlakozó összekötőkkel. Lásd: Lakeflow Connect.

Tulajdonság Leírás
Kezelt összekötők A felügyelt összekötők egyszerű felhasználói felületet és konfigurációalapú betöltési szolgáltatást biztosítanak minimális üzemeltetési többletterheléssel anélkül, hogy a mögöttes folyamat API-jait és infrastruktúráját kellene használnia.
Szabványos csatlakozók A standard összekötők lehetővé teszik az adatok elérését a folyamatokon vagy más lekérdezéseken belülről származó adatforrások szélesebb köréből.

Lakeflow Spark deklaratív folyamatok (SDP)

A Lakeflow Spark Deklaratív Folyamatok (SDP) egy deklaratív keretrendszer, amely csökkenti a hatékony kötegelt és stream adatfolyamok létrehozásának és kezelésének összetettségét. A Lakeflow SDP kiterjeszthető és együttműködik az Apache Spark Deklaratív folyamatokkal, miközben a teljesítményoptimalizált Databricks-futtatókörnyezetben fut. Az SDP automatikusan vezérli a folyamatok, kimenetek, streamelő táblák és materializált nézetek végrehajtását, azokat egy csővezeték formájában történő beágyazásukkal és futtatásukkal. Lásd Lakeflow Spark deklaratív csővezetékek.

Tulajdonság Leírás
Folyamatok Az áramlások adattovábbító csatornákban dolgozzák fel az adatokat. A flow API ugyanazt a DataFrame API-t használja, mint az Apache Spark és a Strukturált streamelés. Egy folyamat képes adatfolyam-táblákba és célokba írni, például egy Kafka témába, adatfolyam-szemantika használatával, vagy anyagi nézetbe írni kötegelt szemantika alkalmazásával.
adatfolyam táblák A streamelési táblázat egy Delta-tábla, amely további támogatást nyújt a streameléshez vagy a növekményes adatfeldolgozáshoz. Egy vagy több adatfolyam célpontjaként szolgál a munkafolyamatokban.
Materializált nézetek A materializált nézet olyan nézet, amely gyorsítótárazott eredményeket biztosít a gyorsabb hozzáférés érdekében. A materializált nézet az adatcsatornák célpontjaként szolgál.
Mosogatók A pipeline-ok célként támogatják a külső adatforrásokat. Ezek a fogadók olyan eseménystreamelési szolgáltatásokat tartalmazhatnak, mint az Apache Kafka vagy az Azure Event Hubs, a Unity Catalog által felügyelt külső táblák vagy a Pythonban definiált egyéni fogadók.

Lakeflow-állások

A Lakeflow Jobs megbízható vezénylést és éles monitorozást biztosít minden adat- és AI-számítási feladathoz. Egy munka egy vagy több feladatból állhat, amelyek notebookokat, adatfolyamokat, kezelt csatlakozókat, SQL lekérdezéseket, gépi tanulási képzést, és modell üzembe helyezést és következtetést futtatnak. A Jobs támogatja az egyedi vezérlési folyamatok logikáját, például az ágaztatást if / else utasításokkal, valamint a ciklusokat for each utasításokkal. Lásd Lakeflow Jobs.

Tulajdonság Leírás
Munkahelyek A munkák az orchestráció elsődleges erőforrásai. Ezek olyan folyamatot jelölnek, amelyet ütemezetten szeretne végrehajtani.
Feladatok Egy adott feladaton belüli munkaegység. Számos feladattípus létezik, amelyek számos lehetőséget biztosítanak, amelyek elvégezhetők egy feladaton belül.
Feladatok vezérlési folyamata A folyamatvezérlési feladatok segítségével szabályozhatja, hogy más tevékenységeket vagy a futtatandó tevékenységek sorrendjét futtatja-e.

Databricks futtatói környezet az Apache Spark-hoz

A Databricks Runtime egy megbízható és teljesítményoptimalizált számítási környezet Spark-számítási feladatok futtatásához, beleértve a kötegeket és a streamelést is. A Databricks Runtime biztosítja a Photont, egy magas teljesítményű, Databricks-native vektorizált lekérdezőmotort, valamint különféle infrastruktúra-optimalizálásokat, mint például az automatikus skálázás. A Databricks Runtime-on futtathatja a Spark és a Structured Streaming feladatokat azáltal, hogy Spark programjait notebookokként, JAR-fájlokként vagy Python kerekekként (wheels) építi fel. Lásd: Databricks Runtime for Apache Spark.

Tulajdonság Leírás
Apache Spark a Databricksen A Spark a Databricks adatintelligencia-platformjának középpontjában áll.
Strukturált streamelés A strukturált streamelés a Spark közel valós idejű feldolgozási motorja az adatok streameléshez.

Mi történt a Delta Live Tables (DLT) szolgáltatással?

Ha ismeri a Delta Live Tables (DLT) tábláit, olvassa el a Mi történt a Delta Live Tables (DLT) szolgáltatással?

További erőforrások