Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
A Databricks a Lakeflow egy végpontok közötti adatmérnöki megoldás, amely lehetővé teszi az adatmérnökök, szoftverfejlesztők, SQL-fejlesztők, elemzők és adattudósok számára, hogy kiváló minőségű adatokat nyújtsanak az alsóbb rétegbeli elemzésekhez, az AI-hoz és az operatív alkalmazásokhoz. A Lakeflow egy egységes megoldás az adatok betöltésére, átalakítására és vezénylésére, beleértve a Lakeflow Connectet, a Lakeflow Spark Deklaratív folyamatokat és a Lakeflow-feladatokat.
Lakeflow Connect
A Lakeflow Connect leegyszerűsíti az adatbetöltést a népszerű vállalati alkalmazásokhoz, adatbázisokhoz, felhőtárhelyekhez, üzenetbuszokhoz és helyi fájlokhoz csatlakozó összekötőkkel. Lásd: Lakeflow Connect.
| Tulajdonság | Leírás |
|---|---|
| Kezelt összekötők | A felügyelt összekötők egyszerű felhasználói felületet és konfigurációalapú betöltési szolgáltatást biztosítanak minimális üzemeltetési többletterheléssel anélkül, hogy a mögöttes folyamat API-jait és infrastruktúráját kellene használnia. |
| Szabványos csatlakozók | A standard összekötők lehetővé teszik az adatok elérését a folyamatokon vagy más lekérdezéseken belülről származó adatforrások szélesebb köréből. |
Lakeflow Spark deklaratív folyamatok (SDP)
A Lakeflow Spark Deklaratív Folyamatok (SDP) egy deklaratív keretrendszer, amely csökkenti a hatékony kötegelt és stream adatfolyamok létrehozásának és kezelésének összetettségét. A Lakeflow SDP kiterjeszthető és együttműködik az Apache Spark Deklaratív folyamatokkal, miközben a teljesítményoptimalizált Databricks-futtatókörnyezetben fut. Az SDP automatikusan vezérli a folyamatok, kimenetek, streamelő táblák és materializált nézetek végrehajtását, azokat egy csővezeték formájában történő beágyazásukkal és futtatásukkal. Lásd Lakeflow Spark deklaratív csővezetékek.
| Tulajdonság | Leírás |
|---|---|
| Folyamatok | Az áramlások adattovábbító csatornákban dolgozzák fel az adatokat. A flow API ugyanazt a DataFrame API-t használja, mint az Apache Spark és a Strukturált streamelés. Egy folyamat képes adatfolyam-táblákba és célokba írni, például egy Kafka témába, adatfolyam-szemantika használatával, vagy anyagi nézetbe írni kötegelt szemantika alkalmazásával. |
| adatfolyam táblák | A streamelési táblázat egy Delta-tábla, amely további támogatást nyújt a streameléshez vagy a növekményes adatfeldolgozáshoz. Egy vagy több adatfolyam célpontjaként szolgál a munkafolyamatokban. |
| Materializált nézetek | A materializált nézet olyan nézet, amely gyorsítótárazott eredményeket biztosít a gyorsabb hozzáférés érdekében. A materializált nézet az adatcsatornák célpontjaként szolgál. |
| Mosogatók | A pipeline-ok célként támogatják a külső adatforrásokat. Ezek a fogadók olyan eseménystreamelési szolgáltatásokat tartalmazhatnak, mint az Apache Kafka vagy az Azure Event Hubs, a Unity Catalog által felügyelt külső táblák vagy a Pythonban definiált egyéni fogadók. |
Lakeflow-állások
A Lakeflow Jobs megbízható vezénylést és éles monitorozást biztosít minden adat- és AI-számítási feladathoz. Egy munka egy vagy több feladatból állhat, amelyek notebookokat, adatfolyamokat, kezelt csatlakozókat, SQL lekérdezéseket, gépi tanulási képzést, és modell üzembe helyezést és következtetést futtatnak. A Jobs támogatja az egyedi vezérlési folyamatok logikáját, például az ágaztatást if / else utasításokkal, valamint a ciklusokat for each utasításokkal. Lásd Lakeflow Jobs.
| Tulajdonság | Leírás |
|---|---|
| Munkahelyek | A munkák az orchestráció elsődleges erőforrásai. Ezek olyan folyamatot jelölnek, amelyet ütemezetten szeretne végrehajtani. |
| Feladatok | Egy adott feladaton belüli munkaegység. Számos feladattípus létezik, amelyek számos lehetőséget biztosítanak, amelyek elvégezhetők egy feladaton belül. |
| Feladatok vezérlési folyamata | A folyamatvezérlési feladatok segítségével szabályozhatja, hogy más tevékenységeket vagy a futtatandó tevékenységek sorrendjét futtatja-e. |
Databricks futtatói környezet az Apache Spark-hoz
A Databricks Runtime egy megbízható és teljesítményoptimalizált számítási környezet Spark-számítási feladatok futtatásához, beleértve a kötegeket és a streamelést is. A Databricks Runtime biztosítja a Photont, egy magas teljesítményű, Databricks-native vektorizált lekérdezőmotort, valamint különféle infrastruktúra-optimalizálásokat, mint például az automatikus skálázás. A Databricks Runtime-on futtathatja a Spark és a Structured Streaming feladatokat azáltal, hogy Spark programjait notebookokként, JAR-fájlokként vagy Python kerekekként (wheels) építi fel. Lásd: Databricks Runtime for Apache Spark.
| Tulajdonság | Leírás |
|---|---|
| Apache Spark a Databricksen | A Spark a Databricks adatintelligencia-platformjának középpontjában áll. |
| Strukturált streamelés | A strukturált streamelés a Spark közel valós idejű feldolgozási motorja az adatok streameléshez. |
Mi történt a Delta Live Tables (DLT) szolgáltatással?
Ha ismeri a Delta Live Tables (DLT) tábláit, olvassa el a Mi történt a Delta Live Tables (DLT) szolgáltatással?
További erőforrások
- A Data engineering concepts leírja a data engineering koncepciókat az Azure Databricks-ben.
- A Delta Lake egy optimalizált tárhelyréteg, amely alapot biztosít a táblázatok számára a lakehouse-ban az Azure Databricksben.
- Adatelemzési legjobb gyakorlatok megismertetnek az Azure Databricks adatmérnöki legjobb gyakorlataival.
- A Databricks jegyzetfüzetek népszerű eszközök az együttműködéshez és fejlesztéshez.
- Databricks SQL SQL lekérdezések és BI eszközök használatát írja le az Azure Databricks környezetben.
- Databricks Mosaic AI a gépi tanulási megoldások tervezésének leírását foglalja össze.