Mi az automatikus betöltő?

Cikk
06/27/2024

Az Auto Loader fokozatosan és hatékonyan dolgozza fel az új adatfájlokat, amint azok a felhőalapú tárolóba érkeznek, további beállítások nélkül.

Hogyan működik az automatikus betöltő?

Az automatikus betöltő növekményesen és hatékonyan dolgozza fel az új adatfájlokat a felhőbeli tárolóba érkezve. Az automatikus betöltő betöltheti az adatfájlokat az AWS S3 (s3://), az Azure Data Lake Storage Gen2 (ADLS Gen2, abfss://), a Google Cloud Storage (GCS, gs://), az Azure Blob Storage (), az ADLS Gen1 (wasbs://adl://) és a Databricks fájlrendszerből (DBFS, dbfs:/). Az automatikus betöltő betöltheti JSON, CSV, , XMLPARQUET, AVRO, , ORC, , TEXTés BINARYFILE fájlformátumokat.

Feljegyzés

Az örökölt Windows Azure Storage-blobillesztő (WASB) elavult. Az ABFS számos előnnyel rendelkezik a WASB-vel szemben. Tekintse meg az Azure ABFS-ről szóló dokumentációját. Az örökölt WASB-illesztővel végzett munkával kapcsolatos dokumentációt lásd: Csatlakozás az Azure Blob Storage-hoz WASB-val (örökölt).
Az Azure bejelentette az Azure Data Lake Storage Gen1 függőben lévő kivonását. A Databricks azt javasolja, hogy migrálja az összes adatot az Azure Data Lake Storage Gen1-ből az Azure Data Lake Storage Gen2-be. Ha még nem migrált, olvassa el az Azure Data Lake Storage Gen1 elérése az Azure Databricksből című témakört.

Az Automatikus betöltő egy strukturált streamelési forrást biztosít.cloudFiles A felhőbeli fájltároló bemeneti könyvtárának elérési útja miatt a forrás automatikusan feldolgozza az cloudFiles új fájlokat, amint megérkeznek, és lehetősége van arra is, hogy az adott könyvtárban lévő meglévő fájlokat is feldolgozza. Az Automatikus betöltő támogatja a Pythont és az SQL-t is a Delta Live Tablesben.

Az Automatikus betöltővel több milliárd fájlt dolgozhat fel a táblák migrálásához vagy visszatöltéséhez. Az Automatikus betöltő skálázása közel valós idejű, óránként több millió fájl betöltését támogatja.

Hogyan követi nyomon az automatikus betöltő a betöltési folyamatot?

A fájlok felderítése során a metaadatok egy méretezhető kulcs-érték tárolóban (RocksDB) maradnak meg az automatikus betöltőfolyamat ellenőrzőpont-helyén . Ez a kulcs-érték tároló biztosítja, hogy az adatok feldolgozása pontosan egyszer történik.

Hibák esetén az Automatikus betöltő folytathatja a munkát onnan, ahonnan az ellenőrzőpont helyén tárolt információk abbahagyták, és az adatok Delta Lake-be történő írása során is pontosan egyszeri garanciát nyújt. Nem kell semmilyen állapotot fenntartania vagy kezelnie, hogy hibatűrést vagy pontosan egyszer szemantikát érjen el.

Növekményes betöltés az Automatikus betöltő használatával Delta Live Tables használatával

A Databricks a Delta Live Tables automatikus betöltő használatát javasolja a növekményes adatbetöltéshez. A Delta Live Tables kibővíti az Apache Spark strukturált streamelési funkcióit, és lehetővé teszi, hogy csak néhány sor deklaratív Pythont vagy SQL-t írjon egy éles minőségű adatfolyam üzembe helyezéséhez a következőkkel:

Számítási infrastruktúra automatikus skálázása költségmegtakarítás érdekében
Adatminőség-ellenőrzések az elvárásokkal
Automatikus sémafejlődés kezelése
Monitorozás metrikákkal az eseménynaplóban

Nem kell sémát vagy ellenőrzőpont-helyet megadnia, mert a Delta Live Tables automatikusan kezeli a folyamatok beállításait. Lásd: Adatok betöltése Delta Live-táblákkal.

A Databricks az Automatikus betöltőt is javasolja, amikor az Apache Spark strukturált streamelést használja az adatok felhőbeli objektumtárolóból való betöltéséhez. Az API-k a Pythonban és a Scalában érhetők el.

Ismerkedés a Databricks automatikus betöltőjével

A növekményes adatbetöltés automatikus betöltővel történő konfigurálásának megkezdéséhez tekintse meg az alábbi cikkeket a Delta Live Tables használatával:

Példák: Gyakori automatikus betöltőminták

Az automatikus betöltő gyakori mintáinak példáiért lásd a gyakori adatbetöltési mintákat.

Automatikus betöltő beállításainak konfigurálása

Az automatikus betöltőt az adatmennyiség, a változatosság és a sebesség alapján hangolhatja.

Az automatikus betöltő beállításainak teljes listáját a következő témakörben találja:

Automatikus betöltő beállításai

Ha váratlan teljesítményt tapasztal, tekintse meg a gyakori kérdéseket.

Automatikus betöltőfájl-észlelési módok konfigurálása

Az Automatikus betöltő két fájlészlelési módot támogat. Lásd:

Az automatikus betöltő előnyei a strukturált streamelés közvetlen fájlokon való használatával szemben

Az Apache Sparkban növekményesen spark.readStream.format(fileFormat).load(directory)olvashat fájlokat. Az Automatikus betöltő a következő előnyöket nyújtja a fájlforrással szemben:

Méretezhetőség: Az automatikus betöltő több milliárd fájlt képes hatékonyan felderíteni. A háttérbetöltések aszinkron módon is elvégezhetők, hogy elkerülje a számítási erőforrások elvesztését.
Teljesítmény: Az automatikus betöltővel rendelkező fájlok felderítésének költsége a betöltendő fájlok számával együtt skálázható a fájlok által betölthető könyvtárak száma helyett. Lásd : Mi az automatikus betöltő könyvtár listamódja?.
Sémakövetkeztetés és az evolúció támogatása: Az automatikus betöltő képes észlelni a sémaelsodrődéseket, értesítést küld a sémaváltozásokról, és megmenti az egyébként figyelmen kívül hagyott vagy elveszett adatokat. Lásd : Hogyan működik az automatikus betöltő sémakövető következtetése?.
Költség: Az automatikus betöltő natív felhőalapú API-kat használ a tárolóban található fájlok listájának lekéréséhez. Emellett az Automatikus betöltő fájlértesítési módja segíthet a felhőköltségek további csökkentésében azáltal, hogy elkerüli a címtárak teljes listáját. Az automatikus betöltő automatikusan beállíthat fájlértesítési szolgáltatásokat a tárolón, hogy a fájlfelderítés sokkal olcsóbb legyen.

Megosztás a következőn keresztül: