Bevezetés az Azure Data Lake Storage használatába
Az Azure Data Lake Storage az Azure Blob Storage-ra épülő big data-elemzési képességek készlete.
Az Azure Data Lake Storage konvergálja az Azure Data Lake Storage Gen1 és az Azure Blob Storage képességeit. A Data Lake Storage például fájlrendszer-szemantikát, fájlszintű biztonságot és skálázást biztosít. Mivel ezek a képességek a Blob Storage-ra épülnek, alacsony költségű, rétegzett tárterületet is kap, magas rendelkezésre állási/vészhelyreállítási képességekkel.
A Data Lake Storage az Azure Storage-t teszi az azure-beli nagyvállalati adattavak létrehozásának alapjaként. A Data Lake Storage az elejétől kezdve több petabájtnyi információ kiszolgálására és több száz gigabájtos átviteli sebesség fenntartására lett tervezve, lehetővé teszi a nagy mennyiségű adat egyszerű kezelését.
Mi az a Data Lake?
A data lake egy egyetlen, központosított adattár, ahol az összes adatot strukturált és strukturálatlan állapotban tárolhatja. A data lake lehetővé teszi a szervezet számára, hogy gyorsan és egyszerűbben tároljon, hozzáférjen és elemezzen számos adatot egyetlen helyen. A data lake-nek nem kell megfelelnie az adatoknak egy meglévő struktúra követelményeinek. Ehelyett tárolhatja az adatokat nyers vagy natív formátumban, általában fájlokként vagy bináris nagy objektumokként (blobokként).
Az Azure Data Lake Storage egy felhőalapú, nagyvállalati data lake-megoldás. Úgy van kialakítva, hogy nagy mennyiségű adatot tároljon bármilyen formátumban, és megkönnyítse a big data elemzési számítási feladatait. Segítségével bármilyen típusú és betöltési sebességet használó adatokat rögzíthet egyetlen helyen, így könnyen elérheti és elemezheti a különböző keretrendszereket.
Data Lake Storage
Az Azure Data Lake Storage nem dedikált szolgáltatás vagy fióktípus. Ehelyett az Azure Storage-fiók Blob Storage szolgáltatásával használható képességek halmazaként implementálva. Ezeket a képességeket a hierarchikus névtérbeállítás engedélyezésével oldhatja fel.
A Data Lake Storage a következő képességeket tartalmazza.
✓ Hadoop-kompatibilis hozzáférés
✓ Hierarchikus címtárstruktúra
✓ Optimalizált költség és teljesítmény
✓ Finomabb szemcsés biztonsági modell
✓ Nagy méretezhetőség
Hadoop-kompatibilis hozzáférés
Az Azure Data Lake Storage elsősorban a Hadooptal és az Apache Hadoop elosztott fájlrendszert (HDFS) adatelérési rétegként használó összes keretrendszerrel való együttműködésre lett tervezve. A Hadoop-disztribúciók közé tartozik az Azure Blob Fájlrendszer (ABFS) illesztőprogram, amely lehetővé teszi, hogy számos alkalmazás és keretrendszer közvetlenül hozzáférjen az Azure Blob Storage-adatokhoz. Az ABFS-illesztő kifejezetten big data-elemzésekhez van optimalizálva. A megfelelő REST API-k a végponton dfs.core.windows.net
keresztül jelennek meg.
A HDFS-t adatelérési rétegként használó adatelemzési keretrendszerek közvetlenül hozzáférhetnek az Azure Data Lake Storage-adatokhoz az ABFS-n keresztül. Az Apache Spark-elemzési motor és a Presto SQL-lekérdezési motor példák ilyen keretrendszerekre.
A támogatott szolgáltatásokkal és platformokkal kapcsolatos további információkért tekintse meg az Azure Data Lake Storage-t támogató Azure-szolgáltatásokat és az Azure Data Lake Storage-t támogató nyílt forráskódú platformokat.
Hierarchikus címtárstruktúra
A hierarchikus névtér egy kulcsfontosságú funkció, amely lehetővé teszi az Azure Data Lake Storage számára, hogy nagy teljesítményű adathozzáférést biztosítson objektumtárolási méretekben és áron. Ezzel a funkcióval a tárfiókban lévő összes objektumot és fájlt címtárak és beágyazott alkönyvtárak hierarchiájába rendezheti. Más szóval az Azure Data Lake Storage-adatok ugyanúgy vannak rendszerezve, mint a fájlok a számítógépen.
Az olyan műveletek, mint a címtár átnevezése vagy törlése, egyetlen atomi metaadat-műveletté válnak a címtárban. Nem szükséges számba venni és feldolgozni a címtár névelőtagját tartalmazó összes objektumot.
Optimalizált költség és teljesítmény
Az Azure Data Lake Storage ára az Azure Blob Storage szintjén történik. Olyan Azure Blob Storage-képességekre épül, mint az automatizált életciklus-szabályzatkezelés és az objektumszintű rétegzés a big data storage költségeinek kezeléséhez.
A teljesítmény optimalizálva van, mert nem kell adatokat másolnia vagy átalakítania az elemzés előfeltételeként. Az Azure Data Lake Storage hierarchikus névtérképessége lehetővé teszi a hatékony hozzáférést és navigációt. Ez az architektúra azt jelenti, hogy az adatfeldolgozás kevesebb számítási erőforrást igényel, ami csökkenti az adatokhoz való hozzáférés sebességét és költségét.
Finomabb szemcsés biztonsági modell
Az Azure Data Lake Storage hozzáférés-vezérlési modellje támogatja az Azure szerepköralapú hozzáférés-vezérlést (Azure RBAC) és a UNIX (POSIX) hozzáférés-vezérlési listákat (ACL-eket). Van néhány további biztonsági beállítás is, amelyek az Azure Data Lake Storage-ra vonatkoznak. Az engedélyeket a címtár szintjén vagy a fájl szintjén állíthatja be. Az összes tárolt adat titkosítva van inaktív állapotban a Microsoft által felügyelt vagy az ügyfél által felügyelt titkosítási kulcsok használatával.
Nagyfokú skálázhatóság
Az Azure Data Lake Storage hatalmas tárterületet kínál, és számos adattípust fogad el elemzéshez. Nem korlátozza a fiókméreteket, a fájlméreteket és a data lake-ben tárolható adatok mennyiségét. Az egyes fájlok mérete néhány kilobájttól néhány petabájtig (KB) terjedhet. A feldolgozás kérelemenként közel állandó késéssel történik, amelyek a szolgáltatás, a fiók és a fájl szintjén vannak mérve.
Ez a kialakítás azt jelenti, hogy az Azure Data Lake Storage egyszerűen és gyorsan felskálázható, hogy megfeleljen a legigényesebb számítási feladatoknak. Az igény csökkenése esetén is ugyanolyan egyszerűen leskálázható.
Az Azure Blob Storage-ra épül
A betöltött adatok blobként maradnak a tárfiókban. A blobokat kezelő szolgáltatás az Azure Blob Storage szolgáltatás. A Data Lake Storage ismerteti a szolgáltatás képességeit vagy "fejlesztéseit", amelyek kielégítik a big data elemzési számítási feladatok igényeit.
Mivel ezek a képességek a Blob Storage-ra épülnek, a fiók számára elérhetőek olyan funkciók, mint a diagnosztikai naplózás, a hozzáférési szintek és az életciklus-felügyeleti szabályzatok. A Blob Storage legtöbb funkciója teljes mértékben támogatott, de egyes funkciók csak az előzetes verzió szintjén támogatottak, és néhány még nem támogatott. A támogatási utasítások teljes listáját az Azure Storage-fiókok Blob Storage-funkcióinak támogatásával kapcsolatban találja. Az egyes felsorolt funkciók állapota idővel megváltozik, mivel a támogatás folyamatosan bővül.
Dokumentáció és terminológia
Az Azure Blob Storage tartalomjegyzéke két tartalomszakaszt tartalmaz. A Tartalom Data Lake Storage szakasza ajánlott eljárásokat és útmutatást nyújt a Data Lake Storage képességeinek használatához. A Tartalom Blob Storage szakasza útmutatást nyújt a Data Lake Storage-ra nem jellemző fiókfunkciókhoz.
A szakaszok közötti mozgás során némi terminológiai eltérést tapasztalhat. A Blob Storage dokumentációjában szereplő tartalom például a blob kifejezést fogja használni fájl helyett. A tárfiókba betöltött fájlok gyakorlatilag blobokká válnak a fiókjában. Ezért a kifejezés helyes. A blob kifejezés azonban zavart okozhat, ha a kifejezésfájlhoz van szokva. A fájlrendszerre való hivatkozáshoz használt tárolót is látni fogja. Ezeket a kifejezéseket szinonimának tekinti.