Megosztás a következőn keresztül:


Az Azure Data Lake Storage Gen1 használata big data-követelményekhez

Feljegyzés

Az Azure Data Lake Storage Gen1 ki lett állítva. A nyugdíjazási bejelentést itt találja. A Data Lake Storage Gen1-erőforrások már nem érhetők el.

A big data-feldolgozásnak négy fő fázisa van:

  • Nagy mennyiségű adat betöltése adattárba valós időben vagy kötegekben
  • Az adatok feldolgozása
  • Az adatok letöltése
  • Az adatok vizualizációja

Ebben a cikkben ezeket a szakaszokat tekintjük át az Azure Data Lake Storage Gen1 tekintetében, hogy megismerjük a big data-igények kielégítéséhez rendelkezésre álló lehetőségeket és eszközöket.

Adatok betöltése a Data Lake Storage Gen1-be

Ez a szakasz kiemeli a különböző adatforrásokat és azokat a különböző módszereket, amelyekkel az adatok betölthetők egy Data Lake Storage Gen1-fiókba.

Adatok betöltése a Data Lake Storage Gen1-be

Alkalmi adatok

Ez a big data-alkalmazások prototípus-készítéshez használt kisebb adatkészleteket jelöli. Az adatok forrásától függően az alkalmi adatok betöltésének különböző módjai vannak.

Adatforrás Betöltési funkció
Helyi számítógép
Azure Storage Blob

Streamelt adatok

Ez olyan adatokat jelöl, amelyeket különböző források, például alkalmazások, eszközök, érzékelők stb. hozhatnak létre. Ezek az adatok többféle eszközzel betölthetők a Data Lake Storage Gen1-be. Ezek az eszközök általában eseményenként, valós időben rögzítik és dolgozzák fel az adatokat, majd kötegekben írják az eseményeket a Data Lake Storage Gen1-be, hogy azok tovább feldolgozhatók legyenek.

Az alábbi eszközöket használhatja:

Relációs adatok

Relációs adatbázisokból is származtathat adatokat. Egy idő alatt a relációs adatbázisok hatalmas mennyiségű adatot gyűjtenek, amelyek kulcsfontosságú elemzéseket nyújthatnak, ha big data-folyamaton keresztül dolgozzák fel. Az alábbi eszközökkel áthelyezheti ezeket az adatokat a Data Lake Storage Gen1-be.

Webkiszolgáló naplóadatai (feltöltés egyéni alkalmazásokkal)

Ezt az adathalmaztípust kifejezetten azért hívjuk fel, mert a webkiszolgálói naplóadatok elemzése gyakori használati eset a big data-alkalmazások esetében, és nagy mennyiségű naplófájlt kell feltölteni a Data Lake Storage Gen1-be. Az alábbi eszközök bármelyikével saját szkripteket vagy alkalmazásokat írhat az ilyen adatok feltöltéséhez.

Webkiszolgálói naplóadatok feltöltéséhez és más típusú adatok (pl. közösségi hangulatadatok) feltöltéséhez is érdemes saját egyéni szkripteket/alkalmazásokat írni, mert így rugalmasan belefoglalhatja az adatfeltöltési összetevőt a nagyobb big data-alkalmazásba. Bizonyos esetekben ez a kód egy szkript vagy egy egyszerű parancssori segédprogram formájában jelenhet meg. Más esetekben a kód használható a big data-feldolgozás üzleti alkalmazásba vagy megoldásba való integrálásához.

Azure HDInsight-fürtökhöz társított adatok

A LEGTÖBB HDInsight-fürttípus (Hadoop, HBase, Storm) támogatja a Data Lake Storage Gen1-et adattárként. A HDInsight-fürtök az Azure Storage-blobokból (WASB) férnek hozzá az adatokhoz. A jobb teljesítmény érdekében a WASB-ből átmásolhatja az adatokat a fürthöz társított Data Lake Storage Gen1-fiókba. Az alábbi eszközökkel másolhatja az adatokat.

Helyszíni vagy IaaS Hadoop-fürtökben tárolt adatok

Nagy mennyiségű adat tárolható meglévő Hadoop-fürtökön, helyileg a HDFS-t használó gépeken. Előfordulhat, hogy a Hadoop-fürtök helyszíni üzembe helyezésben vagy egy Azure-beli IaaS-fürtben találhatók. Előfordulhat, hogy az ilyen adatok egyszeri vagy ismétlődő módon történő másolása az Azure Data Lake Storage Gen1-be szükséges. Ennek eléréséhez különböző lehetőségek állnak rendelkezésre. Az alábbiakban az alternatívák és a kapcsolódó kompromisszumok listája látható.

Módszer Részletek Előnyök Megfontolások
Adatok másolása közvetlenül Hadoop-fürtökről az Azure Data Lake Storage Gen1-be az Azure Data Factory (ADF) használatával Az ADF támogatja a HDFS-t adatforrásként Az ADF beépített támogatást nyújt a HDFS és az első osztályú végpontok közötti felügyelethez és monitorozáshoz A adatkezelés Átjáró helyszíni vagy IaaS-fürtben történő üzembe helyezését igényli
Adatok exportálása a Hadoopból fájlokként. Ezután másolja a fájlokat az Azure Data Lake Storage Gen1-be a megfelelő mechanizmus használatával. Fájlokat másolhat az Azure Data Lake Storage Gen1-be a következő használatával: Első lépések. Testre szabott feltöltések is elvégezhetők Többlépéses folyamat, amely több technológiát is magában foglal. A felügyelet és a monitorozás idővel kihívást jelent az eszközök testre szabott jellege miatt
A Distcp használatával adatokat másolhat a Hadoopból az Azure Storage-ba. Ezután másolja az adatokat az Azure Storage-ból a Data Lake Storage Gen1-be a megfelelő mechanizmus használatával. Az Azure Storage-ból az 1. generációs Data Lake Storage-ba másolhat adatokat a következő használatával: Nyílt forráskódú eszközöket is használhat. Többlépéses folyamat, amely több technológiát is magában foglal

Igazán nagy adathalmazok

A több terabájtos adathalmazok feltöltése esetén a fent leírt módszerek használata néha lassú és költséges lehet. Ilyen esetekben az alábbi lehetőségeket használhatja.

  • Az Azure ExpressRoute használata. Az Azure ExpressRoute-tal privát kapcsolatokat hozhat létre az Azure-adatközpontok és a helyszíni infrastruktúra között. Ez megbízható lehetőséget biztosít nagy mennyiségű adat átviteléhez. További információkért tekintse meg az Azure ExpressRoute dokumentációját.

  • Adatok "offline" feltöltése. Ha az Azure ExpressRoute használata bármilyen okból nem megvalósítható, az Azure Import/Export szolgáltatással merevlemez-meghajtókat szállíthat az adataival egy Azure-adatközpontba. Az adatok először fel lesznek töltve az Azure Storage-blobokbe. Ezután az Azure Data Factory vagy az AdlCopy eszközzel adatokat másolhat az Azure Storage-blobokból a Data Lake Storage Gen1-be.

    Feljegyzés

    Az Importálás/exportálás szolgáltatás használata során az Azure-adatközpontba szállított lemezek fájlmérete nem lehet nagyobb 195 GB-nál.

A Data Lake Storage Gen1-ben tárolt adatok feldolgozása

Miután az adatok elérhetővé válnak a Data Lake Storage Gen1-ben, elemzést futtathat az adatokon a támogatott big data-alkalmazások használatával. Jelenleg az Azure HDInsight és az Azure Data Lake Analytics használatával futtathat adatelemzési feladatokat az 1. generációs Data Lake Storage-ban tárolt adatokon.

Adatok elemzése a Data Lake Storage Gen1-ben

Az alábbi példákat tekintheti meg.

Adatok letöltése a Data Lake Storage Gen1-ből

Előfordulhat, hogy az Azure Data Lake Storage Gen1-ből is szeretne adatokat letölteni vagy áthelyezni az alábbi helyzetekben:

  • Adatok áthelyezése más adattárakba a meglévő adatfeldolgozási folyamatokhoz való kapcsolódáshoz. Előfordulhat például, hogy adatokat szeretne áthelyezni a Data Lake Storage Gen1-ből az Azure SQL Database-be vagy az SQL Serverbe.
  • Töltse le az adatokat a helyi számítógépre IDE-környezetekben történő feldolgozás céljából, miközben alkalmazás prototípusokat készít.

Kimenő adatok a Data Lake Storage Gen1-ből

Ilyen esetekben az alábbi lehetőségek bármelyikét használhatja:

Az alábbi módszerekkel saját szkriptet/alkalmazást is írhat az adatok Data Lake Storage Gen1-ből való letöltéséhez.

Adatok vizualizációja a Data Lake Storage Gen1-ben

A szolgáltatások kombinációjával vizuális ábrázolásokat hozhat létre az 1. generációs Data Lake Storage-ban tárolt adatokról.

Adatok vizualizációja a Data Lake Storage Gen1-ben