A Data Lake Tools for Visual Studio használata az Azure HDInsighthoz való csatlakozáshoz és Apache Hive-lekérdezések futtatásához
Megtudhatja, hogyan használhatja a Microsoft Azure Data Lake-t és a Stream Analytics Tools for Visual Studiót (Data Lake Tools). Az eszközzel csatlakozhat apache Hadoop-fürtökhöz az Azure HDInsightban , és Hive-lekérdezéseket küldhet.
A HDInsight használatával kapcsolatos további információkért lásd a HDInsight használatának első lépéseit.
A Data Lake Tools for Visual Studio mind az Azure Data Lake Analytics, mind a HDInsight eléréséhez használható. A Data Lake Tools eszközökkel kapcsolatos információkért lásd: U-SQL-szkriptek fejlesztése Data Lake Tools for Visual Studio használatával.
Előfeltételek
A cikk elvégzéséhez és a Data Lake Tools for Visual Studio használatához a következő elemekre van szüksége:
Egy Azure-beli HDInsight-fürt. HDInsight-fürt létrehozásához tekintse meg az Apache Hadoop Azure HDInsightban való használatának első lépéseit. Az interaktív Apache Hive-lekérdezések futtatásához HDInsight interaktív lekérdezésfürtre van szükség.
Visual Studio. A Visual Studio Community kiadás ingyenes. Az itt látható utasítások a Visual Studio 2019-hez tartoznak.
A Data Lake Tools for Visual Studio telepítése
A Data Lake Tools Visual Studio-verzióhoz való telepítéséhez kövesse a megfelelő utasításokat:
Visual Studio 2017 vagy Visual Studio 2019 esetén:
A Visual Studio telepítése során győződjön meg arról, hogy tartalmazza az Azure fejlesztési számítási feladatát, vagy az adattárolási és feldolgozási számítási feladatot.
Meglévő Visual Studio-telepítések esetén lépjen az IDE menüsávra, és válassza az Eszközök lekérése>eszközök és szolgáltatások lehetőséget a Visual Studio Installer megnyitásához. A Számítási feladatok lapon válassza ki legalább az Azure-beli fejlesztési számítási feladatot (a Web > Cloud alatt). Vagy válassza ki az adattárolási és feldolgozási számítási feladatot (az Egyéb eszközök csoportban).
Visual Studio 2015 esetén:
Töltse le a Data Lake Toolst. Válassza ki a Data Lake Tools azon verzióját, amely megfelel a Visual Studio verziójának.
A Data Lake Tools for Visual Studio frissítése
Ezután frissítse a Data Lake Toolst a legújabb verzióra.
Nyissa meg a Visual Studiót.
A Start ablakban válassza a Folytatás kód nélkül lehetőséget.
A Visual Studio IDE menüsávon válassza a Bővítmények>kezelése bővítményeket.
A Bővítmények kezelése párbeszédpanelen bontsa ki a Frissítések csomópontot.
Ha az elérhető frissítések listája tartalmazza az Azure Data Lake-t és a Stream Analitikus eszközöket, válassza ki. Ezután válassza a Frissítés gombot. A Letöltés és telepítés párbeszédpanel megjelenése és eltűnése után a Visual Studio hozzáadja az Azure Data Lake és a Stream Analitikus eszközök bővítményt a frissítési ütemezéshez.
Zárja be az összes Visual Studio-ablakot. Megjelenik a VSIX Installer párbeszédpanel.
Válassza a Licenc lehetőséget a licencfeltételek elolvasásához, majd a Bezárás gombra kattintva térjen vissza a VSIX Installer párbeszédpanelre.
Válassza a Módosítás lehetőséget. Megkezdődik a bővítményfrissítés telepítése. Egy idő után a párbeszédpanel megváltozik, és azt jelzi, hogy végzett a módosításokkal. Válassza a Bezárás lehetőséget, majd indítsa újra a Visual Studiót a telepítés befejezéséhez.
Feljegyzés
Csak a Data Lake Tools 2.3.0.0-s és újabb verziói támogatják az interaktív lekérdezési fürtökhöz való csatlakozást és az interaktív Hive-lekérdezések futtatását.
Csatlakozás Azure-előfizetésekhez
A Data Lake Tools for Visual Studio használatával csatlakozhat a HDInsight-fürtökhöz, elvégezhet néhány alapvető felügyeleti műveletet, és Hive-lekérdezéseket futtathat.
Feljegyzés
Az általános Hadoop-fürthöz való csatlakozással kapcsolatos információkért lásd : Hive-lekérdezések írása és elküldése a Visual Studióval.
Csatlakozás Azure-előfizetéshez
Csatlakozás az Azure-előfizetéshez:
Nyissa meg a Visual Studiót.
A Start ablakban válassza a Folytatás kód nélkül lehetőséget.
Az IDE menüsávon válassza a Kiszolgálókezelő megtekintése lehetőséget>.
A Server Explorerben kattintson a jobb gombbal az Azure-ra, válassza a Microsoft Azure-előfizetés Csatlakozás lehetőséget, és fejezze be a hitelesítési folyamatot. A Kiszolgálókezelőben bontsa ki az Azure>HDInsightot a meglévő HDInsight-fürtök listájának megtekintéséhez.
Ha nincs fürtje, hozzon létre egyet az Azure Portal, az Azure PowerShell vagy a HDInsight SDK használatával. További információ: Fürtök beállítása a HDInsightban.
Bontson ki egy HDInsight-fürtöt. A fürt hive-adatbázisok csomópontjait tartalmazza. Emellett egy alapértelmezett tárfiókot, minden további társított tárfiókot és Hadoop szolgáltatásnaplót. Ennél jobban is kibonthatja az elemeket.
Miután csatlakozott az Azure-előfizetéshez, végrehajthatja a következő feladatokat.
Csatlakozás az Azure-ba a Visual Studióból
Csatlakozás az Azure Portalhoz a Visual Studióból:
A Server Explorerben bontsa ki az Azure>HDInsightot, és válassza ki a fürtöt.
Kattintson a jobb gombbal egy HDInsight-fürtre, és válassza a Fürt kezelése lehetőséget az Azure Portalon.
Kérdések és visszajelzések küldése a Visual Studióból
Kérdések feltevése és visszajelzés küldése a Visual Studióból:
A Kiszolgálókezelőben válassza az Azure>HDInsightot.
Kattintson a jobb gombbal a HDInsightra, és válassza az MSDN fórumot a kérdések feltevéséhez, vagy visszajelzést ad.
Fürt csatolása vagy szerkesztése
Feljegyzés
Jelenleg az egyetlen HDInsight-fürttípus, amelyre hivatkozhat, hive típusú.
HDInsight-fürt csatolása:
Kattintson a jobb gombbal a HDInsight elemre, majd válassza a HDInsight-fürt csatolása lehetőséget a HDInsight-fürt csatolása párbeszédpanel megjelenítéséhez.
Adjon meg egy Csatlakozás ion URL-címet az űrlapon
https://CLUSTERNAME.azurehdinsight.net
. Amikor egy másik mezőre lép, a fürt neve automatikusan kitölti az URL-cím fürtnév részét. Ezután adja meg a felhasználónevet és a jelszót, majd válassza a Tovább gombot.Válassza a Befejezés lehetőséget. Ha a fürt csatolása sikeres, akkor a fürt a HDInsight csomópont alatt lesz felsorolva .
Csatolt fürt frissítéséhez kattintson a jobb gombbal a fürtre, és válassza a Szerkesztés parancsot. Ezután frissítheti a fürt adatait.
Kapcsolt erőforrások vizsgálata
A Server Explorer eszközből láthatja az alapértelmezett tárfiókot és az összes kapcsolt tárfiókot. Ha kibontja az alapértelmezett tárfiókot, láthatja a tárfiókon lévő tárolókat. Az alapértelmezett tárfiók és az alapértelmezett tároló meg van jelölve.
Kattintson a jobb gombbal egy tárolóra, és válassza a Tároló megtekintése lehetőséget a tároló tartalmának megtekintéséhez. A tároló megnyitása után az eszköztár gombjaival frissítheti a tartalomlistát, feltöltheti a blobot, törölheti a kijelölt blobokat, megnyithatja a blobot, és letöltheti a kijelölt blobokat (Mentés másként).
Interaktív Apache Hive-lekérdezések futtatása
Az Apache Hive egy Hadoop-alapú adattárház-infrastruktúra. A Hive adatösszegzéseket, lekérdezéseket és elemzéseket biztosít. A Data Lake Tools for Visual Studio segítségével Hive-lekérdezéseket futtathat a Visual Studióból. További információ a Hive-ről: Mi az az Apache Hive és a HiveQL az Azure HDInsightban?
Az Azure HDInsight interaktív lekérdezése az Apache Hive 2.1-ben az LLAP-on futó Hive-t használja. Az interaktív lekérdezés interaktivitást biztosít az összetett, adattárház stílusú lekérdezésekhez nagy méretű, tárolt adathalmazokon. A Hive-lekérdezések interaktív lekérdezéseken való futtatása sokkal gyorsabb, mint a hagyományos Hive-kötegelt feladatok.
Feljegyzés
Interaktív Hive-lekérdezéseket csak akkor futtathat, ha kapcsolódik egy HDInsight interaktív lekérdezési fürthöz.
A Data Lake Tools for Visual Studio használatával is megtekintheti a Hive-feladatok tartalmát. A Data Lake Tools for Visual Studio begyűjti és a felszínre hozza bizonyos Hive-feladatok YARN-naplóit.
A Kiszolgálókezelőben válassza az Azure>HDInsightot, és válassza ki a fürtöt. Ez a csomópont a Kiszolgálókezelőben a követendő szakaszok kiindulópontja.
A hivesampletable megtekintése
Minden HDInsight-fürtnek van egy alapértelmezett Hive-mintatáblája.hivesampletable
A fürtben válassza a Hive Databases>alapértelmezett>hivesampletable elemét.
A
hivesampletable
séma megtekintése:Bontsa ki a hivesampletable elemet. Megjelennek az
hivesampletable
oszlopok nevei és adattípusai.Az
hivesampletable
adatok megtekintése:Kattintson a jobb gombbal a hivesampletable parancsra, és válassza a Felső 100 sor megtekintése lehetőséget. A 100 találat listája megjelenik a Hive Tábla: hivesampletable ablakban. Ez a művelet egyenértékű az alábbi Hive-lekérdezés Hive ODBC-illesztőprogram használatával történő futtatásával:
SELECT * FROM hivesampletable LIMIT 100
A sorok számát a Sorok számának módosításával szabhatja testre. A legördülő listából 50, 100, 200 vagy 1000 sort választhat.
Hive táblák létrehozása
Hive-tábla létrehozásához használhatja a grafikus felhasználói felületet vagy a Hive-lekérdezéseket. A Hive-lekérdezések használatáról további információt a Hive-lekérdezések létrehozása és futtatása című témakörben talál.
A fürtben válassza az alapértelmezett Hive-adatbázisok>lehetőséget.
Kattintson a jobb gombbal az alapértelmezett elemre, és válassza a Tábla létrehozása parancsot.
Konfigurálja a táblát.
Válassza a Tábla létrehozása gombot a feladat elküldéséhez, amely létrehozza az új Hive-táblát.
Hive-lekérdezések létrehozása és futtatása
Hive-lekérdezések létrehozására és futtatására két lehetősége van:
- Alkalmi lekérdezések létrehozása
- Hive alkalmazás létrehozása
Alkalmi lekérdezés létrehozása
Alkalmi lekérdezés létrehozása és futtatása:
Kattintson a jobb gombbal arra a fürtre, ahol futtatni szeretné a lekérdezést, és válassza a Hive-lekérdezés írása lehetőséget.
Adjon meg egy Hive-lekérdezést.
A Hive szerkesztője támogatja az IntelliSense-t. A Data Lake Tools for Visual Studio támogatja a távoli metaadatok betöltését a Hive-szkript szerkesztésekor. Ha például beírja
SELECT * FROM
, az IntelliSense felsorolja az összes javasolt táblanevet. Amikor megad egy táblanevet, az IntelliSense listázza az oszlopneveket. Az eszközök a legtöbb Hive DML-utasítást, -segédlekérdezést és beépített UDF-et támogatják.Feljegyzés
Az IntelliSense csak a HDInsight eszköztáron kijelölt fürt metaadatait javasolja.
Íme egy minta lekérdezés, amelyet használhat:
SELECT devicemodel, COUNT(devicemodel) AS deviceCount FROM hivesampletable GROUP BY devicemodel ORDER BY devicemodel
Válassza ki a végrehajtási módot:
Interaktív
Az első legördülő listában válassza az Interaktív, majd a Végrehajtás lehetőséget.
Batch
Az első legördülő listában válassza a Batch, majd a Küldés lehetőséget. Vagy válassza a Küldés gomb melletti legördülő ikont, és válassza a Speciális lehetőséget.
Ha a speciális küldési lehetőséget választja, megjelenik a Szkript elküldése párbeszédpanel. Konfigurálja a szkript feladatnevét, argumentumait, további konfigurációit és állapotkönyvtárát .
Feljegyzés
A kötegeket nem küldheti el interaktív lekérdezési fürtökbe. Interaktív módot kell használnia.
Hive alkalmazás létrehozása
Hive-megoldás létrehozása és futtatása:
A menüsávon válassza az Új>projekt fájlja>lehetőséget.
Az Új projekt létrehozása ablakban jelölje ki a keresőmezőt, és írja be a Hive kifejezést. Ezután válassza a Hive-alkalmazás lehetőséget, és válassza a Tovább gombot.
Az új projekt konfigurálása ablakban adja meg a projekt nevét, jelölje ki vagy hozza létre a projekt helyét, majd válassza a Létrehozás lehetőséget.
A Solution Explorerben (Megoldáskezelőben) kattintson duplán a Script.hql fájlra a szkript megnyitásához.
Feladat összegzésének és kimenetének megtekintése
A feladatok összegzése kissé eltér a Batch és az Interaktív mód között.
A Frissítés ikonnal frissítheti az állapotot, amíg a feladat állapota befejeződött.
A Batch mód feladatadatainak megtekintéséhez válassza az alul található hivatkozásokat a Feladat lekérdezése, a Feladat kimenete vagy a Feladatnapló megtekintéséhez, illetve a Yarn-naplók megtekintéséhez.
Az interaktív módban végzett feladatok részleteiért tekintse meg a Kimenet és a HiveServer2 Kimeneti panelt.
Feladatdiagram megtekintése
Jelenleg a feladatdiagramok csak a Tezt végrehajtó motorként használó Hive-feladatok esetében jelennek meg. További információ a Tez engedélyezéséről: Mi az az Apache Hive és a HiveQL az Azure HDInsightban? Lásd még: Az Apache Tez használata a Map Reduce helyett.
A csúcsponton belüli összes operátor megtekintéséhez kattintson duplán a feladatdiagram csúcsaira. Egy adott operátorra mutatva megtekintheti az operátor részleteit.
Még akkor sem jelenhet meg a feladatdiagram, ha a Tez végrehajtási motorként van megadva. Ez a helyzet azért fordulhat elő, mert a feladat nem tartalmaz DML-utasításokat. Vagy mert a DML-utasítások Tez-alkalmazás indítása nélkül is visszatérhetnek. Például SELECT * FROM table1
nem indítja el a Tez alkalmazást.
Tevékenységvégrehajtás részleteinek megtekintése
A feladatdiagramon kiválaszthatja a Feladatvégrehajtás részletei lehetőséget a Hive-feladatok strukturált és vizualizált adatainak lekéréséhez. További feladatadatokat is kaphat. Teljesítményproblémák esetén a nézet segítségével részletesebb információkat szerezhet a problémáról. Lekérheti például az egyes tevékenységek működésével kapcsolatos információkat és az egyes tevékenységek részletes adatait (adatolvasási/írási, ütemezési/kezdési/befejezési idő stb.). A megjelenített információk alapján pedig finomhangolhatja a feladatkonfigurációkat vagy a rendszerarchitektúrát.
Hive-feladatok megtekintése
Megtekintheti a Hive-feladatok feladatlekérdezéseit, feladatkimenetét, feladatnaplóit és Yarn naplóit.
Az eszközök legújabb kiadásában a Yarn-naplók gyűjtésével és böngészésével láthatja, hogy mi található a Hive-feladatokban. A YARN-naplók segíthetnek a teljesítménnyel kapcsolatos problémák vizsgálatában. További információ a HDInsight Yarn-naplók gyűjtéséről: Access Apache Hadoop YARN-alkalmazásnaplók.
Hive-feladatok megtekintése:
Kattintson a jobb gombbal egy HDInsight-fürtre, és válassza a Feladatok megtekintése parancsot.
Ekkor megjelenik azon Hive-feladatok listája, amelyek a fürtön futottak.
Válasszon ki egy feladatot. A Hive-feladat összegzése ablakban válassza az alábbi hivatkozások egyikét:
- Job Query (Feladat lekérdezése)
- Feladat kimenete
- Job Log (Feladatnapló)
- Yarn-napló
Apache Pig-szkriptek futtatása
A menüsávon válassza az Új>projekt fájlja>lehetőséget.
A Start ablakban jelölje ki a keresőmezőt, és írja be a Pig kifejezést. Ezután válassza a Pig Application (Sertésalkalmazás) lehetőséget, majd a Tovább gombot.
Az új projekt konfigurálása ablakban adja meg a projekt nevét, majd válasszon vagy hozzon létre egy helyet a projekthez. Válassza a Létrehozás parancsot.
Az IDE Megoldáskezelő panelen kattintson duplán a Script.pig parancsra a szkript megnyitásához.
Visszajelzés és ismert problémák
Kijavítottunk egy hibát, amelynek következtében a null értékekkel induló eredmények nem jelentek meg. Ha elakad ennél a hibánál, lépjen kapcsolatba a támogatási csapattal.
A Visual Studio által létrehozott HQL-szkript kódolva van a felhasználó helyi régióbeállításától függően. A szkript nem fut megfelelően, ha a felhasználó bináris fájlként tölti fel a szkriptet a fürtbe.
Következő lépések
Ebben a cikkben megtanulta, hogyan csatlakozhat a HDInsight-fürtökhöz a Visual Studióból a Data Lake Tools for Visual Studio csomaggal. Emellett azt is megtanulta, hogyan futtathat Hive-lekérdezéseket.
- Apache Hive-lekérdezések futtatása a Data Lake Tools for Visual Studióval
- Mi az Az Apache Hive és a HiveQL az Azure HDInsightban?
- Apache Hadoop-fürt létrehozása – Sablon
- Apache Hadoop-feladatok küldése a HDInsightban
- Twitter-adatok elemzése az Apache Hive és az Apache Hadoop használatával a HDInsighton