Cvičení – nahrání a dotazování dat ve službě HDInsight
Teď, když jste zřídili účet úložiště a cluster Interactive Query, je čas nahrát data o nemovitostech a spustit některé dotazy. Data, která nahrajete, jsou data o nemovitostech v New Yorku. Zahrnuje více než 28 000 záznamů o nemovitostech, včetně adres, prodejních cen, čtvercových záběrů a informací o geograficky zakódované poloze pro snadné mapování. Vaše realitní firma používá tyto informace k určení odpovídajících cen záběrů pro nové nemovitosti přicházející na trh na základě prodejních cen dříve prodaných nemovitostí.
K nahrání a dotazování dat použijeme Nástroj Data Analytics Studio, což je webová aplikace nainstalovaná v akci skriptu, kterou jsme použili při vytváření clusteru Interactive Query. Data Analytics Studio můžete použít k nahrání dat do úložiště Azure, transformaci dat do tabulek Hive pomocí datových typů a názvů sloupců, které nastavíte, a následné dotazování dat v clusteru pomocí HiveQL. Kromě nástroje DataAnalytic Studio můžete pomocí libovolného nástroje kompatibilního s rozhraním ODBC/JDBC pracovat s daty pomocí Hive, jako jsou nástroje Spark &Hive pro Visual Studio Code.
V dalším kroku použijete poznámkový blok Zeppelin k rychlé vizualizaci trendů v datech. Poznámkové bloky Zeppelin umožňují odesílat dotazy a zobrazovat výsledky v několika různých předdefinovaných grafech. Poznámkové bloky Zeppelin nainstalované v clusterech Interactive Query mají interpret JDBC s ovladačem Hive.
Stažení dat o nemovitostech
- Přejděte na https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20datasoubor a stáhněte si sadu dat a uložte soubor propertysales.csv do počítače.
Nahrání dat pomocí nástroje Data Analytics Studio
- Teď otevřete v internetovém prohlížeči studio Data Analytics pomocí následující adresy URL a nahraďte název serveru názvem clusteru, který jste použili: https:// servername.azurehdinsight.net/das/
Pokud se chcete přihlásit, uživatelské jméno je správce a heslo je heslo, které jste vytvořili.
Pokud narazíte na chybu, přejděte na kartu Přehled clusteru na webu Azure Portal a ujistěte se, že je stav Spuštěný a typ clusteru je verze HDI nastavená na Interactive Query 3.1 (HDI 4.0).
- Data Studio Analytics se spustí v internetovém prohlížeči.
- Klepněte na tlačítko Databáze v nabídce vlevo, klepněte na zelené tlačítko se třemi tečky a potom klepněte na tlačítko Vytvořit databázi.
Pojmenujte databázi newyorkrealestate a klikněte na vytvořit.
V Průzkumníku databáze klikněte na pole s názvem databáze a vyberte newyorkrealestate.
- V Průzkumníku databáze klikněte na + příkaz Vytvořit tabulku a potom na příkaz Vytvořit tabulku.
- Pojmenujte novou tabulku propertysales a klikněte na Nahrát tabulku. Názvy tabulek musí obsahovat jenom malá písmena a číslice, žádné speciální znaky.
- V oblasti Vybrat formát souboru na stránce:
- Ujistěte se, že formát souboru je csv.
- Zaškrtněte políčko Je první řádek záhlaví?
- V oblasti Vybrat zdroj souboru stránky:
- Vyberte Nahrát z místního prostředí.
- Kliknutím na Tlačítko Přetáhnout soubor nahrajete nebo kliknete na procházet a přejdete na soubor propertysales.csv.
- V části Sloupce změňte datový typ zeměpisné šířky a délky na řetězec a datum prodeje na datum.
- Posuňte se nahoru a zkontrolujte oddíl Náhled tabulky a ověřte, že záhlaví sloupců vypadají správně.
- Posuňte se úplně dolů a kliknutím na Vytvořit vytvořte tabulku Hive v databázi newyorkrealestate.
- V nabídce vlevo klikněte na Vytvořit.
- Vyzkoušejte následující dotaz Hive a ujistěte se, že všechno funguje podle očekávání.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
- Výstup by měl vypadat podobně jako v následujícím příkladu.
- Zkontrolujte výkon dotazu kliknutím na Dotazy v nabídce vlevo a následným výběrem příkazu SELECT
ADDRESS
,ZIP CODE
,SALE PRICE
SQUARE FOOTAGE
FROM newyorkrealestate.propertysales dotazu, který jste právě spustili.
Pokud by byla k dispozici nějaká doporučení k výkonu, nástroj by tato doporučení zobrazil. Tato stránka také zobrazuje skutečný dotaz SQL, který se spustil, poskytuje vizuální vysvětlení dotazu, zobrazuje podrobnosti konfigurace odvozené Hivem při spuštění dotazu a poskytuje časovou osu, která ukazuje, kolik času strávilo prováděním jednotlivých částí dotazu.
Prozkoumání tabulek Hive pomocí poznámkového bloku Zeppelin
- Na webu Azure Portal klikněte na stránce Přehled v poli Řídicí panel clusteru na Položku Zeppelin Notebook.
- Klepněte na tlačítko Nová poznámka, pojmenujte poznámku Real Estate Data a potom klepněte na tlačítko Vytvořit.
- Do příkazového řádku v okně Zeppelin vložte následující fragment kódu a klikněte na ikonu přehrávání.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ;
Výstup dotazu se zobrazí v okně. Vidíte, že se vrátí prvních 10 výsledků.
- Teď aktivujte složitější dotaz, abyste mohli použít některé možnosti vizualizace a grafů dostupné ve službě Zeppelin. Zkopírujte následující dotaz do příkazového řádku a klikněte na .
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales
where `sale price` < 20000000 AND `square footage` < 50000;
Ve výchozím nastavení se výstup dotazu zobrazí ve formátu tabulky. Místo toho vyberte Bodový graf a zobrazte jeden z vizuálů, které poznámkové bloky Zeppelin poskytují.