Cvičení – nahrání a dotazování dat ve službě HDInsight

Dokončeno

Teď, když jste zřídili účet úložiště a cluster Interactive Query, je čas nahrát data o nemovitostech a spustit některé dotazy. Data, která nahrajete, jsou data o nemovitostech v New Yorku. Zahrnuje více než 28 000 záznamů o nemovitostech, včetně adres, prodejních cen, čtvercových záběrů a informací o geograficky zakódované poloze pro snadné mapování. Vaše realitní firma používá tyto informace k určení odpovídajících cen záběrů pro nové nemovitosti přicházející na trh na základě prodejních cen dříve prodaných nemovitostí.

K nahrání a dotazování dat použijeme Nástroj Data Analytics Studio, což je webová aplikace nainstalovaná v akci skriptu, kterou jsme použili při vytváření clusteru Interactive Query. Data Analytics Studio můžete použít k nahrání dat do úložiště Azure, transformaci dat do tabulek Hive pomocí datových typů a názvů sloupců, které nastavíte, a následné dotazování dat v clusteru pomocí HiveQL. Kromě nástroje DataAnalytic Studio můžete pomocí libovolného nástroje kompatibilního s rozhraním ODBC/JDBC pracovat s daty pomocí Hive, jako jsou nástroje Spark &Hive pro Visual Studio Code.

V dalším kroku použijete poznámkový blok Zeppelin k rychlé vizualizaci trendů v datech. Poznámkové bloky Zeppelin umožňují odesílat dotazy a zobrazovat výsledky v několika různých předdefinovaných grafech. Poznámkové bloky Zeppelin nainstalované v clusterech Interactive Query mají interpret JDBC s ovladačem Hive.

Stažení dat o nemovitostech

  1. Přejděte na https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20datasoubor a stáhněte si sadu dat a uložte soubor propertysales.csv do počítače.

Nahrání dat pomocí nástroje Data Analytics Studio

  1. Teď otevřete v internetovém prohlížeči studio Data Analytics pomocí následující adresy URL a nahraďte název serveru názvem clusteru, který jste použili: https:// servername.azurehdinsight.net/das/

Pokud se chcete přihlásit, uživatelské jméno je správce a heslo je heslo, které jste vytvořili.

Pokud narazíte na chybu, přejděte na kartu Přehled clusteru na webu Azure Portal a ujistěte se, že je stav Spuštěný a typ clusteru je verze HDI nastavená na Interactive Query 3.1 (HDI 4.0).

  1. Data Studio Analytics se spustí v internetovém prohlížeči.

A screenshot of the Data Analytics Studio application

  1. Klepněte na tlačítko Databáze v nabídce vlevo, klepněte na zelené tlačítko se třemi tečky a potom klepněte na tlačítko Vytvořit databázi.

A screenshot of the Create Database button in the Data Analytics Studio application

  1. Pojmenujte databázi newyorkrealestate a klikněte na vytvořit.

  2. V Průzkumníku databáze klikněte na pole s názvem databáze a vyberte newyorkrealestate.

Database Explorer in the Data Analytics Studio application

  1. V Průzkumníku databáze klikněte na + příkaz Vytvořit tabulku a potom na příkaz Vytvořit tabulku.

Create table button Database Explorer in the Data Analytics Studio application

  1. Pojmenujte novou tabulku propertysales a klikněte na Nahrát tabulku. Názvy tabulek musí obsahovat jenom malá písmena a číslice, žádné speciální znaky.

Upload table in the Data Analytics Studio application

  1. V oblasti Vybrat formát souboru na stránce:
    • Ujistěte se, že formát souboru je csv.
    • Zaškrtněte políčko Je první řádek záhlaví?
  2. V oblasti Vybrat zdroj souboru stránky:
    • Vyberte Nahrát z místního prostředí.
    • Kliknutím na Tlačítko Přetáhnout soubor nahrajete nebo kliknete na procházet a přejdete na soubor propertysales.csv.
  3. V části Sloupce změňte datový typ zeměpisné šířky a délky na řetězec a datum prodeje na datum.

Change data type in the Data Analytics Studio application

  1. Posuňte se nahoru a zkontrolujte oddíl Náhled tabulky a ověřte, že záhlaví sloupců vypadají správně.

Table preview in the Data Analytics Studio application

  1. Posuňte se úplně dolů a kliknutím na Vytvořit vytvořte tabulku Hive v databázi newyorkrealestate.

Create Hive Table button in the Data Analytics Studio application

  1. V nabídce vlevo klikněte na Vytvořit.

Compose button in the Data Analytics Studio application

  1. Vyzkoušejte následující dotaz Hive a ujistěte se, že všechno funguje podle očekávání.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
  1. Výstup by měl vypadat podobně jako v následujícím příkladu.

Query output in the Data Analytics Studio application

  1. Zkontrolujte výkon dotazu kliknutím na Dotazy v nabídce vlevo a následným výběrem příkazu SELECT ADDRESS, ZIP CODE, SALE PRICESQUARE FOOTAGE FROM newyorkrealestate.propertysales dotazu, který jste právě spustili.

Pokud by byla k dispozici nějaká doporučení k výkonu, nástroj by tato doporučení zobrazil. Tato stránka také zobrazuje skutečný dotaz SQL, který se spustil, poskytuje vizuální vysvětlení dotazu, zobrazuje podrobnosti konfigurace odvozené Hivem při spuštění dotazu a poskytuje časovou osu, která ukazuje, kolik času strávilo prováděním jednotlivých částí dotazu.

Prozkoumání tabulek Hive pomocí poznámkového bloku Zeppelin

  1. Na webu Azure Portal klikněte na stránce Přehled v poli Řídicí panel clusteru na Položku Zeppelin Notebook.

Opening a Zeppelin Notebook in the Azure portal

  1. Klepněte na tlačítko Nová poznámka, pojmenujte poznámku Real Estate Data a potom klepněte na tlačítko Vytvořit.

Create a new Zeppelin Notebook in the Azure portal

  1. Do příkazového řádku v okně Zeppelin vložte následující fragment kódu a klikněte na ikonu přehrávání.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ; 

Výstup dotazu se zobrazí v okně. Vidíte, že se vrátí prvních 10 výsledků.

Viewing Query results in a Zeppelin Notebook in the Azure portal

  1. Teď aktivujte složitější dotaz, abyste mohli použít některé možnosti vizualizace a grafů dostupné ve službě Zeppelin. Zkopírujte následující dotaz do příkazového řádku a klikněte na .
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales 
where `sale price` < 20000000 AND `square footage` < 50000;

Ve výchozím nastavení se výstup dotazu zobrazí ve formátu tabulky. Místo toho vyberte Bodový graf a zobrazte jeden z vizuálů, které poznámkové bloky Zeppelin poskytují.

Visualizations in a Zeppelin Notebook in the Azure portal