練習 - 在 HDInsight 中上傳及查詢資料

已完成

既然您已佈建儲存體帳戶和 Interactive Query 叢集,就可以開始上傳您的房地產資料並執行一些查詢。 您要上傳的資料是紐約市的房地產資料。 其中包含超過 28,000 筆物業記錄,包括地址、銷售價格、平方英尺和地理編碼位置資訊,以便於繪製地圖。 您的房地產投資公司會根據先前已出售物業的銷售價格,使用此資訊來判斷市場上新物業的適當平方英尺價格。

若要上傳及查詢資料,我們將使用 Data Analytics Studio,這是 Web 應用程式,安裝在我們建立 Interactive Query 叢集時所使用的指令碼動作中。 您可以使用 Data Analytics Studio,將資料上傳至 Azure 儲存體、使用您所設定的資料類型和資料行名稱將資料轉換成 Hive 資料表,然後使用 HiveQL 在叢集上查詢資料。 除了 Data Analytic Studio 之外,您還可以使用任何 ODBC/JDBC 相容工具來處理使用 Hive 的資料,例如適用於 Visual Studio Code 的 Spark 與 Hive 工具。

接下來,您將使用 Zeppelin 筆記本,以將資料中的趨勢快速視覺化。 Zeppelin 筆記本可讓您傳送查詢,並在許多不同的預先定義圖表中查看結果。 安裝在 Interactive Query 叢集上的 Zeppelin 筆記本有一個使用 Hive 驅動程式的 JDBC 解譯器。

下載房地產資料

  1. 移至 https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20data,並下載資料集以將 propertysales.csv 檔案儲存至您的電腦。

使用 Data Analytics Studio 上傳資料

  1. 現在,使用下列 URL 在網際網路瀏覽器中開啟 Data Analytics Studio,並將 servername 取代為您使用的叢集名稱:https://servername.azurehdinsight.net/das/

若要登入,使用者名稱是 admin,而密碼是您建立的密碼

如果您遇到錯誤,請移至 Azure 入口網站中叢集的 [概觀] 索引標籤,並確定狀態設定為 [執行中],而叢集類型、HDI 版本設定為 [Interactive Query 3.1 (HDI 4.0)]

  1. Data Studio Analytics 會在網際網路瀏覽器中啟動。

A screenshot of the Data Analytics Studio application

  1. 按一下左側功能表上的 [資料庫],然後按一下綠色的垂直省略符號按鈕,再按一下 [建立資料庫]

A screenshot of the Create Database button in the Data Analytics Studio application

  1. 將資料庫命名為 'newyorkrealestate',然後按一下 [建立]

  2. 在資料庫總管中,按一下 [資料庫名稱] 方塊,然後選取 [newyorkrealestate]

Database Explorer in the Data Analytics Studio application

  1. 在資料庫總管中,按一下 [+],然後按一下 [建立資料表]

Create table button Database Explorer in the Data Analytics Studio application

  1. 將新的資料表命名為 'propertysales',然後按一下 [上傳資料表]。 資料表名稱必須只包含小寫字母和數字,沒有特殊字元。

Upload table in the Data Analytics Studio application

  1. 在頁面的 [選取檔案格式] 區域中:
    • 確定檔案格式為 csv
    • 核取 [為第一列標題嗎?] 方塊。
  2. 在頁面的 [選取檔案來源] 區域中:
    • 選取 [從本機上傳]
    • 按一下 [拖曳要上傳的檔案或按一下瀏覽],然後瀏覽至 propertysales.csv 檔案。
  3. 在 [資料行] 區段中,將 [緯度] 和 [經度] 的資料類型變更為 [字串],並將 [銷售日期] 改為 [日期]

Change data type in the Data Analytics Studio application

  1. 向上捲動並檢閱 [資料表預覽] 區段,以驗證欄位標題看起來正確。

Table preview in the Data Analytics Studio application

  1. 一直向下捲動,然後按一下 [建立],在 newyorkrealestate 資料庫中建立 Hive 資料表。

Create Hive Table button in the Data Analytics Studio application

  1. 在左側功能表中,按一下 [撰寫]

Compose button in the Data Analytics Studio application

  1. 請嘗試下列 Hive 查詢,以確保所有項目都能如預期般運作。
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
  1. 輸出應類似下列內容。

Query output in the Data Analytics Studio application

  1. 按一下左側功能表上的 [查詢],然後從您剛剛執行之 newyorkrealestate.propertysales 查詢中選取 SELECT ADDRESSZIP CODESALE PRICESQUARE FOOTAGE,以檢閱查詢的效能。

如果有任何可用的效能建議,該工具會顯示這些建議。 此頁面也會顯示已執行的實際 SQL 查詢、提供查詢的視覺化說明、顯示 Hive 在執行查詢時所推斷的設定詳細資訊,並提供一個時間軸,以顯示執行查詢的每個部分花費了多少時間。

使用 Zeppelin 筆記本探索 Hive 資料表

  1. 在 Azure 入口網站 [概觀] 頁面上的 [叢集儀表板] 方塊中,按一下 [Zeppelin Notebook]

Opening a Zeppelin Notebook in the Azure portal

  1. 按一下 [新增記事],將記事命名為「房地產資料」,然後按一下 [建立]

Create a new Zeppelin Notebook in the Azure portal

  1. 將下列程式碼片段貼入 [Zeppelin] 視窗中的命令提示字元,然後按一下播放圖示。
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ; 

查詢輸出隨即顯示在視窗中。 您可以看到所傳回的前 10 個結果。

Viewing Query results in a Zeppelin Notebook in the Azure portal

  1. 現在引發更複雜的查詢,以使用 Zeppelin 中提供的一些視覺效果和圖形功能。 將下列查詢複製到命令提示字元中,然後按一下。
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales 
where `sale price` < 20000000 AND `square footage` < 50000;

根據預設,查詢輸出會以表格格式顯示。 相反地,請選取 [散佈圖] 以查看 Zeppelin 筆記本提供的其中一個視覺效果。

Visualizations in a Zeppelin Notebook in the Azure portal