Partilhar via


Microsoft Azure HDInsight 使用情境簡介

HDInsight 是 Azure 上所提供的 Apache Hadoop 服務

Azure HDInsight 所提供的 Hadoop 服務可以用來處理巨量的資料,Azure 把 Hadoop 包裝在 Windows Server 下,並提供 PaaS 的服務,所以使用者不用從頭開始架設 Hadoop 的叢集 (Cluster) ,省去繁雜的建置過程。Azure HDInsight 的服務在數分鐘之內即會建立完成。同時,除了可以透過傳統的方式匯出資料外,Azure HDInsight 也能與 Excel 連結,讓您可以透過 Power Query 來撈取 MapReduce 執行後的結果,並且可以利用 Excel 的 Power Pivot 和 Power View 來呈現並分析結果。

 

Hadoop Ecosystem

Apache Hadoop 是一個開源的分散式且可擴展的分散式運算系統,簡而言之就是一套可以跨叢集 (cluster) 處理大量資料的框架系統。下圖是 Hadoop 在運用上的生態系,底層的 HDFS (Hadoop Distributed File System) 提供一個分散式的檔案存取系統;MapReduce 是一個平行的運算系統,可以利用它來處理分散和收斂的過程;而在資料處理方面, NoSQL 設計的 HBase 也適合儲存大量且分散的資料;Hive 也是 Hadoop 中類似 SQL 的查詢語言。在資料整合的部分也可以利用 ODBC 或是 SQOOP 等工具把資料連接到 Hadoop。

HDInsight Ecosystem

Azure HDInsight 底層原本的 HDFS 部分是利用 Azure 的儲存體 (Storage) 來實作,使用 Azure Blob Storage 的好處除了比傳統的儲存方式較便宜外,傳統的HDFS是存在於叢集中,因此只能透過本機的 HDFS API 來存取。使用 Azure Blog Storage 的話,除了可以透過 HDFS API 來存取,也可以透過 Blob Storage REST API 來存取資料。因此,許多不同的應用程式都可以來存取這些資料。另外,異地備援以及彈性擴展也是使用 Azure Storage 的好處。

Hadoop Core 的部分是透過 Hortornworks 合作所提出的解決方案,將 Hadoop 建置在 Azure Windows Server 的虛擬機器上。同時,也支援使用 Powershell 來操控 Hadoop 、用Sqoop 來撈取 SQL Server 的資料等等。

Azure 完整的文件介紹和示範

Microsoft Azure 提供了完整的中文化文件介紹,包括了巨量資料的介紹,HDInsight 生態系以及 HDInsight 的運用範例等等。

詳細的情形可以參考 Azure HDInsight 的文件

 

參考資料

1. Azure HDInsight (Hadoop) 文件

 

2. HDInsight 中 Hadoop 的簡介

 

3. Query big data from Hadoop-compatible Blob storage for analysis in HDInsight