什麼是 HDInsight?

已完成

現今的世界時時刻刻都在快速地產生巨量且多樣化的資料,因此我們需要使用能夠有效處理所產生的半結構化和非結構化資料的系統。 傳統的關聯式資料庫管理系統 (RDBMS) 會嘗試處理、儲存及分析「巨量資料」。 但是,做出突破的是開放原始碼軟體 (OSS) 的世界。 OSS 以分散式方式使用商用硬體,與軟體結合來調整資料和分析規模,進而突破單一伺服器的限制。

組織與個人都能免費使用 OSS。 過去因為缺乏治理和支援,使得某些企業難以採用 OSS。 隨著雲端服務出現,許多雲端服務提供者都能代管這些服務,並為使用 OSS 技術的組織提供支援。 這些服務讓組織能夠在不增加管理和支援成本的情況下獲得 OSS 提供的好處。 巨量資料的領域中常常能夠看到 OSS 的身影。 在這個領域中,除了存在許多處理及儲存資料的技術之外,也有許多分析資料的技術。 OSS 分析支援多雲、開放式應用程式策略,不會受限於單一雲端廠商。 無論您是否需要將解決方案從內部部署搬移到雲端,還是在不同的雲端服務提供者之間遷移,它都提供了可移植性。

巨量資料解決方案中採用的其中一個核心 OSS 分析技術就是 Hadoop。 它通常會將資料儲存在 Hadoop 分散式檔案系統 (HDFS) 中,並搭配名為 MapReduce 的程式設計模型使用商用電腦叢集。 此程式設計模型支援以分散式方式處理線性資料流程中的大型資料集。 為了提高性能,Apache Spark 建立在 Hadoop 的架構性功能之上,但以復原性分散式資料集 (RDD) 取代 MapReduce 範例。 RDD 提供了速度更快的記憶體內部資料引擎。

值得注意的是,OSS 分析已經超越了使用 Hadoop 和 Spark 的巨量資料解決方案傳統應用方式。 OSS 分析現在結合了各種軟體,包括:

  • 用於串流情況的 Kafka 和 Flink
  • 作為 SQL 抽象層的 Presto 和 Kylin
  • 使用 H20.ai 和 Dataiku 新增 AI 層

Azure HDInsight 是雲端中供企業使用的受控、全方位的開放原始碼分析服務。 Microsoft 是在 Azure HDInsight 內部實作 OSS 分析。 您可以使用開放原始碼架構,例如 Hadoop、Apache Spark、Apache Hive、LLAP、Apache Kafka。 您也可以從裝載於 Azure 中的服務獲得企業級安全性、監視功能和高可用性選項的優點。 Azure HDInsight 也是可延伸且可自訂的,以方便處理一系列的客戶案例。