選取正確 HDInsight 設定選項的決策準則

已完成

有各種適用於 HDInsight 服務的設定,可用於不同的分析案例。 事實上,HDInsight 包含許多 OSS 分析技術,可將其視為能夠符合您進階分析需求的一站式服務。 所有可用的各種叢集類型都可符合以下所述的業務案例需求。 透過每個叢集類型,您能夠完整控制在 HDInsight 中管理每個案例的方式。 

許多企業在處理及分析資料以衍生商業價值方面都有類似的需求。 這些需求可以包括:

批次處理

HDInsight 用於在結構化與非結構化資料上使用 Hadoop 或 Spark 以及資料處理架構 (包括 Hive 與 Sqoop),進行擷取、轉換及載入 (ETL) 或擷取、載入及轉換 (ELT) 作業。  

資料倉儲

傳統上會由內部部署關聯式資料庫 (例如 SQL Server) 來完成,最近則是利用 PB 規模的 Azure SQL 資料倉儲,透過結構化資料來完成。 HDInsight 能夠對任何格式的結構化或非結構化資料執行 PB 規模的互動式查詢。 若您搭配 Hive 一起使用 HDInsight Hadoop 來管理資料作業及報告需求,則此功能可順利運作。 

串流資料

可使用 Spark Streaming,透過事件中樞或 IoT 中樞來利用 HDInsight 內嵌來自各種來源的串流資料。  

混合式

有些組織已經具備內部部署巨量資料基礎結構。 您可以使用 HDInsight 將功能延伸至雲端。

選取正確 HDInsight 叢集設定選項的關鍵決策點,會以 HDInsight 叢集將服務的工作負載為基礎。 如果組織應該會使用多個工作負載,則切換至不同 HDInsight 設定以符合需要處理的工作負載很常見。

工作負載類型 叢集類型
批次移動資料 Apache Hadoop \(英文\)
資料科學:批次和串流 Apache Spark
交易式工作負載 hbase
臨機操作分析/資料倉儲 Apache Interactive Query
串流分析 Apache Kafka

重要

HDInsight 叢集有多種類型,每種類型均適用於單一工作負載或技術。 沒有任何支援方法可建立叢集,以將多種類型合併於一個叢集上 (例如 Hadoop 和 HBase)。 如果您的解決方案需要會分散到多種 HDInsight 叢集類型的技術,則 Azure 虛擬網路可以連線各種必要的叢集類型。