使用 HDInsight 上的 Apache Kafka 確保您資料的高可用性
了解如何設定 Apache Kafka 主題的磁碟分割複本,以利用基礎硬體機架組態。 此組態可確保在 HDInsight 上 Apache Kafka 中儲存之資料的可用性。
容錯和更新網域與 Apache Kafka
容錯網域是 Azure 資料中心內基礎硬體的邏輯群組。 每個容錯網域會共用通用電源和網路交換器。 實作 HDInsight 叢集內節點的虛擬機器和受控磁碟會分散於這些容錯網域。 此架構會限制實體硬體故障的潛在影響。
每個 Azure 區域有特定數目的容錯網域。 如需網域清單及其包含的容錯網域數目,請參閱可用性設定組文件。
重要
Kafka 不知道容錯網域。 當您在 Kafka 中建立主題時,它可將所有磁碟分割複本儲存在相同的容錯網域中。 為了解決這個問題,HDInsight 提供 Kafka 磁碟分割重新平衡工具。
何時重新平衡磁碟分割複本
若要確保 Kafka 資料的最高的可用性,您應該在下列時間重新平衡您主題的磁碟分割複本:
建立新主題或磁碟分割時
當您擴大叢集時
複寫因子
重要
我們建議使用包含三個容錯網域的 Azure 地區,以及使用複寫因子 3。
如果您必須使用只包含兩個容錯網域的區域,請使用複寫因子 4 將複本平均分散於兩個容錯網域。
如需建立主題及設定複寫因子的範例,請參閱開始使用 HDInsight 上的 Apache Kafka文件。
如何重新平衡磁碟分割複本
使用 Apache Kafka 磁碟分割重新平衡工具來重新平衡所選的主題。 必須從 Kafka 叢集前端節點的 SSH 工作階段執行此工具。
如需使用 SSH 連線至 HDInsight 的詳細資訊,請參閱搭配 HDInsight 使用 SSH 文件。