Azure HDInsight on AKS: Häufig gestellte Fragen

Artikel
10/26/2023

In diesem Artikel werden einige häufige Fragen zu Azure HDInsight on AKS beantwortet.

Allgemein

Was ist HDInsight on AKS?

HDInsight on AKS ist eine neue HDInsight-Version, die einen unternehmensfähigen verwalteten Clusterdienst mit neu aufkommenden Open-Source-Analyseprojekten wie Apache Flink (für Streaming), Trino (für Adhoc-Analysen und BI) und Spark bietet. Weitere Informationen finden Sie in der Übersicht.
Welche Cluster-Shapes unterstützt HDInsight on AKS?

HDInsight on AKS unterstützt vorerst Trino, Apache Flink und Apache Spark. Die Unterstützung anderer Cluster-Shapes wie Kafka, Hive usw. ist jedoch geplant.
Wie beginne ich mit der Verwendung von HDInsight on AKS?

Um zu beginnen, besuchen Sie den Azure Marketplace, suchen Sie nach dem Azure HDInsight on AKS-Dienst, und lesen Sie das Dokument zu den ersten Schritten.
Was geschieht mit der vorhandenen HDInsight-Version auf VMs und den Clustern, die ich heute verwende?

Es gibt keine Änderungen an der vorhandenen HDInsight-Version (HDInsight auf VMs). Alle vorhandenen Cluster werden weiter ausgeführt, und Sie können weiterhin neue HDInsight-Cluster erstellen und skalieren.
Welches Betriebssystem wird mit HDInsight on AKS unterstützt?

HDInsight on AKS basiert auf dem Mariner-Betriebssystem. Weitere Informationen finden Sie unter Betriebssystemversion.
In welchen Regionen ist HDInsight on AKS verfügbar?

Eine Liste der unterstützten Regionen finden Sie unter Regionale Verfügbarkeit.
Wie viel kostet die Bereitstellung eines HDInsight on AKS-Clusters?

Weitere Informationen zu den Preisen finden Sie unter „HDInsight on AKS – Preise“.

Clusterverwaltung

Kann ich mehrere Cluster gleichzeitig ausführen?

Ja. Sie können beliebig viele Cluster pro Clusterpool gleichzeitig ausführen. Stellen Sie jedoch sicher, dass durch das Kontingent für Ihr Abonnement keine Begrenzungen gelten. Die maximal zulässige Anzahl von Knoten in einem Clusterpool ist 250 (Public Preview).
Kann ich weitere Plug-Ins/Bibliotheken in meinem Cluster installieren oder hinzufügen?

Ja. Sie können je nach Cluster-Shape benutzerdefinierte Plug-Ins und Bibliotheken installieren.
- Informationen zu Trino finden Sie unter Install custom plugins (Installieren von benutzerdefinierten Plug-Ins).
- Informationen zu Spark finden Sie unter Library management in Spark (Bibliotheksverwaltung in Spark).
Kann ich über SSH auf meinen Cluster zugreifen?

Ja. Sie können über WebSSH eine SSH-Verbindung mit Ihrem Cluster herstellen und direkt von dort Abfragen ausführen und Aufträge übermitteln.

Metastore

Kann ich einen externen Metastore verwenden, um eine Verbindung mit meinem Cluster herzustellen?

Ja. Sie können einen externen Metastore verwenden. Microsoft unterstützt jedoch nur Azure SQL-Datenbank als externen benutzerdefinierten Metastore.
Kann ich einen Metastore für mehrere Cluster verwenden?

Ja. Sie können einen Metastore für mehrere HDInsight on AKS-Cluster verwenden.
Welche Version des Hive-Metastores wird unterstützt?

Hive-Metastore-Version 3.1.2

Workloads

Trino

Was ist Trino?

Trino ist eine verteilte Open-Source-SQL-Abfrage-Engine, mit der Sie Daten in verschiedenen Datenquellen abfragen können, ohne zu einem zentralen Data Warehouse zu wechseln. Sie können die Daten mit ANSI SQL abfragen, ohne eine neue Sprache zu erlernen. Weitere Informationen finden Sie in der Übersicht über Trino.
Welche Connectors werden unterstützt?

HDInsight on AKS Trino unterstützt mehrere Connectors. Weitere Informationen finden Sie in der Liste der Trino-Connectors. Wir fügen weiterhin neue Connectors hinzu, wenn diese in der Open Source-Version verfügbar sind.
Kann ich einem vorhandenem Cluster Kataloge hinzufügen?

Ja. Sie können einem vorhandenen Cluster unterstützte Kataloge hinzufügen. Weitere Informationen finden Sie unter Hinzufügen von Katalogen zu einem vorhandenen Cluster.

Apache Flink

Was ist Apache Flink?

Apache Flink ist eine erstklassige Open-Source-Analyse-Engine für die Datenstromverarbeitung und die Durchführung zustandsbehafteter Berechnungen für ungebundene und gebundene Datenströme. Sie kann mit In-Memory-Geschwindigkeit Berechnungen jeder Größenordnung durchführen. Flink in HDInsight on AKS bietet eine verwaltete Open-Source-Version von Apache Flink. Weitere Informationen finden Sie in der Übersicht über Flink.
Werden sowohl der Sitzungs- als auch der App-Modus in Apache Flink unterstützt?

In HDInsight on AKS unterstützt Flink derzeit Cluster im Sitzungsmodus.
Was ist die Back-End-Zustandsverwaltung, und wie wird sie in HDInsight on AKS vorgenommen?

Back-Ends bestimmen, wo der Zustand gespeichert ist. Wenn Prüfpunkte aktiviert sind, wird der Zustand an Prüfpunkten beibehalten, um vor Datenverlusten zu schützen und eine konsistente Wiederherstellung zu ermöglichen. Der Zustand wird jedoch intern dargestellt, und wie und wo er an Prüfpunkten beibehalten wird, hängt vom ausgewählten Zustands-Back-End ab. Weitere Informationen finden Sie in der Übersicht über Flink.

Apache Spark

Was ist Apache Spark?

Apache Spark ist ein Datenverarbeitungsframework, das schnell Verarbeitungsaufgaben für große Datasets ausführen kann. Zudem kann es Datenverarbeitungsaufgaben auf mehrere Computer verteilen, entweder eigenständig oder zusammen mit anderen verteilten Computingtools.
Welche Sprach-APIs werden in Spark unterstützt?

Azure HDInsight on AKS unterstützt Python und Scala.
Werden externe Metastores in HDInsight on AKS Spark unterstützt?

HDInsight on AKS unterstützt die Konnektivität mit einem externen Metastore. Derzeit wird nur Azure SQL-Datenbank als externer Metastore unterstützt.
Was sind die verschiedenen Möglichkeiten zum Übermitteln von Aufträgen in HDInsight on AKS Spark?

Sie können Aufträge in HDInsight on AKS Spark mit Jupyter Notebook, Zeppelin Notebook, einem SDK und einem Clusterterminal übermitteln. Weitere Informationen finden Sie unter Übermitteln und Verwalten von Aufträgen in einem Spark-Cluster in HDInsight on AKS

Teilen über

Azure HDInsight on AKS: Häufig gestellte Fragen

Allgemein

Clusterverwaltung

Metastore

Workloads

Trino

Apache Flink

Apache Spark

Feedback

Feedback

Zusätzliche Ressourcen