Bearbeiten

FAQ zu Big Data-Cluster für SQL Server

In diesem Artikel werden die häufig gestellten Fragen zu Konzepten, Funktionen, der Bereitstellung, Unterstützungsmöglichkeiten und Tools für Big Data-Cluster für SQL Server erläutert.

Bewährte Methoden

Welche bewährten Methoden werden für Dateispeicherorte empfohlen?

Im Vergleich zur Konfiguration von SQL Server auf Bare-Metal-Computern unter Windows oder Linux gibt es in dieser Hinsicht weniger Flexibilität. In der Kubernetes-Umgebung werden diese Artefakte abstrahiert und müssen portabel sein. Derzeit gibt es zwei persistente Volumes (PVs) für Daten und Protokolle, die pro Pod bereitgestellt und konfiguriert werden können. Weitere Informationen finden Sie unter Datenpersistenz mit SQL Server-Big Data-Clustern in Kubernetes.

Muss ich Transaktionsprotokollsicherungen auf SQL Server-Big Data-Clustern durchführen?

Sie müssen Protokollsicherungen nur für Benutzerdatenbanken in der SQL Server-Masterinstanz ausführen (je nach Wiederherstellungsmodell oder Hochverfügbarkeitskonfiguration). In Datenpooldatenbanken wird nur das EINFACHE Wiederherstellungsmodell verwendet. Dasselbe gilt für die DW*-Datenbanken, die für PolyBase erstellt wurden.

Wie kann ich überwachen, ob der Computepool von verteilten Abfragen tatsächlich genutzt wird?

Sie können die vorhandenen PolyBase-DMVs verwenden, die für Big Data-Clusterszenarios verbessert wurden. Weitere Informationen finden Sie unter Überwachung und Problembehandlung für PolyBase.

Ist es möglich, Big Data-Clusterressourcen direkt über kubectl auf dem Kubernetes-API-Server zu konfigurieren und zu verwalten?

Sie können zwar einige der Einstellungen mithilfe der Kubernetes-API oder kubectl ändern. Dies wird jedoch weder unterstützt noch empfohlen. Alle Big Data-Clusterverwaltungsvorgänge müssen über azdata ausgeführt werden.

Wie kann ich in HDFS gespeicherte Daten sichern?

Sie können alle Lösungen verwenden, die Speichermomentaufnahmen auf Hardwareebene oder Kopieren/Synchronisieren über webHDFS ermöglichen. Sie können auch azdata bdc hdfs cp verwenden. Weitere Informationen finden Sie unter azdata bdc hdfs.

Konzepte und Funktionen

Gibt es eine Möglichkeit, eine gespeicherte Prozedur „aufzuskalieren“? Beispielsweise die Möglichkeit, sie in einem Computepool ausführen zu lassen?

Derzeit leider nicht. Es gibt jedoch die Möglichkeit, SQL Server in einer Always On-Verfügbarkeitsgruppe bereitzustellen. Danach können Sie lesbare sekundäre Replikate verwenden, um einige Prozesse (wie ML-Training/-Bewertung, Wartungsaktivitäten usw.) auszuführen.

Wie werden die Pods in einem Pool dynamisch skaliert?

Dieses Szenario wird derzeit nicht unterstützt.

Ist es möglich, externe Tabellen zu sichern, die in Datenpools gespeichert sind?

Die Datenbank in der Datenpoolinstanz enthält ähnlich wie eine Benutzerdatenbank keine Metadaten zu externen Tabellen. Sie können zwar Sicherungen/Wiederherstellungen durchführen. Zur Vermeidung von inkonsistenten Ergebnissen müssen Sie jedoch sicherstellen, dass die Metadaten der externen Tabelle in der Datenbank für Metadaten in der SQL-Masterinstanz synchronisiert wurden.

Ermöglicht der Datenpool Sharding?

Beim Datenpool handelt es sich um ein Konzept für verteilte Tabellen. Sharding wird in der Regel als OLTP-Konzept bezeichnet. Dies wird derzeit nicht unterstützt.

Wann sollte ich den Datenpool, wann den Speicherpool zum Speichern von Rohdaten verwenden?

Mit dem Begriff „Pool“ wird eine Sammlung homogener Dienste oder Anwendungen bezeichnet. So enthält ein Datenpool beispielsweise zustandsbehaftete SQL Server-Compute- und Speicherdienste und ein Speicherpool HDFS- und Sparkdienste. Beim SQL Server-Master handelt es sich um eine einzelne Instanz oder um mehrere Instanzen, die in einer Verfügbarkeitsgruppe konfiguriert werden können. Bei der SQL Server Masterinstanz handelt es sich um eine reguläre SQL Server-Instanz unter Linux, in der jedes unter Linux verfügbare Feature verwendet werden kann. Beginnen Sie zunächst mit dem Datenmodell, den Entitäten und Diensten/Anwendungen, die in erster Linie für die Entität ausgeführt werden. Es ist nicht erforderlich, alle Daten an einem Ort wie SQL Server oder HDFS oder in einem Datenpool zu speichern. Die meisten Daten können je nach Datenanalyse in HDFS gespeichert, in einem effizienteren Format verarbeitet und für andere Dienste bereitgestellt werden. Die verbleibenden Daten werden in der SQL-Masterinstanz gespeichert.

Werden in einem SQL Server-Big Data-Cluster GPU-basierte Deep Learning-Bibliotheken und -Berechnungen (PyTorch, Keras, bestimmte Bildbibliotheken usw.) unterstützt?

Dieses Szenario wird derzeit nicht unterstützt.

Gibt es eine Möglichkeit, für einen Pool mehrere Volumeansprüche zu konfigurieren?

Ein Pod kann nur zwei persistente Volumes (PVs) enthalten. Sie können das Volume auf Betriebssystemebene abstrahieren und für persistenten Speicher verwenden. So können Sie beispielsweise eine RAID-0-Betriebssystempartition mit mehreren Datenträgern erstellen und mithilfe eines lokalen Speicheranbieters für ein persistentes Volume verwenden. Derzeit gibt es noch keine Möglichkeit, mehr PVs pro Pod zu verwenden. PVs werden Verzeichnissen im Container zugeordnet, und diese Zuordnung ist fix. Weitere Informationen zu persistenten Volumes finden Sie in der Dokumentation zu persistenten Volumes in Kubernetes.

Wird die HDFS-Konfiguration mit allen Datenvolumeansprüchen aktualisiert, wenn mehrere Anbieter und Datenträger konfiguriert werden?

Sie können den Speicherpool so konfigurieren, dass zur Bereitstellungszeit eine bestimmte Speicherklasse verwendet wird. Informationen dazu finden Sie unter Datenpersistenz mit SQL Server-Big Data-Clustern in Kubernetes.

Welche Optionen stehen für den Zugriff auf Ceph-basierten Speicher zur Verfügung?

HDFS-Tiering ermöglicht die transparente Integration in S3-basierte Protokolle. Weitere Informationen hierzu finden Sie unter Einbinden von S3 für HDFS-Tiering in einen Big Data-Cluster.

Werden Daten in HDFS nach einem Upgrade beibehalten?

Ja, Daten werden beibehalten, da sie durch persistente Volumes gesichert sind und beim Upgrade nur vorhandene Pods mit neuen Images bereitgestellt werden.

Wie wird der Cache durch HDFS-Tiering gesteuert?

Bei Verwendung von HDFS-Tiering werden Daten im lokalen HDFS im Big Data-Cluster zwischengespeichert, sodass Benutzer große Data Lakes anfügen können, ohne alle Daten einbinden zu müssen. Dem Cache ist eine konfigurierbare Menge an Speicherplatz zugeordnet, die derzeit standardmäßig auf 2 % festgelegt ist. Daten werden im Cache verwaltet, jedoch bei Überschreiten dieses Schwellenwerts entfernt. Die Sicherheit wird zudem über den Lake gewährleistet, und es werden alle Zugriffssteuerungslisten angewendet. Weitere Informationen finden Sie unter Konfigurieren von HDFS-Tiering in Big Data-Cluster für SQL Server.

Kann SQL Server 2019 zum Visualisieren von Azure Data Lake Storage Gen2 verwendet werden? Wird bei dieser Integration die Berechtigung auf Ordnerebene übernommen?

Ja, Sie können in ADLS Gen2 gespeicherte Daten mithilfe von HDFS-Tiering virtualisieren. Nachdem HDFS-Tiering in ADLS Gen2 eingebunden wurde, können Benutzer die HDFS-Daten abfragen und Spark-Aufträge dafür ausführen. Der eingebundene Speicher wird im HDFS für Big Data-Cluster an dem durch „--mount-path“ angegebenen Speicherort angezeigt, und Benutzer können diesen Einbindungspfad wie einen lokalen Speicher verwenden. Weitere Informationen finden Sie unter Konfigurieren von HDFS-Tiering in Big Data-Cluster für SQL Server. Weitere Informationen zu HDFS-Ebenenberechtigungen finden Sie unter Verwalten von HDFS-Berechtigungen für Big Data-Cluster für SQL Server.

Wie lautet die Standardeinstellung für Hochverfügbarkeit und/oder Redundanz für den Masterknoten in Azure Kubernetes Service (AKS)?

Die AKS-Steuerungsebene unterstützt die Betriebszeit-SLA und garantiert eine Verfügbarkeit von 99,95 %. Für die AKS-Clusterknoten (Workerknoten) werden Verfügbarkeitszonen verwendet. Weitere Informationen finden Sie unter AKS Verfügbarkeitszonen. Verfügbarkeitszonen (VZ) sind ein Hochverfügbarkeitsangebot von Azure, das Anwendungen und Daten vor Ausfällen von Rechenzentren schützt. AKS unterstützt eine Verfügbarkeit von 99,9 % für Cluster, in denen keine Verfügbarkeitszonen verwendet werden. Weitere Informationen finden Sie unter SLA für Azure Kubernetes Service (AKS).

Gibt es eine Möglichkeit, YARN- und Spark-Auftragsverlaufsprotokolle beizubehalten?

Ein Neustart von Sparkhead führt nicht dazu, dass die Protokolle verloren gehen. Diese Protokolle befinden sich in HDFS. Auf der Benutzeroberfläche „/gateway/default/sparkhistory“ sollten weiterhin Spark-Verlaufsprotokolle angezeigt werden. Bei Yarn-Containerprotokollen werden diese Apps nicht auf der Yarn-Benutzeroberfläche angezeigt, da Yarn RM neu gestartet wird, diese Yarn-Protokolle sich jedoch weiterhin in HDFS befinden und Sie über den Spark-Verlaufsserver eine Verknüpfung mit ihnen herstellen können. Zum Diagnostizieren der Spark-Apps sollten Sie immer den Spark-Verlaufsserver als Einstiegspunkt verwenden.

Gibt es eine Möglichkeit, die Zwischenspeicherungsfunktion für Pools zu deaktivieren?

Standardmäßig wird 1 % des gesamten HDFS-Speichers für das Zwischenspeichern der eingebundenen Daten reserviert. Das Zwischenspeichern ist eine Einbindungen übergreifende globale Einstellung. Derzeit gibt es keine Möglichkeit, sie zu deaktivieren. Über die Einstellung hdfs-site.dfs.provided.cache.capacity.fraction kann jedoch der Prozentsatz konfiguriert werden. Mit dieser Einstellung lässt sich festlegen, welcher Prozentsatz der Gesamtkapazität im Cluster zum Zwischenspeichern von Daten aus bereitgestellten speichern verwendet werden kann. Informationen zum Ändern dieser Einstellung finden Sie unter Konfigurieren von BDC-Einstellungen nach der Bereitstellung. Weitere Informationen finden Sie unter Konfigurieren von HDFS-Tiering in Big Data-Cluster für SQL Server.

Wie lassen sich gespeicherte SQL-Prozeduren in Big Data-Cluster für SQL Server 2019 planen?

Hierzu können Sie den Dienst SQL Server-Agent in der SQL Server-Masterinstanz des Big Data-Clusters verwenden.

Werden Szenarios zu nativen Zeitreihendaten wie etwa durch IoT-Anwendungsfälle generierte Daten von Big Data-Clustern unterstützt?

Derzeit wird InfluxDB in einem Big Data-Cluster nicht als externer Endpunkt verfügbar gemacht, sondern nur zum Speichern von Überwachungsdaten verwendet, die im Big Data-Cluster erfasst wurden.

Kann die bereitgestellte InfluxDB als Zeitreihendatenbank für Kundendaten verwendet werden?

Derzeit wird InfluxDB in einem Big Data-Cluster nicht als externer Endpunkt verfügbar gemacht, sondern nur zum Speichern von Überwachungsdaten verwendet, die im Big Data-Cluster erfasst wurden.

Wie wird der Verfügbarkeitsgruppe eine Datenbank hinzugefügt?

Im Big Data-Cluster wird über die Hochverfügbarkeitskonfiguration die Verfügbarkeitsgruppe „containedag“ erstellt, die Systemdatenbanken enthält, die replikatübergreifend repliziert werden. Datenbanken, die infolge eines CREATE DATABASE- oder RESTORE-Workflows erstellt werden, werden der enthaltenen VG automatisch hinzugefügt und für ein Seeding verwendet. Bei Versionen vor SQL Server 2019 (15.0) CU2 müssen Sie mit der physischen Instanz im Big Data-Cluster eine Verbindung herstellen, die Datenbank wiederherstellen und die Datenbank der Verfügbarkeitsgruppe „containedag“ hinzufügen. Weitere Informationen finden Sie unter Bereitstellen von Big Data-Clustern in SQL Server mit Hochverfügbarkeit.

Kann ich CPU-/Speicherressourcen für Komponenten konfigurieren, die im Big Data-Cluster ausgeführt werden?

Derzeit kann Speicher für die SQL-Instanzen wie in SQL Server mit „sp_configure“ festgelegt werden. Für CPUs kann ALTER SERVER CONFIGURATION SET PROCESS AFFINITY verwendet werden. Standardmäßig haben Container auf alle CPUs im Host Zugriff. Derzeit gibt es keine Möglichkeit mit Kubernetes Ressourcenlimits festzulegen. Computepool, Datenpool und Speicherpool können mit der EXECUTE AT DATA_SOURCE-Anweisung über die SQL Server-Masterinstanz konfiguriert werden.

Was geschieht, wenn einer der Kubernetes-Workerknoten heruntergefahren wird oder ausfällt?

Pods, die nicht an den entsprechenden Workerknoten gebunden sind, werden auf einen anderen Knoten im Kubernetes-Cluster verschoben, vorausgesetzt, es sind genügend Ressourcen vorhanden. Andernfalls sind die Pods nicht verfügbar, was zu Ausfällen führt.

Wird ein Big Data-Cluster automatisch umverteilt, wenn ich dem Kubernetes-Cluster einen Knoten hinzufüge?

Diese Aktion hängt ausschließlich von Kubernetes ab. Abgesehen von der Podplatzierung mit Knotenbezeichnungen gibt es keinen anderen Mechanismus zum Steuern der Umverteilung von Kubernetes-Ressourcen in einem Big Data-Cluster.

Welche Folgen hat es für Big Data-Clusterressourcen, wenn im Kubernetes-Cluster ein Knoten entfernt wird?

Diese Aktion entspricht dem Herunterfahren des Hostknotens. Es gibt Mechanismen, um diese Aktion mithilfe eines Taintingprozesses in Kubernetes zu orchestrieren. Diese werden in der Regel für Upgrades oder Knotenwartungen verwendet. Weitere Informationen hierzu finden Sie in der Dokumentation zu Kubernetes unter Taints and Tolerations (Taints und Toleranzen).

Werden von der im Big Data-Cluster integrierten Version von Hadoop Daten repliziert?

Ja, der Replikationsfaktor ist eine der verfügbaren Konfigurationen für HDFS. Weitere Informationen finden Sie unter Konfigurieren persistenter Volumes.

Überlappen sich Big Data-Cluster in Bezug auf Funktionalität und Integration mit Synapse?

Das hängt von den jeweiligen Anwendungsfällen und Anforderungen ab. Ein Big Data-Cluster bietet neben den von Microsoft unterstützten lokalen Versionen von Spark und HDFS auch eine umfassende SQL Server-Oberfläche. Ein Big Data-Cluster ermöglicht dem SQL Server-Kunden die Integration in Analysen/Big Data. Azure Synapse ist eine reine Analyseplattform, die als verwalteter Dienst in der Cloud eine erstklassige Umgebung für Kunden bietet, bei denen der Fokus auf Aufskalierungsanalysen liegt. Azure Synapse ist dabei nicht für betriebliche Workloads vorgesehen. Vielmehr sollen mit einem Big Data-Cluster datenbankinterne Analyseszenarios bereitgestellt werden, die näher am Betriebsspeicher liegen.

Wird HDFS von SQL Server in Big Data-Clustern für SQL Server als Speicher verwendet?

Die Datenbankdateien der SQL Server-Instanz werden nicht in HDFS gespeichert. HDFS kann jedoch von SQL Server mithilfe einer externen Tabellenschnittstelle abgefragt werden.

Welche Verteilungsoptionen stehen beim Speichern von Daten in den verteilten Tabellen in den einzelnen Datenpools zur Verfügung?

ROUND_ROBIN und REPLICATED. ROUND_ROBIN ist die Standardeinstellung. HASH ist nicht verfügbar.

Ist der Spark Thrift-Server im Big Data-Cluster enthalten? Wenn ja, wird der ODBC-Endpunkt zum Herstellen einer Verbindung mit Hive-Metastore-Tabellen verfügbar gemacht?

Derzeit wird Hive-Metastore (HMS) über das Thrift-Protokoll verfügbar gemacht. Das Protokoll wird dokumentiert. Derzeit ist jedoch noch kein ODBC-Endpunkt eingerichtet.  Sie können über das Hive-Metastore-HTTP-Protokoll darauf zugreifen. Weitere Informationen hierzu finden Sie unter Hive-Metastore-HTTP-Protokoll.

Laden von Daten

Können Daten aus SnowFlake in einem Big Data-Cluster erfasst werden?

Die generische ODBC-Datenquelle, mit der ein ODBC-Treiber von Drittanbietern (SnowFlake, DB2, PostgreSQL usw.) installiert und die Datenquelle abgefragt werden kann, wird von SQL Server für Linux nicht unterstützt. (Dies gilt auch für die SQL Server-Masterinstanz im Big Data-Cluster.) Dieses Feature ist derzeit nur in SQL Server 2019 (15.0) unter Windows verfügbar. Im Big Data-Cluster können die Daten über Spark mithilfe von JDBC eingelesen und in SQL Server mithilfe des MSSQL-Spark-Connectors erfasst werden.

Können Daten mithilfe einer benutzerdefinierten ODBC-Datenquelle in einem Big Data-Cluster erfasst werden?

Die generische ODBC-Datenquelle, mit der ein ODBC-Treiber von Drittanbietern (SnowFlake, DB2, PostgreSQL usw.) installiert und die Datenquelle abgefragt werden kann, wird von SQL Server für Linux nicht unterstützt. (Dies gilt auch für die SQL Server-Masterinstanz im Big Data-Cluster.)

Wie können Daten mithilfe von PolyBase CTAS importiert werden, sodass nicht bei jeder Ausführung von CTAS eine NEUE Tabelle erstellt werden muss?

Sie können INSERT..SELECT verwenden, um nicht jedes Mal eine neue Tabelle erstellen zu müssen.

Welche Vor-/Nachteile hat es, wenn Daten nicht als lokale Tabellen direkt in die Masterinstanz, sondern in einen Datenpool geladen werden?

Wenn die SQL Server-Masterinstanz über genügend Ressourcen für die Analyseworkload verfügt, ist dies immer die schnellste Methode. Ein Datenpool ist hilfreich, wenn Sie die Ausführung für verteilte Abfragen auf andere SQL-Instanzen auslagern möchten. Einen Datenpool können Sie auch verwenden, um Daten aus Spark-Executors parallel in verschiedenen SQL-Instanzen zu erfassen. Damit ist die Ladeleistung bei großen Datasets, die über das HDFS (Hadoop Distributed File System) erstellt werden, in der Regel besser als bei Verwendung einer einzelnen SQL Server-Instanz. Dies ist jedoch schwer zu sagen, da ggf. immer noch mehrere Tabellen in einem SQL-Server verwendet und parallel eingefügt werden können. Die Leistung hängt von vielen Faktoren ab, und es gibt in dieser Hinsicht nicht die eine Anleitung oder Empfehlung.

Wie kann ich die Datenverteilung in den Datenpooltabellen überwachen?

Sie können EXECUTE AT verwenden, um DMVs wie „sys.dm_db_partition_stats“ abzufragen und so Daten in den einzelnen lokalen Tabellen abzurufen.

Ist „curl“ die einzige Möglichkeit zum Hochladen von Dateien in HDFS?

Nein, Sie können auch azdata bdc hdfs cp verwenden. Wenn Sie das Stammverzeichnis angeben, wird mit dem Befehl die gesamte Struktur rekursiv kopiert. Mit diesem Befehl können Sie kopieren, indem Sie lediglich die Quell-/Zielpfade ändern.

Wie kann ich Daten in den Datenpool laden?

Für die SQL- und Datenpoolerfassung können Sie die MSSQL-Spark-Connectorbibliothek verwenden. Eine entsprechende Anleitung finden Sie unter Tutorial: Erfassen von Daten in einem SQL Server-Datenpool mithilfe von Spark-Aufträgen.

Wie lade ich in einem Big Data-Cluster Daten in HDFS hoch, wenn ich viele Daten in einem (Windows)-Netzwerkpfad habe, der viele Ordner/Unterordner und Textdateien enthält?

Verwenden Sie azdata bdc hdfs cp. Wenn Sie das Stammverzeichnis angeben, wird mit dem Befehl die gesamte Struktur rekursiv kopiert. Mit diesem Befehl können Sie kopieren, indem Sie lediglich die Quell-/Zielpfade ändern.

Kann der Speicherpool in einem bereitgestellten Cluster vergrößert werden?

Derzeit gibt es keine azdata-Schnittstelle für diesen Vorgang. Es gibt jedoch die Möglichkeit, die Größe der jeweiligen PVCs manuell anzupassen. Eine Größenänderung ist ein komplexer Vorgang. Weitere Informationen finden Sie in der Dokumentation zu Kubernetes im Abschnitt über persistente Volumes.

Datenvirtualisierung

Wann sollte ich Verbindungsserver, wann PolyBase verwenden?

Die wichtigsten Unterschiede und Anwendungsfälle werden unter Häufig gestellte Fragen zu PolyBase beschrieben.

Welche Datenquellen werden bei der Datenvirtualisierung unterstützt?

In Big Data-Clustern wird die Datenvirtualisierung über ODBC-Quellen wie SQL Server, Oracle, MongoDB, Teradata usw. unterstützt. Zudem wird das Tiering von Remotespeichern wie Azure Data Lake Storage Gen2 und S3-kompatiblen Speichern sowie von AWS S3A und Azure Blob File System (ABFS) unterstützt.

Kann ich zum Virtualisieren von in einer Azure SQL-Datenbank gespeicherten Daten PolyBase verwenden?

Ja, Sie können PolyBase im Big Data-Cluster verwenden, um auf Daten in Azure SQL-Datenbank zuzugreifen.

Warum enthalten die CREATE TABLE-Anweisungen das Schlüsselwort EXTERNAL? Welche anderen Auswirkungen hat EXTERNAL im Vergleich zur standardmäßigen CREATE TABLE-Anweisung?

Das Schlüsselwort EXTERNAL besagt generell, dass sich die Daten nicht in der SQL Server-Instanz befinden. Sie können beispielsweise zusätzlich zu einem HDFS-Verzeichnis eine Speicherpooltabelle definieren. Dabei werden die Daten nicht in den Datenbankdateien, sondern in HDFS-Dateien gespeichert. Die externe Tabelle stellt dann die Schnittstelle dar, über die die HDFS-Dateien wie in einer relationalen Tabelle so abgefragt werden können, als würden sie sich in der Datenbank befinden.
Dieses Konzept des Zugriffs auf externe Daten wird als Datenvirtualisierung bezeichnet. Weitere Informationen finden Sie unter Einführung in die Datenvirtualisierung mit PolyBase. Ein Tutorial zum Virtualisieren von Daten aus CSV-Dateien in HDFS finden Sie unter Virtualisieren von CSV-Daten aus einem Speicherpool (Big Data-Cluster).

Wie unterscheidet sich die Datenvirtualisierung über SQL Server, das in SQL Server-Big Data-Cluster ausgeführt wird, von der Datenvirtualisierung in SQL Server?

Wie kann ich auf einen Blick erkennen, ob eine externe Tabelle auf einen Datenpool oder auf einen Speicherpool verweist?

Um welche Tabellenart es sich handelt, können Sie am Präfix für den Speicherort der Datenquelle erkennen, z. B. „sqlserver://“, „oracle://“, „sqlhdfs://“, „sqldatapool://“.

Bereitstellung

Bei der Bereitstellung meines Big Data-Clusters ist ein Fehler aufgetreten. Woran kann ich erkennen, was schiefgelaufen ist?

Hierzu finden Sie Informationen unter Verwalten von SQL Server-Big Data-Clustern mit Azure Data Studio-Notebooks Weitere Informationen finden Sie auch in den Themen zur Problembehandlung unter Problembehandlung für Kubernetes.

Gibt es eine offizielle Liste mit allen Einstellungen für die Konfiguration des Big Data-Clusters?

Alle Anpassungen, die bei der Bereitstellung vorgenommen werden können, sind unter Konfigurieren von Bereitstellungseinstellungen für Clusterressourcen und -dienste dokumentiert. Informationen zu Spark finden Sie unter Konfigurieren von Apache Spark und Apache Hadoop in Big Data-Clustern.

Kann SQL Server Analysis Services zusammen mit Big Data-Clustern für SQL Server bereitgestellt werden?

Nein. Insbesondere SQL Server Analysis Services (SSAS) wird unter SQL Server für Linux nicht unterstützt, sodass Sie für die Ausführung von SSAS eine SQL Server-Instanz unter Windows Server installieren müssen.

Werden bei der Bereitstellung in EKS oder GKS Big Data-Cluster unterstützt?

Big Data-Cluster können in jedem Kubernetes-Stapel ausgeführt werden, der auf einer Version ab 1.13 basiert. Für Big Data-Cluster in EKS oder GKS wurde jedoch keine gesonderte Validierung durchgeführt.

Welche Version von HDFS und Spark wird im Big Data-Cluster ausgeführt?

Von Spark wird Version 2.4 und von HDFS Version 3.2.1 ausgeführt. Umfassende Informationen zu der im Big Data-Cluster enthaltenen Open-Source-Software finden Sie unter Referenz zu Open-Source-Software.

Wie werden in Spark Bibliotheken und Pakete installiert?

Pakete können Sie bei der Auftragsübermittlung mithilfe der Anleitung im Beispielnotebook zum Installieren von Paketen in Spark hinzufügen.

Muss ich für die Verwendung von R und Python für Big Data-Cluster für SQL Server SQL Server 2019 verwenden?

Machine Learning (ML) Services (R und Python) ist ab SQL Server 2017 verfügbar. ML Services ist darüber hinaus auch in Big Data-Clustern für SQL Server verfügbar. Weitere Informationen finden Sie unter Wie funktioniert SQL Server Machine Learning Services mit Python und R?.

Lizenzierung

Wie funktionieren SQL Server-Lizenzen für Big Data-Cluster für SQL Server?

Ausführlichere Informationen hierzu finden Sie im Leitfaden zur Lizenzierung, den Sie als PDF herunterladen können.
Eine Zusammenfassung finden Sie im Video SQL Server-Lizenzierung: Big Data-Cluster | Verfügbar gemachte Daten.

Sicherheit

Unterstützt Big Data-Cluster Microsoft Entra ID ([ehemals Azure Active Directory](/entra/fundamentals/new-name))?

Derzeit leider nicht.

Kann eine Verbindung mit einem Big Data-Cluster mithilfe der integrierten Authentifizierung hergestellt werden?

Ja, mithilfe der (in Active Directory) integrierten Authentifizierung können Sie eine Verbindung mit verschiedenen Big Data-Clusterdiensten herstellen. Weitere Informationen finden Sie unter Bereitstellen eines SQL Server-Big Data-Clusters im Active Directory-Modus. Darüber hinaus finden Sie hierzu auch Informationen unter Sicherheitskonzepte für Big Data-Cluster für SQL Server.

Wie kann ich für verschiedene Dienste im Big Data-Cluster neue Benutzer hinzufügen?

Im Standardauthentifizierungsmodus (Benutzername/Kennwort) wird das Hinzufügen mehrerer Benutzer für Controller- oder Knox-Gateway-/HDFS-Endpunkte nicht unterstützt. Für diese Endpunkte wird lediglich der Root-Benutzer unterstützt. Bei SQL Server können Sie Benutzer wie bei jedem anderen SQL-Server mithilfe von Transact-SQL hinzufügen. Beim Bereitstellen von Big Data-Clustern mit AD-Authentifizierung für die Endpunkte werden mehrere Benutzer unterstützt. Hier finden Sie weitere Informationen zum Konfigurieren von AD-Gruppen während der Bereitstellung. Weitere Informationen finden Sie unter Bereitstellen eines SQL Server-Big Data-Clusters im Active Directory-Modus.

Gibt es zum Pullen der aktuellen Containerimages im Big Data-Cluster einen Bereich mit ausgehenden IP-Adressen?

In Azure-IP-Adressbereiche und Diensttags – öffentliche Cloud können Sie nachschlagen, welche IP-Adressen von den verschiedenen Diensten verwendet werden. Diese IP-Adressen ändern sich ständig.
Damit der Controllerdienst die Containerimages aus der Microsoft Container Registry (MCR) pullen kann, müssen Sie Zugriff auf die im Abschnitt MicrosoftContainerRegistry angegebenen IP-Adressen gewähren. Sie können aber auch eine private Azure Container Registry einrichten und den Big Data-Cluster so einrichten, dass die Images von dort gepullt werden. In diesem Fall müssen Sie die im Abschnitt AzureContainerRegistry angegebenen IP-Adressen verfügbar machen. Eine entsprechende Anleitung mit Skript finden Sie unter Durchführen einer Offlinebereitstellung von Big Data-Clustern für SQL Server.

Kann ich Big Data-Cluster in einer Air Gap-Umgebung bereitstellen?

Ja. Weitere Informationen hierzu finden Sie unter Durchführen einer Offlinebereitstellung von Big Data-Clustern für SQL Server.

Kann das Feature „Azure Storage-Verschlüsselung“ standardmäßig auch auf AKS-basierte Big Data-Cluster angewendet werden?

Das hängt von der Konfiguration des Anbieters von dynamischem Speicher in Azure Kubernetes Service (AKS) ab. Weitere Informationen hierzu finden Sie unter Best Practices für Speicherung und Sicherungen in Azure Kubernetes Service (AKS).

Kann ich die Schlüssel für die Verschlüsselung von SQL Server und HDFS im Big Data-Cluster rotieren?

Ja. Weitere Informationen finden Sie unter Schlüsselversionen in Big Data-Clustern.

Kann ich die Kennwörter automatisch generierter Active Directory-Objekte rotieren?

Ja, Sie können die Kennwörter automatisch generierter Active Directory-Objekte problemlos mithilfe eines neuen Features rotieren, das in CU13 von Big Data-Cluster für SQL Server eingeführt wurde. Weitere Informationen finden Sie unter AD-Kennwortrotation.

Support

Werden Spark- und HDFS-Bereitstellungen in Big Data-Cluster für SQL Server von Microsoft unterstützt?

Ja, alle in Big Data-Cluster enthaltenen Komponenten werden von Microsoft unterstützt.

Welches Unterstützungsmodell gibt es für SparkML und SQL Server ML Services?

Die Supportrichtlinie für SQL Server ML Services ist mit der von SQL Server identisch, jedoch mit dem Unterschied, dass jede Hauptversion eine neue Runtimeversion enthält. Bei der SparkML-Bibliothek handelt es sich um eine Open-Source-Software (OSS). Big Data-Cluster enthalten zahlreiche OSS-Komponenten. Dies wird von Microsoft unterstützt.

Ist Red Hat Enterprise Linux 8 (RHEL8) eine Plattform, die für Big Data-Cluster für SQL Server unterstützt wird?

Derzeit leider nicht. Weitere Informationen zu den getesteten Konfigurationen

Tools

Handelt es sich bei den in Azure Data Studio verfügbaren Notebook-Instanzen im Grunde genommen um Jupyter Notebook-Instanzen?

Ja, es handelt sich um denselben Jupyter-Kernel, der kürzlich mit Azure Data Studio eingeführt wurde.

Wir das „azdata“-Tool als Open Source veröffentlicht?

Nein, azdata wird derzeit nicht als Open Source veröffentlicht.

Schulungsressourcen

Welche Trainingsoptionen sind für Big Data-Cluster verfügbar?