Question 1

Welche bewährten Methoden werden für Dateispeicherorte empfohlen?

Accepted Answer

Im Vergleich zur Konfiguration von SQL Server auf Bare-Metal-Computern unter Windows oder Linux gibt es in dieser Hinsicht weniger Flexibilität. In der Kubernetes-Umgebung werden diese Artefakte abstrahiert und müssen portabel sein. Derzeit gibt es zwei persistente Volumes (PVs) für Daten und Protokolle, die pro Pod bereitgestellt und konfiguriert werden können. Weitere Informationen finden Sie unter Datenpersistenz mit SQL Server-Big Data-Clustern in Kubernetes.

Question 2

Muss ich Transaktionsprotokollsicherungen auf SQL Server-Big Data-Clustern durchführen?

Accepted Answer

Sie müssen Protokollsicherungen nur für Benutzerdatenbanken in der SQL Server-Masterinstanz ausführen (je nach Wiederherstellungsmodell oder Hochverfügbarkeitskonfiguration). In Datenpooldatenbanken wird nur das EINFACHE Wiederherstellungsmodell verwendet. Dasselbe gilt für die DW*-Datenbanken, die für PolyBase erstellt wurden.

Question 3

Wie kann ich überwachen, ob der Computepool von verteilten Abfragen tatsächlich genutzt wird?

Accepted Answer

Sie können die vorhandenen PolyBase-DMVs verwenden, die für Big Data-Clusterszenarios verbessert wurden. Weitere Informationen finden Sie unter Überwachung und Problembehandlung für PolyBase.

Question 4

Ist es möglich, Big Data-Clusterressourcen direkt über kubectl auf dem Kubernetes-API-Server zu konfigurieren und zu verwalten?

Accepted Answer

Sie können zwar einige der Einstellungen mithilfe der Kubernetes-API oder kubectl ändern. Dies wird jedoch weder unterstützt noch empfohlen. Alle Big Data-Clusterverwaltungsvorgänge müssen über azdata ausgeführt werden.

Question 5

Wie kann ich in HDFS gespeicherte Daten sichern?

Accepted Answer

Sie können alle Lösungen verwenden, die Speichermomentaufnahmen auf Hardwareebene oder Kopieren/Synchronisieren über webHDFS ermöglichen. Sie können auch azdata bdc hdfs cp verwenden. Weitere Informationen finden Sie unter azdata bdc hdfs.

Question 6

Gibt es eine Möglichkeit, eine gespeicherte Prozedur „aufzuskalieren“? Beispielsweise die Möglichkeit, sie in einem Computepool ausführen zu lassen?

Accepted Answer

Derzeit leider nicht. Es gibt jedoch die Möglichkeit, SQL Server in einer Always On-Verfügbarkeitsgruppe bereitzustellen. Danach können Sie lesbare sekundäre Replikate verwenden, um einige Prozesse (wie ML-Training/-Bewertung, Wartungsaktivitäten usw.) auszuführen.

Question 7

Wie werden die Pods in einem Pool dynamisch skaliert?

Accepted Answer

Dieses Szenario wird derzeit nicht unterstützt.

Question 8

Ist es möglich, externe Tabellen zu sichern, die in Datenpools gespeichert sind?

Accepted Answer

Die Datenbank in der Datenpoolinstanz enthält ähnlich wie eine Benutzerdatenbank keine Metadaten zu externen Tabellen. Sie können zwar Sicherungen/Wiederherstellungen durchführen. Zur Vermeidung von inkonsistenten Ergebnissen müssen Sie jedoch sicherstellen, dass die Metadaten der externen Tabelle in der Datenbank für Metadaten in der SQL-Masterinstanz synchronisiert wurden.

Question 9

Ermöglicht der Datenpool Sharding?

Accepted Answer

Beim Datenpool handelt es sich um ein Konzept für verteilte Tabellen. Sharding wird in der Regel als OLTP-Konzept bezeichnet. Dies wird derzeit nicht unterstützt.

Question 10

Wann sollte ich den Datenpool, wann den Speicherpool zum Speichern von Rohdaten verwenden?

Accepted Answer

Mit dem Begriff „Pool“ wird eine Sammlung homogener Dienste oder Anwendungen bezeichnet. So enthält ein Datenpool beispielsweise zustandsbehaftete SQL Server-Compute- und Speicherdienste und ein Speicherpool HDFS- und Sparkdienste. Beim SQL Server-Master handelt es sich um eine einzelne Instanz oder um mehrere Instanzen, die in einer Verfügbarkeitsgruppe konfiguriert werden können. Bei der SQL Server Masterinstanz handelt es sich um eine reguläre SQL Server-Instanz unter Linux, in der jedes unter Linux verfügbare Feature verwendet werden kann. Beginnen Sie zunächst mit dem Datenmodell, den Entitäten und Diensten/Anwendungen, die in erster Linie für die Entität ausgeführt werden. Es ist nicht erforderlich, alle Daten an einem Ort wie SQL Server oder HDFS oder in einem Datenpool zu speichern. Die meisten Daten können je nach Datenanalyse in HDFS gespeichert, in einem effizienteren Format verarbeitet und für andere Dienste bereitgestellt werden. Die verbleibenden Daten werden in der SQL-Masterinstanz gespeichert.

Question 11

Werden in einem SQL Server-Big Data-Cluster GPU-basierte Deep Learning-Bibliotheken und -Berechnungen (PyTorch, Keras, bestimmte Bildbibliotheken usw.) unterstützt?

Accepted Answer

Dieses Szenario wird derzeit nicht unterstützt.

Question 12

Gibt es eine Möglichkeit, für einen Pool mehrere Volumeansprüche zu konfigurieren?

Accepted Answer

Ein Pod kann nur zwei persistente Volumes (PVs) enthalten. Sie können das Volume auf Betriebssystemebene abstrahieren und für persistenten Speicher verwenden. So können Sie beispielsweise eine RAID-0-Betriebssystempartition mit mehreren Datenträgern erstellen und mithilfe eines lokalen Speicheranbieters für ein persistentes Volume verwenden. Derzeit gibt es noch keine Möglichkeit, mehr PVs pro Pod zu verwenden. PVs werden Verzeichnissen im Container zugeordnet, und diese Zuordnung ist fix. Weitere Informationen zu persistenten Volumes finden Sie in der Dokumentation zu persistenten Volumes in Kubernetes.

Question 13

Wird die HDFS-Konfiguration mit allen Datenvolumeansprüchen aktualisiert, wenn mehrere Anbieter und Datenträger konfiguriert werden?

Accepted Answer

Sie können den Speicherpool so konfigurieren, dass zur Bereitstellungszeit eine bestimmte Speicherklasse verwendet wird. Informationen dazu finden Sie unter Datenpersistenz mit SQL Server-Big Data-Clustern in Kubernetes.

Question 14

Welche Optionen stehen für den Zugriff auf Ceph-basierten Speicher zur Verfügung?

Accepted Answer

HDFS-Tiering ermöglicht die transparente Integration in S3-basierte Protokolle. Weitere Informationen hierzu finden Sie unter Einbinden von S3 für HDFS-Tiering in einen Big Data-Cluster.

Question 15

Werden Daten in HDFS nach einem Upgrade beibehalten?

Accepted Answer

Ja, Daten werden beibehalten, da sie durch persistente Volumes gesichert sind und beim Upgrade nur vorhandene Pods mit neuen Images bereitgestellt werden.

Question 16

Wie wird der Cache durch HDFS-Tiering gesteuert?

Accepted Answer

Bei Verwendung von HDFS-Tiering werden Daten im lokalen HDFS im Big Data-Cluster zwischengespeichert, sodass Benutzer große Data Lakes anfügen können, ohne alle Daten einbinden zu müssen. Dem Cache ist eine konfigurierbare Menge an Speicherplatz zugeordnet, die derzeit standardmäßig auf 2 % festgelegt ist. Daten werden im Cache verwaltet, jedoch bei Überschreiten dieses Schwellenwerts entfernt. Die Sicherheit wird zudem über den Lake gewährleistet, und es werden alle Zugriffssteuerungslisten angewendet. Weitere Informationen finden Sie unter Konfigurieren von HDFS-Tiering in Big Data-Cluster für SQL Server.

Question 17

Kann SQL Server 2019 zum Visualisieren von Azure Data Lake Storage Gen2 verwendet werden? Wird bei dieser Integration die Berechtigung auf Ordnerebene übernommen?

Accepted Answer

Ja, Sie können in ADLS Gen2 gespeicherte Daten mithilfe von HDFS-Tiering virtualisieren. Nachdem HDFS-Tiering in ADLS Gen2 eingebunden wurde, können Benutzer die HDFS-Daten abfragen und Spark-Aufträge dafür ausführen. Der eingebundene Speicher wird im HDFS für Big Data-Cluster an dem durch „--mount-path“ angegebenen Speicherort angezeigt, und Benutzer können diesen Einbindungspfad wie einen lokalen Speicher verwenden. Weitere Informationen finden Sie unter Konfigurieren von HDFS-Tiering in Big Data-Cluster für SQL Server. Weitere Informationen zu HDFS-Ebenenberechtigungen finden Sie unter Verwalten von HDFS-Berechtigungen für Big Data-Cluster für SQL Server.

Question 18

Wie lautet die Standardeinstellung für Hochverfügbarkeit und/oder Redundanz für den Masterknoten in Azure Kubernetes Service (AKS)?

Accepted Answer

Die AKS-Steuerungsebene unterstützt die Betriebszeit-SLA und garantiert eine Verfügbarkeit von 99,95 %. Für die AKS-Clusterknoten (Workerknoten) werden Verfügbarkeitszonen verwendet. Weitere Informationen finden Sie unter AKS Verfügbarkeitszonen. Verfügbarkeitszonen (VZ) sind ein Hochverfügbarkeitsangebot von Azure, das Anwendungen und Daten vor Ausfällen von Rechenzentren schützt. AKS unterstützt eine Verfügbarkeit von 99,9 % für Cluster, in denen keine Verfügbarkeitszonen verwendet werden. Weitere Informationen finden Sie unter SLA für Azure Kubernetes Service (AKS).

Question 19

Gibt es eine Möglichkeit, YARN- und Spark-Auftragsverlaufsprotokolle beizubehalten?

Accepted Answer

Ein Neustart von Sparkhead führt nicht dazu, dass die Protokolle verloren gehen. Diese Protokolle befinden sich in HDFS. Auf der Benutzeroberfläche „/gateway/default/sparkhistory“ sollten weiterhin Spark-Verlaufsprotokolle angezeigt werden. Bei Yarn-Containerprotokollen werden diese Apps nicht auf der Yarn-Benutzeroberfläche angezeigt, da Yarn RM neu gestartet wird, diese Yarn-Protokolle sich jedoch weiterhin in HDFS befinden und Sie über den Spark-Verlaufsserver eine Verknüpfung mit ihnen herstellen können. Zum Diagnostizieren der Spark-Apps sollten Sie immer den Spark-Verlaufsserver als Einstiegspunkt verwenden.

Question 20

Gibt es eine Möglichkeit, die Zwischenspeicherungsfunktion für Pools zu deaktivieren?

Accepted Answer

Standardmäßig wird 1 % des gesamten HDFS-Speichers für das Zwischenspeichern der eingebundenen Daten reserviert. Das Zwischenspeichern ist eine Einbindungen übergreifende globale Einstellung. Derzeit gibt es keine Möglichkeit, sie zu deaktivieren. Über die Einstellung hdfs-site.dfs.provided.cache.capacity.fraction kann jedoch der Prozentsatz konfiguriert werden. Mit dieser Einstellung lässt sich festlegen, welcher Prozentsatz der Gesamtkapazität im Cluster zum Zwischenspeichern von Daten aus bereitgestellten speichern verwendet werden kann. Informationen zum Ändern dieser Einstellung finden Sie unter Konfigurieren von BDC-Einstellungen nach der Bereitstellung. Weitere Informationen finden Sie unter Konfigurieren von HDFS-Tiering in Big Data-Cluster für SQL Server.

Question 21

Wie lassen sich gespeicherte SQL-Prozeduren in Big Data-Cluster für SQL Server 2019 planen?

Accepted Answer

Hierzu können Sie den Dienst SQL Server-Agent in der SQL Server-Masterinstanz des Big Data-Clusters verwenden.

Question 22

Werden Szenarios zu nativen Zeitreihendaten wie etwa durch IoT-Anwendungsfälle generierte Daten von Big Data-Clustern unterstützt?

Accepted Answer

Derzeit wird InfluxDB in einem Big Data-Cluster nicht als externer Endpunkt verfügbar gemacht, sondern nur zum Speichern von Überwachungsdaten verwendet, die im Big Data-Cluster erfasst wurden.

Question 23

Kann die bereitgestellte InfluxDB als Zeitreihendatenbank für Kundendaten verwendet werden?

Accepted Answer

Derzeit wird InfluxDB in einem Big Data-Cluster nicht als externer Endpunkt verfügbar gemacht, sondern nur zum Speichern von Überwachungsdaten verwendet, die im Big Data-Cluster erfasst wurden.

Question 24

Wie wird der Verfügbarkeitsgruppe eine Datenbank hinzugefügt?

Accepted Answer

Im Big Data-Cluster wird über die Hochverfügbarkeitskonfiguration die Verfügbarkeitsgruppe „containedag“ erstellt, die Systemdatenbanken enthält, die replikatübergreifend repliziert werden. Datenbanken, die infolge eines CREATE DATABASE- oder RESTORE-Workflows erstellt werden, werden der enthaltenen VG automatisch hinzugefügt und für ein Seeding verwendet. Bei Versionen vor SQL Server 2019 (15.0) CU2 müssen Sie mit der physischen Instanz im Big Data-Cluster eine Verbindung herstellen, die Datenbank wiederherstellen und die Datenbank der Verfügbarkeitsgruppe „containedag“ hinzufügen. Weitere Informationen finden Sie unter Bereitstellen von Big Data-Clustern in SQL Server mit Hochverfügbarkeit.

Question 25

Kann ich CPU-/Speicherressourcen für Komponenten konfigurieren, die im Big Data-Cluster ausgeführt werden?

Accepted Answer

Derzeit kann Speicher für die SQL-Instanzen wie in SQL Server mit „sp_configure“ festgelegt werden. Für CPUs kann ALTER SERVER CONFIGURATION SET PROCESS AFFINITY verwendet werden. Standardmäßig haben Container auf alle CPUs im Host Zugriff. Derzeit gibt es keine Möglichkeit mit Kubernetes Ressourcenlimits festzulegen. Computepool, Datenpool und Speicherpool können mit der EXECUTE AT DATA_SOURCE-Anweisung über die SQL Server-Masterinstanz konfiguriert werden.

Question 26

Was geschieht, wenn einer der Kubernetes-Workerknoten heruntergefahren wird oder ausfällt?

Accepted Answer

Pods, die nicht an den entsprechenden Workerknoten gebunden sind, werden auf einen anderen Knoten im Kubernetes-Cluster verschoben, vorausgesetzt, es sind genügend Ressourcen vorhanden. Andernfalls sind die Pods nicht verfügbar, was zu Ausfällen führt.

Question 27

Wird ein Big Data-Cluster automatisch umverteilt, wenn ich dem Kubernetes-Cluster einen Knoten hinzufüge?

Accepted Answer

Diese Aktion hängt ausschließlich von Kubernetes ab. Abgesehen von der Podplatzierung mit Knotenbezeichnungen gibt es keinen anderen Mechanismus zum Steuern der Umverteilung von Kubernetes-Ressourcen in einem Big Data-Cluster.

Question 28

Welche Folgen hat es für Big Data-Clusterressourcen, wenn im Kubernetes-Cluster ein Knoten entfernt wird?

Accepted Answer

Diese Aktion entspricht dem Herunterfahren des Hostknotens. Es gibt Mechanismen, um diese Aktion mithilfe eines Taintingprozesses in Kubernetes zu orchestrieren. Diese werden in der Regel für Upgrades oder Knotenwartungen verwendet. Weitere Informationen hierzu finden Sie in der Dokumentation zu Kubernetes unter Taints and Tolerations (Taints und Toleranzen).

Question 29

Werden von der im Big Data-Cluster integrierten Version von Hadoop Daten repliziert?

Accepted Answer

Ja, der Replikationsfaktor ist eine der verfügbaren Konfigurationen für HDFS. Weitere Informationen finden Sie unter Konfigurieren persistenter Volumes.

Question 30

Überlappen sich Big Data-Cluster in Bezug auf Funktionalität und Integration mit Synapse?

Accepted Answer

Das hängt von den jeweiligen Anwendungsfällen und Anforderungen ab. Ein Big Data-Cluster bietet neben den von Microsoft unterstützten lokalen Versionen von Spark und HDFS auch eine umfassende SQL Server-Oberfläche. Ein Big Data-Cluster ermöglicht dem SQL Server-Kunden die Integration in Analysen/Big Data. Azure Synapse ist eine reine Analyseplattform, die als verwalteter Dienst in der Cloud eine erstklassige Umgebung für Kunden bietet, bei denen der Fokus auf Aufskalierungsanalysen liegt. Azure Synapse ist dabei nicht für betriebliche Workloads vorgesehen. Vielmehr sollen mit einem Big Data-Cluster datenbankinterne Analyseszenarios bereitgestellt werden, die näher am Betriebsspeicher liegen.

Question 31

Wird HDFS von SQL Server in Big Data-Clustern für SQL Server als Speicher verwendet?

Accepted Answer

Die Datenbankdateien der SQL Server-Instanz werden nicht in HDFS gespeichert. HDFS kann jedoch von SQL Server mithilfe einer externen Tabellenschnittstelle abgefragt werden.

Question 32

Welche Verteilungsoptionen stehen beim Speichern von Daten in den verteilten Tabellen in den einzelnen Datenpools zur Verfügung?

Accepted Answer

ROUND_ROBIN und REPLICATED. ROUND_ROBIN ist die Standardeinstellung. HASH ist nicht verfügbar.

Question 33

Ist der Spark Thrift-Server im Big Data-Cluster enthalten? Wenn ja, wird der ODBC-Endpunkt zum Herstellen einer Verbindung mit Hive-Metastore-Tabellen verfügbar gemacht?

Accepted Answer

Derzeit wird Hive-Metastore (HMS) über das Thrift-Protokoll verfügbar gemacht. Das Protokoll wird dokumentiert. Derzeit ist jedoch noch kein ODBC-Endpunkt eingerichtet. Sie können über das Hive-Metastore-HTTP-Protokoll darauf zugreifen. Weitere Informationen hierzu finden Sie unter Hive-Metastore-HTTP-Protokoll.

Question 34

Können Daten aus SnowFlake in einem Big Data-Cluster erfasst werden?

Accepted Answer

Die generische ODBC-Datenquelle, mit der ein ODBC-Treiber von Drittanbietern (SnowFlake, DB2, PostgreSQL usw.) installiert und die Datenquelle abgefragt werden kann, wird von SQL Server für Linux nicht unterstützt. (Dies gilt auch für die SQL Server-Masterinstanz im Big Data-Cluster.) Dieses Feature ist derzeit nur in SQL Server 2019 (15.0) unter Windows verfügbar. Im Big Data-Cluster können die Daten über Spark mithilfe von JDBC eingelesen und in SQL Server mithilfe des MSSQL-Spark-Connectors erfasst werden.

Question 35

Können Daten mithilfe einer benutzerdefinierten ODBC-Datenquelle in einem Big Data-Cluster erfasst werden?

Accepted Answer

Die generische ODBC-Datenquelle, mit der ein ODBC-Treiber von Drittanbietern (SnowFlake, DB2, PostgreSQL usw.) installiert und die Datenquelle abgefragt werden kann, wird von SQL Server für Linux nicht unterstützt. (Dies gilt auch für die SQL Server-Masterinstanz im Big Data-Cluster.)

Question 36

Wie können Daten mithilfe von PolyBase CTAS importiert werden, sodass nicht bei jeder Ausführung von CTAS eine NEUE Tabelle erstellt werden muss?

Accepted Answer

Sie können INSERT..SELECT verwenden, um nicht jedes Mal eine neue Tabelle erstellen zu müssen.

Question 37

Welche Vor-/Nachteile hat es, wenn Daten nicht als lokale Tabellen direkt in die Masterinstanz, sondern in einen Datenpool geladen werden?

Accepted Answer

Wenn die SQL Server-Masterinstanz über genügend Ressourcen für die Analyseworkload verfügt, ist dies immer die schnellste Methode. Ein Datenpool ist hilfreich, wenn Sie die Ausführung für verteilte Abfragen auf andere SQL-Instanzen auslagern möchten. Einen Datenpool können Sie auch verwenden, um Daten aus Spark-Executors parallel in verschiedenen SQL-Instanzen zu erfassen. Damit ist die Ladeleistung bei großen Datasets, die über das HDFS (Hadoop Distributed File System) erstellt werden, in der Regel besser als bei Verwendung einer einzelnen SQL Server-Instanz. Dies ist jedoch schwer zu sagen, da ggf. immer noch mehrere Tabellen in einem SQL-Server verwendet und parallel eingefügt werden können. Die Leistung hängt von vielen Faktoren ab, und es gibt in dieser Hinsicht nicht die eine Anleitung oder Empfehlung.

Question 38

Wie kann ich die Datenverteilung in den Datenpooltabellen überwachen?

Accepted Answer

Sie können EXECUTE AT verwenden, um DMVs wie „sys.dm_db_partition_stats“ abzufragen und so Daten in den einzelnen lokalen Tabellen abzurufen.

Question 39

Ist „curl“ die einzige Möglichkeit zum Hochladen von Dateien in HDFS?

Accepted Answer

Nein, Sie können auch azdata bdc hdfs cp verwenden. Wenn Sie das Stammverzeichnis angeben, wird mit dem Befehl die gesamte Struktur rekursiv kopiert. Mit diesem Befehl können Sie kopieren, indem Sie lediglich die Quell-/Zielpfade ändern.

Question 40

Wie kann ich Daten in den Datenpool laden?

Accepted Answer

Für die SQL- und Datenpoolerfassung können Sie die MSSQL-Spark-Connectorbibliothek verwenden. Eine entsprechende Anleitung finden Sie unter Tutorial: Erfassen von Daten in einem SQL Server-Datenpool mithilfe von Spark-Aufträgen.

Question 41

Wie lade ich in einem Big Data-Cluster Daten in HDFS hoch, wenn ich viele Daten in einem (Windows)-Netzwerkpfad habe, der viele Ordner/Unterordner und Textdateien enthält?

Accepted Answer

Verwenden Sie azdata bdc hdfs cp. Wenn Sie das Stammverzeichnis angeben, wird mit dem Befehl die gesamte Struktur rekursiv kopiert. Mit diesem Befehl können Sie kopieren, indem Sie lediglich die Quell-/Zielpfade ändern.

Question 42

Kann der Speicherpool in einem bereitgestellten Cluster vergrößert werden?

Accepted Answer

Derzeit gibt es keine azdata-Schnittstelle für diesen Vorgang. Es gibt jedoch die Möglichkeit, die Größe der jeweiligen PVCs manuell anzupassen. Eine Größenänderung ist ein komplexer Vorgang. Weitere Informationen finden Sie in der Dokumentation zu Kubernetes im Abschnitt über persistente Volumes.

Question 43

Wann sollte ich Verbindungsserver, wann PolyBase verwenden?

Accepted Answer

Die wichtigsten Unterschiede und Anwendungsfälle werden unter Häufig gestellte Fragen zu PolyBase beschrieben.

Question 44

Welche Datenquellen werden bei der Datenvirtualisierung unterstützt?

Accepted Answer

In Big Data-Clustern wird die Datenvirtualisierung über ODBC-Quellen wie SQL Server, Oracle, MongoDB, Teradata usw. unterstützt. Zudem wird das Tiering von Remotespeichern wie Azure Data Lake Storage Gen2 und S3-kompatiblen Speichern sowie von AWS S3A und Azure Blob File System (ABFS) unterstützt.

Question 45

Kann ich zum Virtualisieren von in einer Azure SQL-Datenbank gespeicherten Daten PolyBase verwenden?

Accepted Answer

Ja, Sie können PolyBase im Big Data-Cluster verwenden, um auf Daten in Azure SQL-Datenbank zuzugreifen.

Question 46

Warum enthalten die CREATE TABLE-Anweisungen das Schlüsselwort EXTERNAL? Welche anderen Auswirkungen hat EXTERNAL im Vergleich zur standardmäßigen CREATE TABLE-Anweisung?

Accepted Answer

Das Schlüsselwort EXTERNAL besagt generell, dass sich die Daten nicht in der SQL Server-Instanz befinden. Sie können beispielsweise zusätzlich zu einem HDFS-Verzeichnis eine Speicherpooltabelle definieren. Dabei werden die Daten nicht in den Datenbankdateien, sondern in HDFS-Dateien gespeichert. Die externe Tabelle stellt dann die Schnittstelle dar, über die die HDFS-Dateien wie in einer relationalen Tabelle so abgefragt werden können, als würden sie sich in der Datenbank befinden.
Dieses Konzept des Zugriffs auf externe Daten wird als Datenvirtualisierung bezeichnet. Weitere Informationen finden Sie unter Einführung in die Datenvirtualisierung mit PolyBase. Ein Tutorial zum Virtualisieren von Daten aus CSV-Dateien in HDFS finden Sie unter Virtualisieren von CSV-Daten aus einem Speicherpool (Big Data-Cluster).

Question 47

Wie unterscheidet sich die Datenvirtualisierung über SQL Server, das in SQL Server-Big Data-Cluster ausgeführt wird, von der Datenvirtualisierung in SQL Server?

Accepted Answer

Einen Vergleich finden Sie unter PolyBase in Big Data-Clustern im Vergleich zu PolyBase in eigenständigen Instanzen.

Question 48

Wie kann ich auf einen Blick erkennen, ob eine externe Tabelle auf einen Datenpool oder auf einen Speicherpool verweist?

Accepted Answer

Um welche Tabellenart es sich handelt, können Sie am Präfix für den Speicherort der Datenquelle erkennen, z. B. „sqlserver://“, „oracle://“, „sqlhdfs://“, „sqldatapool://“.

Question 49

Bei der Bereitstellung meines Big Data-Clusters ist ein Fehler aufgetreten. Woran kann ich erkennen, was schiefgelaufen ist?

Accepted Answer

Hierzu finden Sie Informationen unter Verwalten von SQL Server-Big Data-Clustern mit Azure Data Studio-Notebooks Weitere Informationen finden Sie auch in den Themen zur Problembehandlung unter Problembehandlung für Kubernetes.

Question 50

Gibt es eine offizielle Liste mit allen Einstellungen für die Konfiguration des Big Data-Clusters?

Accepted Answer

Alle Anpassungen, die bei der Bereitstellung vorgenommen werden können, sind unter Konfigurieren von Bereitstellungseinstellungen für Clusterressourcen und -dienste dokumentiert. Informationen zu Spark finden Sie unter Konfigurieren von Apache Spark und Apache Hadoop in Big Data-Clustern.

Question 51

Kann SQL Server Analysis Services zusammen mit Big Data-Clustern für SQL Server bereitgestellt werden?

Accepted Answer

Nein. Insbesondere SQL Server Analysis Services (SSAS) wird unter SQL Server für Linux nicht unterstützt, sodass Sie für die Ausführung von SSAS eine SQL Server-Instanz unter Windows Server installieren müssen.

Question 52

Werden bei der Bereitstellung in EKS oder GKS Big Data-Cluster unterstützt?

Accepted Answer

Big Data-Cluster können in jedem Kubernetes-Stapel ausgeführt werden, der auf einer Version ab 1.13 basiert. Für Big Data-Cluster in EKS oder GKS wurde jedoch keine gesonderte Validierung durchgeführt.

Question 53

Welche Version von HDFS und Spark wird im Big Data-Cluster ausgeführt?

Accepted Answer

Von Spark wird Version 2.4 und von HDFS Version 3.2.1 ausgeführt. Umfassende Informationen zu der im Big Data-Cluster enthaltenen Open-Source-Software finden Sie unter Referenz zu Open-Source-Software.

Question 54

Wie werden in Spark Bibliotheken und Pakete installiert?

Accepted Answer

Pakete können Sie bei der Auftragsübermittlung mithilfe der Anleitung im Beispielnotebook zum Installieren von Paketen in Spark hinzufügen.

Question 55

Muss ich für die Verwendung von R und Python für Big Data-Cluster für SQL Server SQL Server 2019 verwenden?

Accepted Answer

Machine Learning (ML) Services (R und Python) ist ab SQL Server 2017 verfügbar. ML Services ist darüber hinaus auch in Big Data-Clustern für SQL Server verfügbar. Weitere Informationen finden Sie unter Wie funktioniert SQL Server Machine Learning Services mit Python und R?.

Question 56

Wie funktionieren SQL Server-Lizenzen für Big Data-Cluster für SQL Server?

Accepted Answer

Ausführlichere Informationen hierzu finden Sie im Leitfaden zur Lizenzierung, den Sie als PDF herunterladen können.
Eine Zusammenfassung finden Sie im Video SQL Server-Lizenzierung: Big Data-Cluster | Verfügbar gemachte Daten.

Question 57

Unterstützt Big Data-Cluster Microsoft Entra ID ([ehemals Azure Active Directory](/entra/fundamentals/new-name))?

Accepted Answer

Derzeit leider nicht.

Question 58

Kann eine Verbindung mit einem Big Data-Cluster mithilfe der integrierten Authentifizierung hergestellt werden?

Accepted Answer

Ja, mithilfe der (in Active Directory) integrierten Authentifizierung können Sie eine Verbindung mit verschiedenen Big Data-Clusterdiensten herstellen. Weitere Informationen finden Sie unter Bereitstellen eines SQL Server-Big Data-Clusters im Active Directory-Modus. Darüber hinaus finden Sie hierzu auch Informationen unter Sicherheitskonzepte für Big Data-Cluster für SQL Server.

Question 59

Wie kann ich für verschiedene Dienste im Big Data-Cluster neue Benutzer hinzufügen?

Accepted Answer

Im Standardauthentifizierungsmodus (Benutzername/Kennwort) wird das Hinzufügen mehrerer Benutzer für Controller- oder Knox-Gateway-/HDFS-Endpunkte nicht unterstützt. Für diese Endpunkte wird lediglich der Root-Benutzer unterstützt. Bei SQL Server können Sie Benutzer wie bei jedem anderen SQL-Server mithilfe von Transact-SQL hinzufügen. Beim Bereitstellen von Big Data-Clustern mit AD-Authentifizierung für die Endpunkte werden mehrere Benutzer unterstützt. Hier finden Sie weitere Informationen zum Konfigurieren von AD-Gruppen während der Bereitstellung. Weitere Informationen finden Sie unter Bereitstellen eines SQL Server-Big Data-Clusters im Active Directory-Modus.

Question 60

Gibt es zum Pullen der aktuellen Containerimages im Big Data-Cluster einen Bereich mit ausgehenden IP-Adressen?

Accepted Answer

In Azure-IP-Adressbereiche und Diensttags – öffentliche Cloud können Sie nachschlagen, welche IP-Adressen von den verschiedenen Diensten verwendet werden. Diese IP-Adressen ändern sich ständig.
Damit der Controllerdienst die Containerimages aus der Microsoft Container Registry (MCR) pullen kann, müssen Sie Zugriff auf die im Abschnitt MicrosoftContainerRegistry angegebenen IP-Adressen gewähren. Sie können aber auch eine private Azure Container Registry einrichten und den Big Data-Cluster so einrichten, dass die Images von dort gepullt werden. In diesem Fall müssen Sie die im Abschnitt AzureContainerRegistry angegebenen IP-Adressen verfügbar machen. Eine entsprechende Anleitung mit Skript finden Sie unter Durchführen einer Offlinebereitstellung von Big Data-Clustern für SQL Server.

Question 61

Kann ich Big Data-Cluster in einer Air Gap-Umgebung bereitstellen?

Accepted Answer

Ja. Weitere Informationen hierzu finden Sie unter Durchführen einer Offlinebereitstellung von Big Data-Clustern für SQL Server.

Question 62

Kann das Feature „Azure Storage-Verschlüsselung“ standardmäßig auch auf AKS-basierte Big Data-Cluster angewendet werden?

Accepted Answer

Das hängt von der Konfiguration des Anbieters von dynamischem Speicher in Azure Kubernetes Service (AKS) ab. Weitere Informationen hierzu finden Sie unter Best Practices für Speicherung und Sicherungen in Azure Kubernetes Service (AKS).

Question 63

Kann ich die Schlüssel für die Verschlüsselung von SQL Server und HDFS im Big Data-Cluster rotieren?

Accepted Answer

Ja. Weitere Informationen finden Sie unter Schlüsselversionen in Big Data-Clustern.

Question 64

Kann ich die Kennwörter automatisch generierter Active Directory-Objekte rotieren?

Accepted Answer

Ja, Sie können die Kennwörter automatisch generierter Active Directory-Objekte problemlos mithilfe eines neuen Features rotieren, das in CU13 von Big Data-Cluster für SQL Server eingeführt wurde. Weitere Informationen finden Sie unter AD-Kennwortrotation.

Freigeben über

FAQ zu Big Data-Cluster für SQL Server

Bewährte Methoden