Q: ファイルの場所に関して推奨されるベスト プラクティスは何ですか?

Windows または Linux 上のベアメタル コンピューターでの SQL Server の構成と比較すると、この点に関して柔軟性に劣ります。 Kubernetes 環境では、これらのアーティファクトは抽象化されており、移植可能である必要があります。 現時点では、データとログ用に 2 つの永続ボリューム (PV) があり、構成可能なポッドごとに提供されています。 詳細については、「 Kubernetes の SQL Server ビッグ データ クラスターでのデータ永続化 」を参照してください。

Q: SQL Server ビッグ データ クラスターでトランザクション ログ バックアップを行う必要がありますか?

SQL Server マスター インスタンス内のユーザー データベースのログ バックアップのみを行う必要があります (復旧モデルまたは HA 構成によって異なります)。 データ プール データベースには単純復旧モデルのみを使用します。 PolyBase 用に作成された DW* データベースに対しても同じことが当てはまります。

Q: 分散クエリにコンピューティング プールが実際に使用されているかどうかを監視する方法はありますか?

ビッグ データ クラスターのシナリオ用に拡張された既存の PolyBase DMV を使用できます。 詳細については、「 PolyBase の監視とトラブルシューティング 」を参照してください。

Q: HDFS に格納されているデータをバックアップするにはどうすればよいですか?

ハードウェア レベルのストレージのスナップショットまたは webHDFS を使用したコピーと同期の機能を可能にする任意のソリューションを使用できます。 azdata bdc hdfs cp を使用することもできます。詳細については、「 azdata bdc hdfs 」を参照してください。

Q: ストアド プロシージャを "スケールアウト" する方法はありますか? たとえば、コンピューティング プールで実行するなどです。

現時点ではありません。 1 つの方法として、 Always On 可用性グループ に SQL Server を展開します。 次に、 読み取り可能なセカンダリ レプリカ を使用して、いくつかのプロセスを実行できます (例: ML のトレーニングまたはスコアリング、メンテナンス作業など)。

Q: データ プールに格納されている外部テーブルをバックアップすることはできますか?

データ プール インスタンス内のデータベースには、外部テーブルに関するメタデータがありません。それはユーザー データベースと同じです。 バックアップと復元を行うことができますが、一貫性のない結果にならないように、 SQL マスター インスタンス のメタデータ データベース内にある外部テーブルのメタデータが同期されていることを確認する必要があります。

Q: データ プールにシャーディングは提供されますか?

データ プールは分散テーブルの概念です。 シャーディングは通常、OLTP の概念として表されます。これは現在サポートされていません。

Q: 生データ ストレージにはデータ プールと記憶域プールのどちらを使用すればよいですか?

プールという用語は、同種のサービスまたはアプリケーションの集合を表すために予約されています。 たとえば、データ プールは一連のステートフルな SQL Server コンピューティングとストレージであり、記憶域プールは、一連の HDFS および Spark サービスです。 SQL Server マスターは、可用性グループに構成できる、1 つのインスタンスまたは複数のインスタンスのいずれかです。 SQL Server マスター インスタンスは、Linux 上の通常の SQL Server インスタンスであり、Linux で使用できるあらゆる機能をそこで使用できます。 最初は、データ モデル、エンティティ、および主にエンティティに対して作用するサービスとアプリケーションを使用して開始することになるでしょう。 すべてのデータを SQL Server、HDFS、データ プールなどの 1 つの場所に保存する必要はありません。 データ分析に基づいて、ほとんどのデータを HDFS に格納し、データをより効率的な形式に処理し、他のサービスに公開することができます。 残りのデータは SQL マスター インスタンスに格納されます。

Question 1

ファイルの場所に関して推奨されるベスト プラクティスは何ですか?

Accepted Answer

Windows または Linux 上のベアメタルコンピューターでの SQL Server の構成と比較すると、この点に関して柔軟性に劣ります。 Kubernetes 環境では、これらのアーティファクトは抽象化されており、移植可能である必要があります。現時点では、データとログ用に 2 つの永続ボリューム (PV) があり、構成可能なポッドごとに提供されています。詳細については、「Kubernetes の SQL Server ビッグデータクラスターでのデータ永続化」を参照してください。

Question 2

SQL Server ビッグ データ クラスターでトランザクション ログ バックアップを行う必要がありますか?

Accepted Answer

SQL Server マスターインスタンス内のユーザーデータベースのログバックアップのみを行う必要があります (復旧モデルまたは HA 構成によって異なります)。データプールデータベースには単純復旧モデルのみを使用します。 PolyBase 用に作成された DW* データベースに対しても同じことが当てはまります。

Question 3

分散クエリにコンピューティング プールが実際に使用されているかどうかを監視する方法はありますか?

Accepted Answer

ビッグデータクラスターのシナリオ用に拡張された既存の PolyBase DMV を使用できます。詳細については、「PolyBase の監視とトラブルシューティング」を参照してください。

Question 4

Kubectl を介して Kubernetes API サーバーに直接ビッグ データ クラスター リソースを構成して管理することはできますか?

Accepted Answer

Kubernetes API または kubectl を使用して一部の設定を変更することはできますが、そうすることはサポートされておらず、お勧めしません。すべてのビッグデータクラスター管理操作は azdata を使用して実行する必要があります。

Question 5

HDFS に格納されているデータをバックアップするにはどうすればよいですか?

Accepted Answer

ハードウェアレベルのストレージのスナップショットまたは webHDFS を使用したコピーと同期の機能を可能にする任意のソリューションを使用できます。 azdata bdc hdfs cp を使用することもできます。詳細については、「azdata bdc hdfs」を参照してください。

Question 6

ストアド プロシージャを "スケールアウト" する方法はありますか? たとえば、コンピューティング プールで実行するなどです。

Accepted Answer

現時点ではありません。 1 つの方法として、Always On 可用性グループに SQL Server を展開します。次に、読み取り可能なセカンダリレプリカを使用して、いくつかのプロセスを実行できます (例: ML のトレーニングまたはスコアリング、メンテナンス作業など)。

Question 7

プールのポッドを動的にスケーリングする方法は?

Accepted Answer

これは、現時点ではサポートされていないシナリオです。

Question 8

データ プールに格納されている外部テーブルをバックアップすることはできますか?

Accepted Answer

データプールインスタンス内のデータベースには、外部テーブルに関するメタデータがありません。それはユーザーデータベースと同じです。バックアップと復元を行うことができますが、一貫性のない結果にならないように、SQL マスターインスタンスのメタデータデータベース内にある外部テーブルのメタデータが同期されていることを確認する必要があります。

Question 9

データ プールにシャーディングは提供されますか?

Accepted Answer

データプールは分散テーブルの概念です。シャーディングは通常、OLTP の概念として表されます。これは現在サポートされていません。

Question 10

生データ ストレージにはデータ プールと記憶域プールのどちらを使用すればよいですか?

Accepted Answer

プールという用語は、同種のサービスまたはアプリケーションの集合を表すために予約されています。たとえば、データプールは一連のステートフルな SQL Server コンピューティングとストレージであり、記憶域プールは、一連の HDFS および Spark サービスです。 SQL Server マスターは、可用性グループに構成できる、1 つのインスタンスまたは複数のインスタンスのいずれかです。 SQL Server マスターインスタンスは、Linux 上の通常の SQL Server インスタンスであり、Linux で使用できるあらゆる機能をそこで使用できます。最初は、データモデル、エンティティ、および主にエンティティに対して作用するサービスとアプリケーションを使用して開始することになるでしょう。すべてのデータを SQL Server、HDFS、データプールなどの 1 つの場所に保存する必要はありません。データ分析に基づいて、ほとんどのデータを HDFS に格納し、データをより効率的な形式に処理し、他のサービスに公開することができます。残りのデータは SQL マスターインスタンスに格納されます。

Question 11

SQL Server ビッグ データ クラスターで、GPU ベースのディープ ラーニング ライブラリと計算 (PyTorch、Keras、特定の画像ライブラリなど) はサポートされていますか?

Accepted Answer

これは、現時点ではサポートされていないシナリオです。

Question 12

プールに対して複数のボリューム要求を構成する方法はありますか?

Accepted Answer

各ポッドには、2 つの永続化ボリューム (PV) のみを含めることができます。 OS レベルでボリュームを抽象化し、永続ストレージ用に使用することができます。たとえば、複数のディスクを使用して RAID 0 の OS パーティションを作成し、ローカルストレージプロビジョナーを使用して永続ボリューム用に使用することができます。現在、各ポッドにそれより多くの PV を使用する方法はありません。 PV はコンテナー内のディレクトリに対してマップされており、これは固定されています。永続化ボリュームの詳細については、Kubernetes のドキュメントで「Persistent Volumes」 (永続ボリューム) を参照してください。

Question 13

複数のプロバイダーと複数のディスクを構成した場合、HDFS の構成はすべてのデータ ボリューム要求で更新されますか?

Accepted Answer

展開時に特定のストレージクラスを使用するように記憶域プールを構成することができます。「Kubernetes の SQL Server ビッグデータクラスターでのデータ永続化」を参照してください。

Question 14

Ceph ベースのストレージにアクセスするためのオプションは何ですか?

Accepted Answer

HDFS 階層化を使用すると、S3 ベースのプロトコルとの透過的な統合が可能です。詳細については、「ビッグデータクラスターに HDFS 階層制御のための S3 をマウントする方法」を参照してください。

Question 15

HDFS のデータはアップグレード後も保持されますか?

Accepted Answer

はい。データは永続ボリュームによってバックアップされるため、保持されます。アップグレードによって、既存のポッドが新しいイメージで展開されるだけです。

Question 16

HDFS 階層化によってキャッシュはどのように制御されますか?

Accepted Answer

HDFS 階層化を使用すると、ビッグデータクラスターで実行されているローカルの HDFS 内にデータがキャッシュされ、ユーザーはすべてのデータを取り込む必要なく、大規模なデータレイクに接続できます。現在、キャッシュに割り当てられた構成可能な領域の容量は、既定で 2% に設定されています。データはキャッシュに保持されますが、そのしきい値を超えた場合は削除されます。セキュリティもレイクから維持され、すべての ACL が適用されます。詳細については、ビッグデータクラスターでの HDFS の階層化の構成に関するページを参照してください。

Question 17

SQL Server 2019 を使用して Azure Data Lake Store Gen2 を視覚化できますか? この統合によってフォルダー レベルのアクセス許可が処理されますか?

Accepted Answer

はい。HDFS 階層化を使用して、ADLS Gen2 に格納されているデータを仮想化できます。 HDFS 階層化が ADLS Gen2 にマウントされると、ユーザーは HDFS データに対してクエリを実行し、それに対して Spark ジョブを実行できるようになります。マウントされたストレージは、-- マウントパスで指定された場所にあるビッグデータクラスターの HDFS に表示されます。ユーザーは、ローカル記憶域を使用する場合と同様に、そのマウントパスを操作できます。詳細については、ビッグデータクラスターでの HDFS の階層化の構成に関するページを参照してください。 HDFS レベルのアクセス許可の詳細については、「SQL Server ビッグデータクラスターの HDFS アクセス許可を管理する」を参照してください。

Question 18

Azure Kubernetes Service (AKS) のマスター ノードについて、既定の高可用性と冗長性の設定は何ですか?

Accepted Answer

AKS コントロールプレーンでは、アップタイム SLA によって 99.95% の可用性が保証されます。 AKS クラスターノード (ワーカーノード) には可用性ゾーンが使用されます。詳細については、AKS 可用性ゾーンに関するページを参照してください。可用性ゾーン (AZ) は、高可用性を提供する Azure のサービスで、アプリケーションとデータをデータセンターの障害から保護します。 AKS によって、可用性ゾーンを使用しないクラスターに対して 99.9% の可用性がサポートされます。詳細については、「Azure Kubernetes Service (AKS) の SLA」を参照してください。

Question 19

YARN と Spark のジョブ履歴ログを保持する方法はありますか?

Accepted Answer

Sparkhead を再起動してもログが失われることはありません。これらのログは HDFS に記録されます。 /gateway/default/sparkhistory UI の Spark 履歴ログが引き続き表示されます。 Yarn コンテナーログの場合、Yarn RM が再起動されるため、それらのアプリは Yarn UI に表示されませんが、Yarn ログは引き続き HDFS 内にあり、Spark 履歴サーバーからリンクすることができます。 Spark アプリを診断するには、常に Spark 履歴サーバーをエントリポイントとして使用する必要があります。

Question 20

プールのキャッシュ機能を無効にする方法はありますか?

Accepted Answer

既定では、HDFS の総ストレージ容量の 1% が、マウントされたデータのキャッシュ用に予約されます。キャッシュは、マウント全体のグローバル設定です。現時点では、これを無効にする方法は公開されていませんが、hdfs-site.dfs.provided.cache.capacity.fraction 設定を使用して割合を構成できます。この設定により、指定されたストアからのデータのキャッシュに使用できる、クラスターの合計容量の割合を管理します。変更するには、「配置後に BDC の設定を構成する方法」を参照してください。詳細については、「SQL Server ビッグデータクラスターで HDFS の階層化を構成する」を参照してください。

Question 21

SQL Server 2019 ビッグ データ クラスターで SQL ストアド プロシージャをスケジュールする方法は?

Accepted Answer

ビッグデータクラスターの SQL Server マスターインスタンスで SQL Server エージェントを使用できます。

Question 22

ビッグ データ クラスターは、IoT ユースケースで生成されるようなネイティブの時系列データ シナリオをサポートしていますか?

Accepted Answer

現時点では、ビッグデータクラスター内の InfluxDB は、ビッグデータクラスター内で収集された監視データを格納するためにのみ使用され、外部エンドポイントとしては公開されません。

Question 23

提供された InfluxDB を顧客データの時系列データベースとして使用できますか?

Accepted Answer

現時点では、ビッグデータクラスター内の InfluxDB は、ビッグデータクラスター内で収集された監視データを格納するためにのみ使用され、外部エンドポイントとしては公開されません。

Question 24

データベースを可用性グループに追加するには、どうすればよいですか?

Accepted Answer

ビッグデータクラスターには、HA 構成によって containedag という可用性グループが作成されます。これには、レプリカ間でレプリケートされるシステムデータベースも含まれます。 CREATE DATABASE または RESTORE ワークフローの結果として作成されたデータベースは、含まれている AG に自動的に追加され、シード処理されます。 SQL Server 2019 (15.0) CU2 より前は、ビッグデータクラスター内の物理インスタンスに接続し、データベースを復元して、それを containedag に追加する必要があります。「高可用性を使用して SQL Server ビッグデータクラスターを展開する」を参照してください。

Question 25

ビッグ データ クラスター内で実行されているコンポーネントのコアまたはメモリ リソースを構成できますか?

Accepted Answer

現時点では、SQL Server での場合と同様に、sp_configure を使用して SQL インスタンスのメモリを設定できます。コアの場合は、ALTER SERVER CONFIGURATION SET PROCESS AFFINITY を使用できます。既定では、コンテナーにはホスト上のすべての CPU が表示されます。現時点では、Kubernetes を使用してリソース制限を指定する方法はありません。コンピューティングプール、データプール、記憶域プールの場合、構成は SQL Server マスターインスタンスから EXECUTE AT DATA_SOURCE ステートメントを使用して行うことができます。

Question 26

Kubernetes ワーカー ノードの 1 つがシャットダウンした場合、または停止した場合は、どうなりますか?

Accepted Answer

十分なリソースがある場合、それぞれのワーカーノードに関連付けされていないポッドは、Kubernetes クラスター内の別のノードに移動されます。それ以外の場合、ポッドが使用できなくなり、停止します。

Question 27

Kubernetes クラスターにノードを追加すると、ビッグ データ クラスターは自動的に再調整されますか?

Accepted Answer

このアクションは、Kubernetes のみに依存します。ノードラベルを使用したポッド配置を除いて、ビッグデータクラスター内から Kubernetes リソースの再分散を制御する他のメカニズムはありません。

Question 28

Kubernetes クラスターからノードを削除すると、ビッグ データ クラスター リソースにどのような影響がありますか?

Accepted Answer

このアクションは、ホストノードのシャットダウンに相当します。 Kubernetes には、テイントプロセスを使用してこれを調整するメカニズムがあり、これは通常、アップグレードまたはノードのメンテナンスのために実行されます。詳細については、テイントおよび容認に関する Kubernetes のドキュメントを参照してください。

Question 29

ビッグ データ クラスターにバンドルされている Hadoop でデータのレプリケーションは処理されますか?

Accepted Answer

はい。レプリケーション係数は、HDFS について使用可能な構成の 1 つです。詳細については、「永続ボリュームを構成する」を参照してください。

Question 30

ビッグ データ クラスターは、機能と統合の観点から Synapse と重複していますか?

Accepted Answer

それはユースケースと要件によって異なります。ビッグデータクラスターによって、Microsoft がサポートする Spark と HDFS に加えて、SQL Server への外部からの完全なアクセスがオンプレミスで提供されます。ビッグデータクラスターを使用すると、SQL Server ユーザーは分析とビッグデータへの統合が可能になります。 Azure Synapse はあくまでも、クラウド上のマネージドサービスとしてお客様にファーストクラスのエクスペリエンスを提供する、スケールアウト分析に重点を置いた分析プラットフォームです。 Azure Synapse の場合、その一部として運用ワークロードはターゲットとされていません。ビッグデータクラスターは、運用ストアにもっと近いデータベース分析シナリオに対応することを目標としています。

Question 31

SQL Server で SQL Server ビッグ データ クラスターのストレージとして HDFS を使用していますか?

Accepted Answer

SQL Server インスタンスのデータベースファイルは HDFS に格納されませんが、SQL Server から外部テーブルインターフェイスを使用して HDFS に対してクエリを実行できます。

Question 32

各データ プールの分散テーブルにデータを格納するために使用できる分散オプションは何ですか?

Accepted Answer

ROUND_ROBIN と REPLICATED です。 ROUND_ROBIN が既定値です。 HASH は使用できません。

Question 33

ビッグ データ クラスターには Spark Thrift サーバーが含まれていますか? そうである場合、Hive メタストア テーブルに接続するために ODBC エンドポイントが公開されていますか?

Accepted Answer

現在、Thrift プロトコルを介して Hive メタストア (HMS) を公開しています。プロトコルを文書化していますが、現時点では ODBC エンドポイントは開かれていません。 Hive メタストア HTTP プロトコルを使用してアクセスできます。詳細については、「Hive メタストア HTTP プロトコル」を参照してください。

Question 34

SnowFlake からビッグ データ クラスターにデータを取り込むことは可能ですか?

Accepted Answer

SQL Server on Linux (ビッグデータクラスター内の SQL Server マスターインスタンスにも適用されます) では、サードパーティ製 ODBC ドライバー (SnowFlake、DB2、PostgreSQL など) をインストールしてクエリを実行できる汎用 ODBC データソースはサポートされていません。この機能は現在、Windows の SQL Server 2019 (15.0) のみで使用できます。ビッグデータクラスターには、JDBC を使用して Spark 経由でデータを読み取り、MSSQL Spark コネクタを使用して SQL Server に取り込む方法があります。

Question 35

カスタム ODBC データ ソースを使用してビッグ データ クラスターにデータを取り込むことは可能ですか?

Accepted Answer

SQL Server on Linux (ビッグデータクラスターの SQL Server マスターインスタンスにも適用されます) では、サードパーティ製 ODBC ドライバー (SnowFlake、DB2、PostgreSQL など) をインストールしてクエリを実行できる汎用 ODBC データソースはサポートされていません。

Question 36

CTAS を実行するごとに新しいテーブルを作成するのではなく、PolyBase CTAS を使用してどのように同じテーブルにデータをインポートできますか?

Accepted Answer

INSERT..SELECT のアプローチを使用すると、毎回新しいテーブルを必要としなくて済みます。

Question 37

データをマスター インスタンスにローカル テーブルとして直接読み込むのではなく、データ プールに読み込む場合の利点と考慮事項は何ですか?

Accepted Answer

分析ワークロードを満たすのに十分なリソースがある場合は、SQL Server マスターインスタンスが常に最速のオプションです。データプールは、分散クエリの実行を他の SQL インスタンスにオフロードする場合に役立ちます。また、データプールを使用して、Spark Executor から異なる複数の SQL インスタンスに並行してデータを取り込むこともできます。そのため、Hadoop 分散ファイルシステム (HDFS) から生成される大規模なデータセットの読み込みパフォーマンスは、通常、単一の SQL Server インスタンスに取り込む場合よりも優れたものになります。ただし、そう言うことは難しくもあります。SQL Server には複数のテーブルがあり、必要に応じて並列に挿入することができるためです。パフォーマンスは多くの要因に依存し、その点に関する唯一のガイダンスや推奨事項はありません。

Question 38

データ プール テーブル内のデータ分散を監視するには、どうすればよいですか?

Accepted Answer

EXECUTE AT を使用して、DMV に対して sys.dm_db_partition_stats のようなクエリを実行し、各ローカルテーブル内のデータを取得できます。

Question 39

CURL は HDFS にファイルをアップロードする唯一のオプションですか?

Accepted Answer

いいえ、azdata bdc hdfs cp を使用できます。ルートディレクトリを指定すると、コマンドでツリー全体が再帰的にコピーされます。ソースとターゲットのパスを変更するだけで、このコマンドを使用してコピーできます。

Question 40

どのようにしてデータをデータ プールに読み込むことができますか?

Accepted Answer

MSSQL Spark コネクタライブラリを使用すると、SQL とデータプールの統合に役立ちます。ガイド付きチュートリアルについては、「チュートリアル: Spark ジョブを使用して SQL Server のデータプールにデータを取り込む」を参照してください。

Question 41

(Windows) ネットワーク パスに大量のデータがあり、多数のフォルダーやサブフォルダーとテキスト ファイルが含まれている場合、それらをビッグ データ クラスター上の HDFS にアップロードする方法はありますか?

Accepted Answer

azdata bdc hdfs cp をお試しください。ルートディレクトリを指定すると、コマンドでツリー全体が再帰的にコピーされます。ソースとターゲットのパスを変更するだけで、このコマンドを使用してコピーできます。

Question 42

デプロイしたクラスター上の記憶域プールのサイズを増やすことは可能ですか?

Accepted Answer

現時点では、この操作を実行するための azdata インターフェイスはありません。必要な PVC のサイズを手動で変更するオプションがあります。サイズ変更は複雑な操作です。Kubernetes のドキュメントで「Persistent Volumes」 (永続ボリューム) を参照してください。

Question 43

リンク サーバーと PolyBase は、それぞれどのような場合に使用する必要がありますか?

Accepted Answer

主な相違点とユースケースについては、PolyBase の FAQ を参照してください。

Question 44

サポートされているデータ仮想化ソースは何ですか?

Accepted Answer

ビッグデータクラスターでは、ODBC ソース (SQL Server、Oracle、MongoDB、Teradata など) にあるデータの仮想化がサポートされています。また、Azure Data Lake Store Gen2 や S3 互換ストレージなどのリモートストアの階層化と、AWS S3A および Azure Blob File System (ABFS) もサポートされています。

Question 45

PolyBase を使用して、Azure SQL データベースに格納されているデータを仮想化できますか?

Accepted Answer

はい。ビッグデータクラスター内で PolyBase を使用して、Azure SQL Database にあるデータにアクセスできます。

Question 46

CREATE TABLE ステートメントに EXTERNAL というキーワードが含まれている理由は何ですか? EXTERNAL を使用すると、標準の CREATE TABLE の機能と何が違いますか?

Accepted Answer

一般に、external キーワードは、データが SQL Server インスタンス内にないことを示します。たとえば、HDFS ディレクトリ上に記憶域プールテーブルを定義できます。データはデータベースファイルではなく HDFS ファイルに格納されますが、外部テーブルにより、HDFS ファイルに対して、データベース内にある場合と同様にリレーショナルテーブルとしてクエリを実行するインターフェイスが提供されます。
外部データへのアクセスを表すこの概念は、データ仮想化と呼ばれます。詳細については、「PolyBase によるデータ仮想化の概要」を参照してください。 HDFS で CSV ファイルのデータを仮想化する場合のチュートリアルについては、「記憶域プール (ビッグデータクラスター) から CSV データを仮想化する」を参照してください。

Question 47

SQL Server ビッグ データ クラスターで実行されている SQL Server を使用したデータ仮想化と、SQL Server を使用したデータ仮想化の違いは何ですか?

Accepted Answer

比較として、「ビッグデータクラスターの PolyBase とスタンドアロンインスタンスの PolyBase」を参照してください。

Question 48

外部テーブルがデータ プールと記憶域プールのどちらを指しているかを簡単に確認するには、どうすればよいですか?

Accepted Answer

外部テーブルの種類は、データソースの場所を表すプレフィックス (sqlserver://、oracle://、sqlhdfs://、sqldatapool:// など) を確認することで判断できます。

Question 49

ビッグ データ クラスターの展開に失敗しました。 何が問題だったかを確認するには、どうすればよいですか?

Accepted Answer

「Azure Data Studio ノートブックを使用して SQL Server ビッグデータクラスターを管理する」を参照してください。 Kubernetes のトラブルシューティングに関するページにあるトラブルシューティングのトピックも参照してください。

Question 50

ビッグ データ クラスターの構成で設定できることをすべて網羅した明確な一覧はありますか?

Accepted Answer

展開時に実行できるすべてのカスタマイズについては、「クラスターリソースとサービスの展開設定を構成する」を参照してください。 Spark については、「ビッグデータクラスターで Apache Spark と Apache Hadoop を構成する」を参照してください。

Question 51

SQL Server ビッグ データ クラスターと共に SQL Server Analysis Services を展開できますか?

Accepted Answer

いいえ。具体的には、SQL Server Analysis Services (SSAS) は SQL Server on Linux ではサポートされていないので、SSAS を実行するには Windows サーバーに SQL Server インスタンスをインストールする必要があります。

Question 52

ビッグ データ クラスターは、EKS または GKS での展開でサポートされていますか?

Accepted Answer

ビッグデータクラスターは、バージョン 1.13 以降をベースにした任意の Kubernetes スタックで実行できます。ただし、EKS または GKS でビッグデータクラスターの特定の検証を実行したわけではありません。

Question 53

ビッグ データ クラスター内で実行されている HDFS と Spark のバージョンは何ですか?

Accepted Answer

Spark は 2.4、HDFS は 3.2.1 です。ビッグデータクラスターに含まれるオープンソースソフトウェアの詳細については、「オープンソースソフトウェアリファレンス」を参照してください。

Question 54

Spark にライブラリとパッケージをインストールするには、どのようにしますか?

Accepted Answer

Spark にパッケージをインストールするためのサンプルノートブックの手順を使用して、ジョブ送信時にパッケージを追加できます。

Question 55

SQL Server ビッグ データ クラスターで R と Python を使用するには、SQL Server 2019 を使用する必要がありますか?

Accepted Answer

Machine Learning (ML) サービス (R および Python) は、SQL Server 2017 から利用できます。 ML サービスは、SQL Server ビッグデータクラスターでも使用できます。詳細については、「SQL Server Machine Learning Services (Python と R) とは」を参照してください。

Question 56

SQL Server のライセンスは、SQL Server ビッグ データ クラスターに対してどのように作用しますか?

Accepted Answer

詳細を説明しているライセンスガイドを参照してください。PDF のダウンロードはこちらです。
概要については、「SQL Server Licensing: Big Data Clusters | Data Exposed」(SQL Server ライセンス: ビッグデータクラスター |Data Exposed) のビデオをご覧ください。

Question 57

ビッグ データ クラスターは Microsoft Entra ID ([旧称 Azure Active Directory](/entra/fundamentals/new-name)) をサポートしていますか?

Accepted Answer

現時点ではありません。

Question 58

統合認証を使用してビッグ データ クラスター マスターに接続できますか?

Accepted Answer

はい。統合認証 (Active Directory を使用) を使用して、さまざまなビッグデータクラスターサービスに接続できます。詳細については、「Active Directory モードで SQL Server ビッグデータクラスターを展開する」を参照してください。ビッグデータクラスターのセキュリティの概念に関するページも参照してください。

Question 59

ビッグ データ クラスター内のさまざまなサービスに新しいユーザーを追加するには、どうすればよいですか?

Accepted Answer

基本認証モード (ユーザー名とパスワード) では、コントローラーまたは Knox ゲートウェイや HDFS エンドポイントに対して複数のユーザーを追加することはできません。これらのエンドポイントでサポートされているユーザーは root のみです。 SQL Server の場合は、他の SQL Server インスタンスの場合と同様に、Transact-SQL を使用してユーザーを追加できます。エンドポイントに対する AD 認証を使用してビッグデータクラスターを展開する場合は、複数のユーザーがサポートされます。展開時に AD グループを構成する方法の詳細については、こちらを参照してください。詳細については、「Active Directory モードで SQL Server ビッグデータクラスターを展開する」を参照してください。

Question 60

ビッグ データ クラスターで最新のコンテナー イメージをプルする場合、制限できる送信 IP 範囲はありますか?

Accepted Answer

「Azure IP 範囲とサービスタグ – パブリッククラウド」で、さまざまなサービスで使用されている IP アドレスを確認できます。これらの IP アドレスは定期的にローテーションされることに注意してください。
コントローラーサービスで Microsoft Container Registry (MCR) からコンテナーイメージをプルするには、MicrosoftContainerRegistry セクションで指定した IP アドレスへのアクセスを許可する必要があります。もう 1 つのオプションは、プライベート Azure コンテナーレジストリを設定し、そこからプルするようにビッグデータクラスターを構成することです。その場合、、AzureContainerRegistry セクションで指定した IP アドレスを公開する必要があります。これを行う方法とスクリプトは、「SQL Server ビッグデータクラスターのオフライン展開を実行する」に記載されています。

Question 61

エアギャップ環境にビッグ データ クラスターを展開できますか?

Accepted Answer

はい。詳細については、「SQL Server ビッグデータクラスターのオフライン展開を実行する」を参照してください。

Question 62

"Azure Storage 暗号化" の機能は、AKS ベースのビッグ データ クラスターにも既定で適用されますか?

Accepted Answer

これは、Azure Kubernetes Service (AKS) の動的ストレージプロビジョン機能の構成によって異なります。詳細については、「Azure Kubernetes Services (AKS) のストレージとバックアップに関するベストプラクティス」を参照してください。

Question 63

ビッグ データ クラスターで SQL Server と HDFS 暗号化のキーをローテーションできますか?

Accepted Answer

はい。詳細については、ビッグデータクラスターでのキーのバージョンに関するページを参照してください。

Question 64

自動生成された Active Directory オブジェクトのパスワードはローテーションできますか?

Accepted Answer

はい。SQL Server ビッグデータクラスター CU13 で導入された新機能を使用して、自動生成される Active Directory オブジェクトのパスワードを簡単にローテーションできます。詳細については、AD パスワードのローテーションに関する記事を参照してください。

次の方法で共有

SQL Server ビッグ データ クラスターに関する FAQ

ベスト プラクティス

ファイルの場所に関して推奨されるベスト プラクティスは何ですか?

SQL Server ビッグ データ クラスターでトランザクション ログ バックアップを行う必要がありますか?

分散クエリにコンピューティング プールが実際に使用されているかどうかを監視する方法はありますか?

Kubectl を介して Kubernetes API サーバーに直接ビッグ データ クラスター リソースを構成して管理することはできますか?

HDFS に格納されているデータをバックアップするにはどうすればよいですか?

概念と機能

ストアド プロシージャを "スケールアウト" する方法はありますか? たとえば、コンピューティング プールで実行するなどです。

プールのポッドを動的にスケーリングする方法は?

データ プールに格納されている外部テーブルをバックアップすることはできますか?

データ プールにシャーディングは提供されますか?

生データ ストレージにはデータ プールと記憶域プールのどちらを使用すればよいですか?

SQL Server ビッグ データ クラスターで、GPU ベースのディープ ラーニング ライブラリと計算 (PyTorch、Keras、特定の画像ライブラリなど) はサポートされていますか?

プールに対して複数のボリューム要求を構成する方法はありますか?

複数のプロバイダーと複数のディスクを構成した場合、HDFS の構成はすべてのデータ ボリューム要求で更新されますか?

Ceph ベースのストレージにアクセスするためのオプションは何ですか?

HDFS のデータはアップグレード後も保持されますか?

HDFS 階層化によってキャッシュはどのように制御されますか?

SQL Server 2019 を使用して Azure Data Lake Store Gen2 を視覚化できますか? この統合によってフォルダー レベルのアクセス許可が処理されますか?

Azure Kubernetes Service (AKS) のマスター ノードについて、既定の高可用性と冗長性の設定は何ですか?

YARN と Spark のジョブ履歴ログを保持する方法はありますか?

プールのキャッシュ機能を無効にする方法はありますか?

SQL Server 2019 ビッグ データ クラスターで SQL ストアド プロシージャをスケジュールする方法は?

ビッグ データ クラスターは、IoT ユースケースで生成されるようなネイティブの時系列データ シナリオをサポートしていますか?

提供された InfluxDB を顧客データの時系列データベースとして使用できますか?

データベースを可用性グループに追加するには、どうすればよいですか?

ビッグ データ クラスター内で実行されているコンポーネントのコアまたはメモリ リソースを構成できますか?

Kubernetes ワーカー ノードの 1 つがシャットダウンした場合、または停止した場合は、どうなりますか?

Kubernetes クラスターにノードを追加すると、ビッグ データ クラスターは自動的に再調整されますか?

Kubernetes クラスターからノードを削除すると、ビッグ データ クラスター リソースにどのような影響がありますか?

ビッグ データ クラスターにバンドルされている Hadoop でデータのレプリケーションは処理されますか?

ビッグ データ クラスターは、機能と統合の観点から Synapse と重複していますか?

SQL Server で SQL Server ビッグ データ クラスターのストレージとして HDFS を使用していますか?

各データ プールの分散テーブルにデータを格納するために使用できる分散オプションは何ですか?

ビッグ データ クラスターには Spark Thrift サーバーが含まれていますか? そうである場合、Hive メタストア テーブルに接続するために ODBC エンドポイントが公開されていますか?

データの読み込み

SnowFlake からビッグ データ クラスターにデータを取り込むことは可能ですか?

カスタム ODBC データ ソースを使用してビッグ データ クラスターにデータを取り込むことは可能ですか?

CTAS を実行するごとに新しいテーブルを作成するのではなく、PolyBase CTAS を使用してどのように同じテーブルにデータをインポートできますか?

データをマスター インスタンスにローカル テーブルとして直接読み込むのではなく、データ プールに読み込む場合の利点と考慮事項は何ですか?

データ プール テーブル内のデータ分散を監視するには、どうすればよいですか?

CURL は HDFS にファイルをアップロードする唯一のオプションですか?

どのようにしてデータをデータ プールに読み込むことができますか?

(Windows) ネットワーク パスに大量のデータがあり、多数のフォルダーやサブフォルダーとテキスト ファイルが含まれている場合、それらをビッグ データ クラスター上の HDFS にアップロードする方法はありますか?

デプロイしたクラスター上の記憶域プールのサイズを増やすことは可能ですか?

データの仮想化

リンク サーバーと PolyBase は、それぞれどのような場合に使用する必要がありますか?

サポートされているデータ仮想化ソースは何ですか?

PolyBase を使用して、Azure SQL データベースに格納されているデータを仮想化できますか?

CREATE TABLE ステートメントに EXTERNAL というキーワードが含まれている理由は何ですか? EXTERNAL を使用すると、標準の CREATE TABLE の機能と何が違いますか?

SQL Server ビッグ データ クラスターで実行されている SQL Server を使用したデータ仮想化と、SQL Server を使用したデータ仮想化の違いは何ですか?

外部テーブルがデータ プールと記憶域プールのどちらを指しているかを簡単に確認するには、どうすればよいですか?

デプロイ

ビッグ データ クラスターの展開に失敗しました。 何が問題だったかを確認するには、どうすればよいですか?

ビッグ データ クラスターの構成で設定できることをすべて網羅した明確な一覧はありますか?

SQL Server ビッグ データ クラスターと共に SQL Server Analysis Services を展開できますか?

ビッグ データ クラスターは、EKS または GKS での展開でサポートされていますか?

ビッグ データ クラスター内で実行されている HDFS と Spark のバージョンは何ですか?

Spark にライブラリとパッケージをインストールするには、どのようにしますか?

SQL Server ビッグ データ クラスターで R と Python を使用するには、SQL Server 2019 を使用する必要がありますか?

ライセンス

SQL Server のライセンスは、SQL Server ビッグ データ クラスターに対してどのように作用しますか?

セキュリティ

ビッグ データ クラスターは Microsoft Entra ID ([旧称 Azure Active Directory](/entra/fundamentals/new-name)) をサポートしていますか?

統合認証を使用してビッグ データ クラスター マスターに接続できますか?

ビッグ データ クラスター内のさまざまなサービスに新しいユーザーを追加するには、どうすればよいですか?

ビッグ データ クラスターで最新のコンテナー イメージをプルする場合、制限できる送信 IP 範囲はありますか?

エアギャップ環境にビッグ データ クラスターを展開できますか?

"Azure Storage 暗号化" の機能は、AKS ベースのビッグ データ クラスターにも既定で適用されますか?

ビッグ データ クラスターで SQL Server と HDFS 暗号化のキーをローテーションできますか?

自動生成された Active Directory オブジェクトのパスワードはローテーションできますか?

サポート

SQL Server ビッグ データ クラスター内に展開される Spark と HDFS は Microsoft によってサポートされますか?

SparkML と SQL Server ML サービスのサポート モデルは何ですか?

Red Hat Enterprise Linux 8 (RHEL8) は SQL Server ビッグ データ クラスターでサポートされているプラットフォームですか?

ツール

Azure Data Studio で使用できるノートブックは、基本的に Jupyter ノートブックですか?

"azdata" ツールはオープンソースですか?

SQL Server ビッグデータクラスターに関する FAQ

ベストプラクティス

ファイルの場所に関して推奨されるベストプラクティスは何ですか?

SQL Server ビッグデータクラスターでトランザクションログバックアップを行う必要がありますか?

分散クエリにコンピューティングプールが実際に使用されているかどうかを監視する方法はありますか?

Kubectl を介して Kubernetes API サーバーに直接ビッグデータクラスターリソースを構成して管理することはできますか?

ストアドプロシージャを "スケールアウト" する方法はありますか? たとえば、コンピューティングプールで実行するなどです。

データプールに格納されている外部テーブルをバックアップすることはできますか?

データプールにシャーディングは提供されますか?

生データストレージにはデータプールと記憶域プールのどちらを使用すればよいですか?

SQL Server ビッグデータクラスターで、GPU ベースのディープラーニングライブラリと計算 (PyTorch、Keras、特定の画像ライブラリなど) はサポートされていますか?

複数のプロバイダーと複数のディスクを構成した場合、HDFS の構成はすべてのデータボリューム要求で更新されますか?

SQL Server 2019 を使用して Azure Data Lake Store Gen2 を視覚化できますか? この統合によってフォルダーレベルのアクセス許可が処理されますか?

Azure Kubernetes Service (AKS) のマスターノードについて、既定の高可用性と冗長性の設定は何ですか?

SQL Server 2019 ビッグデータクラスターで SQL ストアドプロシージャをスケジュールする方法は?

ビッグデータクラスターは、IoT ユースケースで生成されるようなネイティブの時系列データシナリオをサポートしていますか?

ビッグデータクラスター内で実行されているコンポーネントのコアまたはメモリリソースを構成できますか?

Kubernetes ワーカーノードの 1 つがシャットダウンした場合、または停止した場合は、どうなりますか?

Kubernetes クラスターにノードを追加すると、ビッグデータクラスターは自動的に再調整されますか?

Kubernetes クラスターからノードを削除すると、ビッグデータクラスターリソースにどのような影響がありますか?

ビッグデータクラスターにバンドルされている Hadoop でデータのレプリケーションは処理されますか?

ビッグデータクラスターは、機能と統合の観点から Synapse と重複していますか?

SQL Server で SQL Server ビッグデータクラスターのストレージとして HDFS を使用していますか?

各データプールの分散テーブルにデータを格納するために使用できる分散オプションは何ですか?

ビッグデータクラスターには Spark Thrift サーバーが含まれていますか? そうである場合、Hive メタストアテーブルに接続するために ODBC エンドポイントが公開されていますか?

SnowFlake からビッグデータクラスターにデータを取り込むことは可能ですか?

カスタム ODBC データソースを使用してビッグデータクラスターにデータを取り込むことは可能ですか?

データをマスターインスタンスにローカルテーブルとして直接読み込むのではなく、データプールに読み込む場合の利点と考慮事項は何ですか?

データプールテーブル内のデータ分散を監視するには、どうすればよいですか?

どのようにしてデータをデータプールに読み込むことができますか?

(Windows) ネットワークパスに大量のデータがあり、多数のフォルダーやサブフォルダーとテキストファイルが含まれている場合、それらをビッグデータクラスター上の HDFS にアップロードする方法はありますか?

リンクサーバーと PolyBase は、それぞれどのような場合に使用する必要がありますか?

SQL Server ビッグデータクラスターで実行されている SQL Server を使用したデータ仮想化と、SQL Server を使用したデータ仮想化の違いは何ですか?

外部テーブルがデータプールと記憶域プールのどちらを指しているかを簡単に確認するには、どうすればよいですか?

ビッグデータクラスターの展開に失敗しました。何が問題だったかを確認するには、どうすればよいですか?

ビッグデータクラスターの構成で設定できることをすべて網羅した明確な一覧はありますか?

SQL Server ビッグデータクラスターと共に SQL Server Analysis Services を展開できますか?

ビッグデータクラスターは、EKS または GKS での展開でサポートされていますか?

ビッグデータクラスター内で実行されている HDFS と Spark のバージョンは何ですか?

SQL Server ビッグデータクラスターで R と Python を使用するには、SQL Server 2019 を使用する必要がありますか?

SQL Server のライセンスは、SQL Server ビッグデータクラスターに対してどのように作用しますか?

ビッグデータクラスターは Microsoft Entra ID ([旧称 Azure Active Directory](/entra/fundamentals/new-name)) をサポートしていますか?

統合認証を使用してビッグデータクラスターマスターに接続できますか?

ビッグデータクラスター内のさまざまなサービスに新しいユーザーを追加するには、どうすればよいですか?

ビッグデータクラスターで最新のコンテナーイメージをプルする場合、制限できる送信 IP 範囲はありますか?

エアギャップ環境にビッグデータクラスターを展開できますか?

"Azure Storage 暗号化" の機能は、AKS ベースのビッグデータクラスターにも既定で適用されますか?

ビッグデータクラスターで SQL Server と HDFS 暗号化のキーをローテーションできますか?

SQL Server ビッグデータクラスター内に展開される Spark と HDFS は Microsoft によってサポートされますか?

SparkML と SQL Server ML サービスのサポートモデルは何ですか?

Red Hat Enterprise Linux 8 (RHEL8) は SQL Server ビッグデータクラスターでサポートされているプラットフォームですか?

トレーニングリソース

どのようなビッグデータクラスタートレーニングオプションがありますか?