Parallel Data Warehouse (PDW) でのステージングデータベースの使用

[アーティクル]
09/04/2023

SQL Server Parallel Data Warehouse (PDW) は、ステージングデータベースを使用して、読み込みプロセス中に一時的にデータを格納します。既定では、SQL Server PDW はステージングデータベースとして変換先データベースを使用します。これにより、テーブルの断片化が発生する可能性があります。テーブルの断片化を減らすために、ユーザー定義のステージングデータベースを作成できます。または、読み込みエラーからのロールバックが問題でない場合は、fastappend 読み込みモードを使用して、一時テーブルをスキップして変換先テーブルに直接読み込むことで、パフォーマンスを向上させることができます。

ステージングデータベースの基本

ステージングデータベースは、アプライアンスに読み込まれる間にデータを一時的に格納する、ユーザーが作成した PDW データベースです。読み込みにステージングデータベースを指定すると、アプライアンスは最初にデータをステージングデータベースにコピーしてから、ステージングデータベースの一時テーブルから変換先データベースの永続テーブルにデータをコピーします。

ステージングデータベースが読み込みに対して指定されていない場合、分析プラットフォームシステム (PDW) は、変換先データベースに一時テーブルを作成し、それらを使用して読み込まれたデータを格納してから、読み込まれたデータを永続的な変換先テーブルに挿入します。

読み込みで fastappend モード を使用すると、分析プラットフォームシステム (PDW) は一時テーブルの使用を完全にスキップし、データをターゲットテーブルに直接追加します。 fastappend モードでは、アプリケーションの観点から一時テーブルであるテーブルにデータが読み込まれる ELT シナリオの読み込みパフォーマンスが向上します。例えば、ELT プロセスでは、データを一時テーブルに読み込み、クレンジングと重複除去によってデータを処理し、ターゲットファクトテーブルにデータを挿入できます。この場合、PDW は、アプリケーションの一時テーブルにデータを挿入する前に、まず内部一時テーブルにデータを読み込む必要はありません。 fastappend モードでは、追加の読み込みステップが回避され、読み込みパフォーマンスが大幅に向上します。 fastappend モードを使用するには、マルチトランザクションモードを使用する必要があります。つまり、読み込みを失敗または中止してからの復旧は、独自の読み込みプロセスで処理する必要があります。

ステージングデータベースの利点

ステージングデータベースの主な利点は、テーブルの断片化を減らすことです。ステージングデータベースを使用しない場合、データは変換先データベースの一時テーブルに読み込まれます。一時テーブルが作成され、変換先データベースで削除されると、一時テーブルと永続テーブルのページがインターリーブされます。時間の経過とともに、テーブルの断片化が発生し、パフォーマンスが低下します。これに対し、ステージングデータベースでは、永続テーブルとは別のファイル領域で一時テーブルが作成および削除されます。

ステージングデータベーステーブルの構造

各データベーステーブルのストレージ構造は、変換先テーブルによって異なります。

ヒープまたはクラスター化列ストアインデックスへの読み込みの場合、ステージングテーブルはヒープです。
行ストアクラスター化インデックスへの読み込みの場合、ステージングテーブルは行ストアクラスター化インデックスです。

アクセス許可

ステージングデータベースに対する (一時テーブルを作成するための) CREATE 権限が必要です。

ステージングデータベースを作成するためのベストプラクティス

アプライアンスごとにステージングデータベースは 1 つだけ必要です。ステージングデータベースは、すべての変換先データベースのすべてのロードジョブで共有できます。
ステージングデータベースのサイズはお客様によって異なります。最初にアプライアンスにデータを取り込むときに、ステージングデータベースは初期ロードジョブに対応できる十分な大きさにする必要があります。複数の読み込みが同時に発生する可能性があるため、これらのロードジョブは大きくなる傾向があります。初期のロードジョブが完了し、システムが実稼働状態になると、各ロードジョブのサイズは小さくなる可能性があります。読み込みが小さい場合は、ステージングデータベースのサイズを小さくして、より小さなロードサイズに対応できます。サイズを小さくするには、ステージングデータベースを削除し、サイズの小さい割り当てを使用してもう一度作成するか、ALTER DATABASE ステートメントを使用できます。

ステージングデータベースを作成する場合は、次のガイドラインを使用します。
- レプリケートテーブルのサイズは、同時に読み込まれるすべてのレプリケートテーブルの計算ノードあたりの推定サイズである必要があります。サイズは、通常は 25-30 GB です。
- 分散テーブルのサイズは、同時に読み込まれるすべての分散テーブルの、アプライアンスごとの推定サイズである必要があります。
- ログサイズは、通常、レプリケートされたテーブルのサイズに似ています。

例

A. ステージングデータベースの作成

次の例では、ステージングデータベース、Stagedb を作成し、アプライアンス上のすべての読み込みで使用します。 5 GB のサイズのレプリケートテーブルが 5 個ずつ同時に読み込まれるとします。この同時実行により、レプリケートされたサイズに対して少なくとも 25 GB が割り当てられます。サイズ 100、200、400、500、500、550 GB の 6 つの分散テーブルが同時に読み込まれるとします。この同時実行により、分散テーブルサイズに少なくとも 2250 GB が割り当てられます。

CREATE DATABASE Stagedb  
WITH (  
  
    AUTOGROW = ON,  
  
    REPLICATED_SIZE = 25 GB,  
  
    DISTRIBUTED_SIZE = 2250 GB,  
  
    LOG_SIZE = 25 GB  
  
);

次の方法で共有

Parallel Data Warehouse (PDW) でのステージングデータベースの使用

ステージングデータベースの基本

アクセス許可

ステージングデータベースを作成するためのベストプラクティス

例

A. ステージングデータベースの作成

フィードバック

フィードバック

その他のリソース

次の方法で共有

Parallel Data Warehouse (PDW) でのステージング データベースの使用

ステージング データベースの基本

アクセス許可

ステージング データベースを作成するためのベスト プラクティス

例

A. ステージング データベースの作成

フィードバック

フィードバック

その他のリソース

Parallel Data Warehouse (PDW) でのステージングデータベースの使用

ステージングデータベースの基本

ステージングデータベースを作成するためのベストプラクティス

A. ステージングデータベースの作成