記憶域プール (ビッグデータクラスター) から CSV データを仮想化する

[アーティクル]
03/21/2023

重要

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

SQL Server ビッグデータクラスターでは、HDFS の CSV ファイルからデータを仮想化できます。このプロセスでは、データを元の場所に維持したまま、他のテーブルと同様に SQL Server インスタンスからクエリを実行することができます。この機能では PolyBase コネクタを使用して、ETL プロセスの必要性を最小限に抑えます。データの仮想化に関する詳細については、「PolyBase によるデータ仮想化の概要」を参照してください

前提条件

データの仮想化に使用する CSV ファイルを選択またはアップロードする

Azure Data Studio (ADS) で、ご使用のビッグデータクラスターの SQL Server マスターインスタンスに接続します。接続したら、オブジェクトエクスプローラーで HDFS 要素を展開して、データを仮想化する CSV ファイルを見つけます。

このチュートリアルでは、Data という名前の新しいディレクトリを作成します。

HDFS ルートディレクトリのコンテキストメニューを右クリックします。
[新しいディレクトリ] を選びます。
新しいディレクトリに "Data" という名前を付けます。

サンプルデータをアップロードします。簡単なチュートリアルの場合は、サンプルの csv データファイルを使用できます。この記事では、米国運輸省の航空会社の遅延の原因データを使用します。生データをダウンロードし、ご使用のコンピューターにデータを抽出します。ファイルに airline_delay_causes.csv という名前を付けます。

抽出後にサンプルファイルをアップロードするには:

Azure Data Studio で、作成した新しいディレクトリを "右クリック" します。
[Upload files](ファイルのアップロード) を選択します。

HDFS の csv ファイルの例

Azure Data Studio により、ファイルがビッグデータクラスターの HDFS にアップロードされます。

ターゲットデータベースに記憶域プールの外部データソースを作成する

ビッグデータクラスターでは、記憶域プールの外部データソースは、既定ではデータベース内には作成されません。外部テーブルを作成するには、事前に次の Transact-SQL クエリを使用して、ターゲットデータベースに既定の SqlStoragePool 外部データソースを作成します。最初に必ず、クエリのコンテキストを実際のターゲットデータベースに変更してください。

-- Create the default storage pool source for SQL Big Data Cluster
IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlStoragePool')
    CREATE EXTERNAL DATA SOURCE SqlStoragePool
    WITH (LOCATION = 'sqlhdfs://controller-svc/default');

外部テーブルを作成する

ADS から、CSV ファイルを右クリックして、コンテキストメニューから [Create External Table From CSV File](CSV ファイルからの外部テーブルの作成) を選択します。 HDFS 内のディレクトリの下にある CSV ファイルが同じスキーマに従っている場合、そのディレクトリのファイルから外部テーブルを作成することもできます。これにより、個々のファイルを処理する必要なしにディレクトリレベルでデータを仮想化でき、結合されたデータに対する結合された結果セットを取得できます。 Azure Data Studio では、外部テーブルを作成する手順が示されます。

データベース、データソース、テーブル名、スキーマ、およびテーブルの外部ファイル形式の名前を指定します。

[次へ] を選択します。

データをプレビューする

Azure Data Studio により、インポートされたデータのプレビューが提供されます。

$インポートされたデータのプレビューが含まれる [Create External Table From CSV]$CSV から外部テーブルを作成する$ ウィンドウを示すスクリーンショット。$

プレビューの表示が終わったら、[次へ] を選んで続けます。

列を変更する

次のウィンドウでは、作成する外部テーブルの列を変更できます。列の名前とデータ型を変更でき、null 許容型の行にすることができます。

$手順 3「列を変更する」が示されている [Create External Table From CSV]$CSV から外部テーブルを作成する$ ウィンドウのスクリーンショット。$

変換先の列を確認したら、[次へ] を選びます。

まとめ

このステップでは、選択内容の要約が提供されます。 SQL Server 名、データベース名、テーブル名、テーブルスキーマ、および外部テーブル情報が提供されます。このステップでは、スクリプトを生成するか、テーブルを作成するかを選択できます。 [スクリプトの生成] では、外部データソースを作成するためのスクリプトが T-SQL で生成されます。 [テーブルの作成] では、外部データソースが作成されます。

概要画面

[テーブルの作成] を選ぶと、SQL Server によって出力先のデータベースに外部テーブルが作成されます。

[スクリプトの生成] を選ぶと、Azure Data Studio によって外部テーブルを作成するための T-SQL クエリが作成されます。

テーブルが作成されたら、SQL Server インスタンスから T-SQL を使用して直接クエリを実行できるようになります。

次のステップ

SQL Server ビッグデータクラスターと関連するシナリオの詳細については、「SQL Server ビッグデータクラスターとは」を参照してください。

Share via

記憶域プール (ビッグデータクラスター) から CSV データを仮想化する

前提条件

データの仮想化に使用する CSV ファイルを選択またはアップロードする

ターゲットデータベースに記憶域プールの外部データソースを作成する

外部テーブルを作成する

データをプレビューする

列を変更する

まとめ

次のステップ

フィードバック

フィードバック

その他のリソース

Share via

記憶域プール (ビッグ データ クラスター) から CSV データを仮想化する

前提条件

データの仮想化に使用する CSV ファイルを選択またはアップロードする

ターゲット データベースに記憶域プールの外部データ ソースを作成する

外部テーブルを作成する

データをプレビューする

列を変更する

まとめ

次のステップ

フィードバック

フィードバック

その他のリソース

記憶域プール (ビッグデータクラスター) から CSV データを仮想化する

ターゲットデータベースに記憶域プールの外部データソースを作成する