Unity Catalog の外部の場所を使用してデータを読み込む

重要

この機能はパブリック プレビュー段階にあります。

この記事では、データの追加 UI を使用して、Unity Catalog の外部の場所を使用して Azure Data Lake Storage Gen2 のデータからマネージド テーブルを作成する方法について説明します。 "外部の場所" は、クラウド ストレージ パスと、クラウド ストレージ パスへのアクセスを認可するストレージの資格情報を組み合わせたオブジェクトです。

外部の場所を使用してデータを読み込む他の方法については、「クラウド テナントに格納されているファイルからテーブルを作成する」を参照してください。

開始する前に

開始する前に、次の項目を用意する必要があります。

ファイルの種類

以下のタイプのファイルがサポートされています。

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

手順 1: 外部の場所へのアクセスを確認する

外部の場所へのアクセスを確認するには、次の操作を行います。

  1. Azure Databricks ワークスペースのサイドバーで、カタログ をクリックします。
  2. Catalog Explorer で、外部データ>外部の場所 をクリックします。

手順 2: マネージド テーブルを作成する

マネージド テーブルを作成するには、次の操作を行います。

  1. ワークスペースのサイドバーで、[ + 新規]>[データの追加] をクリックします。

  2. データの追加 UI で、[Azure Data Lake Storage] をクリックします。

  3. ドロップダウン リストから外部の場所を選択します。

  4. Azure Databricks に読み込むフォルダーとファイルを選択し、[テーブルのプレビュー] をクリックします。

  5. ドロップダウン リストからカタログとスキーマを選択します。

  6. (省略可能) テーブル名を編集します。

  7. (省略可能) ファイルの種類別に詳細な形式オプションを設定するには、[高度な属性] をクリックし、[ファイルの種類を自動的に検出する] をオフにして、ファイルの種類を選択します。

    書式オプションのリストについては、次のセクションを参照してください。

  8. (省略可能) 列名を編集するには、列の上部にある入力ボックスをクリックします。

    列名では、コンマ、円記号、または Unicode 文字 (絵文字など) はサポートされていません。

  9. (省略可能) 列の型を編集するには、型を含むアイコンをクリックします。

  10. [テーブルの作成] をクリックします。

ファイルの種類の形式のオプション

ファイルの種類に応じて、次の形式のオプションを使用できます。

書式オプション 説明 サポートされているファイルの種類
Column delimiter 列間の区切り文字。 1 文字のみ使用でき、円記号はサポートされていません。

既定値はコンマです。
CSV
Escape character データの解析時に使用するエスケープ文字。

既定値は引用符です。
CSV
First row contains the header このオプションでは、ファイルにヘッダーが含まれるかどうかを指定します。

既定では有効になっています。
CSV
Automatically detect file type ファイルの種類を自動的に検出します。 既定値は true です。 XML
Automatically detect column types ファイル コンテンツから列の型を自動的に検出します。 プレビュー テーブルで型を編集できます。 これが false に設定されている場合、すべての列の型は STRING として推論されます。

既定では有効になっています。
* CSV

* JSON
* XML
Rows span multiple lines 列の値がファイル内の複数の行にまたがることができるかどうか。

既定で無効になっています。
* CSV

* JSON
Merge the schema across multiple files 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。

既定では有効になっています。
CSV
Allow comments ファイル内でコメントが許可されるかどうか。

既定では有効になっています。
JSON
Allow single quotes ファイル内で単一引用符が許可されるかどうか。

既定では有効になっています。
JSON
Infer timestamp タイムスタンプ文字列を TimestampType として推論を試みるかどうか。

既定では有効になっています。
JSON
Rescued data column スキーマと一致しない列を保存するかどうか。 詳細については、「復旧されたデータ列とは」を参照してください。

既定では有効になっています。
* CSV

* JSON
* Avro
* Parquet
Exclude attribute 要素内の属性を除外するかどうか。 既定値は false です。 XML
Attribute prefix 属性と要素を区別するための属性のプレフィックス。 既定値は _ です。 XML

列のデータ型

以下の列のデータ型がサポートされています。 個々のデータ型の詳細については、SQL データ型に関するページを参照してください。

データ型 説明
BIGINT 8 バイトの符号付き整数。
BOOLEAN ブール (true, false) 値。
DATE およびタイムゾーンのない日。
DECIMAL (P,S) 最大有効桁数 P と固定スケール S を持つ数値。
DOUBLE 8 バイト倍精度浮動小数点数。
STRING 文字列の値。
TIMESTAMP セッションのローカル タイムゾーンを指定して、フィールドの値 (年、月、日、時、分、秒) を構成する値。

既知の問題

  • バックティックまたはコロンを含むキーを持つ JSON オブジェクトなど、複合データ型内の特殊文字に関する問題が発生する可能性があります。
  • 一部の JSON ファイルでは、ファイルの種類として JSON を手動で選択する必要がある可能性があります。 ファイルを選択した後にファイルの種類を手動で選択するには、[高度な属性] をクリックし、[ファイルの種類を自動的に検出する] をオフにして、[JSON] を選択します。
  • 複合型内でタイムスタンプと 10 進数が入れ子になっている場合、問題が発生する可能性があります。