自動ローダーのオプション

[アーティクル]
04/18/2024

cloudFiles ソースに固有の構成オプションの先頭には、cloudFiles が付加されるため、他の構造化ストリームソースオプションとは別の名前空間に含められます。

一般的な自動ローダーオプション
ディレクトリ一覧のオプション
ファイル通知のオプション
ファイル形式のオプション
クラウド固有のオプション

自動ローダーの一般的なオプション

ディレクトリ一覧モードまたはファイル通知モードには、次のオプションを構成できます。

オプション
`cloudFiles.allowOverwrites` 型: `Boolean` 入力ディレクトリファイルの変更による既存のデータの上書きを許可するかどうか。この構成を有効にすることに関しては、いくつかの注意事項があります。詳細については、「自動ローダーに関する FAQ」を参照してください。既定値:`false`
`cloudFiles.backfillInterval` 型: `Interval String` 自動ローダーは、特定の間隔で非同期バックフィルをトリガーできます。たとえば、1 日に 1 回バックフィルする場合は `1 day` で、週に 1 回バックフィルする場合は `1 week` です。ファイルイベント通知システムでは、アップロード済みのすべてのファイルの配信が 100% 保証されているわけではないため、最終的にすべてのファイルが処理されることを保証するには、バックフィルを使用するのがよいでしょう。これは、Databricks Runtime 8.4 (サポート対象外) 以上で使用できます。既定値: なし
`cloudFiles.format` 型: `String` ソースパスのデータファイル形式。使用できる値は、以下のとおりです。 * `avro`: Avro ファイル * `binaryFile`: バイナリファイル * `csv`: CSV ファイルの読み取りと書き込み * `json`: JSON ファイル * `orc`: ORC ファイル * `parquet`: Azure Databricks を使用して Parquet ファイルを読み取る * `text`: テキストファイル既定値: なし (必須オプション)
`cloudFiles.includeExistingFiles` 型: `Boolean` ストリーム処理入力パスに既存のファイルを含めるか、初期セットアップ後に到着した新しいファイルのみを処理するか。このオプションは、初めてストリームを開始するときにのみ評価されます。ストリームの再起動後にこのオプションを変更した場合、効果はありません。既定値:`true`
`cloudFiles.inferColumnTypes` 型: `Boolean` スキーマの推論を利用するときに、正確な列型を推論するかどうか。既定では、列は JSON および CSV データセットを推論するときに文字列として推論されます。詳細については、スキーマの推論に関する説明を参照してください。既定値:`false`
`cloudFiles.maxBytesPerTrigger` 型: `Byte String` 各トリガーで処理される新しいバイトの最大数。 `10g` などのバイト文字列を指定して、各マイクロバッチを 10 GB のデータに制限できます。これはソフト最大値です。それぞれ 3 GB のファイルがある場合、Azure Databricks は 1 マイクロバッチで 12 GB を処理します。 `cloudFiles.maxFilesPerTrigger` と使用すると、Azure Databricks では、`cloudFiles.maxFilesPerTrigger` または `cloudFiles.maxBytesPerTrigger` の下限のうち、最初に到達した方までを消費します。 `Trigger.Once()` (非推奨) と一緒に使用すると、このオプションは無効です。既定値: なし
`cloudFiles.maxFileAge` 型: `Interval String` 重複排除を目的としてファイルイベントを追跡する期間。 Databricks では、1 時間に数百万のファイルの順序でデータを取り込む場合でない限り、このパラメーターのチューニングは推奨しません。詳細については、「イベントの保持」のセクションを参照してください。 `cloudFiles.maxFileAge` のチューニングがアグレッシブすぎると、重複取り込みやファイル欠如など、データ品質の問題を引き起こすことがあります。そのため、Databricks は `cloudFiles.maxFileAge` に 90 日間などの控えめな設定を推奨しています。同等のデータインジェストソリューションもこのくらいを推奨しています。既定値: なし
`cloudFiles.maxFilesPerTrigger` 型: `Integer` 各トリガーで処理される新しいファイルの最大数。 `cloudFiles.maxBytesPerTrigger` と使用すると、Azure Databricks では、`cloudFiles.maxFilesPerTrigger` または `cloudFiles.maxBytesPerTrigger` の下限のうち、最初に到達した方までを消費します。 `Trigger.Once()` (非推奨) と一緒に使用すると、このオプションは無効です。既定値: 1000
`cloudFiles.partitionColumns` 型: `String` ファイルのディレクトリ構造から推論する Hive スタイルパーティション列のコンマ区切りの一覧。 Hive スタイルパーティション列は、次のような等値で組み合わされたキーと値のペアになります `<base-path>/a=x/b=1/c=y/file.format` この例では、パーティション列は `a`、`b`、`c` です。既定では、スキーマ推論を使用しており、`<base-path>` にデータの読み込み元を指定する場合、これらの列は自動的にスキーマに追加されます。スキーマを指定すると、自動ローダーにより、これらの列がこのスキーマに含まれると想定されます。これらの列をスキーマの一部に含めない場合は、`""` を指定して、これらの列を無視することができます。さらに、下の例のような複雑なディレクトリ構造のファイルパスから列を推論するときに、このオプションを使用できます。 `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` `cloudFiles.partitionColumns` を `year,month,day` に指定すると、 `file1.csv` に `year=2022` が返されますが、`month` および `day` 列は `null` になります。 `file2.csv` および `file3.csv` の `month` および `day` は正しく解析されます。既定値: なし
`cloudFiles.schemaEvolutionMode` 型: `String` 新しい列がデータで検出された場合にスキーマを展開するモード。既定では、列は JSON データセットを推論するときに文字列として推論されます。詳細については、スキーマの展開に関する説明を参照してください。既定値: スキーマが指定されていない場合は `"addNewColumns"`。それ以外の場合 `"none"`。
`cloudFiles.schemaHints` 型: `String` スキーマの推論中に自動ローダーに提供するスキーマ情報。詳細については、スキーマヒントに関するページを参照してください。既定値: なし
`cloudFiles.schemaLocation` 型: `String` 推論されたスキーマとそれ以降の変更を保存する場所。詳細については、スキーマの推論に関する説明を参照してください。既定値: なし (スキーマを推論する場合は必須)
`cloudFiles.useStrictGlobber` 型: `Boolean` Apache Spark の他のファイルソースの既定のグロビング動作に一致する厳密な globber を使用するかどうか。詳細については、「一般的なデータ読み込みパターン」を参照してください。 Databricks Runtime 12.2 LTS 以降で使用できます。既定値:`false`
`cloudFiles.validateOptions` 型: `Boolean` 自動ローダーオプションを検証し、不明なオプションまたは一貫性のないオプションに対してエラーを返すかどうか。既定値:`true`

ディレクトリ一覧のオプション

次のオプションは、ディレクトリ一覧モードに関連します。

オプション

オプション
`cloudFiles.useIncrementalListing` (非推奨) 型: `String` この機能は廃止されました。 Databricks では、以下の代わりにファイル通知モードを使用することをお勧めします `cloudFiles.useIncrementalListing` ディレクトリ一覧モードで、完全な一覧ではなく、増分一覧を使用するかどうか。既定では、自動ローダーは、特定のディレクトリが増分一覧に該当する場合に、ベストエフォートで自動検出を行います。これを `true` または `false` に設定することで、増分一覧または完全なディレクトリ一覧を明示的に使用できます。構文指定されていないディレクトリでインクリメンタルリストを誤って有効にすると、自動ローダーが新しいファイルを検出できなくなります。 Azure Data Lake Storage Gen2 (`abfss://`)、S3 (`s3://`)、GCS (`gs://`) で動作します。 Databricks Runtime 9.1 LTS 以降で使用できます。既定値:`auto` 使用できる値: `auto`、`true`、`false`

cloudFiles.useIncrementalListing (非推奨)

型: String

この機能は廃止されました。 Databricks では、以下の代わりにファイル通知モードを使用することをお勧めします
cloudFiles.useIncrementalListing

ディレクトリ一覧モードで、完全な一覧ではなく、増分一覧を使用するかどうか。既定では、自動ローダーは、特定のディレクトリが増分一覧に該当する場合に、ベストエフォートで自動検出を行います。これを true または false に設定することで、増分一覧または完全なディレクトリ一覧を明示的に使用できます。

構文指定されていないディレクトリでインクリメンタルリストを誤って有効にすると、自動ローダーが新しいファイルを検出できなくなります。

Azure Data Lake Storage Gen2 (abfss://)、S3 (s3://)、GCS (gs://) で動作します。

Databricks Runtime 9.1 LTS 以降で使用できます。

既定値:auto

使用できる値: auto、true、false

ファイル通知オプション

次のオプションは、ファイル通知モードに関連します。

オプション
`cloudFiles.fetchParallelism` 型: `Integer` キューサービスからメッセージをフェッチするときに使用するスレッドの数。既定値: 1
`cloudFiles.pathRewrites` 型: JSON 文字列複数の S3 バケットからファイル通知を受信する `queueUrl` を指定し、これらのコンテナー内のデータにアクセスするために構成されたマウントポイントを利用する場合にのみ必要です。 `bucket/key` パスのプレフィックスをマウントポイントで書き換える場合は、このオプションを使用します。プレフィックスのみを書き換えられます。たとえば、構成が `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}` の場合、パス `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` は `dbfs:/mnt/data-warehouse/2017/08/fileA.json` に上書きされます。既定値: なし
`cloudFiles.resourceTag` 型: `Map(String, String)` 関連するリソースの関連付けと識別に役立つ一連のキーと値のタグペア。次に例を示します。 `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` AWS の詳細については、Amazon SQS コスト割り当てタグと Amazon SNS のタグの構成に関するページを参照してください。 (1) Azure の詳細については、キューとメタデータの名前付けに関する説明と、イベントサブスクリプションでの `properties.labels` の対象範囲を参照してください。自動ローダーは、これらのキーと値のタグペアを JSON にラベルとして保存します。 (1) GCP の詳細については、「ラベル付き使用状況の報告」を参照してください。 (1) 既定値: なし
`cloudFiles.useNotifications` 型: `Boolean` ファイル通知モードを使用して、新しいファイルがあるときを判断するかどうか。 `false` の場合は、ディレクトリ一覧モードを使用します。「自動ローダーのしくみ」を参照してください。既定値:`false`

(1) 自動ローダーでは、ベストエフォートベースで、次のキーと値のタグペアが既定で追加されます。

vendor: Databricks
path: データが読み込まれる場所。ラベル付けの制限のため、GCP では使用できません。
checkpointLocation: ストリームのチェックポイントの場所。ラベル付けの制限のため、GCP では使用できません。
streamId: ストリームのグローバル一意識別子。

これらのキー名は予約済みであり、値を上書きすることはできません。

ファイル形式のオプション

自動ローダーを使用すると、JSON、CSV、PARQUET、AVRO、TEXT、BINARYFILE、ORC のファイルを取り込めます。

共通オプション
JSON オプション
CSV オプション
XML オプション
PARQUET オプション
AVRO オプション
BINARYFILE オプション
TEXT オプション
ORC オプション

共通オプション

次のオプションは、すべてのファイル形式に適用されます。

オプション
`ignoreCorruptFiles` 型: `Boolean` 破損したファイルを無視するかどうか。 true の場合、破損したファイルが検出されても Spark ジョブは引き続き実行され、読み取られた内容は引き続き返されます。次のように `numSkippedCorruptFiles` として観察可能です。 `operationMetrics` Delta Lake 履歴の列。 Databricks Runtime 11.3 LTS 以降で使用できます。既定値:`false`
`ignoreMissingFiles` 型: `Boolean` 行方不明のファイルを無視するかどうかを指定します。 true の場合、行方不明のファイルが検出されても Spark ジョブは引き続き実行され、読み取られた内容は引き続き返されます。 Databricks Runtime 11.3 LTS 以降で使用できます。既定値: `false` (`COPY INTO` の `true`)
`modifiedAfter` 型: `Timestamp String`、例: `2021-01-01 00:00:00.000000 UTC+0` 指定されたタイムスタンプより後の変更タイムスタンプがあるファイルを取り込むための、省略可能なタイムスタンプ。既定値: なし
`modifiedBefore` 型: `Timestamp String`、例: `2021-01-01 00:00:00.000000 UTC+0` 指定されたタイムスタンプより前の変更タイムスタンプがあるファイルを取り込むための、省略可能なタイムスタンプ。既定値: なし
`pathGlobFilter` または `fileNamePattern` 型: `String` ファイルを選択するために指定できる glob パターン。相当する構文 `COPY INTO` の `PATTERN`。 `read_files` では `fileNamePattern` を使用できます。既定値: なし
`recursiveFileLookup` 型: `Boolean` スキーマ推論中にパーティションの推論をスキップするかどうかを指定します。これは、どのファイルを読み込むかには影響しません。既定値:`false`

`JSON` のオプション

オプション
`allowBackslashEscapingAnyCharacter` 型: `Boolean` バックスラッシュを使用して、後続の任意の 1 文字をエスケープすることを許可するかどうか。有効にしない場合は、JSON の仕様に明示されている文字のみをエスケープできます。既定値:`false`
`allowComments` 型: `Boolean` 解析対象のコンテンツ内で Java、C、および C++ スタイルのコメント (`'/'`、`'*'`、および `'//'` の種類) の使用を許可するかどうか。既定値:`false`
`allowNonNumericNumbers` 型: `Boolean` 非数値 (`NaN`) トークンのセットを有効な浮動小数点数値として許可するかどうか。既定値:`true`
`allowNumericLeadingZeros` 型: `Boolean` 追加の (無視できる) ゼロで始まる整数値を許可するかどうか (例: `000001`)。既定値:`false`
`allowSingleQuotes` 型: `Boolean` 単一引用符 (アポストロフィ、`'\'` 文字) を使用して、文字列 (名前と文字列値) を囲むことを許可するかどうか。既定値:`true`
`allowUnquotedControlChars` 型: `Boolean` JSON 文字列に、エスケープされていない制御文字 (タブや改行文字など、値が 32 未満の ASCII 文字) を含めることを許可するかどうか。既定値:`false`
`allowUnquotedFieldNames` 型: `Boolean` 引用符で囲まれていないフィールド名 (JavaScript では許可されるが、JSON 仕様では許可されない) の使用を許可するかどうか。既定値:`false`
`badRecordsPath` 型: `String` 不正な JSON レコードに関する情報を記録するためのファイルを格納するパス。既定値: なし
`columnNameOfCorruptRecord` 型: `String` 形式に誤りがあり、解析できないレコードを格納するための列。解析の `mode` を `DROPMALFORMED` に設定する場合、この列は空になります。既定値:`_corrupt_record`
`dateFormat` 型: `String` 日付文字列を解析するための形式。既定値:`yyyy-MM-dd`
`dropFieldIfAllNull` 型: `Boolean` スキーマの推論中に、すべて null 値の列または空の配列および構造体を無視するかどうか。既定値:`false`
`encoding` または `charset` 型: `String` JSON ファイルのエンコードの名前。オプションの一覧については、`java.nio.charset.Charset` を参照してください。 `multiline` が `true` の場合、`UTF-16` と `UTF-32` を使用することはできません。既定値:`UTF-8`
`inferTimestamp` 型: `Boolean` タイムスタンプ文字列を `TimestampType` として推論を試みるかどうか。次の設定の場合 `true`、スキーマの推論にかなりの時間がかかることがあります。自動ローダーで使うには `cloudFiles.inferColumnTypes` を有効にする必要があります。既定値:`false`
`lineSep` 型: `String` 連続する 2 つの JSON レコードの間の文字列。既定値: なし。`\r`、`\r\n`、`\n` を対象として含みます
`locale` 型: `String` `java.util.Locale` 識別子。 JSON 内の既定の日付、タイムスタンプ、および 10 進数の解析に影響します。既定値:`US`
`mode` 型: `String` 形式に誤りがあるレコードの処理に関するパーサーのモード。 `'PERMISSIVE'`、 `'DROPMALFORMED'` または `'FAILFAST'`。既定値:`PERMISSIVE`
`multiLine` 型: `Boolean` JSON レコードが複数の行にまたがるかどうか。既定値:`false`
`prefersDecimal` 型: `Boolean` 可能な場合は float 型や double 型の代わりに `DecimalType` として文字列を推論しようとします。また、以下によりスキーマ推論も使う必要があります `inferSchema` を有効にするか、Auto Loader で `cloudFiles.inferColumnTypes` を使います。既定値:`false`
`primitivesAsString` 型: `Boolean` 数値やブール値などのプリミティブ型を `StringType` として推論するかどうか。既定値:`false`
`readerCaseSensitive` 型: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマと大文字と小文字が異なる名前のデータ列を取り出します。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。 Databricks Runtime 13.3 以上で使用できます。既定値:`true`
`rescuedDataColumn` 型: `String` データ型の不一致またはスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。既定値: なし
`timestampFormat` 型: `String` タイムスタンプ文字列を解析するための形式。既定値:`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` 型: `String` タイムスタンプと日付を解析するときに使用する `java.time.ZoneId`。既定値: なし

`CSV` のオプション

オプション
`badRecordsPath` 型: `String` 不正な CSV レコードに関する情報を記録するためのファイルを格納するパス。既定値: なし
`charToEscapeQuoteEscaping` 型: `Char` 引用符のエスケープに使用する文字をエスケープするために使用する文字。たとえば、レコードが `[ " a\\", b ]` の場合は次のようになります。 * `'\'` をエスケープする文字が未定義の場合、このレコードは解析されません。パーサーによって、文字 (`[a],[\],["],[,],[ ],[b]`) が読み取られ、終了引用符が見つからないためエラーがスローされます。 * `'\'` をエスケープする文字を `'\'` と定義した場合、このレコードから 2 つの値 (`[a\]` と `[b]`) が読み取られます。既定値:`'\0'`
`columnNameOfCorruptRecord` > [!注] >> 自動ローダーでサポートされています。 `COPY INTO` ではサポートされていません。型: `String` 形式に誤りがあり、解析できないレコードを格納するための列。解析の `mode` を `DROPMALFORMED` に設定する場合、この列は空になります。既定値:`_corrupt_record`
`comment` 型: `Char` テキスト行の先頭に配置した場合に行コメントを表す文字を定義します。コメントのスキップを無効にするには、`'\0'` を使用します。既定値:`'\u0000'`
`dateFormat` 型: `String` 日付文字列を解析するための形式。既定値:`yyyy-MM-dd`
`emptyValue` 型: `String` 空の値の文字列表現。既定値:`""`
`encoding` または `charset` 型: `String` CSV ファイルのエンコードの名前。オプションの一覧については、`java.nio.charset.Charset` を参照してください。 `multiline` が `true` の場合、`UTF-16` と `UTF-32` を使用することはできません。既定値:`UTF-8`
`enforceSchema` 型: `Boolean` 指定または推論されたスキーマを CSV ファイルに強制的に適用するかどうか。このオプションを有効にすると、CSV ファイルのヘッダーは無視されます。自動ローダーを使用してデータをレスキューし、スキーマの展開を許可する場合、このオプションは既定では無視されます。既定値:`true`
`escape` 型: `Char` データの解析時に使用するエスケープ文字。既定値:`'\'`
`header` 型: `Boolean` CSV ファイルにヘッダーが含まれているかどうか。自動ローダーによって、スキーマの推論時にファイルにヘッダーが含まれているものと見なされます。既定値:`false`
`ignoreLeadingWhiteSpace` 型: `Boolean` 解析対象の各値の先頭の空白文字を無視するかどうか。既定値:`false`
`ignoreTrailingWhiteSpace` 型: `Boolean` 解析対象の各値の末尾の空白文字を無視するかどうか。既定値:`false`
`inferSchema` 型: `Boolean` 解析対象の CSV レコードのデータ型を推論するか、すべての列が `StringType` であると見なすか。 `true` に設定した場合は、追加でデータを渡す必要があります。自動ローダーの場合は、代わりに `cloudFiles.inferColumnTypes` を使います。既定値:`false`
`lineSep` 型: `String` 連続する 2 つの CSV レコードの間の文字列。既定値: なし。`\r`、`\r\n`、`\n` を対象として含みます
`locale` 型: `String` `java.util.Locale` 識別子。 CSV 内の既定の日付、タイムスタンプ、および 10 進数の解析に影響します。既定値:`US`
`maxCharsPerColumn` 型: `Int` 解析する値の予想最大文字数。メモリエラーを回避するために使用できます。既定値は `-1` で、無制限を意味します。既定値:`-1`
`maxColumns` 型: `Int` レコードに含めることができる列数のハード制限。既定値:`20480`
`mergeSchema` 型: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。スキーマの推論時に、自動ローダーに対して既定で有効になります。既定値:`false`
`mode` 型: `String` 形式に誤りがあるレコードの処理に関するパーサーのモード。 `'PERMISSIVE'`、 `'DROPMALFORMED'` および `'FAILFAST'`。既定値:`PERMISSIVE`
`multiLine` 型: `Boolean` CSV レコードが複数の行にまたがるかどうか。既定値:`false`
`nanValue` 型: `String` `FloatType` および `DoubleType` 列を解析する際の非数値の文字列表現。既定値:`"NaN"`
`negativeInf` 型: `String` `FloatType` または `DoubleType` 列を解析する際の負の無限大の文字列表現。既定値:`"-Inf"`
`nullValue` 型: `String` null 値の文字列表現。既定値:`""`
`parserCaseSensitive` (非推奨) 型: `Boolean` ファイルの読み取り中に、ヘッダーに宣言されている列をスキーマの大文字と小文字の区別に合わせるかどうか。自動ローダーについては、これは既定で `true` となります。有効にした場合、大文字と小文字が異なる列は `rescuedDataColumn` でレスキューされます。 `readerCaseSensitive` が優先されるため、このオプションは非推奨となりました。既定値:`false`
`positiveInf` 型: `String` `FloatType` または `DoubleType` 列を解析する際の正の無限大の文字列表現。既定値:`"Inf"`
`preferDate` 型: `Boolean` 可能な場合、タイムスタンプではなく日付として文字列を推論しようとします。また、以下によりスキーマ推論も使う必要があります。`inferSchema` を有効にするか、自動ローダーで `cloudFiles.inferColumnTypes` を使います。既定値:`true`
`quote` 型: `Char` フィールド区切り記号が値に含まれる場合に、値のエスケープに使用する文字。既定値:`"`
`readerCaseSensitive` 型: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマと大文字と小文字が異なる名前のデータ列を取り出します。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値:`true`
`rescuedDataColumn` 型: `String` データ型の不一致およびスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。既定値: なし
`sep` または `delimiter` 型: `String` 列の間の区切り文字列。既定値:`","`
`skipRows` 型: `Int` 無視する必要がある CSV ファイルの先頭からの行数 (コメント化された行や空の行を含みます)。 `header` が true の場合、ヘッダーは最初にスキップされていない行とコメントされていない行になります。既定値:`0`
`timestampFormat` 型: `String` タイムスタンプ文字列を解析するための形式。既定値:`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` 型: `String` タイムスタンプと日付を解析するときに使用する `java.time.ZoneId`。既定値: なし
`unescapedQuoteHandling` 型: `String` エスケープされていない引用符を処理するための方策。使用可能なオプション: * `STOP_AT_CLOSING_QUOTE`: エスケープされていない引用符が入力で見つかった場合、終了引用符が見つかるまで、引用符文字を蓄積し、引用符で囲まれた値として値の解析を続行します。 * `BACK_TO_DELIMITER`: エスケープされていない引用符が入力で見つかった場合、値を引用符で囲まれていない値と見なします。これにより、`sep` によって定義された区切り記号が見つかるまで、パーサーは現在解析対象となっている値のすべての文字を蓄積します。値に区切り記号が見つからない場合は、区切り記号または行末が見つかるまで、入力の文字がパーサーによって蓄積され続けます。 * `STOP_AT_DELIMITER`: エスケープされていない引用符が入力で見つかった場合、値を引用符で囲まれていない値と見なします。これにより、`sep` に定義した区切り記号または行末が入力内で見つかるまで、すべての文字がパーサーによって蓄積されます。 * `SKIP_VALUE`: エスケープされていない引用符が入力で見つかった場合、(次の区切り記号が見つかるまで) 指定された値に対して解析されるコンテンツはスキップされ、`nullValue` に設定した値が代わりに生成されます。 * `RAISE_ERROR`: エスケープされていない引用符が入力で見つかった場合は、 `TextParsingException` がスローされます。既定値:`STOP_AT_DELIMITER`

`XML` オプション

オプション	説明	スコープ
`rowTag`	行として扱う XML ファイルの行タグ。 XML `<books> <book><book>...<books>` の例では、適切な値は `book` です。これは必須オプションです。	読み取り
`samplingRatio`	スキーマ推論に使用される行の割合を定義します。 XML 組み込み関数はこのオプションを無視します。既定値: `1.0`。	読み取り
`excludeAttribute`	要素内の属性を除外するかどうか。既定値: `false`。	読み取り
`mode`	解析中に破損したレコードを処理するモードを許可します。 `PERMISSIVE`: 破損したレコードの場合は、`columnNameOfCorruptRecord` によって構成されたフィールドに形式に誤りがある文字列を格納し、形式に誤りがあるフィールドを `null` に設定します。破損したレコードを保持するには、ユーザー定義スキーマで `columnNameOfCorruptRecord` という名前の `string` 型フィールドを設定できます。スキーマにこのフィールドがない場合、破損したレコードは解析中に削除されます。スキーマを推論すると、パーサーは出力スキーマに `columnNameOfCorruptRecord` フィールドを暗黙的に追加します。 `DROPMALFORMED`: 破損したレコードを無視します。このモードは XML 組み込み関数ではサポートされていません。 `FAILFAST`: パーサーが破損したレコードに合致する場合に、例外をスローします。	読み取り
`inferSchema`	`true` の場合は、結果として得られる各データフレーム列に対して適切な型を推論しようとします。 `false` の場合、結果の列はすべて `string` 型です。既定: `true` XML 組み込み関数はこのオプションを無視します。	読み取り
`columnNameOfCorruptRecord`	次のモードで作成された形式に誤りがある文字列を含む新しいフィールドの名前を変更できるようにします: `PERMISSIVE` モード。既定値: `spark.sql.columnNameOfCorruptRecord`。	読み取り
`attributePrefix`	属性と要素を区別するための属性のプレフィックス。これはフィールド名のプレフィックスになります。既定値は `_` です。 XML の読み取り時は空にすることができますが、書き込み時は空にすることはできません。	読み取り、書き込み
`valueTag`	属性または子要素の要素も持つ要素内の文字データに使用されるタグ。ユーザーがスキーマで `valueTag` フィールドを指定することもできますが、文字データが他の要素や属性と一緒に要素に存在する場合、スキーマ推論中に自動的に追加されます。既定値: `_VALUE`	読み取り、書き込み
`encoding`	読み取りの場合は、指定されたエンコードの種類で XML ファイルをデコードします。書き込みの場合は、保存される XML ファイルのエンコード (文字セット) を指定します。 XML 組み込み関数はこのオプションを無視します。既定値: `UTF-8`。	読み取り、書き込み
`ignoreSurroundingSpaces`	読み取られる値の周囲の空白をスキップするかどうかを定義します。既定値: `true`。空白のみの文字データは無視されます。	読み取り
`rowValidationXSDPath`	各行の省略可能な XML を個別に検証するために使用される XSD ファイルへのパス。検証に失敗した行は、上記のように解析エラーと同様に処理されます。 XSD から、指定または推論されたスキーマにそれ以外の影響は及びません。	読み取り
`ignoreNamespace`	`true` の場合、XML 要素と属性の名前空間プレフィックスは無視されます。たとえば、タグ `<abc:author>` と `<def:author>` は、どちらも単なる `<author>` として扱われます。 `rowTag` 要素では名前空間を無視できず、その子の読み取りのみを無視できることに注意してください。 `false` の場合でも、XML 解析は名前空間を認識しません。既定値: `false`。	読み取り
`timestampFormat`	datetime パターン形式に従ったカスタムタイムスタンプ形式の文字列。これは `timestamp` 型に適用されます。既定値: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`。	読み取り、書き込み
`timestampNTZFormat`	datetime パターン形式に従った、タイムゾーンを含まないカスタム形式の文字列。これは TimestampNTZType 型に適用されます。既定: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	読み取り、書き込み
`dateFormat`	datetime パターン形式に従ったカスタム日付形式の文字列。これは、date 型に適用されます。既定値: `yyyy-MM-dd`。	読み取り、書き込み
`locale`	IETF BCP 47 形式の言語タグとしてロケールを設定します。たとえば、`locale` は日付とタイムスタンプの解析中に使用されます。既定値: `en-US`。	読み取り
`rootTag`	XML ファイルのルートタグ。例えば、`<books> <book><book>...</books>` では、適切な値は `books` です。 `books foo="bar"` のように値を指定することで、基本属性を含めることができます。既定値: `ROWS`。	write
`declaration`	`rootTag` の前のすべての出力 XML ファイルに書き込む XML 宣言のコンテンツ。たとえば、`foo` の値を指定すると `<?xml foo?>` が書き込まれます。空の文字列に設定すると抑制されます。既定値: `version="1.0"` `encoding="UTF-8" standalone="yes"`	write
`arrayElementName`	配列値列の各要素を囲む XML 要素の名前。既定値: `item`。	write
`nullValue`	null 値の文字列表記を設定します。既定値: 文字列 `null`。これが `null` である場合、パーサーはフィールドの属性と要素を書き込みません。	読み取り、書き込み
`compression`	ファイルに保存するときに使用する圧縮コード。これは、大文字と小文字は区別されない短縮名 (`none`、`bzip2`、`gzip`、`lz4`、`snappy', and<br>`deflate`) のいずれかです。 XML 組み込み関数はこのオプションを無視します。既定値: `none`。	write
`validateName`	true の場合、XML 要素名の検証に失敗した場合にエラーをスローします。たとえば、SQL フィールド名にはスペースを含めることができますが、XML 要素名にはスペースを含めることができません。既定: `true`	write
`readerCaseSensitive`	rescuedDataColumn が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマと大文字と小文字が異なる名前のデータ列を取り出します。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値: `true`。	読み取り
`rescuedDataColumn`	データ型の不一致およびスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。既定値: None。	読み取り

`PARQUET` オプション

オプション
`datetimeRebaseMode` 型: `String` ユリウス暦と予期的グレゴリオ暦の間の日付値とタイムスタンプ値のリベースを制御します。使用できる値: `EXCEPTION`、`LEGACY`、 `CORRECTED` 既定値:`LEGACY`
`int96RebaseMode` 型: `String` ユリウス暦と予期的グレゴリオ暦の間の INT96 タイムスタンプ値のリベースを制御します。使用できる値: `EXCEPTION`、`LEGACY`、 `CORRECTED` 既定値:`LEGACY`
`mergeSchema` 型: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。既定値:`false`
`readerCaseSensitive` 型: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマと大文字と小文字が異なる名前のデータ列を取り出します。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値:`true`
`rescuedDataColumn` 型: `String` データ型の不一致およびスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。既定値: なし

`AVRO` のオプション

オプション
`avroSchema` 型: `String` ユーザーによって Avro 形式で指定される省略可能なスキーマ。 Avro を読み取る際、展開されたスキーマにこのオプションを設定できます。これは、実際の Avro スキーマと互換性はありますが、異なるものです。逆シリアル化スキーマは、展開されたスキーマと一致するようになります。たとえば、既定値がある追加列を 1 つ含む展開されたスキーマを設定した場合、読み取り結果にその新しい列も含まれるようになります。既定値: なし
`datetimeRebaseMode` 型: `String` ユリウス暦と予期的グレゴリオ暦の間の日付値とタイムスタンプ値のリベースを制御します。使用できる値: `EXCEPTION`、`LEGACY`、 `CORRECTED` 既定値:`LEGACY`
`mergeSchema` 型: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。 Avro に対して `mergeSchema` を有効にしても、データ型は緩和されません。既定値:`false`
`readerCaseSensitive` 型: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマと大文字と小文字が異なる名前のデータ列を取り出します。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値:`true`
`rescuedDataColumn` 型: `String` データ型の不一致およびスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。既定値: なし

`BINARYFILE` のオプション

バイナリファイルには、追加の構成オプションはありません。

`TEXT` のオプション

オプション
`encoding` 型: `String` テキストファイルのエンコードの名前。オプションの一覧については、`java.nio.charset.Charset` を参照してください。既定値:`UTF-8`
`lineSep` 型: `String` 連続する 2 つのテキストレコード間の文字列。既定値: なし。`\r`、`\r\n`、`\n` を対象として含みます
`wholeText` 型: `Boolean` ファイルを単一レコードとして読み取るかどうか。既定値:`false`

`ORC` のオプション

オプション
`mergeSchema` 型: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。既定値:`false`

クラウド固有のオプション

自動ローダーには、クラウドインフラストラクチャを構成するためのさまざまなオプションが用意されています。

AWS 固有のオプション
Azure 固有のオプション
Google 固有のオプション

AWS 固有のオプション

cloudFiles.useNotifications = true を選択し、自動ローダーで通知サービスを設定する場合のみ以下のオプションを指定します。

オプション
`cloudFiles.region` 型: `String` ソース S3 バケットが存在し、AWS SNS および SQS サービスが作成されるリージョン。既定値: EC2 インスタンスのリージョン。

cloudFiles.useNotifications = true を選択し、既に設定したキューを自動ローダーで使用する場合にのみ、次のオプションを指定します。

オプション
`cloudFiles.queueUrl` 型: `String` SQS キューの URL。指定した場合、自動ローダーでは、独自の AWS SNS および SQS サービスが設定される代わりに、このキューのイベントが直接消費されます。既定値: なし

IAM ロールが利用できない場合、または異なるクラウドからデータを取り込んでいる場合は、次のオプションを使用して、AWS SNS および SQS にアクセスするための資格情報を指定できます。

オプション
`cloudFiles.awsAccessKey` 型: `String` ユーザーの AWS アクセスキー ID。以下と一緒に指定する必要があります `cloudFiles.awsSecretKey` 既定値: なし
`cloudFiles.awsSecretKey` 型: `String` ユーザーの AWS シークレットアクセスキー。以下と一緒に指定する必要があります `cloudFiles.awsAccessKey` 既定値: なし
`cloudFiles.roleArn` 次のコマンドを入力します: `String` 引き受ける IAM ロールの ARN。ロールは、クラスターのインスタンスプロファイルから、または以下と一緒に資格情報を指定することによって引き受けることができます。 `cloudFiles.awsAccessKey` および `cloudFiles.awsSecretKey`。既定値: なし
`cloudFiles.roleExternalId` 型: `String` `cloudFiles.roleArn` を使用してロールを引き受ける際に指定する識別子。既定値: なし
`cloudFiles.roleSessionName` 型: `String` 以下を使用してロールを引き受ける際に使用するオプションのセッション名 `cloudFiles.roleArn` 既定値: なし
`cloudFiles.stsEndpoint` 型: `String` `cloudFiles.roleArn` を使用してロールを引き受ける際に AWS STS にアクセスするために指定するオプションのエンドポイント。既定値: なし

Azure 固有のオプション

cloudFiles.useNotifications = true を指定し、自動ローダーで通知サービスを設定する場合は、次のすべてのオプションの値を指定する必要があります。

オプション
`cloudFiles.clientId` 型: `String` サービスプリンシパルのクライアント ID またはアプリケーション ID。既定値: なし
`cloudFiles.clientSecret` 型: `String` サービスプリンシパルのクライアントシークレット。既定値: なし
`cloudFiles.connectionString` 型: `String` アカウントアクセスキーまたは Shared Access Signature (SAS) に基づくストレージアカウントの接続文字列。既定値: なし
`cloudFiles.resourceGroup` 型: `String` ストレージアカウントが作成される Azure リソースグループ。既定値: なし
`cloudFiles.subscriptionId` 型: `String` リソースグループが作成される Azure サブスクリプション ID。既定値: なし
`cloudFiles.tenantId` 型: `String` サービスプリンシパルが作成される Azure テナント ID。既定値: なし

重要

自動通知設定は、Azure China と Government リージョンで Databricks Runtime 9.1 以降を使用して利用できます。以前の DBR バージョンの場合、これらのリージョンでファイル通知と一緒に自動ローダーを使用するには、queueName を指定する必要があります。

cloudFiles.useNotifications = true を選択し、既に設定したキューを自動ローダーで使用する場合にのみ、次のオプションを指定します。

オプション

オプション
`cloudFiles.queueName` 型: `String` Azure キューの名前。指定した場合、クラウドファイルソースは、独自の Azure Event Grid サービスと Queue Storage サービスを設定する代わりに、このキューのイベントを直接消費します。その場合、`cloudFiles.connectionString` では、キューに対する読み取りアクセス許可のみが必要です。既定値: なし

cloudFiles.queueName

型: String

Azure キューの名前。指定した場合、クラウドファイルソースは、独自の Azure Event Grid サービスと Queue Storage サービスを設定する代わりに、このキューのイベントを直接消費します。その場合、cloudFiles.connectionString では、キューに対する読み取りアクセス許可のみが必要です。

既定値: なし

Google 固有のオプション

自動ローダーは、Google Service Account を利用して通知サービスを自動的に設定できます。 Google サービスセットアップに従って、サービスアカウントを引き受けるようにクラスターを構成できます。サービスアカウントに必要なアクセス許可は、「自動ローダーファイルの通知モードとは」で指定されています。そうしない場合、自動ローダーで通知サービスを設定するには、次の認証オプションを指定します。

オプション
`cloudFiles.client` 型: `String` Google Service Account のクライアント ID。既定値: なし
`cloudFiles.clientEmail` 型: `String` Google Service Account のメールアドレス。既定値: なし
`cloudFiles.privateKey` 型: `String` Google Service Account 用に生成された秘密キー。既定値: なし
`cloudFiles.privateKeyId` 型: `String` Google Service Account 用に生成された秘密キーの ID。既定値: なし
`cloudFiles.projectId` 型: `String` GCS バケットが存在するプロジェクトの ID。 Google Cloud Pub/Sub サブスクリプションも、このプロジェクト内に作成されます。既定値: なし

cloudFiles.useNotifications = true を選択し、既に設定したキューを自動ローダーで使用する場合にのみ、次のオプションを指定します。

オプション
`cloudFiles.subscription` 型: `String` Google Cloud Pub/Sub サブスクリプションの名前。指定されている場合、クラウドファイルソースは、独自の GCS 通知と Google Cloud Pub/Sub サービスを設定する代わりに、このキューからのイベントを消費します。既定値: なし

自動ローダーのオプション

自動ローダーの一般的なオプション

ディレクトリ一覧のオプション

ファイル通知オプション

ファイル形式のオプション

共通オプション

JSON のオプション

CSV のオプション

XML オプション

PARQUET オプション

AVRO のオプション

BINARYFILE のオプション

TEXT のオプション

ORC のオプション

クラウド固有のオプション

AWS 固有のオプション

Azure 固有のオプション

Google 固有のオプション

その他のリソース

`JSON` のオプション

`CSV` のオプション

`XML` オプション

`PARQUET` オプション

`AVRO` のオプション

`BINARYFILE` のオプション

`TEXT` のオプション

`ORC` のオプション