次の方法で共有


コピー アクティビティでパイプラインの Hdfs を構成する

この記事では、データ パイプラインでコピー アクティビティを使用して、Hdfs for Pipeline との間でデータをコピーする方法について説明します。

サポートされている形式

Hdfs for Pipeline では、次のファイル形式がサポートされています。 形式ベースの設定については、各記事を参照してください。

サポートされている構成

コピー アクティビティの下の各タブの構成については、それぞれ次のセクションを参照してください。

全般

[全般設定] タブを構成するには、全般設定のガイダンスを参照してください。

情報源

コピー アクティビティの [ ソース ] タブの下のパイプラインの Hdfs では、次のプロパティがサポートされています。

ソース タブとプロパティの一覧を示すスクリーンショット。

次のプロパティは必須です。

  • 接続: 接続リストからパイプライン接続用の Hdfs を選択します。 接続が存在しない場合は、パイプライン接続用の新しい Hdfs を作成します。

  • ファイル パスの種類: ファイル パスの種類として、[ファイル パス][ワイルドカード ファイル パス]、または [ファイルの一覧] を選択できます。 これらの各設定の構成は次のとおりです。

    • ファイル パス: この種類を選択すると、指定したフォルダー/ファイル パスからデータをコピーできます。

    • ワイルドカード ファイル パス: ソース フォルダーをフィルター処理するワイルドカード文字を含むフォルダー パスを指定します。 使用できるワイルドカードは、* (ゼロ文字以上の文字に一致) と ? (ゼロ文字または 1 文字に一致) です。 フォルダーまたはファイルの名前にワイルドカードまたはこのエスケープ文字が含まれている場合は、^ を使用してエスケープします。 その他の例については、「 フォルダーとファイル フィルターの例」を参照してください。

      • ワイルドカード フォルダー パス: ソース フォルダーをフィルター処理するワイルドカード文字を含むフォルダー パスを指定します。

      • ワイルドカード ファイル名: ソース ファイルをフィルター処理するために、構成されたフォルダー/ワイルドカード フォルダー パスの下にワイルドカード文字を使用してファイル名を指定します。

        ワイルドカード ファイルのパスを示すスクリーンショット。

    • ファイルの一覧: 指定したファイル セットをコピーすることを示します。 コピーするファイルの一覧を含むテキスト ファイルをポイントします (データセットで構成されているパスへの相対パスを使用して、行ごとに 1 つのファイルが記載されています)。
      このオプションを使用する場合は、データセットにファイル名を指定しないでください。 その他の例については、「ファイル リストの例」を参照してください。

      • フォルダー パス: フォルダーへのパスを指定します。 必須です。

      • ファイル一覧へのパス: コピーするファイルの一覧を含むテキスト ファイルのパスを指定します。

        ファイル一覧へのパスを示すスクリーンショット。

  • 再帰的: データをサブフォルダーから再帰的に読み取るか、指定したフォルダーからのみ読み取るかを指定します。 再帰的に選択され、コピー先がファイル ベースのストアである場合、空のフォルダーまたはサブフォルダーはコピーされず、コピー先に作成されません。 このプロパティは既定で選択されており、 ファイル一覧へのパスを構成する場合は適用されません。

  • ファイル形式: ドロップダウン リストから適用されるファイル形式を選択します。 [設定] を 選択してファイル形式を構成します。 さまざまなファイル形式の設定については、「サポートされている形式」を参照してください。

[詳細設定] では、次のフィールドを指定できます。

  • 最終更新日でフィルター処理: 最後に変更された日付に基づいてファイルがフィルター処理されます。 ファイル パスの種類を [ファイルの一覧] として構成する場合、このプロパティは適用されません。

    • 開始時刻 (UTC): ファイルは、最終変更時刻が構成された時刻以上の場合に選択されます。

    • 終了時刻 (UTC): 最終変更時刻が構成された時間より短い場合、ファイルが選択されます。

  • パーティション検出を有効にする: パーティション分割されているファイルの場合は、ファイル パスのパーティションを解析し、それを追加のソース列として追加するかどうかを指定します。

    • パーティションのルート パス: パーティション検出が有効になっている場合は、パーティション分割されたフォルダーをデータ列として読み取るための絶対ルート パスを指定します。
  • 最大同時接続数: このプロパティは、アクティビティの実行中にデータ ストアに対して確立された同時接続の上限を示します。 同時接続を制限する場合にのみ値を指定します。

  • HDFS DistCp を使用する: HDFS DistCp プロパティ グループの使用を有効にするかどうかを指定します。

    • ResourceManager エンドポイント: YARN (さらに別のリソース ネゴシエーター) エンドポイント。

    • 一時スクリプト パス: 一時 DistCp コマンド スクリプトの格納に使用されるフォルダー パス。 スクリプト ファイルが生成され、コピー ジョブの完了後に削除されます。

    • DistCp オプション: DistCp コマンドに提供される追加のオプション。

    hdfs distcp 設定を示すスクリーンショット。

  • 追加の列: ソース ファイルの相対パスまたは静的な値を格納する追加のデータ列を追加します。 エクスプレッションは後者に対応しています。

地図作成

[マッピング] タブの構成については、「[マッピング] タブでマッピングを構成する」を参照してください。

設定

[設定] タブの構成については、[設定] タブで他の設定を構成するを参照してください

表の概要

次の表に、Hdfs for Pipeline のコピー アクティビティの詳細を示します。

ソース情報

名前 説明 価値 必須 JSON スクリプト プロパティ
接続 ソース データ ストアへの接続。 <パイプライン接続用の Hdfs> イエス 接続
ファイル パスの種類 使用するファイル パスの種類。 ファイル パス
ワイルドカード ファイル パス
ファイルの一覧
イエス /
ファイル パス パスからソース データ ストアのフォルダーまたはファイルにコピーします。 <ファイルパス> イエス • フォルダパス
• ファイル名
ワイルドカード パス ソース フォルダーをフィルター処理するように構成されたソース データ ストアの下のワイルドカード文字を含むフォルダーのパス。 <ワイルドカード パス> イエス • ワイルドカードフォルダパス
• wildcardFileName(ワイルドカードファイル名)
フォルダー パス コピーするファイルを含むフォルダーをポイントします。 <フォルダー パス> いいえ フォルダパス
ファイル リストへのパス 指定されたファイル セットをコピーすることを示します。 コピーするファイルの一覧を含むテキスト ファイルをポイントします。構成されているパスへの相対パスであるファイルを 1 行につき 1 つずつ指定します。 <ファイル リストへのパス> いいえ fileListPath
再帰的に データをサブフォルダーから再帰的に読み取るか、指定したフォルダーからのみ読み取るかを指定します。 再帰的に選択され、コピー先がファイル ベースのストアである場合、空のフォルダーまたはサブフォルダーはコピーされず、コピー先に作成されません。 ファイル 一覧へのパスを構成する場合、このプロパティは適用されません。 選択(デフォルト)または解除 いいえ リカーシブ
ファイル形式 ソース データのファイル形式。 さまざまなファイル形式の詳細については、「サポートされている形式」の各記事を参照してください。 / イエス /
最終更新日時でフィルター処理 最終変更時刻が [開始時刻] から [終了時刻] の範囲内にあるファイルは、さらに処理するためにフィルター処理されます。

時刻は、yyyy-mm-ddThh:mm:ss.fffZ の形式で UTC タイム ゾーンに適用されます。

このプロパティはスキップできます。つまり、ファイル属性フィルターは適用されません。 ファイル パスの種類を [ファイルの一覧] として構成する場合、このプロパティは適用されません。
開始時刻
終了時刻
いいえ 変更日時開始
変更日時終了
パーティション検出を有効にする ファイル パスからパーティションを解析し、それを追加のソース列として追加するかどうかを指定します。 選択または選択解除 (既定) いいえ enablePartitionDiscovery:
true または false (デフォルト値)
パーティションのルート パス パーティション分割されたフォルダーをデータ列として読み取るパーティションの絶対ルート パス。 <パーティションのルートパス> いいえ パーティションのルートパス
最大同時接続数 アクティビティの実行中にデータ ストアに確立される同時接続の上限。 同時接続を制限する場合にのみ値を指定します。 <最大コンカレント接続数> いいえ 最大同時接続数
HDFS DistCp の使用 HDFS DistCp プロパティ グループの使用を有効にするかどうかを指定します。 選択または選択解除 (既定) いいえ /
リソースマネージャーのエンドポイント YARN (さらに別のリソース ネゴシエーター) エンドポイント。 < あなたの resourceManager エンドポイント > はい (DistCp を使用する場合) リソースマネージャーエンドポイント
一時スクリプトパス 一時 DistCp コマンド スクリプトを格納するために使用するフォルダー パス。 スクリプト ファイルが生成され、コピー ジョブの完了後に削除されます。 < 一時スクリプトのパス > はい (DistCp を使用する場合) テンプスクリプトパス
DistCp オプション DistCp コマンドに指定する追加オプション。 < distCp オプション > いいえ distcpオプション
追加の列 ソース ファイルの相対パスまたは静的値を格納するデータ列を追加します。 エクスプレッションは後者に対応しています。 •名前
• 価値
いいえ 追加列:
•名前
•価値