OutputFileDatasetConfig クラス

実行の出力をコピーし、FileDataset として昇格させる方法を表します。

OutputFileDatasetConfig を使用すると、コンピューティング先の特定のローカル パスを指定された宛先にアップロードする方法を指定できます。 コンストラクターに引数を渡さない場合は、名前、宛先、ローカル パスが自動的に生成されます。

引数を渡さない例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成してから、表形式データセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

OutputFileDatasetConfig を初期化します。

OutputFileDatasetConfig を使用すると、コンピューティング先の特定のローカル パスを指定された宛先にアップロードする方法を指定できます。 コンストラクターに引数を渡さない場合は、名前、宛先、ローカル パスが自動的に生成されます。

引数を渡さない例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成してから、表形式データセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
継承
OutputFileDatasetConfig
OutputFileDatasetConfig

コンストラクター

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

パラメーター

name
str
必須

この実行に固有の出力の名前。 一般に経路追跡の目的で使用されます。 None に設定すると、名前が自動的に生成されます。 この名前は環境変数にもなり、この変数に格納されるローカル パスに、宛先にアップロードされる出力ファイルとフォルダーを書き込むことができます。

destination
tuple
必須

出力のコピー先。 None に設定すると、workspaceblobstore データストアのパス dataset/{run-id}/{output-name} の下に出力がコピーされます (run-id は実行の ID、output-name は上記の name パラメーターから得た出力名)。 destination はタプルであり、その 1 番目の項目はデータストア、2 番目の項目はデータのコピー先となるデータストア内のパスです。

データストア内のパスにはテンプレート パスを指定できます。 テンプレート パスは通常のパスですが、内部にプレースホルダーがあります。 このプレースホルダーは、適切なタイミングで解決されます。 プレースホルダーの構文は {placeholder} です (例: /path/with/{placeholder})。 現時点では、{run-id} と {output-name} の 2 つのプレースホルダーのみがサポートされています。

source
str
必須

データのコピー元であるコンピューティング先内のパス。 None に設定すると、コンピューティング先の OS の一時ディレクトリ内に作成されるディレクトリに設定されます。

partition_format
str
必須

パスのパーティション形式を指定します。 既定値は None です。 各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。 形式の '{column_name}' の部分では文字列の列が、'{column_name:yyyy/MM/dd/HH/mm/ss}' では datetime の列が作成されます。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は datetime 型の年、月、日、時、分、秒の抽出に使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、部署名と日時でパーティション分割されているパス '../Accounts/2019/01/01/data.parquet' がある場合、partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' によって、値 'Accounts' を持つ文字列の列 'Department' と、値 '2019-01-01' を持つ datetime 列 'PartitionDate' が作成されます。

name
str
必須

この実行に固有の出力の名前。 一般に経路追跡の目的で使用されます。 None に設定すると、名前が自動的に生成されます。 この名前は環境変数にもなり、この変数に格納されるローカル パスに、宛先にアップロードされる出力ファイルとフォルダーを書き込むことができます。

destination
tuple
必須

出力のコピー先。 None に設定すると、workspaceblobstore データストアのパス dataset/{run-id}/{output-name} の下に出力がコピーされます (run-id は実行の ID、output-name は上記の name パラメーターから得た出力名)。 destination はタプルであり、その 1 番目の項目はデータストア、2 番目の項目はデータのコピー先となるデータストア内のパスです。

データストア内のパスにはテンプレート パスを指定できます。 テンプレート パスは通常のパスですが、内部にプレースホルダーがあります。 このプレースホルダーは、適切なタイミングで解決されます。 プレースホルダーの構文は {placeholder} です (例: /path/with/{placeholder})。 現時点では、{run-id} と {output-name} の 2 つのプレースホルダーのみがサポートされています。

source
str
必須

データのコピー元であるコンピューティング先内のパス。 None に設定すると、コンピューティング先の OS の一時ディレクトリ内に作成されるディレクトリに設定されます。

partition_format
str
必須

パスのパーティション形式を指定します。 既定値は None です。 各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。 形式の '{column_name}' の部分では文字列の列が、'{column_name:yyyy/MM/dd/HH/mm/ss}' では datetime の列が作成されます。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は datetime 型の年、月、日、時、分、秒の抽出に使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、部署名と日時でパーティション分割されるパス '../Accounts/2019/01/01/data.parquet' がある場合、partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' によって、値 'Accounts' を持つ文字列の列 'Department' と、値 '2019-01-01' を持つ datetime 列 'PartitionDate' が作成されます。

注釈

OutputFileDatasetConfig を引数として実行に渡すことができます。これは、コンピューティングで自動的にローカル パスに変換されます。 source 引数を指定した場合はそれが使用され、それ以外の場合は OS の一時フォルダーにディレクトリが自動的に生成されます。 その後に、ソース ディレクトリ内のファイルとフォルダーが、出力の構成に基づいてコピー先にコピーされます。

ストレージに出力がコピーされるモードは、既定でマウントに設定されます。 マウント モードの詳細については、as_mount に関するドキュメントを参照してください。

メソッド

as_input

後続のパイプライン ステップで出力を入力として使用する方法を指定します。

as_mount

出力のモードをマウントに設定します。

マウント モードでは、出力ディレクトリが FUSE でマウントされたディレクトリになります。 マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。

as_upload

出力のモードをアップロードに設定します。

アップロード モードでは、出力ディレクトリに書き込まれたファイルがジョブの最後にアップロードされます。 ジョブが失敗するか取り消された場合、出力ディレクトリはアップロードされません。

as_input

後続のパイプライン ステップで出力を入力として使用する方法を指定します。

as_input(name=None)

パラメーター

name
str
必須

実行に固有の入力の名前。

戻り値

入力データを配信する方法を示す DatasetConsumptionConfig インスタンス。

の戻り値の型 :

as_mount

出力のモードをマウントに設定します。

マウント モードでは、出力ディレクトリが FUSE でマウントされたディレクトリになります。 マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。

as_mount(disable_metadata_cache=False)

パラメーター

disable_metadata_cache
bool
必須

メタデータをローカル ノードにキャッシュするかどうか。無効にすると、ジョブの実行中に他のノードで生成されたファイルをノードが認識できなくなります。

戻り値

モードがマウントに設定された OutputFileDatasetConfig インスタンス。

の戻り値の型 :

as_upload

出力のモードをアップロードに設定します。

アップロード モードでは、出力ディレクトリに書き込まれたファイルがジョブの最後にアップロードされます。 ジョブが失敗するか取り消された場合、出力ディレクトリはアップロードされません。

as_upload(overwrite=False, source_globs=None)

パラメーター

overwrite
bool
必須

アップロード先に既に存在するファイルを上書きするかどうか。

source_globs
list[str]
必須

アップロードされるファイルをフィルター処理するために使用される glob パターン。

戻り値

モードがアップロードに設定された OutputFileDatasetConfig インスタンス。

の戻り値の型 :