FileDatasetFactory クラス

Azure Machine Learning のファイル データセットを作成するメソッドが含まれています。

このクラスで定義されている from_files メソッドから FileDataset が作成されます。

ファイル データセットの操作の詳細については、ノートブック https://aka.ms/filedataset-samplenotebook を参照してください。

継承
builtins.object
FileDatasetFactory

コンストラクター

FileDatasetFactory()

メソッド

from_files

ファイル ストリームを表す FileDataset を作成します。

upload_directory

ソース ライブラリからデータセットを作成します。

from_files

ファイル ストリームを表す FileDataset を作成します。

static from_files(path, validate=True, partition_format=None, is_file=False)

パラメーター

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
必須

ソース ファイルへのパス。URL 文字列の単一値またはリスト (http[s]|abfs[s]|wasb[s]) DataPath 、object、または タプルと Datastore 相対パスを指定できます。 パスのリストに URL とデータストアを同時に含めることはできないので注意してください。

validate
bool
必須

返されたデータセットからデータを読み込むことができるかを検証するかどうかを示します。 既定値は True です。 検証を行うには、現在のコンピューティングからデータ ソースにアクセスできる必要があります。

partition_format
str
必須

パスのパーティション形式を指定します。 既定値は None です。 各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。 形式の '{column_name}' の部分では文字列の列が、'{column_name:yyyy/MM/dd/HH/mm/ss}' では datetime の列が作成されます。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は datetime 型の年、月、日、時、分、秒の抽出に使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、部署名と日時でパーティション分割されるパス '../Accounts/2019/01/01/data.jsonl' がある場合、partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' によって、値 'Accounts' を持つ文字列の列 'Department' と、値 '2019-01-01' を持つ datetime 列 'PartitionDate' が作成されます。

is_file
bool
必須

すべての入力パスがファイルを指すかどうかを示します。 既定では、データセット エンジンによって、入力パスがファイルを指すかどうかが確認されます。 すべての入力パスがファイルである場合は、このフラグを True に設定することでデータセットの作成時間を短縮できます。

戻り値

FileDataset オブジェクト。

の戻り値の型 :

注釈

from_files では、指定されたパスからファイル ストリームを読み込む操作を定義する FileDataset クラスのオブジェクトが作成されます。

Azure Machine Learning でデータにアクセスできるようにするには、 で path 指定されたファイルが に Datastore 配置されているか、BLOB、ADLS Gen1、ADLS Gen2 のパブリック Web URL または URL でアクセスできる必要があります。

ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、データ アクセス認証のために Experiment.submit によって送信されたジョブで使用されます。 詳細情報: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

ソース ライブラリからデータセットを作成します。

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

パラメーター

src_dir
str
必須

アップロードするローカル ディレクトリ。

target
Union[DataPath, Datastore, tuple(Datastore, str)]
必須

必須。ファイルのアップロード先となるデータストア パス。

pattern
str
必須

任意。指定された場合は、指定のパターンに一致するすべてのパス名がフィルター処理されます。これは Python の glob パッケージと同様で、'*' と '?'、および [ ] で表される文字範囲がサポートされます。

show_progress
bool
必須

任意。コンソールにアップロードの進行状況を表示するかどうかを示します。 既定値は True です。

戻り値

登録されているデータセット。

の戻り値の型 :