Dataset クラス
Azure Machine Learning でデータを探索、変換、および管理するためのリソースを表します。
データセットは、Datastore 内またはパブリック Web URL の背後にあるデータへの参照です。
このクラスで非推奨のメソッドについては、改善された API の AbstractDataset クラスを確認してください。
次のデータセットの種類がサポートされています。
TabularDataset は、指定されたファイルまたはファイルのリストを解析することで作成されたデータを表形式で表します。
FileDataset は、データストア内またはパブリック URL からの 1 つまたは複数のファイルを参照します。
データセットの使用を開始するには、「データセットの 追加 & 登録する」の記事を参照するか、ノートブック https://aka.ms/tabulardataset-samplenotebook と https://aka.ms/filedataset-samplenotebookを参照してください。
Dataset オブジェクトを初期化します。
ワークスペースに既に登録されているデータセットを取得するには、get メソッドを使用します。
- 継承
-
builtins.objectDataset
コンストラクター
Dataset(definition, workspace=None, name=None, id=None)
パラメーター
名前 | 説明 |
---|---|
definition
必須
|
<xref:azureml.data.DatasetDefinition>
データセットの定義。 |
workspace
必須
|
データセットが存在するワークスペース。 |
name
必須
|
データセットの名前です。 |
id
必須
|
データセットの一意識別子。 |
注釈
Dataset クラスは、対応するファクトリ メソッドを操作せずにデータセットを作成するために使用できる、2 つの便利なクラス属性 (File
と Tabular
) を公開します。 たとえば、次の属性を使用してデータセットを作成します。
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
TabularDatasetFactory および FileDatasetFactory で定義されているクラスの対応するファクトリ メソッドを直接呼び出すことによって、新しい TabularDataset または FileDataset を作成することもできます。
次の例では、データストア内の 1 つのパスを指す TabularDataset を作成する方法を示します。
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
完全なサンプルは、https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb から入手できます
変数
名前 | 説明 |
---|---|
azureml.core.Dataset.File
|
新しい FileDataset オブジェクトを作成するための FileDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.File.from_files()。 |
azureml.core.Dataset.Tabular
|
新しい TabularDataset オブジェクトを作成するための TabularDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.Tabular.from_delimited_files()。 |
メソッド
archive |
アクティブまたは非推奨のデータセットをアーカイブします。 |
auto_read_files |
指定したパスにあるファイルを分析し、新しいデータセットを返します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 ファイルの読み取りには、Dataset.Tabular.from_* メソッドを使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
compare_profiles |
現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。 これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右辺" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左辺" と見なされます。 |
create_snapshot |
登録されているデータセットのスナップショットを作成します。 |
delete_snapshot |
データセットのスナップショットを名前別に削除します。 |
deprecate |
ワークスペース内のアクティブなデータセットを別のデータセットで非推奨にします。 |
diff |
現在のデータセットと rhs_dataset を比較します。 |
from_binary_files |
バイナリ ファイルから、登録されていないメモリ内のデータセットを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに Dataset.File.from_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
from_delimited_files |
区切られたファイルから、登録されていないメモリ内のデータセットを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに Dataset.Tabular.from_delimited_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
|
from_excel_files |
Excel ファイルから、登録されていないメモリ内のデータセットを作成します。 |
from_json_files |
JSON ファイルから、登録されていないメモリ内のデータセットを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 JSON 行ファイルから読み取るには、代わりに Dataset.Tabular.from_json_lines_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
from_pandas_dataframe |
Pandas データフレームから、登録されていないメモリ内データセットを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに Dataset.Tabular.register_pandas_dataframe を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
from_parquet_files |
Parquet ファイルから、登録されていないメモリ内のデータセットを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに Dataset.Tabular.from_parquet_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
from_sql_query |
SQL クエリから、登録されていないメモリ内のデータセットを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに Dataset.Tabular.from_sql_query を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
generate_profile |
データセットの新しいプロファイルを生成します。 |
get |
名前または ID を指定して、ワークスペースに既に存在するデータセットを取得します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに、get_by_name および get_by_id を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
get_all |
ワークスペースに登録されているすべてのデータセットを取得します。 |
get_all_snapshots |
データセットのすべてのスナップショットを取得します。 |
get_by_id |
ワークスペースに保存されているデータセットを取得します。 |
get_by_name |
登録名によって、ワークスペースから登録されたデータセットを取得します。 |
get_definition |
データセットの特定の定義を取得します。 |
get_definitions |
データセットのすべての定義を取得します。 |
get_profile |
以前に計算したデータセットの概要統計情報を取得します。 |
get_snapshot |
データセットのスナップショットを名前で取得します。 |
head |
このデータセットから指定された数のレコードを取得し、それらをデータフレームとして返します。 |
list |
Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに get_all を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
reactivate |
アーカイブ済みまたは非推奨のデータセットを再アクティブ化します。 |
register |
ワークスペースにデータセットを登録して、ワークスペースの他のユーザーが使用できるようにします。 Note このメソッドは非推奨とされており、サポートされなくなりました。 代わりに register を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
sample |
提供されたサンプリング方式とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
to_pandas_dataframe |
このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
to_spark_dataframe |
このデータセット定義によって定義された変換パイプラインを実行できる Spark データフレームを作成します。 Note このメソッドは非推奨とされており、サポートされなくなりました。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。 |
update |
ワークスペースのデータセットの変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。 |
update_definition |
データセット定義を更新します。 |
archive
アクティブまたは非推奨のデータセットをアーカイブします。
archive()
戻り値
型 | 説明 |
---|---|
なし。 |
注釈
アーカイブ後にデータセットを使用しようとすると、エラーが発生します。 誤ってアーカイブされた場合は、再アクティブ化によってアクティブ化されます。
auto_read_files
指定したパスにあるファイルを分析し、新しいデータセットを返します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
ファイルの読み取りには、Dataset.Tabular.from_* メソッドを使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static auto_read_files(path, include_path=False, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録済みデータストア内のデータ パス、ローカル パス、または HTTP URL (CSV/TSV)。 |
include_path
必須
|
データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 複数のファイルを読み取り、特定のレコードの発生元のファイルを知りたい場合に便利です。 また、ファイル パスまたは名前の中の情報を列に含めたい場合にも便利です。 |
partition_format
必須
|
パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
Dataset オブジェクト。 |
注釈
ファイル形式と区切り記号が自動的に検出されるようにする場合は、このメソッドを使用します。
データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。
返されるデータセットはワークスペースに登録されていません。
compare_profiles
現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。
これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右辺" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左辺" と見なされます。
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
パラメーター
名前 | 説明 |
---|---|
rhs_dataset
必須
|
2 つ目のデータセット。比較のための "右側" データセットとも呼ばれます。 |
profile_arguments
必須
|
特定のプロファイルを再取得する引数。 |
include_columns
必須
|
比較対象の列名の一覧。 |
exclude_columns
必須
|
比較対象外の列名の一覧。 |
histogram_compare_method
必須
|
比較方法を記述する列挙型 (例: Wasserstein または Energy) |
戻り値
型 | 説明 |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
2 つのデータセット プロファイルの違い。 |
注釈
これは、登録済みのデータセット専用です。 現在のデータセットのプロファイルが存在しない場合は、例外を発生させます。 登録されていないデータセットの場合は、profile.compare メソッドを使用します。
create_snapshot
登録されているデータセットのスナップショットを作成します。
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
パラメーター
名前 | 説明 |
---|---|
snapshot_name
必須
|
スナップショット名。 スナップショット名は、データセット内で一意である必要があります。 |
compute_target
必須
|
スナップショット プロファイルの作成を実行するためのオプションのコンピューティング先。 省略した場合は、ローカル コンピューティングが使用されます。 |
create_data_snapshot
必須
|
True の場合、データの具体化されたコピーが作成されます。 |
target_datastore
必須
|
スナップショットを保存するターゲット データストア。 省略した場合、スナップショットはワークスペースの既定のストレージに作成されます。 |
戻り値
型 | 説明 |
---|---|
データセット スナップショット オブジェクト。 |
注釈
スナップショットは、基になるデータの特定の時点の概要統計情報と、データ自体のオプションのコピーがキャプチャします。 スナップショットの作成の詳細については、「https://aka.ms/azureml/howto/createsnapshots」を参照してください。
delete_snapshot
データセットのスナップショットを名前別に削除します。
delete_snapshot(snapshot_name)
パラメーター
名前 | 説明 |
---|---|
snapshot_name
必須
|
スナップショット名。 |
戻り値
型 | 説明 |
---|---|
なし。 |
注釈
これを使用すると、不要になったスナップショットに保存されたデータによって消費されるストレージを解放できます。
deprecate
ワークスペース内のアクティブなデータセットを別のデータセットで非推奨にします。
deprecate(deprecate_by_dataset_id)
パラメーター
名前 | 説明 |
---|---|
deprecate_by_dataset_id
必須
|
データセット ID。このデータセットの代わりに使用されます。 |
戻り値
型 | 説明 |
---|---|
なし。 |
注釈
非推奨のデータセットは、使用時に警告をログに記録します。 データセットを非推奨とすると、そのすべての定義が非推奨になります。
非推奨のデータセットは引き続き使用できます。 データセットの使用を完全にブロックするには、データセットをアーカイブします。
誤って非推奨化された場合は、再アクティブ化によってアクティブ化されます。
diff
現在のデータセットと rhs_dataset を比較します。
diff(rhs_dataset, compute_target=None, columns=None)
パラメーター
名前 | 説明 |
---|---|
rhs_dataset
必須
|
別のデータセット。比較のための "右側" データセットとも呼ばれます。 |
compute_target
必須
|
差分を実行するためのコンピューティング先。 省略した場合は、ローカル コンピューティングが使用されます。 |
columns
必須
|
差分に含める列名の一覧。 |
戻り値
型 | 説明 |
---|---|
データセット アクションの実行オブジェクト。 |
from_binary_files
バイナリ ファイルから、登録されていないメモリ内のデータセットを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに Dataset.File.from_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static from_binary_files(path)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録されたデータストアまたはローカルパスのデータ パス。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 |
注釈
バイナリ データのストリームとしてファイルを読み取るには、このメソッドを使用します。 ファイルの読み取りごとに 1 つのファイル ストリーム オブジェクトを返します。 画像、ビデオ、オーディオ、またはその他のバイナリ データを読み取る場合は、このメソッドを使用します。
get_profile と create_snapshot は、このメソッドによって作成されたデータセットに対しては想定どおりに動作しません。
返されるデータセットはワークスペースに登録されていません。
from_delimited_files
区切られたファイルから、登録されていないメモリ内のデータセットを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに Dataset.Tabular.from_delimited_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録済みデータストア内のデータ パス、ローカル パス、または HTTP URL。 |
separator
必須
|
列を分割するために使用する区切り記号。 |
header
必須
|
ファイルから読み取るときに列ヘッダーをどのように昇格するかを制御します。 |
encoding
必須
|
読み取るファイルのエンコーディング。 |
quoting
必須
|
引用符で囲まれた改行文字を処理する方法を指定します。 既定値 (False) は、改行文字が引用符で囲まれているかどうかに関係なく、改行文字を新しい行の開始として解釈します。 True に設定すると、引用符で囲まれた改行文字によって新しい行が生成されず、ファイルの読み取り速度が低下します。 |
infer_column_types
必須
|
列のデータ型が推論されるかどうかを示します。 |
skip_rows
必須
|
読み取り中のファイルでスキップする行の数。 |
skip_mode
必須
|
ファイルを読み取るときに行をスキップする方法を制御します。 |
comment
必須
|
読み取るファイル内のコメント行を示すために使用される文字。 この文字列で始まる行はスキップされます。 |
include_path
必須
|
データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。 |
archive_options
必須
|
<xref:azureml.dataprep.ArchiveOptions>
アーカイブの種類とエントリの glob パターンを含むアーカイブ ファイルのオプション。 現時点では、アーカイブの種類として ZIP のみがサポートされています。 たとえば、次のように指定します。
名前の末尾が "10-20.csv" であるすべてのファイルを ZIP で読み取ります。 |
partition_format
必須
|
パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
Dataset オブジェクト。 |
注釈
このメソッドは、使用するオプションを制御する場合に、区切られたテキスト ファイルを読み取るために使用します。
データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。
返されるデータセットはワークスペースに登録されていません。
from_excel_files
Excel ファイルから、登録されていないメモリ内のデータセットを作成します。
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録されたデータストアまたはローカルパスのデータ パス。 |
sheet_name
必須
|
読み込む Excel シートの名前。 既定では、各 Excel ファイルから最初のシートを読み取ります。 |
use_column_headers
必須
|
最初の行を列見出しとして使用するかどうかを制御します。 |
skip_rows
必須
|
読み取り中のファイルでスキップする行の数。 |
include_path
必須
|
データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。 |
infer_column_types
必須
|
true の場合、列のデータ型が推論されます。 |
partition_format
必須
|
パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.xlsx' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
Dataset オブジェクト。 |
注釈
このメソッドは、.xlsx 形式の Excel ファイルを読み取るために使用します。 データは、各 Excel ファイルの 1 つのシートから読み取ることができます。 データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。 返されるデータセットはワークスペースに登録されていません。
from_json_files
JSON ファイルから、登録されていないメモリ内のデータセットを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
JSON 行ファイルから読み取るには、代わりに Dataset.Tabular.from_json_lines_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
読み込みおよび解析を行うファイルまたはフォルダーへのパス。 ローカル パスまたは Azure BLOB の URL を指定できます。 グロビングはサポートされています。 たとえば、path = "./data*" を使用して、名前が "data" で始まるすべてのファイルを読み取ることができます。 |
encoding
必須
|
読み取るファイルのエンコーディング。 |
flatten_nested_arrays
必須
|
プログラムによる入れ子になった配列の処理を制御するプロパティ。 入れ子になった JSON 配列をフラット化することを選択した場合、行の数が非常に多くなる可能性があります。 |
include_path
必須
|
データの読み取りを行ったパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。 |
partition_format
必須
|
パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.json' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
ローカル データセット オブジェクト。 |
from_pandas_dataframe
Pandas データフレームから、登録されていないメモリ内データセットを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに Dataset.Tabular.register_pandas_dataframe を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
パラメーター
名前 | 説明 |
---|---|
dataframe
必須
|
Pandas データフレーム。 |
path
必須
|
登録されたデータストアまたはローカル フォルダー パスのデータ パス。 |
in_memory
必須
|
ディスクに永続化するのではなく、メモリからデータフレームを読み取るかどうか。 |
戻り値
型 | 説明 |
---|---|
DataSet オブジェクト。 |
注釈
このメソッドを使用して、Pandas データフレームをデータセット オブジェクトに変換します。 データがメモリからのものであるため、このメソッドによって作成されたデータセットを登録できません。
in_memory
が False の場合、Pandas データフレームはローカルで CSV ファイルに変換されます。
pat
が DataReference 型の場合、Pandas フレームはデータ ストアにアップロードされ、データセットは DataReference に基づいて作成されます。 ``path` がローカル フォルダーの場合は、削除できないローカル ファイルからデータセットが作成されます。
現在の DataReference がフォルダー パスではない場合に、例外を発生させます。
from_parquet_files
Parquet ファイルから、登録されていないメモリ内のデータセットを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに Dataset.Tabular.from_parquet_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static from_parquet_files(path, include_path=False, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録されたデータストアまたはローカルパスのデータ パス。 |
include_path
必須
|
データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。 |
partition_format
必須
|
パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.parquet' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
Dataset オブジェクト。 |
注釈
Parquet ファイルを読み取るには、このメソッドを使用します。
データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。
返されるデータセットはワークスペースに登録されていません。
from_sql_query
SQL クエリから、登録されていないメモリ内のデータセットを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに Dataset.Tabular.from_sql_query を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static from_sql_query(data_source, query)
パラメーター
名前 | 説明 |
---|---|
data_source
必須
|
Azure SQL データストアの詳細。 |
query
必須
|
データを読み取るために実行するクエリ。 |
戻り値
型 | 説明 |
---|---|
ローカル データセット オブジェクト。 |
generate_profile
データセットの新しいプロファイルを生成します。
generate_profile(compute_target=None, workspace=None, arguments=None)
パラメーター
名前 | 説明 |
---|---|
compute_target
必須
|
スナップショット プロファイルの作成を実行するためのオプションのコンピューティング先。 省略した場合は、ローカル コンピューティングが使用されます。 |
workspace
必須
|
ワークスペース。一時的な (未登録の) データセットに必要です。 |
arguments
必須
|
プロファイルの引数。 有効な引数は次のとおりです。
|
戻り値
型 | 説明 |
---|---|
データセット アクションの実行オブジェクト。 |
注釈
同期呼び出しは、完了するまでブロックします。 get_result を呼び出して、アクションの結果を取得します。
get
名前または ID を指定して、ワークスペースに既に存在するデータセットを取得します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに、get_by_name および get_by_id を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static get(workspace, name=None, id=None)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが作成された既存の AzureML ワークスペース。 |
name
必須
|
取得するデータセットの名前。 |
id
必須
|
ワークスペース内のデータセットの一意識別子。 |
戻り値
型 | 説明 |
---|---|
指定された名前または ID を持つデータセット。 |
注釈
name
または id
のいずれかを指定できます。 次の場合は例外が発生します。
name
とid
の両方が指定されており、一致しない。指定された
name
またはid
を持つデータセットがワークスペースに見つからない。
get_all
ワークスペースに登録されているすべてのデータセットを取得します。
get_all()
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録された既存の AzureML ワークスペース。 |
戻り値
型 | 説明 |
---|---|
登録名によってキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。 |
get_all_snapshots
データセットのすべてのスナップショットを取得します。
get_all_snapshots()
戻り値
型 | 説明 |
---|---|
データセット スナップショットの一覧。 |
get_by_id
ワークスペースに保存されているデータセットを取得します。
get_by_id(id, **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが保存される既存の AzureML ワークスペース。 |
id
必須
|
データセットの ID。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 データセットが登録されている場合は、その登録名とバージョンも返されます。 |
get_by_name
登録名によって、ワークスペースから登録されたデータセットを取得します。
get_by_name(name, version='latest', **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録された既存の AzureML ワークスペース。 |
name
必須
|
登録名。 |
version
必須
|
登録バージョン。 既定値は 'latest' です。 |
戻り値
型 | 説明 |
---|---|
登録されているデータセット オブジェクト。 |
get_definition
データセットの特定の定義を取得します。
get_definition(version_id=None)
パラメーター
名前 | 説明 |
---|---|
version_id
必須
|
データセット定義のバージョン ID。 |
戻り値
型 | 説明 |
---|---|
データセットの定義。 |
注釈
version_id
が指定されている場合、Azure Machine Learning は、そのバージョンに対応する定義を取得しようとします。 そのバージョンが存在しない場合は、例外がスローされます。
version_id
を省略した場合は、最新バージョンが取得されます。
get_definitions
データセットのすべての定義を取得します。
get_definitions()
戻り値
型 | 説明 |
---|---|
データセット定義のディクショナリ。 |
注釈
Azure ML ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。 各定義には一意の識別子があります。 現在の定義は、最後に作成されたものです。
登録されていないデータセットの場合、定義は 1 つしか存在しません。
get_profile
以前に計算したデータセットの概要統計情報を取得します。
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
パラメーター
名前 | 説明 |
---|---|
arguments
必須
|
プロファイルの引数。 |
generate_if_not_exist
必須
|
プロファイルが存在しない場合に生成するかどうかを示します。 |
workspace
必須
|
ワークスペース。一時的な (未登録の) データセットに必要です。 |
compute_target
必須
|
プロファイル アクションを実行するコンピューティング先。 |
戻り値
型 | 説明 |
---|---|
<xref:azureml.dataprep.DataProfile>
|
データセットの DataProfile。 |
注釈
Azure Machine Learning ワークスペースに登録されているデータセットについて、以前に作成された既存のプロファイルが引き続き有効な場合、このメソッドは get_profile
を呼び出してそのプロファイルを取得します。 データセットで変更データが検出された場合、または get_profile
の引数がプロファイルの生成時に使用されたものと異なる場合、プロファイルは無効になります。 プロファイルが存在しない場合、または無効になっている場合は、新しいプロファイルが生成されるかどうかが generate_if_not_exist
によって決定されます。
Azure Machine Learning ワークスペースに登録されていないデータセットの場合、このメソッドは常に generate_profile を実行し、結果を返します。
get_snapshot
データセットのスナップショットを名前で取得します。
get_snapshot(snapshot_name)
パラメーター
名前 | 説明 |
---|---|
snapshot_name
必須
|
スナップショット名。 |
戻り値
型 | 説明 |
---|---|
データセット スナップショット オブジェクト。 |
head
このデータセットから指定された数のレコードを取得し、それらをデータフレームとして返します。
head(count)
パラメーター
名前 | 説明 |
---|---|
count
必須
|
プルするレコードの数。 |
戻り値
型 | 説明 |
---|---|
Pandas データフレーム。 |
list
is_visible
プロパティが False に等しいものを含む、ワークスペース内のすべてのデータセットを一覧表示します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに get_all を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
static list(workspace)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットの一覧を取得するワークスペース。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクトの一覧。 |
reactivate
アーカイブ済みまたは非推奨のデータセットを再アクティブ化します。
reactivate()
戻り値
型 | 説明 |
---|---|
なし。 |
register
ワークスペースにデータセットを登録して、ワークスペースの他のユーザーが使用できるようにします。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
代わりに register を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットを登録する AzureML ワークスペース。 |
name
必須
|
ワークスペース内のデータセットの名前。 |
description
必須
|
データセットの説明。 |
tags
必須
|
データセットに関連付けるタグ。 |
visible
必須
|
データセットが UI に表示されるかどうかを示します。 False の場合、データセットは UI で非表示になり、SDK を介して使用できます。 |
exist_ok
必須
|
True の場合、メソッドは、指定されたワークスペースに既に存在する場合はデータセットを返します。それ以外の場合はエラーを返します。 |
update_if_exist
必須
|
|
戻り値
型 | 説明 |
---|---|
ワークスペースに登録されているデータセット オブジェクト。 |
sample
提供されたサンプリング方式とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
sample(sample_strategy, arguments)
パラメーター
名前 | 説明 |
---|---|
sample_strategy
必須
|
使用するサンプル方式。 許容される値は、"top_n"、"simple_random"、または "stratified" です。 |
arguments
必須
|
上に示したリストの "省略可能な引数" からのキーと、"型" 列の値を含むディクショナリ。 使用できるのは、対応するサンプリング メソッドの引数だけです。 たとえば、"simple_random" サンプル型では、"probability" キーと "seed" キーを持つディクショナリだけを指定できます。 |
戻り値
型 | 説明 |
---|---|
元のデータセットのサンプルとしてのデータセット オブジェクト。 |
注釈
サンプルを生成するには、このデータセットによって定義された変換パイプラインを実行し、サンプリング方式とパラメーターを出力データに適用します。 各サンプリング メソッドでは、次の省略可能な引数がサポートされています。
top_n
省略可能な引数。
- n。integer 型。 サンプルとして上位 N 行を選択します。
simple_random
省略可能な引数。
確率。float 型。 各行が選択される確率が等しい単純なランダム サンプリング。 確率は、0 から 1 の間の数値である必要があります。
シード。float 型。 乱数ジェネレーターによって使用されます。 再現性のために使用します。
stratified
省略可能な引数。
列。list[str] 型。 データ内の階層列の一覧。
シード。float 型。 乱数ジェネレーターによって使用されます。 再現性のために使用します。
分数。dict[tuple, float] 型。 タプル: 階層を定義する列値は、列名と同じ順序である必要があります。 フローティング: サンプリング中に階層にアタッチされる重み。
次のコード スニペットは、さまざまなサンプル メソッドの設計パターンの例です。
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
to_pandas_dataframe()
戻り値
型 | 説明 |
---|---|
Pandas データフレーム。 |
注釈
メモリ内で完全に具体化された Pandas データフレームを返します。
to_spark_dataframe
このデータセット定義によって定義された変換パイプラインを実行できる Spark データフレームを作成します。
Note
このメソッドは非推奨とされており、サポートされなくなりました。
Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
to_spark_dataframe()
戻り値
型 | 説明 |
---|---|
Spark データフレーム。 |
注釈
返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。
update
ワークスペースのデータセットの変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。
update(name=None, description=None, tags=None, visible=None)
パラメーター
名前 | 説明 |
---|---|
name
必須
|
ワークスペース内のデータセットの名前。 |
description
必須
|
データの説明。 |
tags
必須
|
データセットに関連付けるタグ。 |
visible
必須
|
データセットが UI に表示されるかどうかを示します。 |
戻り値
型 | 説明 |
---|---|
ワークスペースからの更新されたデータセット オブジェクト。 |
update_definition
データセット定義を更新します。
update_definition(definition, definition_update_message)
パラメーター
名前 | 説明 |
---|---|
definition
必須
|
このデータセットの新しい定義。 |
definition_update_message
必須
|
定義の更新メッセージ。 |
戻り値
型 | 説明 |
---|---|
ワークスペースからの更新されたデータセット オブジェクト。 |
注釈
更新されたデータセットを使用するには、このメソッドによって返されるオブジェクトを使用します。
属性
definition
現在のデータセット定義を返します。
戻り値
型 | 説明 |
---|---|
データセットの定義。 |
注釈
データセット定義は、データの読み取りおよび変換方法を指定する一連の手順です。
Azure ML ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。 各定義には一意の識別子があります。 複数の定義を使用すると、古い定義に依存するモデルやパイプラインを壊すことなく、既存のデータセットを変更できます。
登録されていないデータセットの場合、定義は 1 つしか存在しません。
definition_version
データセットの現在の定義バージョンを返します。
戻り値
型 | 説明 |
---|---|
データセットの定義バージョン。 |
注釈
データセット定義は、データの読み取りおよび変換方法を指定する一連の手順です。
Azure ML ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。 各定義には一意の識別子があります。 現在の定義は、作成された最新の定義で、ID はこれによって返されます。
登録されていないデータセットの場合、定義は 1 つしか存在しません。
description
データセットの説明を返します。
戻り値
型 | 説明 |
---|---|
データセットの説明。 |
注釈
データセットにデータの説明を指定すると、ワークスペースのユーザーは、データが表す内容とその使用方法を理解できます。
id
is_visible
Azure ML ワークスペース UI で登録済みのデータセットの可視性を制御します。
戻り値
型 | 説明 |
---|---|
データセットの可視性。 |
注釈
返される値:
True: データセットはワークスペース UI に表示されます。 既定値。
False: データセットはワークスペース UI で非表示になります。
登録されていないデータセットには影響しません。
name
state
データセットの状態を返します。
戻り値
型 | 説明 |
---|---|
データセットの状態。 |
注釈
状態の意味と効果は次のとおりです。
[アクティブ]: アクティブな定義は、その名のとおり、すべてのアクションをアクティブな定義に対して実行できます。
非推奨になりました。 非推奨の定義は使用できますが、基になるデータにアクセスするたび、ログに警告が記録されます。
アーカイブ済み。 アーカイブ済みの定義を使用してアクションを実行することはできません。 アーカイブされた定義に対してアクションを実行するには、再アクティブ化する必要があります。
tags
workspace
Tabular
作成用ファクトリ FileDataset
のエイリアス TabularDatasetFactory