MLTable クラス

MLTable を表します。

MLTable は、データソースからデータを読み込む一連の遅延評価された不変操作を定義します。 MLTable がデータの配信を求められるまで、データはソースから読み込まれません。

新しい MLTable を初期化します。

このコンストラクターは、直接呼び出すことはできません。 MLTable は、 loadを使用して作成することを目的としています。

コンストラクター

MLTable()

メソッド

convert_column_types	指定した列を、それぞれ指定された新しい型に変換する変換ステップを追加します。 `from mltable import DataType data_types = { 'ID': DataType.to_string(), 'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'), 'Count': DataType.to_int(), 'Latitude': DataType.to_float(), 'Found': DataType.to_bool(), 'Stream': DataType.to_stream() }`
drop_columns	データセットから指定された列を削除する変換ステップを追加します。空のリスト、タプル、またはセットに何も指定されない場合は削除されます。列が重複すると、UserErrorException が発生します。 MLTable.traits.timestamp_columnまたはMLTable.traits.index_columns内の列を削除しようとすると、UserErrorException が発生します。
extract_columns_from_partition_format	各パスのパーティション情報を使用し、指定したパーティション形式に基づいて列に抽出する変換ステップを追加します。書式パーツ '{column_name}' は文字列列を作成し、'{column_name:yyyy/MM/dd/HH/mm/ss}' は datetime 列を作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'hh'、'mm'、'ss' が使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、パーティションが部門名と時刻で行われるパス '/Accounts/2019/01/01/data.csv' を指定すると、 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' は、値 'Accounts' と値 '2019-01-01' の datetime 列 'PartitionDate' を持つ文字列列 'Department' を作成します。
filter	データをフィルター処理して、指定された式に一致するレコードのみを残します。
get_partition_count	この MLTable に関連付けられているデータの基になるデータパーティションの数を返します。
keep_columns	指定した列を保持し、データセットから他のすべての列を削除する変換ステップを追加します。空のリスト、タプル、またはセットに何も指定されない場合は削除されます。列が重複すると、UserErrorException が発生します。 MLTable.traits.timestamp_column内の列またはMLTable.traits.index_columns内の列が明示的に保持されていない場合、UserErrorException は評価されます。
random_split	この MLTable を 2 つの MLTable にランダムに分割します。1 つは元の MLTable のデータの約 "パーセント"% を持ち、もう 1 つは剰余 (1%"%) を持っています。
save	この MLTable を MLTable YAML ファイルとして保存し、関連付けられたパスを指定されたディレクトリパスに保存します。パスが指定されていない場合は、既定で現在の作業ディレクトリが使用されます。パスが存在しない場合は作成されます。パスがリモートの場合は、基になるデータストアが既に存在している必要があります。パスがローカルディレクトリであり、絶対ではない場合は絶対パスになります。パスがファイルを指している場合は、UserErrorException が発生します。パスが既に保存されている 1 つ以上のファイル (MLTable YAML ファイルを含む) を含むディレクトリパスで、上書きが False または 'fail' に設定されている場合は、UserErrorException が発生します。パスがリモートの場合、併置されたパスとして指定されていないローカルファイルパス (MLTable が読み込まれたディレクトリを基準とするファイルパス) は UserErrorException を発生させます。併置されたコントロールは、関連付けられているパスをパスに保存する方法を制御します。 True の場合、ファイルは MLTable YAML ファイルと共に相対ファイルパスとしてパスにコピーされます。それ以外の場合、関連付けられているファイルはコピーされず、リモートパスは指定されたままであり、必要に応じて、ローカルファイルパスはパスリダイレクトを使用して相対的に作成されます。 False を指定すると、推奨されない MLTable YAML ファイルが生成される可能性があります。さらに、パスがリモートの場合は、相対パスリダイレクトがリモート URI でサポートされていないため、UserErrorException が発生します。 MLTable が from_paths () やローカル相対パスを持つ from_read_delimited_files() などのメソッドを使用してプログラムで作成される場合、MLTable ディレクトリパスは現在の作業ディレクトリであると見なされることに注意してください。新しいファイルを保存する前に、既存の MLTable ファイルと関連付けられたデータファイルを含むディレクトリに新しい MLTable と関連付けられたデータファイルを保存する場合は、そのディレクトリが既存のファイルから消去されないことに注意してください。特に、既存のデータファイルに新しいデータファイルと一致する名前がない場合は、新しいファイルを保存した後に既存のデータファイルを保持できます。新しい MLTable にパスの下にパターン指定子が含まれている場合、既存のデータファイルを新しい MLTable に関連付けることで、MLTable が意図せず変更される可能性があります。この MLTable のファイルパスがパス内の既存のファイルを指しているが、URI が異なる場合、上書きが 'fail' または 'skip' の場合、既存のファイルは上書きされません (つまりスキップされます)。
select_partitions	パーティションを選択する変換ステップを追加します。
show	この MLTable の最初のカウント行を Pandas データフレームとして取得します。
skip	この MLTable の最初のカウント行をスキップする変換ステップを追加します。
take	この MLTable の最初のカウント行を選択する変換ステップを追加します。
take_random_sample	確率確率でこの MLTable の各行をランダムに選択する変換ステップを追加します。確率の範囲は [0, 1] である必要があります。必要に応じてランダムシードを設定できます。
to_pandas_dataframe	MLTable ファイルで指定されたパスからすべてのレコードを Pandas DataFrame に読み込みます。
validate	この MLTable のデータを読み込むことができるかどうかを検証します。MLTable のデータソースに現在のコンピューティングからアクセスできる必要があります。

convert_column_types

指定した列を、それぞれ指定された新しい型に変換する変換ステップを追加します。


   from mltable import DataType
       data_types = {
           'ID': DataType.to_string(),
           'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
           'Count': DataType.to_int(),
           'Latitude': DataType.to_float(),
           'Found': DataType.to_bool(),
           'Stream': DataType.to_stream()
       }

convert_column_types(column_types)

パラメーター

名前	説明
column_types 必須	dict[Union[Tuple[str], str], DataType] 列の辞書: ユーザーが変換を希望する型

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

drop_columns

データセットから指定された列を削除する変換ステップを追加します。空のリスト、タプル、またはセットに何も指定されない場合は削除されます。列が重複すると、UserErrorException が発生します。

MLTable.traits.timestamp_columnまたはMLTable.traits.index_columns内の列を削除しようとすると、UserErrorException が発生します。

drop_columns(columns: str | List[str] | Tuple[str] | Set[str])

パラメーター

名前	説明
columns 必須	Union[str, list[str], <xref:builtin.tuple>[str], <xref:builtin.set>[str]] この MLTable から削除する列

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

extract_columns_from_partition_format

各パスのパーティション情報を使用し、指定したパーティション形式に基づいて列に抽出する変換ステップを追加します。

書式パーツ '{column_name}' は文字列列を作成し、'{column_name:yyyy/MM/dd/HH/mm/ss}' は datetime 列を作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'hh'、'mm'、'ss' が使用されます。

形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、パーティションが部門名と時刻で行われるパス '/Accounts/2019/01/01/data.csv' を指定すると、 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' は、値 'Accounts' と値 '2019-01-01' の datetime 列 'PartitionDate' を持つ文字列列 'Department' を作成します。

extract_columns_from_partition_format(partition_format)

パラメーター

名前	説明
partition_format 必須	str 列にデータを抽出するために使用するパーティション形式

戻り値

型	説明
MLTable	パーティション形式が指定された形式に設定されている MLTable

filter

データをフィルター処理して、指定された式に一致するレコードのみを残します。

filter(expression)

パラメーター

名前	説明
expression 必須	string 評価する式。

戻り値

型	説明
MLTable	フィルター後の MLTable

注釈

式は、列の名前を使用して mltable にインデックスを付けることで開始されます。さまざまな関数と演算子をサポートし、論理演算子を使用して組み合わせることができます。結果の式は、データプルが発生したときにレコードが定義されている場所ではなく、各レコードに対して遅延評価されます。


   filtered_mltable = mltable.filter('feature_1 == "5" and target > "0.5)"')
   filtered_mltable = mltable.filter('col("FBI Code") == "11"')

get_partition_count

この MLTable に関連付けられているデータの基になるデータパーティションの数を返します。

get_partition_count() -> int

戻り値

型	説明
int	この MLTable のデータパーティション

keep_columns

指定した列を保持し、データセットから他のすべての列を削除する変換ステップを追加します。空のリスト、タプル、またはセットに何も指定されない場合は削除されます。列が重複すると、UserErrorException が発生します。

MLTable.traits.timestamp_column内の列またはMLTable.traits.index_columns内の列が明示的に保持されていない場合、UserErrorException は評価されます。

keep_columns(columns: str | List[str] | Tuple[str] | Set[str])

パラメーター

名前	説明
columns 必須	Union[str, list[str], <xref:builtin.tuple>[str], <xref:builtin.set>[str]] 保持する MLTable 内の列

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

random_split

この MLTable を 2 つの MLTable にランダムに分割します。1 つは元の MLTable のデータの約 "パーセント"% を持ち、もう 1 つは剰余 (1%"%) を持っています。

random_split(percent=0.5, seed=None)

パラメーター

名前	説明
percent 必須	Union[int, float] MLTable の割合を割り当て
seed 必須	Optional[int] オプションのランダムシード

戻り値

型	説明
Tuple[MLTable, MLTable]	この MLTable のデータが "パーセント" で分割された 2 つの MLTable

save

この MLTable を MLTable YAML ファイルとして保存し、関連付けられたパスを指定されたディレクトリパスに保存します。

パスが指定されていない場合は、既定で現在の作業ディレクトリが使用されます。パスが存在しない場合は作成されます。パスがリモートの場合は、基になるデータストアが既に存在している必要があります。パスがローカルディレクトリであり、絶対ではない場合は絶対パスになります。

パスがファイルを指している場合は、UserErrorException が発生します。パスが既に保存されている 1 つ以上のファイル (MLTable YAML ファイルを含む) を含むディレクトリパスで、上書きが False または 'fail' に設定されている場合は、UserErrorException が発生します。パスがリモートの場合、併置されたパスとして指定されていないローカルファイルパス (MLTable が読み込まれたディレクトリを基準とするファイルパス) は UserErrorException を発生させます。

併置された コントロールは、関連付けられているパスをパスに保存する方法を制御 します。 True の場合、ファイルは MLTable YAML ファイルと共 に相対ファイルパスとしてパスにコピーされます。それ以外の場合、関連付けられているファイルはコピーされず、リモートパスは指定されたままであり、必要に応じて、ローカルファイルパスはパスリダイレクトを使用して相対的に作成されます。 False を指定すると、推奨されない MLTable YAML ファイルが生成される可能性があります。さらに、パスがリモートの場合は、相対パスリダイレクトがリモート URI でサポートされていないため、UserErrorException が発生します。

MLTable が from_paths () やローカル 相対パスを持つ from_read_delimited_files() などのメソッドを使用してプログラムで作成される場合、MLTable ディレクトリパスは現在の作業ディレクトリであると見なされることに注意してください。

新しいファイルを保存する前に、既存の MLTable ファイルと関連付けられたデータファイルを含むディレクトリに新しい MLTable と関連付けられたデータファイルを保存する場合は、そのディレクトリが既存のファイルから消去されないことに注意してください。特に、既存のデータファイルに新しいデータファイルと一致する名前がない場合は、新しいファイルを保存した後に既存のデータファイルを保持できます。新しい MLTable にパスの下にパターン指定子が含まれている場合、既存のデータファイルを新しい MLTable に関連付けることで、MLTable が意図せず変更される可能性があります。

この MLTable のファイルパスがパス内の既存のファイルを指しているが、URI が異なる場合、上書きが 'fail' または 'skip' の場合、既存のファイルは上書きされません (つまりスキップされます)。

save(path=None, overwrite=True, colocated=False, show_progress=False, if_err_remove_files=True)

パラメーター

名前	説明
path 必須	str 保存先のディレクトリパス(既定では現在の作業ディレクトリ)
colocated 必須	bool True の場合、この MLTable のローカルおよびリモートファイルパスのコピーを相対パスとしてパスの下に保存します。それ以外の場合、ファイルのコピーは行われず、リモートファイルパスは、保存された MLTable YAML ファイルとローカルファイルパスに、パスリダイレクトを使用した相対ファイルパスとして保存されます。パスがリモートで、この MLTable にローカルファイルパスが含まれている場合は、UserErrorException が発生します。
overwrite 必須	Union[bool, str, <xref:mltable.MLTableSaveOverwriteOptions>] 既存の MLTable YAML ファイルと、パスの下に既に存在する可能性がある関連ファイルの処理方法。既存のファイルを置き換える場合は 'overwrite' (または True)、ファイルが既に存在する場合はエラーを発生させる場合は 'fail' (または False)、既存のファイルをそのまま残す場合は 'skip' がオプションです。 <xref:mltable.MLTableSaveOverwriteOptions>で設定することもできます。
show_progress 必須	bool stdout へのコピーの進行状況が表示されます
if_err_remove_files 必須	bool 保存中にエラーが発生した場合は、正常に保存されたファイルを削除して操作をアトミックにします

戻り値

型	説明
MLTable	この MLTable インスタンス

select_partitions

パーティションを選択する変換ステップを追加します。

select_partitions(partition_index_list)

パラメーター

名前	説明
partition_index_list 必須	list of int パーティションインデックスの一覧

戻り値

型	説明
MLTable	パーティションサイズが更新された MLTable

注釈

次のコードスニペットは、select_partitions API を使用して、指定された MLTable から選択したパーティションに対して実行する方法を示しています。


   partition_index_list = [1, 2]
   mltable = mltable.select_partitions(partition_index_list)

show

この MLTable の最初の カウント 行を Pandas データフレームとして取得します。

show(count=20)

パラメーター

名前	説明
count 必須	int 選択するテーブルの先頭からの行数

戻り値

型	説明
<xref:Pandas> <xref:Dataframe>	MLTable の最初のカウント行

skip

この MLTable の最初の カウント 行をスキップする変換ステップを追加します。

skip(count)

パラメーター

名前	説明
count 必須	int スキップする行数

戻り値

型	説明
	変換ステップが追加された MLTable

take

この MLTable の最初の カウント 行を選択する変換ステップを追加します。

take(count=20)

パラメーター

名前	説明
count 必須	int 選択するテーブルの先頭からの行数

戻り値

型	説明
MLTable	"take" 変換ステップが追加された MLTable

take_random_sample

確率確率でこの MLTable の各行をランダムに選択する変換ステップを追加します。確率の範囲は [0, 1] である必要があります。必要に応じてランダムシードを設定できます。

take_random_sample(probability, seed=None)

パラメーター

名前	説明
probability 必須	各行が選択されている可能性
seed 必須	Optional[int] オプションのランダムシード

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

to_pandas_dataframe

MLTable ファイルで指定されたパスからすべてのレコードを Pandas DataFrame に読み込みます。

to_pandas_dataframe()

戻り値

型	説明
DataFrame	この MLTable のパスからのレコードを含む Pandas データフレーム

注釈

次のコードスニペットは、to_pandas_dataframe API を使用して、提供された MLTable に対応する pandas データフレームを取得する方法を示しています。


   from mltable import load
   tbl = load('.\samples\mltable_sample')
   pdf = tbl.to_pandas_dataframe()
   print(pdf.shape)

validate

この MLTable のデータを読み込むことができるかどうかを検証します。MLTable のデータソースに現在のコンピューティングからアクセスできる必要があります。

validate()

戻り値

型	説明
None	なし

属性

partition_keys

パーティションキーを返します。

戻り値

型	説明
list[str]	パーティションキー

paths

この MLTable に指定された元のパスを含むディクショナリの一覧を返します。相対ローカルファイルパスは、この MLTable インスタンスが読み込まれた MLTable YAML ファイルのディレクトリに対する相対パスと見なされます。

戻り値

型	説明
list[dict[str, str]]	MLTable で指定されたパスを含むディクテーションの一覧

フィードバック

このページはお役に立ちましたか?

次の方法で共有

MLTable クラス

コンストラクター

メソッド

convert_column_types

パラメーター

戻り値

drop_columns

パラメーター

戻り値

extract_columns_from_partition_format

パラメーター

戻り値

filter

パラメーター

戻り値

注釈

get_partition_count

戻り値

keep_columns

パラメーター

戻り値

random_split

パラメーター

戻り値

save

パラメーター

戻り値

select_partitions

パラメーター

戻り値

注釈

show

パラメーター

戻り値

skip

パラメーター

戻り値

take

パラメーター

戻り値

take_random_sample

パラメーター

戻り値

to_pandas_dataframe

戻り値

注釈

validate

戻り値

属性

partition_keys

戻り値

paths

戻り値

フィードバック