PipelineOutputFileDataset Klasa

Odwołanie

Reprezentuje dane potoku pośredniego promowane do zestawu danych plików usługi Azure Machine Learning.

Po podwyższeniu poziomu danych pośrednich do zestawu danych usługi Azure Machine Learning będzie on również używany jako zestaw danych zamiast wnioskowania danych w kolejnych krokach.

Utwórz dane pośrednie, które będą promowane do zestawu danych usługi Azure Machine Learning.

Dziedziczenie: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parametry

pipeline_data: PipelineData

Wymagane

PipelineData reprezentujące pośrednie dane wyjściowe, które zostaną podniesione do zestawu danych.

pipeline_data: PipelineData

Wymagane

PipelineData reprezentujące pośrednie dane wyjściowe, które zostaną podniesione do zestawu danych.

Metody

as_direct	Ustaw tryb zużycia zestawu danych na bezpośredni. W tym trybie uzyskasz identyfikator zestawu danych, a w skryscie możesz wywołać Dataset.get_by_id w celu pobrania zestawu danych. run.input_datasets['{dataset_name}'] zwróci zestaw danych.
as_download	Ustaw tryb zużycia zestawu danych do pobrania.
as_mount	Ustaw tryb zużycia zestawu danych, aby zainstalować.
parse_delimited_files	Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych. Tabelaryczny zestaw danych jest tworzony przez analizowanie rozdzielanych plików wskazywanych przez dane wyjściowe pośrednie.
parse_parquet_files	Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych. Tabelaryczny zestaw danych jest tworzony przez analizowanie plików parquet wskazywanych przez dane wyjściowe pośrednie.

as_direct

Ustaw tryb zużycia zestawu danych na bezpośredni.

W tym trybie uzyskasz identyfikator zestawu danych, a w skryscie możesz wywołać Dataset.get_by_id w celu pobrania zestawu danych. run.input_datasets['{dataset_name}'] zwróci zestaw danych.

as_direct()

Zwraca

Zmodyfikowany element PipelineOutputDataset.

Typ zwracany

PipelineOutputFileDataset

as_download

Ustaw tryb zużycia zestawu danych do pobrania.

as_download(path_on_compute=None)

Parametry

path_on_compute: str

wartość domyślna: None

Ścieżka obliczeniowa do pobrania zestawu danych do. Domyślnie wartość Brak, co oznacza, że usługa Azure Machine Learning wybiera ścieżkę.

Zwraca

Zmodyfikowany element PipelineOutputDataset.

Typ zwracany

PipelineOutputFileDataset

as_mount

Ustaw tryb zużycia zestawu danych, aby zainstalować.

as_mount(path_on_compute=None)

Parametry

path_on_compute: str

wartość domyślna: None

Ścieżka obliczeniowa do zainstalowania zestawu danych. Domyślnie wartość Brak, co oznacza, że usługa Azure Machine Learning wybiera ścieżkę.

Zwraca

Zmodyfikowany element PipelineOutputDataset.

Typ zwracany

PipelineOutputFileDataset

parse_delimited_files

Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.

Tabelaryczny zestaw danych jest tworzony przez analizowanie rozdzielanych plików wskazywanych przez dane wyjściowe pośrednie.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametry

include_path: bool

wartość domyślna: False

Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

separator: str

wartość domyślna: ,

Separator używany do dzielenia kolumn.

header: PromoteHeadersBehavior

wartość domyślna: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Określa sposób podwyższenia poziomu nagłówków kolumn podczas odczytywania z plików. Wartości domyślne zakładają, że wszystkie pliki mają ten sam nagłówek.

partition_format: str

wartość domyślna: None

Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.csv", gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv" z wartością "Accounts" i kolumną datetime "PartitionDate" o wartości "2019-01-01".

file_extension: str

Wymagane

Rozszerzenie pliku do odczytu. Tylko pliki z tym rozszerzeniem będą odczytywane z katalogu. Wartość domyślna to ".csv", gdy separator ma wartość "", i ".tsv", gdy separator jest kartą, a w przeciwnym razie brak. Jeśli wartość None nie zostanie przekazana, wszystkie pliki będą odczytywane niezależnie od ich rozszerzenia (lub braku rozszerzenia).

set_column_types: dict[str, DataType]

wartość domyślna: None

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType. Kolumny, które nie są w słowniku, pozostaną ciągiem typu. Przekazywanie Brak spowoduje brak konwersji. Wpisy kolumn nie odnalezionych w danych źródłowych nie spowodują błędu i zostaną zignorowane.

quoted_line_breaks: bool

wartość domyślna: False

Czy obsługiwać nowe znaki wiersza w cudzysłowie. Ta opcja może mieć wpływ na wydajność.

Zwraca

Zwraca dane pośrednie, które będą zestawem danych tabelarycznych.

Typ zwracany

PipelineOutputTabularDataset

Uwagi

Ta transformacja zostanie zastosowana tylko wtedy, gdy dane pośrednie będą używane jako dane wejściowe kolejnego kroku. Nie ma wpływu na dane wyjściowe, nawet jeśli jest przekazywany do danych wyjściowych.

parse_parquet_files

Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.

Tabelaryczny zestaw danych jest tworzony przez analizowanie plików parquet wskazywanych przez dane wyjściowe pośrednie.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametry

include_path: bool

wartość domyślna: False

partition_format: str

wartość domyślna: None

Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".

file_extension: str

wartość domyślna: .parquet

Rozszerzenie pliku do odczytu. Tylko pliki z tym rozszerzeniem będą odczytywane z katalogu. Wartość domyślna to '.parquet'. Jeśli jest to ustawienie Brak, wszystkie pliki będą odczytywane niezależnie od ich rozszerzenia (lub braku rozszerzenia).

set_column_types: dict[str, DataType]

wartość domyślna: None

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType. Kolumny, które nie są w słowniku, pozostaną typu załadowane z pliku parquet. Przekazywanie Brak spowoduje brak konwersji. Wpisy kolumn nie odnalezionych w danych źródłowych nie spowodują błędu i zostaną zignorowane.

Udostępnij za pośrednictwem

PipelineOutputFileDataset Klasa

Konstruktor

Parametry

Metody

as_direct

Zwraca

Typ zwracany

as_download

Parametry

Zwraca

Typ zwracany

as_mount

Parametry

Zwraca

Typ zwracany

parse_delimited_files

Parametry

Zwraca

Typ zwracany

Uwagi

parse_parquet_files

Parametry

Zwraca

Typ zwracany

Uwagi

Opinia

Opinia

Dodatkowe zasoby