Udostępnij za pośrednictwem


PipelineOutputFileDataset Klasa

Reprezentuje dane potoku pośredniego promowane do zestawu danych plików usługi Azure Machine Learning.

Po podwyższeniu poziomu danych pośrednich do zestawu danych usługi Azure Machine Learning będzie on również używany jako zestaw danych zamiast wnioskowania danych w kolejnych krokach.

Utwórz dane pośrednie, które będą promowane do zestawu danych usługi Azure Machine Learning.

Dziedziczenie
PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parametry

pipeline_data
PipelineData
Wymagane

PipelineData reprezentujące pośrednie dane wyjściowe, które zostaną podniesione do zestawu danych.

pipeline_data
PipelineData
Wymagane

PipelineData reprezentujące pośrednie dane wyjściowe, które zostaną podniesione do zestawu danych.

Metody

as_direct

Ustaw tryb zużycia zestawu danych na bezpośredni.

W tym trybie uzyskasz identyfikator zestawu danych, a w skryscie możesz wywołać Dataset.get_by_id w celu pobrania zestawu danych. run.input_datasets['{dataset_name}'] zwróci zestaw danych.

as_download

Ustaw tryb zużycia zestawu danych do pobrania.

as_mount

Ustaw tryb zużycia zestawu danych, aby zainstalować.

parse_delimited_files

Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.

Tabelaryczny zestaw danych jest tworzony przez analizowanie rozdzielanych plików wskazywanych przez dane wyjściowe pośrednie.

parse_parquet_files

Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.

Tabelaryczny zestaw danych jest tworzony przez analizowanie plików parquet wskazywanych przez dane wyjściowe pośrednie.

as_direct

Ustaw tryb zużycia zestawu danych na bezpośredni.

W tym trybie uzyskasz identyfikator zestawu danych, a w skryscie możesz wywołać Dataset.get_by_id w celu pobrania zestawu danych. run.input_datasets['{dataset_name}'] zwróci zestaw danych.

as_direct()

Zwraca

Zmodyfikowany element PipelineOutputDataset.

Typ zwracany

as_download

Ustaw tryb zużycia zestawu danych do pobrania.

as_download(path_on_compute=None)

Parametry

path_on_compute
str
wartość domyślna: None

Ścieżka obliczeniowa do pobrania zestawu danych do. Domyślnie wartość Brak, co oznacza, że usługa Azure Machine Learning wybiera ścieżkę.

Zwraca

Zmodyfikowany element PipelineOutputDataset.

Typ zwracany

as_mount

Ustaw tryb zużycia zestawu danych, aby zainstalować.

as_mount(path_on_compute=None)

Parametry

path_on_compute
str
wartość domyślna: None

Ścieżka obliczeniowa do zainstalowania zestawu danych. Domyślnie wartość Brak, co oznacza, że usługa Azure Machine Learning wybiera ścieżkę.

Zwraca

Zmodyfikowany element PipelineOutputDataset.

Typ zwracany

parse_delimited_files

Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.

Tabelaryczny zestaw danych jest tworzony przez analizowanie rozdzielanych plików wskazywanych przez dane wyjściowe pośrednie.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametry

include_path
bool
wartość domyślna: False

Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

separator
str
wartość domyślna: ,

Separator używany do dzielenia kolumn.

header
PromoteHeadersBehavior
wartość domyślna: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Określa sposób podwyższenia poziomu nagłówków kolumn podczas odczytywania z plików. Wartości domyślne zakładają, że wszystkie pliki mają ten sam nagłówek.

partition_format
str
wartość domyślna: None

Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.csv", gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv" z wartością "Accounts" i kolumną datetime "PartitionDate" o wartości "2019-01-01".

file_extension
str
Wymagane

Rozszerzenie pliku do odczytu. Tylko pliki z tym rozszerzeniem będą odczytywane z katalogu. Wartość domyślna to ".csv", gdy separator ma wartość "", i ".tsv", gdy separator jest kartą, a w przeciwnym razie brak. Jeśli wartość None nie zostanie przekazana, wszystkie pliki będą odczytywane niezależnie od ich rozszerzenia (lub braku rozszerzenia).

set_column_types
dict[str, DataType]
wartość domyślna: None

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType. Kolumny, które nie są w słowniku, pozostaną ciągiem typu. Przekazywanie Brak spowoduje brak konwersji. Wpisy kolumn nie odnalezionych w danych źródłowych nie spowodują błędu i zostaną zignorowane.

quoted_line_breaks
bool
wartość domyślna: False

Czy obsługiwać nowe znaki wiersza w cudzysłowie. Ta opcja może mieć wpływ na wydajność.

Zwraca

Zwraca dane pośrednie, które będą zestawem danych tabelarycznych.

Typ zwracany

Uwagi

Ta transformacja zostanie zastosowana tylko wtedy, gdy dane pośrednie będą używane jako dane wejściowe kolejnego kroku. Nie ma wpływu na dane wyjściowe, nawet jeśli jest przekazywany do danych wyjściowych.

parse_parquet_files

Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.

Tabelaryczny zestaw danych jest tworzony przez analizowanie plików parquet wskazywanych przez dane wyjściowe pośrednie.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametry

include_path
bool
wartość domyślna: False

Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

partition_format
str
wartość domyślna: None

Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".

file_extension
str
wartość domyślna: .parquet

Rozszerzenie pliku do odczytu. Tylko pliki z tym rozszerzeniem będą odczytywane z katalogu. Wartość domyślna to '.parquet'. Jeśli jest to ustawienie Brak, wszystkie pliki będą odczytywane niezależnie od ich rozszerzenia (lub braku rozszerzenia).

set_column_types
dict[str, DataType]
wartość domyślna: None

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType. Kolumny, które nie są w słowniku, pozostaną typu załadowane z pliku parquet. Przekazywanie Brak spowoduje brak konwersji. Wpisy kolumn nie odnalezionych w danych źródłowych nie spowodują błędu i zostaną zignorowane.

Zwraca

Zwraca dane pośrednie, które będą zestawem danych tabelarycznych.

Typ zwracany

Uwagi

Ta transformacja zostanie zastosowana tylko wtedy, gdy dane pośrednie będą używane jako dane wejściowe kolejnego kroku. Nie ma wpływu na dane wyjściowe, nawet jeśli jest przekazywany do danych wyjściowych.