PipelineOutputFileDataset Klasa
Reprezentuje dane potoku pośredniego promowane do zestawu danych plików usługi Azure Machine Learning.
Po podwyższeniu poziomu danych pośrednich do zestawu danych usługi Azure Machine Learning będzie on również używany jako zestaw danych zamiast wnioskowania danych w kolejnych krokach.
Utwórz dane pośrednie, które będą promowane do zestawu danych usługi Azure Machine Learning.
- Dziedziczenie
-
PipelineOutputFileDataset
Konstruktor
PipelineOutputFileDataset(pipeline_data)
Parametry
- pipeline_data
- PipelineData
PipelineData reprezentujące pośrednie dane wyjściowe, które zostaną podniesione do zestawu danych.
- pipeline_data
- PipelineData
PipelineData reprezentujące pośrednie dane wyjściowe, które zostaną podniesione do zestawu danych.
Metody
as_direct |
Ustaw tryb zużycia zestawu danych na bezpośredni. W tym trybie uzyskasz identyfikator zestawu danych, a w skryscie możesz wywołać Dataset.get_by_id w celu pobrania zestawu danych. run.input_datasets['{dataset_name}'] zwróci zestaw danych. |
as_download |
Ustaw tryb zużycia zestawu danych do pobrania. |
as_mount |
Ustaw tryb zużycia zestawu danych, aby zainstalować. |
parse_delimited_files |
Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych. Tabelaryczny zestaw danych jest tworzony przez analizowanie rozdzielanych plików wskazywanych przez dane wyjściowe pośrednie. |
parse_parquet_files |
Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych. Tabelaryczny zestaw danych jest tworzony przez analizowanie plików parquet wskazywanych przez dane wyjściowe pośrednie. |
as_direct
Ustaw tryb zużycia zestawu danych na bezpośredni.
W tym trybie uzyskasz identyfikator zestawu danych, a w skryscie możesz wywołać Dataset.get_by_id w celu pobrania zestawu danych. run.input_datasets['{dataset_name}'] zwróci zestaw danych.
as_direct()
Zwraca
Zmodyfikowany element PipelineOutputDataset.
Typ zwracany
as_download
Ustaw tryb zużycia zestawu danych do pobrania.
as_download(path_on_compute=None)
Parametry
- path_on_compute
- str
Ścieżka obliczeniowa do pobrania zestawu danych do. Domyślnie wartość Brak, co oznacza, że usługa Azure Machine Learning wybiera ścieżkę.
Zwraca
Zmodyfikowany element PipelineOutputDataset.
Typ zwracany
as_mount
Ustaw tryb zużycia zestawu danych, aby zainstalować.
as_mount(path_on_compute=None)
Parametry
- path_on_compute
- str
Ścieżka obliczeniowa do zainstalowania zestawu danych. Domyślnie wartość Brak, co oznacza, że usługa Azure Machine Learning wybiera ścieżkę.
Zwraca
Zmodyfikowany element PipelineOutputDataset.
Typ zwracany
parse_delimited_files
Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.
Tabelaryczny zestaw danych jest tworzony przez analizowanie rozdzielanych plików wskazywanych przez dane wyjściowe pośrednie.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parametry
- include_path
- bool
Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.
- header
- PromoteHeadersBehavior
Określa sposób podwyższenia poziomu nagłówków kolumn podczas odczytywania z plików. Wartości domyślne zakładają, że wszystkie pliki mają ten sam nagłówek.
- partition_format
- str
Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.csv", gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv" z wartością "Accounts" i kolumną datetime "PartitionDate" o wartości "2019-01-01".
- file_extension
- str
Rozszerzenie pliku do odczytu. Tylko pliki z tym rozszerzeniem będą odczytywane z katalogu. Wartość domyślna to ".csv", gdy separator ma wartość "", i ".tsv", gdy separator jest kartą, a w przeciwnym razie brak. Jeśli wartość None nie zostanie przekazana, wszystkie pliki będą odczytywane niezależnie od ich rozszerzenia (lub braku rozszerzenia).
Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType. Kolumny, które nie są w słowniku, pozostaną ciągiem typu. Przekazywanie Brak spowoduje brak konwersji. Wpisy kolumn nie odnalezionych w danych źródłowych nie spowodują błędu i zostaną zignorowane.
- quoted_line_breaks
- bool
Czy obsługiwać nowe znaki wiersza w cudzysłowie. Ta opcja może mieć wpływ na wydajność.
Zwraca
Zwraca dane pośrednie, które będą zestawem danych tabelarycznych.
Typ zwracany
Uwagi
Ta transformacja zostanie zastosowana tylko wtedy, gdy dane pośrednie będą używane jako dane wejściowe kolejnego kroku. Nie ma wpływu na dane wyjściowe, nawet jeśli jest przekazywany do danych wyjściowych.
parse_parquet_files
Przekształć zestaw danych pliku pośredniego na tabelaryczny zestaw danych.
Tabelaryczny zestaw danych jest tworzony przez analizowanie plików parquet wskazywanych przez dane wyjściowe pośrednie.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parametry
- include_path
- bool
Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.
- partition_format
- str
Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".
- file_extension
- str
Rozszerzenie pliku do odczytu. Tylko pliki z tym rozszerzeniem będą odczytywane z katalogu. Wartość domyślna to '.parquet'. Jeśli jest to ustawienie Brak, wszystkie pliki będą odczytywane niezależnie od ich rozszerzenia (lub braku rozszerzenia).
Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType. Kolumny, które nie są w słowniku, pozostaną typu załadowane z pliku parquet. Przekazywanie Brak spowoduje brak konwersji. Wpisy kolumn nie odnalezionych w danych źródłowych nie spowodują błędu i zostaną zignorowane.
Zwraca
Zwraca dane pośrednie, które będą zestawem danych tabelarycznych.
Typ zwracany
Uwagi
Ta transformacja zostanie zastosowana tylko wtedy, gdy dane pośrednie będą używane jako dane wejściowe kolejnego kroku. Nie ma wpływu na dane wyjściowe, nawet jeśli jest przekazywany do danych wyjściowych.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla