OutputTabularDatasetConfig Klasa

Przedstawia sposób kopiowania danych wyjściowych przebiegu i podwyższenia poziomu jako tabelarycznego zestawu danych.

Zainicjuj element OutputTabularDatasetConfig.

Dziedziczenie
OutputTabularDatasetConfig

Konstruktor

OutputTabularDatasetConfig(**kwargs)

Uwagi

Nie należy wywoływać tego konstruktora bezpośrednio, ale zamiast tego należy utworzyć parametr OutputFileDatasetConfig, a następnie wywołać odpowiednie metody read_*, aby przekonwertować go na element OutputTabularDatasetConfig.

Sposób kopiowania danych wyjściowych do miejsca docelowego dla elementu OutputTabularDatasetConfig jest taki sam jak outputFileDatasetConfig. Różnica między nimi polega na tym, że utworzony zestaw danych będzie tabelarycznym zestawem danych zawierającym wszystkie określone przekształcenia.

Metody

as_input

Określ sposób korzystania z danych wyjściowych jako danych wejściowych w kolejnych krokach potoku.

as_mount

Ustaw tryb danych wyjściowych na instalację.

W przypadku trybu instalacji katalog wyjściowy będzie katalogiem zainstalowanym w formacie FUSE. Pliki zapisane w zainstalowanym katalogu zostaną przekazane po zamknięciu pliku.

as_upload

Ustaw tryb przekazywania danych wyjściowych.

W przypadku trybu przekazywania pliki zapisane w katalogu wyjściowym zostaną przekazane na końcu zadania. Jeśli zadanie zakończy się niepowodzeniem lub zostanie anulowane, katalog wyjściowy nie zostanie przekazany.

drop_columns

Upuść określone kolumny z zestawu danych.

keep_columns

Zachowaj określone kolumny i pomiń wszystkie inne z zestawu danych.

random_split

Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu według określonej wartości procentowej.

Wynikowe konfiguracje wyjściowe będą miały zmienione nazwy, pierwsza z nich będzie zawierać wartość _1 dołączona do nazwy, a druga będzie zawierać wartość _2 dołączona do nazwy. Jeśli spowoduje to kolizję nazw lub chcesz określić nazwę niestandardową, ręcznie ustaw ich nazwy.

as_input

Określ sposób korzystania z danych wyjściowych jako danych wejściowych w kolejnych krokach potoku.

as_input(name=None)

Parametry

Nazwa Opis
name
Wymagane
str

Nazwa danych wejściowych specyficznych dla przebiegu.

Zwraca

Typ Opis

DatasetConsumptionConfig Wystąpienie opisujące sposób dostarczania danych wejściowych.

as_mount

Ustaw tryb danych wyjściowych na instalację.

W przypadku trybu instalacji katalog wyjściowy będzie katalogiem zainstalowanym w formacie FUSE. Pliki zapisane w zainstalowanym katalogu zostaną przekazane po zamknięciu pliku.

as_mount()

Zwraca

Typ Opis

Wystąpienie OutputTabularDatasetConfig z trybem ustawionym na instalację.

as_upload

Ustaw tryb przekazywania danych wyjściowych.

W przypadku trybu przekazywania pliki zapisane w katalogu wyjściowym zostaną przekazane na końcu zadania. Jeśli zadanie zakończy się niepowodzeniem lub zostanie anulowane, katalog wyjściowy nie zostanie przekazany.

as_upload(overwrite=False, source_globs=None)

Parametry

Nazwa Opis
overwrite
Wymagane

Czy zastąpić pliki, które już istnieją w miejscu docelowym.

source_globs
Wymagane

Wzorce globu używane do filtrowania plików, które zostaną przekazane.

Zwraca

Typ Opis

Wystąpienie OutputTabularDatasetConfig z trybem ustawionym na przekazywanie.

drop_columns

Upuść określone kolumny z zestawu danych.

drop_columns(columns)

Parametry

Nazwa Opis
columns
Wymagane

Nazwa lub lista nazw kolumn do upuszczania.

Zwraca

Typ Opis

OutputTabularDatasetConfig Wystąpienie, z którym kolumny mają być upuszczane.

keep_columns

Zachowaj określone kolumny i pomiń wszystkie inne z zestawu danych.

keep_columns(columns)

Parametry

Nazwa Opis
columns
Wymagane

Nazwa lub lista nazw kolumn do zachowania.

Zwraca

Typ Opis

OutputTabularDatasetConfig Wystąpienie, z którym kolumny mają być zachowywane.

random_split

Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu według określonej wartości procentowej.

Wynikowe konfiguracje wyjściowe będą miały zmienione nazwy, pierwsza z nich będzie zawierać wartość _1 dołączona do nazwy, a druga będzie zawierać wartość _2 dołączona do nazwy. Jeśli spowoduje to kolizję nazw lub chcesz określić nazwę niestandardową, ręcznie ustaw ich nazwy.

random_split(percentage, seed=None)

Parametry

Nazwa Opis
percentage
Wymagane

Przybliżona wartość procentowa dzielenia zestawu danych według. Musi to być liczba z zakresu od 0.0 do 1.0.

seed
Wymagane
int

Opcjonalne nasion do użycia dla generatora losowego.

Zwraca

Typ Opis

Zwraca krotkę dwóch obiektów OutputTabularDatasetConfig reprezentujących dwa zestawy danych po podziale.