Udostępnij za pośrednictwem


TabularDatasetFactory Klasa

Zawiera metody tworzenia tabelarycznego zestawu danych dla usługi Azure Machine Learning.

Element TabularDataset jest tworzony przy użyciu from_* metod w tej klasie, na przykład metody from_delimited_files.

Aby uzyskać więcej informacji na temat pracy z zestawami danych tabelarycznych, zobacz notes https://aka.ms/tabulardataset-samplenotebook.

Dziedziczenie
builtins.object
TabularDatasetFactory

Konstruktor

TabularDatasetFactory()

Metody

from_delimited_files

Utwórz zestaw TabularDataset do reprezentowania danych tabelarycznych w plikach rozdzielanych (e.g. CSV i TSV).

from_json_lines_files

Utwórz zestaw tabularDataset do reprezentowania danych tabelarycznych w plikach wierszy JSON (http://jsonlines.org/).

from_parquet_files

Utwórz zestaw TabularDataset do reprezentowania danych tabelarycznych w plikach Parquet.

from_sql_query

Utwórz zestaw TabularDataset do reprezentowania danych tabelarycznych w bazach danych SQL.

register_dask_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Utwórz zestaw danych na podstawie ramki danych dask.

register_pandas_dataframe

Utwórz zestaw danych na podstawie ramki danych biblioteki pandas.

register_spark_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Utwórz zestaw danych na podstawie ramki danych platformy Spark.

from_delimited_files

Utwórz zestaw TabularDataset do reprezentowania danych tabelarycznych w plikach rozdzielanych (e.g. CSV i TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parametry

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Wymagane

Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką ścieżki Datastore względnej i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać zarówno adresów URL, jak i magazynów danych.

validate
bool
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. Aby wyłączyć walidację, należy również ustawić wartość "infer_column_types".

include_path
bool
Wymagane

Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

infer_column_types
bool
Wymagane

Wartość logiczna do wnioskowania typów danych kolumn. Wartość domyślna to True. Wnioskowanie typu wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. Obecnie wnioskowanie typu będzie ściągać tylko pierwsze 200 wierszy. Jeśli dane zawierają wiele typów wartości, lepiej jest podać żądany typ jako przesłonięcia za pomocą argumentu set_column_types. Zapoznaj się z sekcją Uwagi, aby zapoznać się z przykładami kodu dotyczącymi set_column_types.

set_column_types
dict[str, DataType]
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType.

separator
str
Wymagane

Separator używany do dzielenia kolumn.

header
bool lub PromoteHeadersBehavior
Wymagane

Określa sposób podwyższenia poziomu nagłówków kolumn podczas odczytywania z plików. Wartość domyślna to True dla wszystkich plików mających ten sam nagłówek. Pliki będą odczytywane jako bez nagłówka When header=False. Więcej opcji można określić przy użyciu wartości wyliczenia .PromoteHeadersBehavior

partition_format
str
Wymagane

Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.csv", gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" z wartością "2019-01-01".

support_multi_line
bool
Wymagane

Domyślnie (support_multi_line=Fałsz) wszystkie podziały wierszy, w tym te w wartościach pól cytowanych, będą interpretowane jako podział rekordu. Odczytywanie danych w ten sposób jest szybsze i bardziej zoptymalizowane pod kątem równoległego wykonywania na wielu rdzeniach procesora CPU. Jednak może to spowodować dyskretne tworzenie większej liczby rekordów z nieprawidłowo wyrównanymi wartościami pól. Należy ustawić wartość True, gdy rozdzielane pliki są znane jako zawierające podziały wierszy cudzysłów.

Biorąc pod uwagę ten plik CSV, na przykład dane będą odczytywane inaczej na podstawie support_multi_line.

A,B,C1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Wymagane

Określ, czy puste wartości pól powinny być ładowane jako puste ciągi. Wartość domyślna (Fałsz) odczytuje puste wartości pól jako wartości null. Przekazanie tej wartości jako true spowoduje odczytanie pustych wartości pól jako pustych ciągów. Jeśli wartości są konwertowane na liczbowe lub daty/godziny, nie ma to wpływu, ponieważ puste wartości zostaną przekonwertowane na wartości null.

encoding
str
Wymagane

Określ kodowanie pliku. Obsługiwane kodowanie to "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" i "windows1252"

Zwraca

Zwraca TabularDataset obiektu.

Typ zwracany

Uwagi

from_delimited_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z rozdzielonych plików do reprezentacji tabelarycznej.

Aby dane były dostępne w usłudze Azure Machine Learning, rozdzielane pliki określone przez ścieżkę muszą znajdować się w Datastore publicznych internetowych adresach URL lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie języka Python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access

Typy danych kolumn są domyślnie wnioskowane z danych w plikach rozdzielanych. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Utwórz zestaw tabularDataset do reprezentowania danych tabelarycznych w plikach wierszy JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parametry

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Wymagane

Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką ścieżki Datastore względnej i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać zarówno adresów URL, jak i magazynów danych.

validate
bool
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

include_path
bool
Wymagane

Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

set_column_types
dict[str, DataType]
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość DataType

partition_format
str
Wymagane

Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.jsonl, gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrrrr/MM/dd}/data.jsonl" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".

invalid_lines
str
Wymagane

Jak obsługiwać wiersze, które są nieprawidłowe w formacie JSON. Obsługiwane wartości to "error" i "drop".

encoding
str
Wymagane

Określ kodowanie pliku. Obsługiwane kodowanie to "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" i "windows1252"

Zwraca

Zwraca TabularDataset obiektu.

Typ zwracany

Uwagi

from_json_lines_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików linii JSON do reprezentacji tabelarycznej.

Aby dane były dostępne w usłudze Azure Machine Learning, pliki linii JSON określone przez ścieżkę muszą znajdować się w Datastore publicznych adresach URL lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie języka Python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access

Typy danych kolumn są odczytywane z typów danych zapisanych w plikach JSON Lines. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Utwórz zestaw TabularDataset do reprezentowania danych tabelarycznych w plikach Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parametry

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Wymagane

Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką ścieżki Datastore względnej i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać zarówno adresów URL, jak i magazynów danych.

validate
bool
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

include_path
bool
Wymagane

Wartość logiczna, aby zachować informacje o ścieżce jako kolumnę w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

set_column_types
dict[str, DataType]
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType.

partition_format
str
Wymagane

Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".

Zwraca

Zwraca TabularDataset obiektu.

Typ zwracany

Uwagi

from_parquet_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików Parquet do reprezentacji tabelarycznej.

Aby dane były dostępne dla usługi Azure Machine Learning, pliki Parquet określone przez ścieżkę muszą znajdować się w Datastore publicznych adresach URL sieci Web lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie języka Python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access

Typy danych kolumn są odczytywane z typów danych zapisanych w plikach Parquet. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Utwórz zestaw TabularDataset do reprezentowania danych tabelarycznych w bazach danych SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parametry

query
Union[DataPath, (Datastore, str)]
Wymagane

Magazyn danych typu SQL i zapytanie.

validate
bool
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

set_column_types
dict[str, DataType]
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny i wartość to DataType.

query_timeout
Wymagane

Ustawia czas oczekiwania (w sekundach) przed zakończeniem próby wykonania polecenia i wygenerowaniu błędu. Wartość domyślna to 30 sekund.

Zwraca

Zwraca TabularDataset obiektu.

Typ zwracany

Uwagi

from_sql_query tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z baz danych SQL do reprezentacji tabelarycznej. Obecnie obsługujemy tylko usługę MSSQLDataSource.

Aby dane były dostępne w usłudze Azure Machine Learning, baza danych SQL określona przez query musi znajdować się w Datastore lokalizacji , a typ magazynu danych musi być typu SQL.

Typy danych kolumn są odczytywane z typów danych w wyniku zapytania SQL. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Utwórz zestaw danych na podstawie ramki danych dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametry

dataframe
<xref:dask.dataframe.core.DataFrame>
Wymagane

Wymagana ramka danych dask do przekazania.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Wymagane

Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. Folder guid zostanie wygenerowany w ramach ścieżki docelowej, aby uniknąć konfliktu.

name
str
Wymagane

Wymagana nazwa zarejestrowanego zestawu danych.

description
str
Wymagane

Opcjonalny. Tekstowy opis zestawu danych. Domyślnie wartość Brak.

tags
dict[str, str]
Wymagane

Opcjonalny. Słownik tagów wartości klucza, aby nadać zestaw danych. Domyślnie wartość Brak.

show_progress
bool
Wymagane

Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartości domyślne mają wartość True.

Zwraca

Zarejestrowany zestaw danych.

Typ zwracany

register_pandas_dataframe

Utwórz zestaw danych na podstawie ramki danych biblioteki pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parametry

dataframe
DataFrame
Wymagane

Wymagane w ramce danych pamięci do przekazania.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Wymagane

Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. Folder guid zostanie wygenerowany w ramach ścieżki docelowej, aby uniknąć konfliktu.

name
str
Wymagane

Wymagana nazwa zarejestrowanego zestawu danych.

description
int
Wymagane

Opcjonalny. Tekstowy opis zestawu danych. Domyślnie wartość Brak.

tags
dict[str, str]
Wymagane

Opcjonalny. Słownik tagów wartości klucza, aby nadać zestaw danych. Domyślnie wartość Brak.

show_progress
bool
Wymagane

Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartości domyślne mają wartość True.

row_group_size
Wymagane

Opcjonalny. Maksymalny rozmiar grupy wierszy do użycia podczas zapisywania pliku parquet. Domyślnie wartość Brak.

make_target_path_unique
Wymagane

Opcjonalnie wskazuje, czy w obiekcie docelowym powinien zostać utworzony unikatowy podfolder. Wartości domyślne mają wartość True.

Zwraca

Zarejestrowany zestaw danych.

Typ zwracany

register_spark_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Utwórz zestaw danych na podstawie ramki danych platformy Spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametry

dataframe
DataFrame
Wymagane

Wymagane w ramce danych pamięci do przekazania.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Wymagane

Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. Folder guid zostanie wygenerowany w ramach ścieżki docelowej, aby uniknąć konfliktu.

name
str
Wymagane

Wymagana nazwa zarejestrowanego zestawu danych.

description
str
Wymagane

Opcjonalny. Tekstowy opis zestawu danych. Domyślnie wartość Brak.

tags
dict[str, str]
Wymagane

Opcjonalny. Słownik tagów wartości klucza, aby nadać zestaw danych. Domyślnie wartość Brak.

show_progress
bool
Wymagane

Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartości domyślne mają wartość True.

Zwraca

Zarejestrowany zestaw danych.

Typ zwracany