TabularDatasetFactory Klas
Bevat methoden voor het maken van een tabellaire gegevensset voor Azure Machine Learning.
Een TabularDataset wordt gemaakt met behulp van de from_*
methoden in deze klasse, bijvoorbeeld de methode from_delimited_files.
Zie het notebook https://aka.ms/tabulardataset-samplenotebookvoor meer informatie over het werken met gegevenssets in tabelvorm.
- Overname
-
builtins.objectTabularDatasetFactory
Constructor
TabularDatasetFactory()
Methoden
from_delimited_files |
Maak een TabularDataset om tabelgegevens in bestanden met scheidingstekens (e.g. CSV en TSV) weer te geven. |
from_json_lines_files |
Maak een TabularDataset om tabelgegevens in JSON Lines-bestanden (http://jsonlines.org/) weer te geven. |
from_parquet_files |
Maak een TabularDataset om tabelgegevens in Parquet-bestanden weer te geven. |
from_sql_query |
Maak een TabularDataset om tabelgegevens in SQL-databases weer te geven. |
register_dask_dataframe |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Maak een gegevensset van dask dataframe. |
register_pandas_dataframe |
Maak een gegevensset van pandas dataframe. |
register_spark_dataframe |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Maak een gegevensset op basis van spark-dataframe. |
from_delimited_files
Maak een TabularDataset om tabelgegevens in bestanden met scheidingstekens (e.g. CSV en TSV) weer te geven.
static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')
Parameters
Name | Description |
---|---|
path
Vereist
|
|
validate
Vereist
|
Booleaanse waarde om te controleren of gegevens kunnen worden geladen uit de geretourneerde gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. Als u de validatie wilt uitschakelen, moet 'infer_column_types' ook worden ingesteld op Onwaar. |
include_path
Vereist
|
Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren. |
infer_column_types
Vereist
|
Booleaans om kolomgegevenstypen af te stellen. De standaardwaarde is Waar. Type deductie vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. Op dit moment worden de eerste 200 rijen opgehaald door typedeductie. Als de gegevens meerdere typen waarde bevatten, is het beter om het gewenste type op te geven als overschrijving via set_column_types argument. Raadpleeg de sectie Opmerkingen voor codevoorbeelden over set_column_types. |
set_column_types
Vereist
|
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. |
separator
Vereist
|
Het scheidingsteken dat wordt gebruikt om kolommen te splitsen. |
header
Vereist
|
Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. De standaardwaarde is Waar voor alle bestanden met dezelfde header. Bestanden worden gelezen als met geen header Wanneer header=Onwaar. Er kunnen meer opties worden opgegeven met behulp van de enum-waarde van PromoteHeadersBehavior. |
partition_format
Vereist
|
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.csv' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'. |
support_multi_line
Vereist
|
Standaard (support_multi_line=Onwaar) worden alle regeleinden, inclusief de regeleinden in veldwaarden tussen aanhalingstekens, geïnterpreteerd als een recordonderbreking. Het lezen van gegevens op deze manier is sneller en meer geoptimaliseerd voor parallelle uitvoering op meerdere CPU-kernen. Dit kan er echter toe leiden dat er op de achtergrond meer records met verkeerd uitgelijnde veldwaarden worden geproduceerd. Dit moet worden ingesteld op Waar wanneer bekend is dat de bestanden met scheidingstekens regeleinden bevatten. Op basis van dit CSV-bestand als voorbeeld worden de gegevens anders gelezen op basis van support_multi_line. A,B,C A1,B1,C1 A2,"B 2",C2
|
empty_as_string
Vereist
|
Geef op of lege veldwaarden als lege tekenreeksen moeten worden geladen. De standaardwaarde (Onwaar) leest lege veldwaarden als null-waarden. Als u dit doorgeeft als Waar, worden lege veldwaarden als lege tekenreeksen gelezen. Als de waarden worden geconverteerd naar numerieke waarden of datum/tijd, heeft dit geen effect, omdat lege waarden worden geconverteerd naar null-waarden. |
encoding
Vereist
|
Geef de bestandscodering op. Ondersteunde coderingen zijn 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' en 'windows1252' |
Retouren
Type | Description |
---|---|
Retourneert een TabularDataset -object. |
Opmerkingen
from_delimited_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert voor het laden van gegevens uit bestanden met scheidingstekens in tabelweergave.
De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de bestanden met scheidingstekens die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access
Kolomgegevenstypen worden standaard afgeleid uit gegevens in de bestanden met scheidingstekens. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))
# create tabular dataset from all csv files in the directory
tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.csv',
'https://url/weather/2018/12.csv'
]
tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)
from_json_lines_files
Maak een TabularDataset om tabelgegevens in JSON Lines-bestanden (http://jsonlines.org/) weer te geven.
static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')
Parameters
Name | Description |
---|---|
path
Vereist
|
|
validate
Vereist
|
Booleaanse waarde om te controleren of gegevens kunnen worden geladen uit de geretourneerde gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
include_path
Vereist
|
Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren. |
set_column_types
Vereist
|
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType |
partition_format
Vereist
|
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.jsonl' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' maakt een tekenreekskolom 'Department' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'. |
invalid_lines
Vereist
|
Regels afhandelen die een ongeldige JSON zijn. Ondersteunde waarden zijn 'error' en 'drop'. |
encoding
Vereist
|
Geef de bestandscodering op. Ondersteunde coderingen zijn 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' en 'windows1252' |
Retouren
Type | Description |
---|---|
Retourneert een TabularDataset -object. |
Opmerkingen
from_json_lines_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert voor het laden van gegevens uit JSON-lijnenbestanden in tabelweergave.
De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de JSON-lijnenbestanden die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access
Kolomgegevenstypen worden gelezen uit gegevenstypen die zijn opgeslagen in de JSON Lines-bestanden. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))
# create tabular dataset from all jsonl files in the directory
tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.jsonl',
'https://url/weather/2018/12.jsonl'
]
tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)
from_parquet_files
Maak een TabularDataset om tabelgegevens in Parquet-bestanden weer te geven.
static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)
Parameters
Name | Description |
---|---|
path
Vereist
|
|
validate
Vereist
|
Booleaanse waarde om te controleren of gegevens kunnen worden geladen uit de geretourneerde gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
include_path
Vereist
|
Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren. |
set_column_types
Vereist
|
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. |
partition_format
Vereist
|
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'. |
Retouren
Type | Description |
---|---|
Retourneert een TabularDataset -object. |
Opmerkingen
from_parquet_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert om gegevens uit Parquet-bestanden in tabelvorm te laden.
De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de Parquet-bestanden die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access
Kolomgegevenstypen worden gelezen uit gegevenstypen die zijn opgeslagen in de Parquet-bestanden. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))
# create tabular dataset from all parquet files in the directory
tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.parquet',
'https://url/weather/2018/12.parquet'
]
tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)
from_sql_query
Maak een TabularDataset om tabelgegevens in SQL-databases weer te geven.
static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)
Parameters
Name | Description |
---|---|
query
Vereist
|
Een SQL-gegevensarchief en een query. |
validate
Vereist
|
Booleaanse waarde om te controleren of gegevens uit de geretourneerde gegevensset kunnen worden geladen. De standaardwaarde is True. Validatie vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
set_column_types
Vereist
|
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. |
query_timeout
Vereist
|
Hiermee stelt u de wachttijd in (in seconden) voordat de poging om een opdracht uit te voeren wordt beëindigd en een fout wordt gegenereerd. De standaardwaarde is 30 seconden. |
Retouren
Type | Description |
---|---|
Retourneert een TabularDataset -object. |
Opmerkingen
from_sql_query maakt een object van TabularDataset klasse, dat de bewerkingen definieert voor het laden van gegevens uit SQL-databases in tabelvorm. Momenteel ondersteunen we alleen MSSQLDataSource.
Om de gegevens toegankelijk te maken voor Azure Machine Learning, moet de SQL-database die is opgegeven door query
zich bevinden in Datastore en moet het gegevensarchieftype van het type SQL zijn.
Kolomgegevenstypen worden gelezen uit gegevenstypen in SQL-queryresultaten. Als u opgeeft set_column_types
, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# create tabular dataset from a SQL database in datastore
datastore = Datastore.get(workspace, 'mssql')
query = DataPath(datastore, 'SELECT * FROM my_table')
tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
df = tabular.to_pandas_dataframe()
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)
register_dask_dataframe
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Maak een gegevensset van dask dataframe.
static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parameters
Name | Description |
---|---|
dataframe
Vereist
|
<xref:dask.dataframe.core.DataFrame>
Vereist, dask dataframe dat moet worden geüpload. |
target
Vereist
|
Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen. |
name
Vereist
|
Vereist, de naam van de geregistreerde gegevensset. |
description
Vereist
|
Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen. |
tags
Vereist
|
Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen. |
show_progress
Vereist
|
Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True. |
Retouren
Type | Description |
---|---|
De geregistreerde gegevensset. |
register_pandas_dataframe
Maak een gegevensset van pandas dataframe.
static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)
Parameters
Name | Description |
---|---|
dataframe
Vereist
|
Vereist, in het geheugen dataframe dat moet worden geüpload. |
target
Vereist
|
Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen. |
name
Vereist
|
Vereist, de naam van de geregistreerde gegevensset. |
description
Vereist
|
Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen. |
tags
Vereist
|
Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen. |
show_progress
Vereist
|
Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True. |
row_group_size
Vereist
|
Optioneel. Maximale grootte van de rijgroep die moet worden gebruikt bij het schrijven van parquet-bestand. De standaardwaarde is Geen. |
make_target_path_unique
Vereist
|
Optioneel, geeft aan of een unieke submap moet worden gemaakt in het doel. De standaardinstelling is True. |
Retouren
Type | Description |
---|---|
De geregistreerde gegevensset. |
register_spark_dataframe
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Maak een gegevensset op basis van spark-dataframe.
static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parameters
Name | Description |
---|---|
dataframe
Vereist
|
Vereist, in het geheugen dataframe dat moet worden geüpload. |
target
Vereist
|
Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen. |
name
Vereist
|
Vereist, de naam van de geregistreerde gegevensset. |
description
Vereist
|
Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen. |
tags
Vereist
|
Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen. |
show_progress
Vereist
|
Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True. |
Retouren
Type | Description |
---|---|
De geregistreerde gegevensset. |