Delen via


Dataset Klas

Vertegenwoordigt een resource voor het verkennen, transformeren en beheren van gegevens in Azure Machine Learning.

Een gegevensset is een verwijzing naar gegevens in een Datastore of achter openbare web-URL's.

Voor methoden die in deze klasse zijn afgeschaft, controleert AbstractDataset u de klasse op de verbeterde API's.

De volgende typen gegevenssets worden ondersteund:

  • TabularDataset vertegenwoordigt gegevens in een tabellaire indeling die wordt gemaakt door het opgegeven bestand of de opgegeven lijst met bestanden te parseren.

  • FileDataset verwijst naar een of meer bestanden in gegevensopslag of van openbare URL's.

Als u aan de slag wilt gaan met gegevenssets, raadpleegt u het artikel Gegevenssets toevoegen & registreren of raadpleegt u de notebooks https://aka.ms/tabulardataset-samplenotebook en https://aka.ms/filedataset-samplenotebook.

Initialiseer het gegevenssetobject.

Gebruik de methode get om een gegevensset te verkrijgen die al is geregistreerd bij de werkruimte.

Overname
builtins.object
Dataset

Constructor

Dataset(definition, workspace=None, name=None, id=None)

Parameters

Name Description
definition
Vereist
<xref:azureml.data.DatasetDefinition>

De definitie van de gegevensset.

workspace
Vereist

De werkruimte waarin de gegevensset zich bevindt.

name
Vereist
str

De naam van de gegevensset.

id
Vereist
str

De unieke id van de gegevensset.

Opmerkingen

De klasse Gegevensset bevat twee kenmerken van de gemaksklasse (File en Tabular) die u kunt gebruiken voor het maken van een gegevensset zonder met de bijbehorende factory-methoden te werken. Als u bijvoorbeeld een gegevensset wilt maken met behulp van deze kenmerken:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

U kunt ook een nieuwe TabularDataset of FileDataset maken door de bijbehorende factory-methoden van de klasse die is gedefinieerd in TabularDatasetFactory en FileDatasetFactoryrechtstreeks aan te roepen.

In het volgende voorbeeld ziet u hoe u een TabularDataset kunt maken die verwijst naar één pad in een gegevensopslag.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Volledig voorbeeld is beschikbaar via https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variabelen

Name Description
azureml.core.Dataset.File

Een klassekenmerk dat toegang biedt tot de FileDatasetFactory-methoden voor het maken van nieuwe FileDataset-objecten. Gebruik: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Een klassekenmerk dat toegang biedt tot de TabularDatasetFactory-methoden voor het maken van nieuwe TabularDataset-objecten. Gebruik: Dataset.Tabular.from_delimited_files().

Methoden

archive

Een actieve of afgeschafte gegevensset archiveren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

auto_read_files

Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden de Dataset.Tabular.from_*-methoden te gebruiken om bestanden te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

compare_profiles

Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel.

Dit toont de verschillen in samenvattingsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'right-side' en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

delete_snapshot

Verwijder de momentopname van de gegevensset op naam.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

deprecate

Een actieve gegevensset in een werkruimte afschappen door een andere gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

diff

Verdeel de huidige gegevensset met rhs_dataset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

from_binary_files

Maak een niet-geregistreerde gegevensset in het geheugen op basis van binaire bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.File.from_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

from_delimited_files

Maak een niet-geregistreerde gegevensset in het geheugen van bestanden met scheidingstekens.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_delimited_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Maak een niet-geregistreerde gegevensset in het geheugen van Excel-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

from_json_files

Maak een niet-geregistreerde gegevensset in het geheugen van JSON-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_json_lines_files te gebruiken om het JSON-regelbestand te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Maak een niet-geregistreerde gegevensset in het geheugen op basis van een pandas-dataframe.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.register_pandas_dataframe te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

from_parquet_files

Maak een niet-geregistreerde gegevensset in het geheugen van Parquet-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_parquet_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

from_sql_query

Maak een niet-geregistreerde gegevensset in het geheugen op basis van een SQL-query.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_sql_query te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

generate_profile

Genereer een nieuw profiel voor de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get

Haal een gegevensset op die al in de werkruimte bestaat door de naam of id op te geven.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan en get_by_id te gebruikenget_by_name. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_all

Haal alle geregistreerde gegevenssets op in de werkruimte.

get_all_snapshots

Alle momentopnamen van de gegevensset ophalen.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_by_id

Haal een gegevensset op die wordt opgeslagen in de werkruimte.

get_by_name

Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.

get_definition

Een specifieke definitie van de gegevensset ophalen.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_definitions

Haal alle definities van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_profile

Overzichtsstatistieken ophalen over de gegevensset die eerder is berekend.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_snapshot

Haal een momentopname van de gegevensset op naam op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

head

Haal het opgegeven aantal records op uit deze gegevensset en retourneert deze als een DataFrame.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

list

Maak een lijst met alle gegevenssets in de werkruimte, inclusief gegevenssets met is_visible de eigenschap die gelijk is aan Onwaar.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan te gebruiken get_all . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

reactivate

Een gearchiveerde of afgeschafte gegevensset opnieuw activeren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

register

Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan te gebruiken register . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

sample

Genereer een nieuw voorbeeld van de brongegevensset met behulp van de opgegeven steekproefstrategie en parameters.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden in Dataset.Tabular aan te roepen en daar de take_sample methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden in Dataset.Tabular aan te roepen en daar de to_pandas_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevenssetdefinitie.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden in Dataset.Tabular aan te roepen en daar de to_spark_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

update

Werk de veranderlijke kenmerken van de gegevensset in de werkruimte bij en retourneer de bijgewerkte gegevensset uit de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

update_definition

Werk de definitie van de gegevensset bij.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

archive

Een actieve of afgeschafte gegevensset archiveren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

archive()

Retouren

Type Description

Geen.

Opmerkingen

Na archivering resulteert elke poging om de gegevensset te gebruiken in een fout. Als deze per ongeluk wordt gearchiveerd, wordt het opnieuw activeren geactiveerd.

auto_read_files

Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden de Dataset.Tabular.from_*-methoden te gebruiken om bestanden te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parameters

Name Description
path
Vereist

Een gegevenspad in een geregistreerd gegevensarchief, een lokaal pad of een HTTP-URL (CSV/TSV).

include_path
Vereist

Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is. Ook handig als er informatie in het bestandspad of de naam staat die u in een kolom wilt opnemen.

partition_format
Vereist
str

Geef de partitieindeling op in pad en maak tekenreekskolommen op basis van de notatie {x} en de datum/tijd-kolom van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.csv' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.

Retouren

Type Description

Gegevenssetobject.

Opmerkingen

Gebruik deze methode wanneer bestandsindelingen en scheidingstekens automatisch worden gedetecteerd.

Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

compare_profiles

Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel.

Dit toont de verschillen in samenvattingsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'right-side' en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameters

Name Description
rhs_dataset
Vereist

Een tweede gegevensset, ook wel een 'rechtse' gegevensset genoemd voor comparision.

profile_arguments
Vereist

Argumenten voor het ophalen van een specifiek profiel.

include_columns
Vereist

Lijst met kolomnamen die moeten worden opgenomen in de vergelijking.

exclude_columns
Vereist

Lijst met kolomnamen die moeten worden uitgesloten in vergelijking.

histogram_compare_method
Vereist

Opsomming van de vergelijkingsmethode, bijvoorbeeld: Wasserstein of Energie

Retouren

Type Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Verschil tussen de twee gegevenssetprofielen.

Opmerkingen

Dit geldt alleen voor geregistreerde gegevenssets. Genereert een uitzondering als het profiel van de huidige gegevensset niet bestaat. Gebruik voor niet-geregistreerde gegevenssets de methode profile.compare.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameters

Name Description
snapshot_name
Vereist
str

De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset.

compute_target
Vereist

Optioneel rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt.

create_data_snapshot
Vereist

Indien Waar, wordt er een gerealiseerde kopie van de gegevens gemaakt.

target_datastore
Vereist

Doelgegevensarchief om momentopname op te slaan. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte.

Retouren

Type Description

Momentopnameobject van gegevensset.

Opmerkingen

Momentopnamen leggen samenvattingsstatistieken over een bepaald tijdstip vast van de onderliggende gegevens en een optionele kopie van de gegevens zelf. Ga naar https://aka.ms/azureml/howto/createsnapshotsvoor meer informatie over het maken van momentopnamen.

delete_snapshot

Verwijder de momentopname van de gegevensset op naam.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parameters

Name Description
snapshot_name
Vereist
str

De naam van de momentopname.

Retouren

Type Description

Geen.

Opmerkingen

Gebruik dit om opslag vrij te maken die wordt verbruikt door gegevens die zijn opgeslagen in momentopnamen die u niet meer nodig hebt.

deprecate

Een actieve gegevensset in een werkruimte afschappen door een andere gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parameters

Name Description
deprecate_by_dataset_id
Vereist
str

De gegevensset-id die de beoogde vervanging is voor deze gegevensset.

Retouren

Type Description

Geen.

Opmerkingen

Afgeschafte gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als een gegevensset wordt afgeschaft, worden alle bijbehorende definities afgeschaft.

Afgeschafte gegevenssets kunnen nog steeds worden gebruikt. Als u het gebruik van een gegevensset volledig wilt blokkeren, archiveert u deze.

Als deze per ongeluk wordt afgeschaft, wordt het opnieuw activeren geactiveerd.

diff

Verdeel de huidige gegevensset met rhs_dataset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parameters

Name Description
rhs_dataset
Vereist

Een andere gegevensset ook wel gegevensset rechts genoemd voor vergelijking

compute_target
Vereist

rekendoel om de diff uit te voeren. Als u dit weglaat, wordt de lokale berekening gebruikt.

columns
Vereist

Lijst met kolomnamen die moeten worden opgenomen in diff.

Retouren

Type Description

Actie-object voor gegevensset uitvoeren.

from_binary_files

Maak een niet-geregistreerde gegevensset in het geheugen op basis van binaire bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.File.from_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parameters

Name Description
path
Vereist

Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad.

Retouren

Type Description

Het gegevenssetobject.

Opmerkingen

Gebruik deze methode om bestanden te lezen als stromen binaire gegevens. Retourneert één bestandsstroomobject per gelezen bestand. Gebruik deze methode wanneer u afbeeldingen, video's, audio of andere binaire gegevens leest.

get_profile en create_snapshot werkt niet zoals verwacht voor een gegevensset die met deze methode is gemaakt.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_delimited_files

Maak een niet-geregistreerde gegevensset in het geheugen van bestanden met scheidingstekens.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_delimited_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameters

Name Description
path
Vereist

Een gegevenspad in een geregistreerd gegevensarchief, een lokaal pad of een HTTP-URL.

separator
Vereist
str

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header
Vereist

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden.

encoding
Vereist

De codering van de bestanden die worden gelezen.

quoting
Vereist

Geef op hoe nieuwe regeltekens tussen aanhalingstekens moeten worden verwerkt. De standaardinstelling (Onwaar) is om nieuwe regeltekens te interpreteren als het begin van nieuwe rijen, ongeacht of de nieuwe regeltekens binnen aanhalingstekens staan of niet. Als deze optie is ingesteld op Waar, resulteren nieuwe regeltekens binnen aanhalingstekens niet in nieuwe rijen en wordt de leessnelheid van bestanden vertraagd.

infer_column_types
Vereist

Geeft aan of kolomgegevenstypen worden afgeleid.

skip_rows
Vereist
int

Hoeveel rijen moeten worden overgeslagen in de bestanden die worden gelezen.

skip_mode
Vereist

Hiermee bepaalt u hoe rijen worden overgeslagen bij het lezen van bestanden.

comment
Vereist
str

Teken dat wordt gebruikt om opmerkingslijnen aan te geven in de bestanden die worden gelezen. Regels die beginnen met deze tekenreeks, worden overgeslagen.

include_path
Vereist

Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig als u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is, of als u nuttige informatie in het bestandspad wilt bewaren.

archive_options
Vereist
<xref:azureml.dataprep.ArchiveOptions>

Opties voor archiefbestand, inclusief archieftype en vermeldingspatroon glob. We ondersteunen momenteel alleen ZIP als archieftype. Bijvoorbeeld: opgeven


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

leest alle bestanden met een naam die eindigt op '10-20.csv' in ZIP.

partition_format
Vereist
str

Geef de partitieindeling op in pad en maak tekenreekskolommen op basis van de notatie {x} en de datum/tijd-kolom van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.csv' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.

Retouren

Type Description

Gegevenssetobject.

Opmerkingen

Gebruik deze methode om tekstbestanden met scheidingstekens te lezen wanneer u de gebruikte opties wilt beheren.

Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_excel_files

Maak een niet-geregistreerde gegevensset in het geheugen van Excel-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameters

Name Description
path
Vereist

Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad.

sheet_name
Vereist
str

De naam van het Excel-blad dat moet worden geladen. Standaard lezen we het eerste blad uit elk Excel-bestand.

use_column_headers
Vereist

Hiermee bepaalt u of de eerste rij als kolomkoppen moet worden gebruikt.

skip_rows
Vereist
int

Het aantal rijen dat moet worden overgeslagen in de bestanden die worden gelezen.

include_path
Vereist

Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is, of als u nuttige informatie in het bestandspad wilt bewaren.

infer_column_types
Vereist

Als dit waar is, worden kolomgegevenstypen afgeleid.

partition_format
Vereist
str

Geef de partitienotatie op in pad en maak tekenreekskolommen op basis van de notatie {x} en datum/tijd-kolom op basis van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld op basis van een bestandspad '.. /Accounts/2019/01/01/data.xlsx' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het type datum/tijd te maken.

Retouren

Type Description

Gegevenssetobject.

Opmerkingen

Gebruik deze methode om Excel-bestanden in .xlsx indeling te lezen. Gegevens kunnen worden gelezen uit één blad in elk Excel-bestand. Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en overzichtsstatistieken voor elke kolom weer te geven. De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_json_files

Maak een niet-geregistreerde gegevensset in het geheugen van JSON-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_json_lines_files te gebruiken om het JSON-regelbestand te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameters

Name Description
path
Vereist

Het pad naar de bestanden of mappen die u wilt laden en parseren. Dit kan een lokaal pad of een Azure Blob-URL zijn. Globbing wordt ondersteund. U kunt bijvoorbeeld pad = "./data*" gebruiken om alle bestanden met een naam te lezen die begint met "data".

encoding
Vereist

De codering van de bestanden die worden gelezen.

flatten_nested_arrays
Vereist

De verwerking van geneste matrices door het programma voor eigenschapsbeheer. Als u ervoor kiest geneste JSON-matrices plat te maken, kan dit leiden tot een veel groter aantal rijen.

include_path
Vereist

Of u een kolom wilt opnemen met het pad waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en misschien wilt weten uit welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren.

partition_format
Vereist
str

Geef de partitienotatie op in pad en maak tekenreekskolommen op basis van de notatie {x} en datum/tijd-kolom op basis van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld op basis van een bestandspad '.. /Accounts/2019/01/01/data.json' en gegevens zijn gepartitioneerd op afdelingsnaam en -tijd. We kunnen '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' definiëren om kolommen Afdeling van het tekenreekstype en PartitionDate van het type datum/tijd te maken.

Retouren

Type Description

Het lokale gegevenssetobject.

from_pandas_dataframe

Maak een niet-geregistreerde gegevensset in het geheugen op basis van een pandas-dataframe.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.register_pandas_dataframe te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameters

Name Description
dataframe
Vereist

Het Pandas DataFrame.

path
Vereist

Een gegevenspad in het geregistreerde gegevensarchief of het pad naar de lokale map.

in_memory
Vereist

Of het DataFrame uit het geheugen moet worden gelezen in plaats van op schijf te worden bewaard.

Retouren

Type Description

Een gegevenssetobject.

Opmerkingen

Gebruik deze methode om een Pandas-gegevensframe te converteren naar een gegevenssetobject. Een gegevensset die met deze methode is gemaakt, kan niet worden geregistreerd, omdat de gegevens afkomstig zijn uit het geheugen.

Als in_memory Onwaar is, wordt het Pandas DataFrame lokaal geconverteerd naar een CSV-bestand. Als pat van het type DataReference is, wordt het Pandas-frame geüpload naar het gegevensarchief en wordt de gegevensset gebaseerd op de DataReference. Als pad een lokale map is, wordt de gegevensset gemaakt op basis van het lokale bestand dat niet kan worden verwijderd.

Genereert een uitzondering als de huidige DataReference geen mappad is.

from_parquet_files

Maak een niet-geregistreerde gegevensset in het geheugen van Parquet-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_parquet_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parameters

Name Description
path
Vereist

Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad.

include_path
Vereist

Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is, of als u nuttige informatie in het bestandspad wilt bewaren.

partition_format
Vereist
str

Geef de partitienotatie op in pad en maak tekenreekskolommen op basis van de notatie {x} en datum/tijd-kolom op basis van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld op basis van een bestandspad '.. /Accounts/2019/01/01/data.parquet' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het type datum/tijd te maken.

Retouren

Type Description

Gegevenssetobject.

Opmerkingen

Gebruik deze methode om Parquet-bestanden te lezen.

Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en overzichtsstatistieken voor elke kolom weer te geven.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_sql_query

Maak een niet-geregistreerde gegevensset in het geheugen op basis van een SQL-query.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan Dataset.Tabular.from_sql_query te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parameters

Name Description
data_source
Vereist

De details van het Azure SQL-gegevensarchief.

query
Vereist
str

De query die moet worden uitgevoerd om gegevens te lezen.

Retouren

Type Description

Het lokale gegevenssetobject.

generate_profile

Genereer een nieuw profiel voor de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameters

Name Description
compute_target
Vereist

Een optioneel rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt.

workspace
Vereist

Werkruimte, vereist voor tijdelijke (niet-geregistreerde) gegevenssets.

arguments
Vereist

Profielargumenten. Geldige argumenten zijn:

  • "include_stype_counts" van het type bool. Controleer of waarden eruitzien als enkele bekende semantische typen, zoals e-mailadres, IP-adres (V4/V6), Amerikaans telefoonnummer, Amerikaanse postcode, breedtegraad/lengtegraad. Als u dit inschakelt, is dit van invloed op de prestaties.

  • 'number_of_histogram_bins' van het type int. Vertegenwoordigt het aantal histogram-bins dat moet worden gebruikt voor numerieke gegevens. De standaardwaarde is 10.

Retouren

Type Description

Het actieobject van de gegevensset uitvoeren.

Opmerkingen

Synchrone aanroep, wordt geblokkeerd totdat deze is voltooid. Roep get_result aan om het resultaat van de actie op te halen.

get

Haal een gegevensset op die al in de werkruimte bestaat door de naam of id op te geven.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U wordt aangeraden in plaats daarvan en get_by_id te gebruikenget_by_name. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parameters

Name Description
workspace
Vereist

De bestaande AzureML-werkruimte waarin de gegevensset is gemaakt.

name
Vereist
str

De naam van de gegevensset die moet worden opgehaald.

id
Vereist
str

Een unieke id van de gegevensset in de werkruimte.

Retouren

Type Description

De gegevensset met de opgegeven naam of id.

Opmerkingen

U kunt of nameidopgeven. Er wordt een uitzondering gegenereerd als:

  • zowel name als id zijn opgegeven, maar komen niet overeen.

  • de gegevensset met de opgegeven name of id kan niet worden gevonden in de werkruimte.

get_all

Haal alle geregistreerde gegevenssets op in de werkruimte.

get_all()

Parameters

Name Description
workspace
Vereist

De bestaande AzureML-werkruimte waarin de gegevenssets zijn geregistreerd.

Retouren

Type Description

Een woordenlijst met TabularDataset- en FileDataset-objecten, gesleuteld op hun registratienaam.

get_all_snapshots

Alle momentopnamen van de gegevensset ophalen.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_all_snapshots()

Retouren

Type Description

Lijst met momentopnamen van gegevenssets.

get_by_id

Haal een gegevensset op die wordt opgeslagen in de werkruimte.

get_by_id(id, **kwargs)

Parameters

Name Description
workspace
Vereist

De bestaande AzureML-werkruimte waarin de gegevensset wordt opgeslagen.

id
Vereist
str

De id van de gegevensset.

Retouren

Type Description

Het gegevenssetobject. Als de gegevensset is geregistreerd, worden ook de naam en versie van de registratie geretourneerd.

get_by_name

Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.

get_by_name(name, version='latest', **kwargs)

Parameters

Name Description
workspace
Vereist

De bestaande AzureML-werkruimte waarin de gegevensset is geregistreerd.

name
Vereist
str

De registratienaam.

version
Vereist
int

De registratieversie. De standaardinstelling is 'nieuwste'.

Retouren

Type Description

Het geregistreerde gegevenssetobject.

get_definition

Een specifieke definitie van de gegevensset ophalen.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parameters

Name Description
version_id
Vereist
str

De versie-id van de definitie van de gegevensset

Retouren

Type Description

De definitie van de gegevensset.

Opmerkingen

Als version_id wordt opgegeven, probeert Azure Machine Learning de definitie op te halen die overeenkomt met die versie. Als die versie niet bestaat, wordt er een uitzondering gegenereerd. Als version_id wordt weggelaten, wordt de meest recente versie opgehaald.

get_definitions

Haal alle definities van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_definitions()

Retouren

Type Description

Een woordenlijst met definities van gegevenssets.

Opmerkingen

Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.

Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.

get_profile

Overzichtsstatistieken ophalen over de gegevensset die eerder is berekend.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameters

Name Description
arguments
Vereist

Profielargumenten.

generate_if_not_exist
Vereist

Hiermee wordt aangegeven of een profiel moet worden gegenereerd als dit niet bestaat.

workspace
Vereist

Werkruimte, vereist voor tijdelijke (niet-geregistreerde) gegevenssets.

compute_target
Vereist

Een rekendoel om de profielactie uit te voeren.

Retouren

Type Description
<xref:azureml.dataprep.DataProfile>

DataProfile van de gegevensset.

Opmerkingen

Voor een gegevensset die is geregistreerd bij een Azure Machine Learning-werkruimte, haalt deze methode een bestaand profiel op dat eerder is gemaakt door aan te roepen get_profile als het nog geldig is. Profielen worden ongeldig gemaakt wanneer gewijzigde gegevens worden gedetecteerd in de gegevensset of wanneer de argumenten afwijken van de argumenten get_profile die zijn gebruikt bij het genereren van het profiel. Als het profiel niet aanwezig of ongeldig is, generate_if_not_exist wordt bepaald of er een nieuw profiel wordt gegenereerd.

Voor een gegevensset die niet is geregistreerd bij een Azure Machine Learning-werkruimte, wordt deze methode altijd uitgevoerd generate_profile en wordt het resultaat geretourneerd.

get_snapshot

Haal een momentopname van de gegevensset op naam op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parameters

Name Description
snapshot_name
Vereist
str

De naam van de momentopname.

Retouren

Type Description

Momentopnameobject van gegevensset.

head

Haal het opgegeven aantal records op uit deze gegevensset en retourneert deze als een DataFrame.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

head(count)

Parameters

Name Description
count
Vereist
int

Het aantal records dat moet worden opgehaald.

Retouren

Type Description

Een Pandas DataFrame.

list

Maak een lijst met alle gegevenssets in de werkruimte, inclusief gegevenssets met is_visible de eigenschap die gelijk is aan Onwaar.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan te gebruiken get_all . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

static list(workspace)

Parameters

Name Description
workspace
Vereist

De werkruimte waarvoor u de lijst met gegevenssets wilt ophalen.

Retouren

Type Description

Een lijst met gegevenssetobjecten.

reactivate

Een gearchiveerde of afgeschafte gegevensset opnieuw activeren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

reactivate()

Retouren

Type Description

Geen.

register

Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan te gebruiken register . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameters

Name Description
workspace
Vereist

De AzureML-werkruimte waarin de gegevensset moet worden geregistreerd.

name
Vereist
str

De naam van de gegevensset in de werkruimte.

description
Vereist
str

Een beschrijving van de gegevensset.

tags
Vereist

Tags die moeten worden gekoppeld aan de gegevensset.

visible
Vereist

Geeft aan of de gegevensset zichtbaar is in de gebruikersinterface. Indien onwaar, is de gegevensset verborgen in de gebruikersinterface en beschikbaar via SDK.

exist_ok
Vereist

Indien waar, retourneert de methode de gegevensset als deze al bestaat in de opgegeven werkruimte, anders fout.

update_if_exist
Vereist

Als exist_ok waar is en update_if_exist waar is, wordt met deze methode de definitie bijgewerkt en wordt de bijgewerkte gegevensset geretourneerd.

Retouren

Type Description

Een geregistreerd gegevenssetobject in de werkruimte.

sample

Genereer een nieuw voorbeeld van de brongegevensset met behulp van de opgegeven steekproefstrategie en parameters.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden in Dataset.Tabular aan te roepen en daar de take_sample methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parameters

Name Description
sample_strategy
Vereist
str

Te gebruiken voorbeeldstrategie. Geaccepteerde waarden zijn 'top_n', 'simple_random' of 'gelaagd'.

arguments
Vereist

Een woordenlijst met sleutels uit het 'Optionele argument' in de bovenstaande lijst en waarden uit de kolom Type. Alleen argumenten van de bijbehorende steekproefmethode kunnen worden gebruikt. Voor een voorbeeldtype 'simple_random' kunt u bijvoorbeeld alleen een woordenlijst opgeven met de sleutels 'kans' en 'seed'.

Retouren

Type Description

Het gegevenssetobject als voorbeeld van de oorspronkelijke gegevensset.

Opmerkingen

Voorbeelden worden gegenereerd door de transformatiepijplijn uit te voeren die door deze gegevensset is gedefinieerd en vervolgens de steekproefstrategie en -parameters toe te passen op de uitvoergegevens. Elke steekproefmethode ondersteunt de volgende optionele argumenten:

  • top_n

    • Optionele argumenten

      • n, typt u geheel getal. Selecteer de bovenste N rijen als uw voorbeeld.
  • simple_random

    • Optionele argumenten

      • waarschijnlijkheid, type float. Eenvoudige willekeurige steekproeven waarbij elke rij een gelijke kans heeft om te worden geselecteerd. De kans moet een getal tussen 0 en 1 zijn.

      • zaad, type float. Wordt gebruikt door de generator voor willekeurige getallen. Gebruiken voor herhaalbaarheid.

  • gestratificeerd

    • Optionele argumenten

      • kolommen, typ list[str]. Lijst met strata-kolommen in de gegevens.

      • zaad, type float. Wordt gebruikt door de generator voor willekeurige getallen. Gebruiken voor herhaalbaarheid.

      • breuken, typ dict[tuple, float]. Tuple: kolomwaarden die een stratum definiëren, moeten in dezelfde volgorde staan als kolomnamen. Float: gewicht dat tijdens de bemonstering aan een stratum is gekoppeld.

De volgende codefragmenten zijn voorbeeldontwerppatronen voor verschillende voorbeeldmethoden.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden in Dataset.Tabular aan te roepen en daar de to_pandas_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Retouren

Type Description

Een Pandas DataFrame.

Opmerkingen

Retourneer een Pandas DataFrame dat volledig is gerealiseerd in het geheugen.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevenssetdefinitie.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden in Dataset.Tabular aan te roepen en daar de to_spark_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Retouren

Type Description

Een Spark DataFrame.

Opmerkingen

Het geretourneerde Spark-dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes te langzaam worden geëvalueerd.

update

Werk de veranderlijke kenmerken van de gegevensset in de werkruimte bij en retourneer de bijgewerkte gegevensset uit de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parameters

Name Description
name
Vereist
str

De naam van de gegevensset in de werkruimte.

description
Vereist
str

Een beschrijving van de gegevens.

tags
Vereist

Tags om de gegevensset aan te koppelen.

visible
Vereist

Geeft aan of de gegevensset zichtbaar is in de gebruikersinterface.

Retouren

Type Description

Een bijgewerkt gegevenssetobject uit de werkruimte.

update_definition

Werk de definitie van de gegevensset bij.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parameters

Name Description
definition
Vereist

De nieuwe definitie van deze gegevensset.

definition_update_message
Vereist
str

Het bericht over het bijwerken van de definitie.

Retouren

Type Description

Een bijgewerkt gegevenssetobject uit de werkruimte.

Opmerkingen

Als u de bijgewerkte gegevensset wilt gebruiken, gebruikt u het object dat door deze methode wordt geretourneerd.

Kenmerken

definition

Retourneer de huidige definitie van de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Retouren

Type Description

De definitie van de gegevensset.

Opmerkingen

Een definitie van een gegevensset is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.

Een gegevensset die is geregistreerd in een AzureML-werkruimte, kan meerdere definities bevatten, die elk worden gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. Met meerdere definities kunt u wijzigingen aanbrengen in bestaande gegevenssets zonder modellen en pijplijnen te verbreken die afhankelijk zijn van de oudere definitie.

Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.

definition_version

Retourneert de versie van de huidige definitie van de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Retouren

Type Description
str

De definitieversie van de gegevensset.

Opmerkingen

Een definitie van een gegevensset is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.

Een gegevensset die is geregistreerd in een AzureML-werkruimte, kan meerdere definities bevatten, die elk worden gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt, waarvan de id door deze wordt geretourneerd.

Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.

description

Retourneer de beschrijving van de gegevensset.

Retouren

Type Description
str

De beschrijving van de gegevensset.

Opmerkingen

Als u een beschrijving van de gegevens in de gegevensset opgeeft, kunnen gebruikers van de werkruimte begrijpen wat de gegevens vertegenwoordigen en hoe ze deze kunnen gebruiken.

id

Als de gegevensset is geregistreerd in een werkruimte, retourneert u de id van de gegevensset. Retourneer anders Geen.

Retouren

Type Description
str

De gegevensset-id.

is_visible

De zichtbaarheid van een geregistreerde gegevensset in de gebruikersinterface van de Azure ML-werkruimte beheren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Retouren

Type Description

De zichtbaarheid van de gegevensset.

Opmerkingen

Geretourneerde waarden:

  • Waar: Gegevensset is zichtbaar in de gebruikersinterface van de werkruimte. Standaard.

  • Onwaar: de gegevensset is verborgen in de gebruikersinterface van de werkruimte.

Heeft geen invloed op niet-geregistreerde gegevenssets.

name

Retourneer de naam van de gegevensset.

Retouren

Type Description
str

De naam van de gegevensset.

state

Retourneer de status van de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Retouren

Type Description
str

De status van de gegevensset.

Opmerkingen

De betekenis en het effect van statussen zijn als volgt:

  • Actieve. Actieve definities zijn precies zoals ze klinken. Alle acties kunnen worden uitgevoerd op actieve definities.

  • Afgeschaft. afgeschafte definitie kan worden gebruikt, maar resulteert in een waarschuwing in de logboeken telkens wanneer de onderliggende gegevens worden geopend.

  • Gearchiveerde. Een gearchiveerde definitie kan niet worden gebruikt om een actie uit te voeren. Als u acties wilt uitvoeren op een gearchiveerde definitie, moet deze opnieuw worden geactiveerd.

tags

Retourneer de tags die zijn gekoppeld aan de gegevensset.

Retouren

Type Description

Gegevenssettags.

workspace

Als de gegevensset is geregistreerd in een werkruimte, retourneert u deze. Retourneer anders Geen.

Retouren

Type Description

De werkruimte.