Dataset Klas
Vertegenwoordigt een resource voor het verkennen, transformeren en beheren van gegevens in Azure Machine Learning.
Een gegevensset is een verwijzing naar gegevens in of Datastore achter openbare web-URL's.
Voor methoden die in deze klasse zijn afgeschaft, controleert AbstractDataset u de klasse op de verbeterde API's.
De volgende typen gegevenssets worden ondersteund:
TabularDataset vertegenwoordigt gegevens in een tabellaire indeling die wordt gemaakt door het opgegeven bestand of de opgegeven lijst met bestanden te parseren.
FileDataset verwijst naar een of meer bestanden in gegevensopslag of van openbare URL's.
Als u aan de slag wilt gaan met gegevenssets, raadpleegt u het artikel Gegevenssets toevoegen & registreren of raadpleegt u de notebooks https://aka.ms/tabulardataset-samplenotebook en https://aka.ms/filedataset-samplenotebook.
Initialiseer het gegevenssetobject.
Gebruik de methode get om een gegevensset te verkrijgen die al is geregistreerd bij de werkruimte.
- Overname
-
builtins.objectDataset
Constructor
Dataset(definition, workspace=None, name=None, id=None)
Parameters
- definition
- <xref:azureml.data.DatasetDefinition>
De definitie van de gegevensset.
Opmerkingen
De klasse Gegevensset bevat twee kenmerken van de convenienceklasse (File
en Tabular
) die u kunt gebruiken voor het maken van een gegevensset zonder dat u met de bijbehorende factorymethoden hoeft te werken. Als u bijvoorbeeld een gegevensset wilt maken met behulp van deze kenmerken:
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
U kunt ook een nieuwe TabularDataset of FileDataset maken door rechtstreeks de bijbehorende factory-methoden aan te roepen van de klasse die is gedefinieerd in TabularDatasetFactory en FileDatasetFactory.
In het volgende voorbeeld ziet u hoe u een TabularDataset kunt maken die verwijst naar één pad in een gegevensopslag.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Het volledige voorbeeld is beschikbaar via https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Variabelen
- azureml.core.Dataset.File
Een klassekenmerk dat toegang biedt tot de FileDatasetFactory-methoden voor het maken van nieuwe FileDataset-objecten. Gebruik: Dataset.File.from_files().
- azureml.core.Dataset.Tabular
Een klassekenmerk dat toegang biedt tot de TabularDatasetFactory-methoden voor het maken van nieuwe TabularDataset-objecten. Gebruik: Dataset.Tabular.from_delimited_files().
Methoden
archive |
Een actieve of afgeschafte gegevensset archiveren. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
auto_read_files |
Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden de Dataset.Tabular.from_*-methoden te gebruiken om bestanden te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
compare_profiles |
Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel. Dit toont de verschillen in samenvattingsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'right-side' en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
create_snapshot |
Maak een momentopname van de geregistreerde gegevensset. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
delete_snapshot |
Verwijder de momentopname van de gegevensset op naam. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
deprecate |
Een actieve gegevensset in een werkruimte afschappen door een andere gegevensset. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
diff |
Verdeel de huidige gegevensset met rhs_dataset. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
from_binary_files |
Maak een niet-geregistreerde gegevensset in het geheugen op basis van binaire bestanden. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.File.from_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
from_delimited_files |
Maak een niet-geregistreerde gegevensset in het geheugen van bestanden met scheidingstekens. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_delimited_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
|
from_excel_files |
Maak een niet-geregistreerde gegevensset in het geheugen van Excel-bestanden. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
from_json_files |
Maak een niet-geregistreerde gegevensset in het geheugen van JSON-bestanden. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_json_lines_files te gebruiken om het JSON-regelbestand te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Maak een niet-geregistreerde gegevensset in het geheugen van een pandas-dataframe. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.register_pandas_dataframe te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
from_parquet_files |
Maak een niet-geregistreerde gegevensset in het geheugen op basis van Parquet-bestanden. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_parquet_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
from_sql_query |
Maak een niet-geregistreerde gegevensset in het geheugen op basis van een SQL-query. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_sql_query te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
generate_profile |
Genereer een nieuw profiel voor de gegevensset. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
get |
Haal een gegevensset op die al in de werkruimte bestaat door de naam of id op te geven. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan en get_by_id te gebruikenget_by_name. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
get_all |
Haal alle geregistreerde gegevenssets op in de werkruimte. |
get_all_snapshots |
Alle momentopnamen van de gegevensset ophalen. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
get_by_id |
Haal een gegevensset op die wordt opgeslagen in de werkruimte. |
get_by_name |
Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam. |
get_definition |
Haal een specifieke definitie van de gegevensset op. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
get_definitions |
Haal alle definities van de gegevensset op. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
get_profile |
Samenvattingsstatistieken ophalen over de gegevensset die eerder is berekend. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
get_snapshot |
Een momentopname van de gegevensset ophalen op naam. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
head |
Haal het opgegeven aantal records op dat is opgegeven uit deze gegevensset en retourneert deze als een DataFrame. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
list |
Maak een lijst met alle gegevenssets in de werkruimte, inclusief gegevenssets met Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. In plaats daarvan wordt aanbevolen om te gebruiken get_all . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
reactivate |
Een gearchiveerde of afgeschafte gegevensset opnieuw activeren. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
register |
Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. In plaats daarvan wordt aanbevolen om te gebruiken register . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
sample |
Genereer een nieuw voorbeeld van de brongegevensset met behulp van de steekproefstrategie en parameters. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de take_sample methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze gegevenssetdefinitie. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_pandas_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevenssetdefinitie. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_spark_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
update |
Werk de veranderlijke kenmerken van de gegevensset in de werkruimte bij en retourneer de bijgewerkte gegevensset vanuit de werkruimte. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
update_definition |
Werk de definitie van de gegevensset bij. Notitie Deze methode is afgeschaft en wordt niet meer ondersteund. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
archive
Een actieve of afgeschafte gegevensset archiveren.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
archive()
Retouren
Geen.
Retourtype
Opmerkingen
Na archivering resulteert elke poging om de gegevensset te gebruiken in een fout. Als deze per ongeluk wordt gearchiveerd, wordt deze geactiveerd door opnieuw te activeren.
auto_read_files
Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden de Dataset.Tabular.from_*-methoden te gebruiken om bestanden te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parameters
- path
- DataReference of str
Een gegevenspad in een geregistreerd gegevensarchief, een lokaal pad of een HTTP-URL (CSV/TSV).
- include_path
- bool
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is. Ook handig als er informatie in het bestandspad of de naam staat die u in een kolom wilt opnemen.
- partition_format
- str
Geef de partitienotatie op in pad en maak tekenreekskolommen op basis van de notatie {x} en datum/tijd-kolom op basis van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld op basis van een bestandspad '.. /Accounts/2019/01/01/data.csv' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het type datum/tijd te maken.
Retouren
Gegevenssetobject.
Retourtype
Opmerkingen
Gebruik deze methode wanneer bestandsindelingen en scheidingstekens automatisch worden gedetecteerd.
Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en overzichtsstatistieken voor elke kolom weer te geven.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
compare_profiles
Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel.
Dit toont de verschillen in samenvattingsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'right-side' en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameters
- rhs_dataset
- Dataset
Een tweede gegevensset, ook wel een 'rechtse' gegevensset genoemd voor comparision.
Lijst met kolomnamen die moeten worden opgenomen in de vergelijking.
Lijst met kolomnamen die moeten worden uitgesloten in vergelijking.
- histogram_compare_method
- HistogramCompareMethod
Opsomming van de vergelijkingsmethode, bijvoorbeeld: Wasserstein of Energie
Retouren
Verschil tussen de twee gegevenssetprofielen.
Retourtype
Opmerkingen
Dit geldt alleen voor geregistreerde gegevenssets. Genereert een uitzondering als het profiel van de huidige gegevensset niet bestaat. Gebruik voor niet-geregistreerde gegevenssets de methode profile.compare.
create_snapshot
Maak een momentopname van de geregistreerde gegevensset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameters
- snapshot_name
- str
De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset.
- compute_target
- Union[ComputeTarget, str]
Optioneel rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt.
- create_data_snapshot
- bool
Indien Waar, wordt er een gerealiseerde kopie van de gegevens gemaakt.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Doelgegevensarchief om momentopname op te slaan. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte.
Retouren
Momentopnameobject van gegevensset.
Retourtype
Opmerkingen
Momentopnamen leggen samenvattingsstatistieken over een bepaald tijdstip vast van de onderliggende gegevens en een optionele kopie van de gegevens zelf. Ga naar https://aka.ms/azureml/howto/createsnapshotsvoor meer informatie over het maken van momentopnamen.
delete_snapshot
Verwijder de momentopname van de gegevensset op naam.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parameters
Retouren
Geen.
Retourtype
Opmerkingen
Gebruik dit om opslag vrij te maken die wordt verbruikt door gegevens die zijn opgeslagen in momentopnamen die u niet meer nodig hebt.
deprecate
Een actieve gegevensset in een werkruimte afschappen door een andere gegevensset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parameters
- deprecate_by_dataset_id
- str
De gegevensset-id die de beoogde vervanging is voor deze gegevensset.
Retouren
Geen.
Retourtype
Opmerkingen
Afgeschafte gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als een gegevensset wordt afgeschaft, worden alle bijbehorende definities afgeschaft.
Afgeschafte gegevenssets kunnen nog steeds worden gebruikt. Als u het gebruik van een gegevensset volledig wilt blokkeren, archiveert u deze.
Als deze per ongeluk wordt afgeschaft, wordt het opnieuw activeren geactiveerd.
diff
Verdeel de huidige gegevensset met rhs_dataset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parameters
- rhs_dataset
- Dataset
Een andere gegevensset ook wel gegevensset rechts genoemd voor vergelijking
- compute_target
- Union[ComputeTarget, str]
rekendoel om de diff uit te voeren. Als u dit weglaat, wordt de lokale berekening gebruikt.
Retouren
Actie-object voor gegevensset uitvoeren.
Retourtype
from_binary_files
Maak een niet-geregistreerde gegevensset in het geheugen op basis van binaire bestanden.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.File.from_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parameters
- path
- DataReference of str
Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad.
Retouren
Het gegevenssetobject.
Retourtype
Opmerkingen
Gebruik deze methode om bestanden te lezen als stromen binaire gegevens. Retourneert één bestandsstroomobject per gelezen bestand. Gebruik deze methode wanneer u afbeeldingen, video's, audio of andere binaire gegevens leest.
get_profile en create_snapshot werkt niet zoals verwacht voor een gegevensset die met deze methode is gemaakt.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_delimited_files
Maak een niet-geregistreerde gegevensset in het geheugen van bestanden met scheidingstekens.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_delimited_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parameters
- path
- DataReference of str
Een gegevenspad in een geregistreerd gegevensarchief, een lokaal pad of een HTTP-URL.
- header
- PromoteHeadersBehavior
Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden.
- quoting
- bool
Geef op hoe nieuwe regeltekens tussen aanhalingstekens moeten worden verwerkt. De standaardinstelling (Onwaar) is om nieuwe regeltekens te interpreteren als het begin van nieuwe rijen, ongeacht of de nieuwe regeltekens binnen aanhalingstekens staan of niet. Als deze optie is ingesteld op Waar, resulteren nieuwe regeltekens binnen aanhalingstekens niet in nieuwe rijen en wordt de leessnelheid van bestanden vertraagd.
- skip_mode
- SkipLinesBehavior
Hiermee bepaalt u hoe rijen worden overgeslagen bij het lezen van bestanden.
- comment
- str
Teken dat wordt gebruikt om opmerkingslijnen aan te geven in de bestanden die worden gelezen. Regels die beginnen met deze tekenreeks, worden overgeslagen.
- include_path
- bool
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig als u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is, of als u nuttige informatie in het bestandspad wilt bewaren.
- archive_options
- <xref:azureml.dataprep.ArchiveOptions>
Opties voor archiefbestand, inclusief archieftype en vermeldingspatroon glob. We ondersteunen momenteel alleen ZIP als archieftype. Bijvoorbeeld: opgeven
archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')
leest alle bestanden met een naam die eindigt op '10-20.csv' in ZIP.
- partition_format
- str
Geef de partitieindeling op in pad en maak tekenreekskolommen op basis van de notatie {x} en de datum/tijd-kolom van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.csv' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.
Retouren
Gegevenssetobject.
Retourtype
Opmerkingen
Gebruik deze methode om tekstbestanden met scheidingstekens te lezen wanneer u de gebruikte opties wilt beheren.
Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_excel_files
Maak een niet-geregistreerde gegevensset in het geheugen van Excel-bestanden.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parameters
- path
- DataReference of str
Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad.
- sheet_name
- str
De naam van het Excel-blad dat moet worden geladen. Standaard lezen we het eerste blad uit elk Excel-bestand.
- use_column_headers
- bool
Hiermee bepaalt u of de eerste rij als kolomkoppen moet worden gebruikt.
- include_path
- bool
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig als u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is, of als u nuttige informatie in het bestandspad wilt bewaren.
- partition_format
- str
Geef de partitieindeling op in pad en maak tekenreekskolommen op basis van de notatie {x} en de datum/tijd-kolom van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.xlsx' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.
Retouren
Gegevenssetobject.
Retourtype
Opmerkingen
Gebruik deze methode om Excel-bestanden in .xlsx-indeling te lezen. Gegevens kunnen vanuit één blad in elk Excel-bestand worden gelezen. Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven. De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_json_files
Maak een niet-geregistreerde gegevensset in het geheugen van JSON-bestanden.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_json_lines_files te gebruiken om het JSON-regelbestand te lezen. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parameters
- path
- DataReference of str
Het pad naar de bestanden of mappen die u wilt laden en parseren. Dit kan een lokaal pad of een Azure Blob-URL zijn. Globbing wordt ondersteund. U kunt bijvoorbeeld pad = "./data*" gebruiken om alle bestanden te lezen met de naam die begint met "data".
- flatten_nested_arrays
- bool
De verwerking van geneste matrices door het programma voor eigenschapsbeheer. Als u geneste JSON-matrices platmaakt, kan dit leiden tot een veel groter aantal rijen.
- include_path
- bool
Of u een kolom wilt opnemen met het pad waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en misschien wilt weten van welk bestand een bepaalde record afkomstig is of nuttige informatie in het bestandspad wilt bewaren.
- partition_format
- str
Geef de partitieindeling op in pad en maak tekenreekskolommen op basis van de notatie {x} en de datum/tijd-kolom van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.json' en gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.
Retouren
Het lokale gegevenssetobject.
Retourtype
from_pandas_dataframe
Maak een niet-geregistreerde gegevensset in het geheugen van een pandas-dataframe.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.register_pandas_dataframe te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parameters
- path
- Union[DataReference, str]
Een gegevenspad in het geregistreerde gegevensarchief of het pad naar de lokale map.
- in_memory
- bool
Of het DataFrame moet worden gelezen uit het geheugen in plaats van op de schijf te blijven.
Retouren
Een gegevenssetobject.
Retourtype
Opmerkingen
Gebruik deze methode om een Pandas-gegevensframe te converteren naar een gegevenssetobject. Een gegevensset die met deze methode is gemaakt, kan niet worden geregistreerd, omdat de gegevens afkomstig zijn uit het geheugen.
Als in_memory
False is, wordt het Pandas DataFrame lokaal geconverteerd naar een CSV-bestand. Als pat
het type DataReference is, wordt het Pandas-frame geüpload naar het gegevensarchief en wordt de gegevensset gebaseerd op de DataReference. Als pad een lokale map is, wordt de gegevensset gemaakt op basis van het lokale bestand dat niet kan worden verwijderd.
Genereert een uitzondering als de huidige DataReference geen mappad is.
from_parquet_files
Maak een niet-geregistreerde gegevensset in het geheugen op basis van Parquet-bestanden.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_parquet_files te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parameters
- path
- DataReference of str
Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad.
- include_path
- bool
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig als u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is, of als u nuttige informatie in het bestandspad wilt bewaren.
- partition_format
- str
Geef de partitieindeling op in pad en maak tekenreekskolommen op basis van de notatie {x} en de datum/tijd-kolom van de notatie {x:yyyy/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde uit te voeren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.parquet' waarbij gegevens zijn gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.
Retouren
Gegevenssetobject.
Retourtype
Opmerkingen
Gebruik deze methode om Parquet-bestanden te lezen.
Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_sql_query
Maak een niet-geregistreerde gegevensset in het geheugen op basis van een SQL-query.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_sql_query te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parameters
Retouren
Het lokale gegevenssetobject.
Retourtype
generate_profile
Genereer een nieuw profiel voor de gegevensset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parameters
- compute_target
- Union[ComputeTarget, str]
Een optioneel rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt.
Profielargumenten. Geldige argumenten zijn:
"include_stype_counts" van het type bool. Controleer of waarden eruitzien als een aantal bekende semantische typen, zoals e-mailadres, IP-adres (V4/V6), Amerikaans telefoonnummer, Amerikaanse postcode, breedtegraad/lengtegraad. Als u dit inschakelt, is dit van invloed op de prestaties.
'number_of_histogram_bins' van het type int. Vertegenwoordigt het aantal histogram-bins dat moet worden gebruikt voor numerieke gegevens. De standaardwaarde is 10.
Retouren
Actie-object voor gegevensset uitvoeren.
Retourtype
Opmerkingen
Synchrone aanroep, wordt geblokkeerd totdat deze is voltooid. Roep get_result aan om het resultaat van de actie op te halen.
get
Haal een gegevensset op die al in de werkruimte bestaat door de naam of id op te geven.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan en get_by_id te gebruikenget_by_name. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parameters
Retouren
De gegevensset met de opgegeven naam of id.
Retourtype
Opmerkingen
U kunt of name
id
opgeven. Er wordt een uitzondering gegenereerd als:
zowel als
name
id
zijn opgegeven, maar komen niet overeen.de gegevensset met de opgegeven
name
ofid
kan niet worden gevonden in de werkruimte.
get_all
Haal alle geregistreerde gegevenssets op in de werkruimte.
get_all()
Parameters
- workspace
- Workspace
De bestaande AzureML-werkruimte waarin de gegevenssets zijn geregistreerd.
Retouren
Een woordenlijst met TabularDataset- en FileDataset-objecten, gesleuteld op hun registratienaam.
Retourtype
get_all_snapshots
Alle momentopnamen van de gegevensset ophalen.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
get_all_snapshots()
Retouren
Lijst met momentopnamen van gegevenssets.
Retourtype
get_by_id
Haal een gegevensset op die wordt opgeslagen in de werkruimte.
get_by_id(id, **kwargs)
Parameters
Retouren
Het gegevenssetobject. Als de gegevensset is geregistreerd, worden de registratienaam en -versie ook geretourneerd.
Retourtype
get_by_name
Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.
get_by_name(name, version='latest', **kwargs)
Parameters
Retouren
Het geregistreerde gegevenssetobject.
Retourtype
get_definition
Haal een specifieke definitie van de gegevensset op.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parameters
Retouren
De definitie van de gegevensset.
Retourtype
Opmerkingen
Als version_id
is opgegeven, probeert Azure Machine Learning de definitie op te halen die overeenkomt met die versie. Als die versie niet bestaat, wordt er een uitzondering gegenereerd.
Als version_id
u dit weglaat, wordt de meest recente versie opgehaald.
get_definitions
Haal alle definities van de gegevensset op.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
get_definitions()
Retouren
Een woordenlijst met definities van gegevenssets.
Retourtype
Opmerkingen
Een gegevensset die is geregistreerd in een AzureML-werkruimte, kan meerdere definities bevatten, die elk worden gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
get_profile
Samenvattingsstatistieken ophalen over de gegevensset die eerder is berekend.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parameters
- generate_if_not_exist
- bool
Hiermee wordt aangegeven of een profiel moet worden gegenereerd als dit niet bestaat.
Retouren
DataProfile van de gegevensset.
Retourtype
Opmerkingen
Voor een gegevensset die is geregistreerd bij een Azure Machine Learning-werkruimte, haalt deze methode een bestaand profiel op dat eerder is gemaakt door aan te roepen get_profile
als het nog geldig is. Profielen worden ongeldig gemaakt wanneer gewijzigde gegevens worden gedetecteerd in de gegevensset of als de argumenten afwijken van de argumenten get_profile
die zijn gebruikt bij het genereren van het profiel. Als het profiel niet aanwezig of ongeldig is, generate_if_not_exist
wordt bepaald of er een nieuw profiel wordt gegenereerd.
Voor een gegevensset die niet is geregistreerd bij een Azure Machine Learning-werkruimte, wordt met deze methode altijd het resultaat uitgevoerd generate_profile en geretourneerd.
get_snapshot
Een momentopname van de gegevensset ophalen op naam.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parameters
Retouren
Momentopnameobject van gegevensset.
Retourtype
head
Haal het opgegeven aantal records op dat is opgegeven uit deze gegevensset en retourneert deze als een DataFrame.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
head(count)
Parameters
Retouren
Een Pandas DataFrame.
Retourtype
list
Maak een lijst met alle gegevenssets in de werkruimte, inclusief gegevenssets met is_visible
eigenschap die gelijk is aan Onwaar.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
In plaats daarvan wordt aanbevolen om te gebruiken get_all . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
static list(workspace)
Parameters
Retouren
Een lijst met gegevenssetobjecten.
Retourtype
reactivate
Een gearchiveerde of afgeschafte gegevensset opnieuw activeren.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
reactivate()
Retouren
Geen.
Retourtype
register
Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
In plaats daarvan wordt aanbevolen om te gebruiken register . Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parameters
- visible
- bool
Geeft aan of de gegevensset zichtbaar is in de gebruikersinterface. Als onwaar is, is de gegevensset verborgen in de gebruikersinterface en beschikbaar via de SDK.
- exist_ok
- bool
Indien Waar, retourneert de methode de gegevensset als deze al bestaat in de opgegeven werkruimte, anders fout.
- update_if_exist
- bool
Als exist_ok
True en update_if_exist
True is, wordt met deze methode de definitie bijgewerkt en wordt de bijgewerkte gegevensset geretourneerd.
Retouren
Een geregistreerd gegevenssetobject in de werkruimte.
Retourtype
sample
Genereer een nieuw voorbeeld van de brongegevensset met behulp van de steekproefstrategie en parameters.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de take_sample methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parameters
- sample_strategy
- str
Te gebruiken voorbeeldstrategie. Geaccepteerde waarden zijn 'top_n', 'simple_random' of 'gelaagd'.
Een woordenlijst met sleutels uit het 'Optionele argument' in de bovenstaande lijst en waarden uit de kolom Type. Alleen argumenten van de bijbehorende steekproefmethode kunnen worden gebruikt. Voor een voorbeeldtype 'simple_random' kunt u alleen een woordenlijst opgeven met de sleutels 'kans' en 'seed'.
Retouren
Het gegevenssetobject als voorbeeld van de oorspronkelijke gegevensset.
Retourtype
Opmerkingen
Voorbeelden worden gegenereerd door de transformatiepijplijn uit te voeren die door deze gegevensset is gedefinieerd en vervolgens de steekproefstrategie en -parameters toe te passen op de uitvoergegevens. Elke steekproefmethode ondersteunt de volgende optionele argumenten:
top_n
Optionele argumenten
- n, typ geheel getal. Selecteer de bovenste N rijen als voorbeeld.
simple_random
Optionele argumenten
kans, typ float. Eenvoudige willekeurige steekproeven waarbij elke rij dezelfde kans heeft om te worden geselecteerd. De kans moet een getal tussen 0 en 1 zijn.
seed, typ float. Wordt gebruikt door de generator voor willekeurige getallen. Gebruik voor herhaalbaarheid.
gestratificeerd
Optionele argumenten
kolommen, typ list[str]. Lijst met strata-kolommen in de gegevens.
seed, typ float. Wordt gebruikt door de generator voor willekeurige getallen. Gebruik voor herhaalbaarheid.
breuken, typ dict[tuple, float]. Tuple: kolomwaarden die een stratum definiëren, moeten in dezelfde volgorde staan als kolomnamen. Float: gewicht dat tijdens de steekproeven aan een stratum is bevestigd.
De volgende codefragmenten zijn voorbeeldontwerppatronen voor verschillende voorbeeldmethoden.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze gegevenssetdefinitie.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_pandas_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Retouren
Een Pandas DataFrame.
Retourtype
Opmerkingen
Retourneer een Pandas DataFrame dat volledig is gerealiseerd in het geheugen.
to_spark_dataframe
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevenssetdefinitie.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_spark_dataframe methode te gebruiken. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Retouren
Een Spark DataFrame.
Retourtype
Opmerkingen
Het geretourneerde Spark-dataframe is slechts een uitvoeringsplan en bevat geen gegevens, omdat Spark-dataframes lazily worden geëvalueerd.
update
Werk de veranderlijke kenmerken van de gegevensset in de werkruimte bij en retourneer de bijgewerkte gegevensset vanuit de werkruimte.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parameters
- visible
- bool
Hiermee wordt aangegeven of de gegevensset zichtbaar is in de gebruikersinterface.
Retouren
Een bijgewerkt gegevenssetobject uit de werkruimte.
Retourtype
update_definition
Werk de definitie van de gegevensset bij.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parameters
Retouren
Een bijgewerkt gegevenssetobject uit de werkruimte.
Retourtype
Opmerkingen
Als u de bijgewerkte gegevensset wilt gebruiken, gebruikt u het object dat door deze methode wordt geretourneerd.
Kenmerken
definition
Retourneer de definitie van de huidige gegevensset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Retouren
De definitie van de gegevensset.
Retourtype
Opmerkingen
Een definitie van een gegevensset is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.
Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. Als u meerdere definities hebt, kunt u wijzigingen aanbrengen in bestaande gegevenssets zonder dat de modellen en pijplijnen die afhankelijk zijn van de oudere definitie, worden verbroken.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
definition_version
Retourneert de versie van de huidige definitie van de gegevensset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Retouren
De definitieversie van de gegevensset.
Retourtype
Opmerkingen
Een definitie van een gegevensset is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.
Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt, waarvan de id door deze wordt geretourneerd.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
description
Retourneer de beschrijving van de gegevensset.
Retouren
De beschrijving van de gegevensset.
Retourtype
Opmerkingen
Door een beschrijving van de gegevens in de gegevensset op te geven, kunnen gebruikers van de werkruimte begrijpen wat de gegevens vertegenwoordigen en hoe ze deze kunnen gebruiken.
id
Als de gegevensset is geregistreerd in een werkruimte, retourneert u de id van de gegevensset. Retourneer anders Geen.
Retouren
De gegevensset-id.
Retourtype
is_visible
De zichtbaarheid van een geregistreerde gegevensset in de gebruikersinterface van de Azure ML-werkruimte beheren.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Retouren
De zichtbaarheid van de gegevensset.
Retourtype
Opmerkingen
Geretourneerde waarden:
Waar: de gegevensset is zichtbaar in de gebruikersinterface van de werkruimte. Standaard.
Onwaar: de gegevensset is verborgen in de gebruikersinterface van de werkruimte.
Heeft geen invloed op niet-geregistreerde gegevenssets.
name
state
Retourneer de status van de gegevensset.
Notitie
Deze methode is afgeschaft en wordt niet meer ondersteund.
Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Retouren
De status van de gegevensset.
Retourtype
Opmerkingen
De betekenis en het effect van statussen zijn als volgt:
Actieve. Actieve definities zijn precies wat ze klinken. Alle acties kunnen worden uitgevoerd op actieve definities.
Afgeschaft. afgeschafte definitie kan worden gebruikt, maar resulteert in een waarschuwing die wordt geregistreerd in de logboeken telkens wanneer de onderliggende gegevens worden geopend.
Gearchiveerde. Een gearchiveerde definitie kan niet worden gebruikt om een actie uit te voeren. Als u acties wilt uitvoeren op een gearchiveerde definitie, moet deze opnieuw worden geactiveerd.
tags
Retourneer de tags die zijn gekoppeld aan de gegevensset.
Retouren
Gegevenssettags.
Retourtype
workspace
Als de gegevensset is geregistreerd in een werkruimte, retourneert u deze. Retourneer anders Geen.
Retouren
De werkruimte.
Retourtype
Tabular
Factory voor het maken FileDataset
alias van TabularDatasetFactory
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor