data Pakket
Bevat modules die ondersteuning bieden voor gegevensweergave voor gegevensopslag en gegevensset in Azure Machine Learning.
Dit pakket bevat kernfunctionaliteit en DatastoreDataset klassen in het core pakket. Gegevensarchiefobjecten bevatten verbindingsgegevens met Azure Storage-services waarnaar eenvoudig kan worden verwezen met een naam, zonder dat u rechtstreeks hoeft te werken met of verbindingsgegevens in vaste code in scripts hoeft te gebruiken. Datastore ondersteunt een aantal verschillende services die worden vertegenwoordigd door klassen in dit pakket, waaronder AzureBlobDatastore, AzureFileDatastoreen AzureDataLakeDatastore. Zie de Datastore klasse voor een volledige lijst met ondersteunde opslagservices.
Hoewel een gegevensarchief fungeert als een container voor uw gegevensbestanden, kunt u een gegevensset zien als een verwijzing of verwijzing naar specifieke gegevens in uw gegevensarchief. De volgende typen gegevenssets worden ondersteund:
TabularDataset vertegenwoordigt gegevens in een tabellaire indeling die wordt gemaakt door het opgegeven bestand of de opgegeven lijst met bestanden te parseren.
FileDataset verwijst naar één of meerdere bestanden in uw gegevensarchieven of openbare URL's.
Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Als u aan de slag wilt gaan met gegevenssets, raadpleegt https://aka.ms/tabulardataset-samplenotebook u en https://aka.ms/filedataset-samplenotebook.
Modules
abstract_dataset |
Bevat de abstracte basisklasse voor gegevenssets in Azure Machine Learning. |
abstract_datastore |
Bevat de basisfunctionaliteit voor gegevensarchieven waarmee verbindingsgegevens naar Azure-opslagservices worden opgeslagen. |
azure_data_lake_datastore |
Bevat de basisfunctionaliteit voor gegevensarchieven waarmee verbindingsgegevens worden opgeslagen in Azure Data Lake Storage. |
azure_my_sql_datastore |
Bevat de basisfunctionaliteit voor gegevensarchieven die verbindingsgegevens opslaan in Azure Database for MySQL. |
azure_postgre_sql_datastore |
Bevat de basisfunctionaliteit voor gegevensarchieven die verbindingsgegevens opslaan in Azure Database for PostgreSQL. |
azure_sql_database_datastore |
Bevat de basisfunctionaliteit voor gegevensarchieven die verbindingsgegevens opslaan in Azure SQL database. |
azure_storage_datastore |
Bevat functionaliteit voor gegevensarchieven waarmee verbindingsgegevens worden opgeslagen in Azure Blob en Azure File Storage. |
constants |
Constanten die worden gebruikt in het pakket azureml.data. Alleen intern gebruik. |
context_managers |
Bevat functionaliteit voor het beheren van de gegevenscontext van gegevensarchieven en gegevenssets. Alleen intern gebruik. |
data_reference |
Bevat functionaliteit waarmee wordt gedefinieerd hoe verwijzingen naar gegevens in gegevensarchieven moeten worden gemaakt. |
datacache |
Bevat functionaliteit voor het beheren van DatacacheStore en Datacache in Azure Machine Learning. |
datacache_client |
Alleen intern gebruik. |
datacache_consumption_config |
Bevat functionaliteit voor de configuratie van DataCache-verbruik. |
datacache_singularity_settings |
Bevat objecten die nodig zijn voor de weergave van de Instellingen van Datacache Singularity. |
datapath |
Bevat functionaliteit voor het maken van verwijzingen naar gegevens in gegevensarchieven. Deze module bevat de DataPath klasse, die de locatie van gegevens vertegenwoordigt, en de DataPathComputeBinding klasse, die aangeeft hoe de gegevens beschikbaar worden gemaakt voor de rekendoelen. |
dataset_action_run |
Bevat functionaliteit waarmee de uitvoering van gegevenssetacties wordt beheerd. Deze module biedt handige methoden voor het maken van gegevenssetacties en het ophalen van de resultaten na voltooiing. |
dataset_consumption_config |
Bevat functionaliteit voor de configuratie van het verbruik van gegevenssets. |
dataset_definition |
Bevat functionaliteit voor het beheren van de definitie van gegevenssets en de bijbehorende bewerkingen. Notitie Deze module is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Bevat uitzonderingen voor foutafhandeling van gegevenssets in Azure Machine Learning. |
dataset_factory |
Bevat functionaliteit voor het maken van gegevenssets voor Azure Machine Learning. |
dataset_profile |
Klasse voor het verzamelen van samenvattingsstatistieken van de gegevens die door een gegevensstroom worden geproduceerd. De functionaliteit in deze module omvat het verzamelen van informatie over welke uitvoering het profiel heeft geproduceerd, of het profiel verouderd is of niet. |
dataset_profile_run |
Bevat configuratie voor het bewaken van gegevenssetprofielen die worden uitgevoerd in Azure Machine Learning. De functionaliteit in deze module omvat het verwerken en bewaken van de uitvoering van gegevenssetprofielen die zijn gekoppeld aan een experimentobject en een afzonderlijke uitvoerings-id. |
dataset_profile_run_config |
Bevat configuratie voor het genereren van een overzicht van statistieken over gegevenssets in Azure Machine Learning. De functionaliteit in deze module omvat methoden voor het indienen van lokale of externe profieluitvoeringen en het visualiseren van het resultaat van de ingediende profieluitvoering. |
dataset_snapshot |
Bevat functionaliteit voor het beheren van momentopnamebewerkingen van gegevenssets. Notitie Deze module is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
Bevat opsommingswaarden die worden gebruikt met Dataset. |
datastore_client |
Alleen intern gebruik. |
dbfs_datastore |
Bevat functionaliteit voor gegevensarchieven waarmee verbindingsgegevens naar Databricks File Sytem (DBFS) worden opgeslagen. |
file_dataset |
Bevat functionaliteit voor het verwijzen naar één of meerdere bestanden in gegevensarchieven of openbare URL's. Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/filedataset-samplenotebookom aan de slag te gaan met een bestandsgegevensset. |
hdfs_datastore |
Bevat de basisfunctionaliteit voor gegevensarchieven waarmee verbindingsgegevens naar een HDFS-cluster worden opgeslagen. |
output_dataset_config |
Bevat configuraties die aangeeft hoe uitvoer voor een taak moet worden geüpload en gepromoveerd naar een gegevensset. Zie het artikel Uitvoer opgeven voor meer informatie. |
sql_data_reference |
Bevat functionaliteit voor het maken van verwijzingen naar gegevens in gegevensarchieven waarmee verbindingsgegevens naar SQL-databases worden opgeslagen. |
stored_procedure_parameter |
Bevat functionaliteit voor het maken van een parameter die moet worden doorgegeven aan een opgeslagen SQL-procedure. |
tabular_dataset |
Bevat functionaliteit voor het weergeven van gegevens in tabelvorm door het opgegeven bestand of de lijst met bestanden te parseren. Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/tabulardataset-samplenotebookom aan de slag te gaan met een gegevensset in tabelvorm. |
Klassen
DataType |
Hiermee configureert u kolomgegevenstypen voor een gegevensset die is gemaakt in Azure Machine Learning. DataType-methoden worden gebruikt in de TabularDatasetFactory klassemethoden |
DatacacheStore |
Notitie Dit is een experimentele klasse en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Vertegenwoordigt een opslagabstractie via een Azure Machine Learning-opslagaccount. DatacacheStores zijn gekoppeld aan werkruimten en worden gebruikt voor het opslaan van informatie met betrekking tot de onderliggende datacache-oplossing. Op dit moment wordt alleen een gepartitioneerde blob-oplossing ondersteund. Datacachestores definieert verschillende Blob-gegevensarchieven die kunnen worden gebruikt voor caching. Gebruik deze klasse om beheerbewerkingen uit te voeren, waaronder het registreren, weergeven, ophalen en bijwerken van gegevenscachestores.
DatacacheStores voor elke service worden gemaakt met de Haal een datacachestore op naam op. Met deze aanroep wordt een aanvraag naar de datacache-service verzonden. |
FileDataset |
Vertegenwoordigt een verzameling bestandsverwijzingen in gegevensarchieven of openbare URL's voor gebruik in Azure Machine Learning. Een FileDataset definieert een reeks vertraagd geëvalueerde, onveranderbare bewerkingen voor het laden van gegevens uit de gegevensbron in bestandsstromen. Gegevens worden pas vanuit de bron geladen als FileDataset wordt gevraagd om gegevens te leveren. Een FileDataset wordt gemaakt met behulp van de from_files methode van de klasse FileDatasetFactory. Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/filedataset-samplenotebookom aan de slag te gaan met een bestandsgegevensset. Initialiseer het FileDataset-object. Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met behulp van FileDatasetFactory klasse. |
HDFSOutputDatasetConfig |
Vertegenwoordigt hoe u kunt uitvoeren naar een HDFS-pad en wordt gepromoveerd als een FileDataset. Initialiseer een HDFSOutputDatasetConfig. |
LinkFileOutputDatasetConfig |
Notitie Dit is een experimentele klasse en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Vertegenwoordigt hoe u de uitvoer van een uitvoering koppelt en wordt gepromoveerd als een FileDataset. Met LinkFileOutputDatasetConfig kunt u een bestandsgegevensset koppelen als uitvoergegevensset
Initialiseer een LinkFileOutputDatasetConfig. |
LinkTabularOutputDatasetConfig |
Notitie Dit is een experimentele klasse en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Vertegenwoordigt hoe u de uitvoer van een uitvoering koppelt en wordt gepromoveerd als een TabularDataset. Met LinkTabularOutputDatasetConfig kunt u een bestand in tabelvorm koppelen als uitvoergegevensset
Initialiseer een LinkTabularOutputDatasetConfig. |
OutputFileDatasetConfig |
Vertegenwoordigt hoe u de uitvoer van een uitvoering kopieert en wordt gepromoveerd als een FileDataset. Met OutputFileDatasetConfig kunt u opgeven hoe een bepaald lokaal pad op het rekendoel moet worden geüpload naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad. Een voorbeeld van het niet doorgeven van argumenten:
Een voorbeeld van het maken van een uitvoer en het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:
Initialiseer een OutputFileDatasetConfig. Met OutputFileDatasetConfig kunt u opgeven hoe een bepaald lokaal pad op het rekendoel moet worden geüpload naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad. Een voorbeeld van het niet doorgeven van argumenten:
Een voorbeeld van het maken van een uitvoer en het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:
|
TabularDataset |
Vertegenwoordigt een tabellaire gegevensset die moet worden gebruikt in Azure Machine Learning. Een TabularDataset definieert een reeks vertraagd geëvalueerde, onveranderbare bewerkingen om gegevens uit de gegevensbron in tabelvorm te laden. Gegevens worden pas uit de bron geladen als TabularDataset wordt gevraagd om gegevens te leveren. TabularDataset wordt gemaakt met behulp van methoden zoals from_delimited_files uit de TabularDatasetFactory klasse. Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/tabulardataset-samplenotebookom aan de slag te gaan met een gegevensset in tabelvorm. Initialiseer een TabularDataset-object. Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met behulp van TabularDatasetFactory klasse. |