Delen via


data Pakket

Bevat modules die ondersteuning bieden voor gegevensweergave voor gegevensopslag en gegevensset in Azure Machine Learning.

Dit pakket bevat kernfunctionaliteit en DatastoreDataset klassen in het core pakket. Gegevensarchiefobjecten bevatten verbindingsgegevens met Azure Storage-services waarnaar eenvoudig kan worden verwezen met een naam, zonder dat u rechtstreeks hoeft te werken met of verbindingsgegevens in vaste code in scripts hoeft te gebruiken. Datastore ondersteunt een aantal verschillende services die worden vertegenwoordigd door klassen in dit pakket, waaronder AzureBlobDatastore, AzureFileDatastoreen AzureDataLakeDatastore. Zie de Datastore klasse voor een volledige lijst met ondersteunde opslagservices.

Hoewel een gegevensarchief fungeert als een container voor uw gegevensbestanden, kunt u een gegevensset zien als een verwijzing of verwijzing naar specifieke gegevens in uw gegevensarchief. De volgende typen gegevenssets worden ondersteund:

  • TabularDataset vertegenwoordigt gegevens in een tabellaire indeling die wordt gemaakt door het opgegeven bestand of de opgegeven lijst met bestanden te parseren.

  • FileDataset verwijst naar één of meerdere bestanden in uw gegevensarchieven of openbare URL's.

Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Als u aan de slag wilt gaan met gegevenssets, raadpleegt https://aka.ms/tabulardataset-samplenotebook u en https://aka.ms/filedataset-samplenotebook.

Modules

abstract_dataset

Bevat de abstracte basisklasse voor gegevenssets in Azure Machine Learning.

abstract_datastore

Bevat de basisfunctionaliteit voor gegevensarchieven waarmee verbindingsgegevens naar Azure-opslagservices worden opgeslagen.

azure_data_lake_datastore

Bevat de basisfunctionaliteit voor gegevensarchieven waarmee verbindingsgegevens worden opgeslagen in Azure Data Lake Storage.

azure_my_sql_datastore

Bevat de basisfunctionaliteit voor gegevensarchieven die verbindingsgegevens opslaan in Azure Database for MySQL.

azure_postgre_sql_datastore

Bevat de basisfunctionaliteit voor gegevensarchieven die verbindingsgegevens opslaan in Azure Database for PostgreSQL.

azure_sql_database_datastore

Bevat de basisfunctionaliteit voor gegevensarchieven die verbindingsgegevens opslaan in Azure SQL database.

azure_storage_datastore

Bevat functionaliteit voor gegevensarchieven waarmee verbindingsgegevens worden opgeslagen in Azure Blob en Azure File Storage.

constants

Constanten die worden gebruikt in het pakket azureml.data. Alleen intern gebruik.

context_managers

Bevat functionaliteit voor het beheren van de gegevenscontext van gegevensarchieven en gegevenssets. Alleen intern gebruik.

data_reference

Bevat functionaliteit waarmee wordt gedefinieerd hoe verwijzingen naar gegevens in gegevensarchieven moeten worden gemaakt.

datacache

Bevat functionaliteit voor het beheren van DatacacheStore en Datacache in Azure Machine Learning.

datacache_client

Alleen intern gebruik.

datacache_consumption_config

Bevat functionaliteit voor de configuratie van DataCache-verbruik.

datacache_singularity_settings

Bevat objecten die nodig zijn voor de weergave van de Instellingen van Datacache Singularity.

datapath

Bevat functionaliteit voor het maken van verwijzingen naar gegevens in gegevensarchieven.

Deze module bevat de DataPath klasse, die de locatie van gegevens vertegenwoordigt, en de DataPathComputeBinding klasse, die aangeeft hoe de gegevens beschikbaar worden gemaakt voor de rekendoelen.

dataset_action_run

Bevat functionaliteit waarmee de uitvoering van gegevenssetacties wordt beheerd.

Deze module biedt handige methoden voor het maken van gegevenssetacties en het ophalen van de resultaten na voltooiing.

dataset_consumption_config

Bevat functionaliteit voor de configuratie van het verbruik van gegevenssets.

dataset_definition

Bevat functionaliteit voor het beheren van de definitie van gegevenssets en de bijbehorende bewerkingen.

Notitie

Deze module is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

dataset_error_handling

Bevat uitzonderingen voor foutafhandeling van gegevenssets in Azure Machine Learning.

dataset_factory

Bevat functionaliteit voor het maken van gegevenssets voor Azure Machine Learning.

dataset_profile

Klasse voor het verzamelen van samenvattingsstatistieken van de gegevens die door een gegevensstroom worden geproduceerd.

De functionaliteit in deze module omvat het verzamelen van informatie over welke uitvoering het profiel heeft geproduceerd, of het profiel verouderd is of niet.

dataset_profile_run

Bevat configuratie voor het bewaken van gegevenssetprofielen die worden uitgevoerd in Azure Machine Learning.

De functionaliteit in deze module omvat het verwerken en bewaken van de uitvoering van gegevenssetprofielen die zijn gekoppeld aan een experimentobject en een afzonderlijke uitvoerings-id.

dataset_profile_run_config

Bevat configuratie voor het genereren van een overzicht van statistieken over gegevenssets in Azure Machine Learning.

De functionaliteit in deze module omvat methoden voor het indienen van lokale of externe profieluitvoeringen en het visualiseren van het resultaat van de ingediende profieluitvoering.

dataset_snapshot

Bevat functionaliteit voor het beheren van momentopnamebewerkingen van gegevenssets.

Notitie

Deze module is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

dataset_type_definitions

Bevat opsommingswaarden die worden gebruikt met Dataset.

datastore_client

Alleen intern gebruik.

dbfs_datastore

Bevat functionaliteit voor gegevensarchieven waarmee verbindingsgegevens naar Databricks File Sytem (DBFS) worden opgeslagen.

file_dataset

Bevat functionaliteit voor het verwijzen naar één of meerdere bestanden in gegevensarchieven of openbare URL's.

Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/filedataset-samplenotebookom aan de slag te gaan met een bestandsgegevensset.

hdfs_datastore

Bevat de basisfunctionaliteit voor gegevensarchieven waarmee verbindingsgegevens naar een HDFS-cluster worden opgeslagen.

output_dataset_config

Bevat configuraties die aangeeft hoe uitvoer voor een taak moet worden geüpload en gepromoveerd naar een gegevensset.

Zie het artikel Uitvoer opgeven voor meer informatie.

sql_data_reference

Bevat functionaliteit voor het maken van verwijzingen naar gegevens in gegevensarchieven waarmee verbindingsgegevens naar SQL-databases worden opgeslagen.

stored_procedure_parameter

Bevat functionaliteit voor het maken van een parameter die moet worden doorgegeven aan een opgeslagen SQL-procedure.

tabular_dataset

Bevat functionaliteit voor het weergeven van gegevens in tabelvorm door het opgegeven bestand of de lijst met bestanden te parseren.

Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/tabulardataset-samplenotebookom aan de slag te gaan met een gegevensset in tabelvorm.

Klassen

DataType

Hiermee configureert u kolomgegevenstypen voor een gegevensset die is gemaakt in Azure Machine Learning.

DataType-methoden worden gebruikt in de TabularDatasetFactory klassemethoden from_* , die worden gebruikt om nieuwe TabularDataset-objecten te maken.

DatacacheStore

Notitie

Dit is een experimentele klasse en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Vertegenwoordigt een opslagabstractie via een Azure Machine Learning-opslagaccount.

DatacacheStores zijn gekoppeld aan werkruimten en worden gebruikt voor het opslaan van informatie met betrekking tot de onderliggende datacache-oplossing. Op dit moment wordt alleen een gepartitioneerde blob-oplossing ondersteund. Datacachestores definieert verschillende Blob-gegevensarchieven die kunnen worden gebruikt voor caching.

Gebruik deze klasse om beheerbewerkingen uit te voeren, waaronder het registreren, weergeven, ophalen en bijwerken van gegevenscachestores. DatacacheStores voor elke service worden gemaakt met de register* methoden van deze klasse.

Haal een datacachestore op naam op. Met deze aanroep wordt een aanvraag naar de datacache-service verzonden.

FileDataset

Vertegenwoordigt een verzameling bestandsverwijzingen in gegevensarchieven of openbare URL's voor gebruik in Azure Machine Learning.

Een FileDataset definieert een reeks vertraagd geëvalueerde, onveranderbare bewerkingen voor het laden van gegevens uit de gegevensbron in bestandsstromen. Gegevens worden pas vanuit de bron geladen als FileDataset wordt gevraagd om gegevens te leveren.

Een FileDataset wordt gemaakt met behulp van de from_files methode van de klasse FileDatasetFactory.

Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/filedataset-samplenotebookom aan de slag te gaan met een bestandsgegevensset.

Initialiseer het FileDataset-object.

Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met behulp van FileDatasetFactory klasse.

HDFSOutputDatasetConfig

Vertegenwoordigt hoe u kunt uitvoeren naar een HDFS-pad en wordt gepromoveerd als een FileDataset.

Initialiseer een HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Notitie

Dit is een experimentele klasse en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Vertegenwoordigt hoe u de uitvoer van een uitvoering koppelt en wordt gepromoveerd als een FileDataset.

Met LinkFileOutputDatasetConfig kunt u een bestandsgegevensset koppelen als uitvoergegevensset


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialiseer een LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Notitie

Dit is een experimentele klasse en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Vertegenwoordigt hoe u de uitvoer van een uitvoering koppelt en wordt gepromoveerd als een TabularDataset.

Met LinkTabularOutputDatasetConfig kunt u een bestand in tabelvorm koppelen als uitvoergegevensset


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialiseer een LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Vertegenwoordigt hoe u de uitvoer van een uitvoering kopieert en wordt gepromoveerd als een FileDataset.

Met OutputFileDatasetConfig kunt u opgeven hoe een bepaald lokaal pad op het rekendoel moet worden geüpload naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad.

Een voorbeeld van het niet doorgeven van argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Een voorbeeld van het maken van een uitvoer en het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialiseer een OutputFileDatasetConfig.

Met OutputFileDatasetConfig kunt u opgeven hoe een bepaald lokaal pad op het rekendoel moet worden geüpload naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad.

Een voorbeeld van het niet doorgeven van argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Een voorbeeld van het maken van een uitvoer en het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Vertegenwoordigt een tabellaire gegevensset die moet worden gebruikt in Azure Machine Learning.

Een TabularDataset definieert een reeks vertraagd geëvalueerde, onveranderbare bewerkingen om gegevens uit de gegevensbron in tabelvorm te laden. Gegevens worden pas uit de bron geladen als TabularDataset wordt gevraagd om gegevens te leveren.

TabularDataset wordt gemaakt met behulp van methoden zoals from_delimited_files uit de TabularDatasetFactory klasse.

Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/tabulardataset-samplenotebookom aan de slag te gaan met een gegevensset in tabelvorm.

Initialiseer een TabularDataset-object.

Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met behulp van TabularDatasetFactory klasse.