data Pakiet
Zawiera moduły obsługujące reprezentację danych dla magazynu danych i zestawu danych w usłudze Azure Machine Learning.
Ten pakiet zawiera podstawowe funkcje pomocnicze Datastore i Dataset klasy w pakiecie core . Obiekty magazynu danych zawierają informacje o połączeniu z usługami magazynu platformy Azure, do których można łatwo odwoływać się według nazwy bez konieczności bezpośredniej pracy z informacjami o połączeniu lub twardym kodzie w skryptach. Magazyn danych obsługuje wiele różnych usług reprezentowanych przez klasy w tym pakiecie, w tym AzureBlobDatastore, AzureFileDatastorei AzureDataLakeDatastore. Aby uzyskać pełną listę obsługiwanych usług magazynu, zobacz klasę Datastore .
Magazyn danych działa jako kontener dla plików danych, ale możesz traktować zestaw danych jako odwołanie lub wskaźnik do określonych danych w magazynie danych. Obsługiwane są następujące typy zestawów danych:
Element TabularDataset reprezentuje dane w formacie tabelarycznym utworzonym przez analizowanie podanego pliku lub listy plików.
FileDataset odwołuje się do pojedynczych lub wielu plików w magazynach danych lub publicznych adresach URL.
Aby uzyskać więcej informacji, zobacz artykuł Dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z zestawami danych, zobacz https://aka.ms/tabulardataset-samplenotebook i https://aka.ms/filedataset-samplenotebook.
Moduły
abstract_dataset |
Zawiera abstrakcyjną klasę bazową dla zestawów danych w usłudze Azure Machine Learning. |
abstract_datastore |
Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w usługach magazynu platformy Azure. |
azure_data_lake_datastore |
Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w Azure Data Lake Storage. |
azure_my_sql_datastore |
Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w Azure Database for MySQL. |
azure_postgre_sql_datastore |
Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w Azure Database for PostgreSQL. |
azure_sql_database_datastore |
Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w bazie danych Azure SQL. |
azure_storage_datastore |
Zawiera funkcje magazynów danych, które zapisują informacje o połączeniu w usługach Azure Blob i Azure File Storage. |
constants |
Stałe używane w pakiecie azureml.data. Tylko do użytku wewnętrznego. |
context_managers |
Zawiera funkcje zarządzania kontekstem danych magazynów danych i zestawów danych. Tylko do użytku wewnętrznego. |
data_reference |
Zawiera funkcje definiujące sposób tworzenia odwołań do danych w magazynach danych. |
datacache |
Zawiera funkcje zarządzania magazynem danych i usługą Datacache w usłudze Azure Machine Learning. |
datacache_client |
Tylko do użytku wewnętrznego. |
datacache_consumption_config |
Zawiera funkcje konfiguracji użycia usługi DataCache. |
datacache_singularity_settings |
Zawiera obiekty wymagane do reprezentacji ustawień liczby pojedynczej usługi Datacache. |
datapath |
Zawiera funkcje tworzenia odwołań do danych w magazynach danych. Ten moduł zawiera klasę DataPath reprezentującą lokalizację danych i DataPathComputeBinding klasę, która reprezentuje sposób udostępniania danych na docelowych obiektach obliczeniowych. |
dataset_action_run |
Zawiera funkcje, które zarządzają wykonywaniem akcji zestawu danych. Ten moduł udostępnia wygodne metody tworzenia akcji zestawu danych i uzyskiwania wyników po zakończeniu. |
dataset_consumption_config |
Zawiera funkcje konfiguracji użycia zestawu danych. |
dataset_definition |
Zawiera funkcje zarządzania definicją zestawu danych i jego operacjami. Uwaga Ten moduł jest przestarzały. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Zawiera wyjątki obsługi błędów zestawu danych w usłudze Azure Machine Learning. |
dataset_factory |
Zawiera funkcje tworzenia zestawów danych dla usługi Azure Machine Learning. |
dataset_profile |
Klasa do zbierania statystyk podsumowania danych generowanych przez przepływ danych. Funkcje w tym module obejmują zbieranie informacji dotyczących tego, który przebieg wygenerował profil, niezależnie od tego, czy profil jest nieaktualny, czy nie. |
dataset_profile_run |
Zawiera konfigurację monitorowania profilu zestawu danych uruchomionego w usłudze Azure Machine Learning. Funkcje w tym module obejmują obsługę i monitorowanie przebiegu profilu zestawu danych skojarzonego z obiektem eksperymentu i indywidualnym identyfikatorem przebiegu. |
dataset_profile_run_config |
Zawiera konfigurację do generowania podsumowania statystyk zestawów danych w usłudze Azure Machine Learning. Funkcje w tym module obejmują metody przesyłania przebiegu profilu lokalnego lub zdalnego oraz wizualizowania wyniku przebiegu przesłanego profilu. |
dataset_snapshot |
Zawiera funkcje zarządzania operacjami migawek zestawu danych. Uwaga Ten moduł jest przestarzały. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
Zawiera wartości wyliczenia używane z elementem Dataset. |
datastore_client |
Tylko do użytku wewnętrznego. |
dbfs_datastore |
Zawiera funkcje magazynów danych, które zapisują informacje o połączeniu w pliku usługi Databricks Sytem (DBFS). |
file_dataset |
Zawiera funkcje odwoływania się do pojedynczych lub wielu plików w magazynach danych lub publicznych adresach URL. Aby uzyskać więcej informacji, zobacz artykuł Dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z zestawem danych plików, zobacz https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w klastrze HDFS. |
output_dataset_config |
Zawiera konfiguracje, które określają sposób przekazywania danych wyjściowych zadania i ich podwyższenia do zestawu danych. Aby uzyskać więcej informacji, zobacz artykuł dotyczący sposobu określania danych wyjściowych. |
sql_data_reference |
Zawiera funkcje tworzenia odwołań do danych w magazynach danych, które zapisują informacje o połączeniu w bazach danych SQL. |
stored_procedure_parameter |
Zawiera funkcje tworzenia parametru do przekazania do procedury składowanej SQL. |
tabular_dataset |
Zawiera funkcje reprezentowania danych w formacie tabelarycznym przez analizowanie podanego pliku lub listy plików. Aby uzyskać więcej informacji, zobacz artykuł Dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z tabelarycznym zestawem danych, zobacz https://aka.ms/tabulardataset-samplenotebook. |
Klasy
DataType |
Konfiguruje typy danych kolumn dla zestawu danych utworzonego w usłudze Azure Machine Learning. Metody DataType są używane w TabularDatasetFactory metodach klasy |
DatacacheStore |
Uwaga Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Reprezentuje abstrakcję magazynu na koncie magazynu usługi Azure Machine Learning. Magazyny usługi Datacache są dołączone do obszarów roboczych i są używane do przechowywania informacji związanych z podstawowym rozwiązaniem datacache. Obecnie obsługiwane jest tylko rozwiązanie partycjonowane obiekty blob. Magazyny danych definiują różne magazyny danych obiektów blob, które mogą być używane do buforowania. Ta klasa służy do wykonywania operacji zarządzania, w tym rejestrowania, wyświetlania listy, pobierania i aktualizowania magazynów danych.
Magazyny danych dla każdej usługi są tworzone przy użyciu Pobierz magazyn usługi datacache według nazwy. To wywołanie spowoduje przesłanie żądania do usługi datacache. |
FileDataset |
Reprezentuje kolekcję odwołań do plików w magazynach danych lub publicznych adresach URL do użycia w usłudze Azure Machine Learning. Zestaw FileDataset definiuje serię niezmienialnych operacji obliczanych w celu załadowania danych ze źródła danych do strumieni plików. Dane nie są ładowane ze źródła do momentu, gdy zestaw fileDataset zostanie poproszony o dostarczenie danych. Zestaw FileDataset jest tworzony przy użyciu from_files metody klasy FileDatasetFactory. Aby uzyskać więcej informacji, zobacz artykuł Dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z zestawem danych plików, zobacz https://aka.ms/filedataset-samplenotebook. Zainicjuj obiekt FileDataset. Ten konstruktor nie powinien być wywoływany bezpośrednio. Zestaw danych ma zostać utworzony przy użyciu FileDatasetFactory klasy . |
HDFSOutputDatasetConfig |
Przedstawia sposób wyprowadzania danych wyjściowych do ścieżki systemu plików HDFS i być promowany jako plikZestaw danych. Zainicjuj plik HDFSOutputDatasetConfig. |
LinkFileOutputDatasetConfig |
Uwaga Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Przedstawianie sposobu łączenia danych wyjściowych przebiegu i podwyższenia poziomu jako zestawu danych FileDataset. Element LinkFileOutputDatasetConfig umożliwia łączenie zestawu danych pliku jako wyjściowego zestawu danych
Zainicjuj element LinkFileOutputDatasetConfig. |
LinkTabularOutputDatasetConfig |
Uwaga Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Przedstawia sposób łączenia danych wyjściowych przebiegu i jego podwyższenia poziomu jako tabelarycznego zestawu danych. LinkTabularOutputDatasetConfig umożliwia łączenie pliku tabelarycznego jako wyjściowego zestawu danych
Zainicjuj element LinkTabularOutputDatasetConfig. |
OutputFileDatasetConfig |
Przedstawianie sposobu kopiowania danych wyjściowych przebiegu i podniesiania jej poziomu jako zestawu danych FileDataset. Plik OutputFileDatasetConfig umożliwia określenie, jak chcesz przekazać konkretną ścieżkę lokalną do określonego miejsca docelowego obliczeniowego. Jeśli do konstruktora nie zostaną przekazane żadne argumenty, automatycznie wygenerujemy nazwę, lokalizację docelową i ścieżkę lokalną. Przykład braku przekazywania żadnych argumentów:
Przykład tworzenia danych wyjściowych, a następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:
Zainicjuj element OutputFileDatasetConfig. Plik OutputFileDatasetConfig umożliwia określenie, jak chcesz przekazać konkretną ścieżkę lokalną do określonego miejsca docelowego obliczeniowego. Jeśli do konstruktora nie zostaną przekazane żadne argumenty, automatycznie wygenerujemy nazwę, lokalizację docelową i ścieżkę lokalną. Przykład braku przekazywania żadnych argumentów:
Przykład tworzenia danych wyjściowych, a następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:
|
TabularDataset |
Reprezentuje tabelaryczny zestaw danych do użycia w usłudze Azure Machine Learning. Tabelaryczny zestaw danych definiuje serię niezmienialnych operacji obliczanych w celu załadowania danych ze źródła danych do reprezentacji tabelarycznej. Dane nie są ładowane ze źródła do momentu, gdy zostanie wyświetlony monit o dostarczenie danych. Tabelaryczny zestaw danych jest tworzony przy użyciu metod, takich jak from_delimited_files z TabularDatasetFactory klasy . Aby uzyskać więcej informacji, zobacz artykuł Dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z tabelarycznym zestawem danych, zobacz https://aka.ms/tabulardataset-samplenotebook. Inicjowanie obiektu TabularDataset. Ten konstruktor nie powinien być wywoływany bezpośrednio. Zestaw danych ma zostać utworzony przy użyciu TabularDatasetFactory klasy . |
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla