Tworzenie zestawów danych usługi Azure Machine Learning
DOTYCZY: Zestaw SDK języka Python w wersji 1
Z tego artykułu dowiesz się, jak utworzyć zestawy danych usługi Azure Machine Learning w celu uzyskania dostępu do danych dla eksperymentów lokalnych lub zdalnych przy użyciu zestawu SDK języka Python usługi Azure Machine Learning. Aby uzyskać więcej informacji na temat sposobu dopasowania zestawów danych do ogólnego przepływu pracy dostępu do danych w usłudze Azure Machine Learning, odwiedź artykuł Bezpieczny dostęp do danych .
Podczas tworzenia zestawu danych utworzysz odwołanie do lokalizacji źródła danych wraz z kopią jego metadanych. Ponieważ dane pozostają w istniejącej lokalizacji, nie ponosisz dodatkowych kosztów magazynowania i nie ryzykujesz integralności źródeł danych. Ponadto zestawy danych są leniwie oceniane, co pomaga zwiększyć szybkość wydajności przepływu pracy. Zestawy danych można tworzyć na podstawie magazynów danych, publicznych adresów URL i zestawów danych Usługi Azure Open. Aby uzyskać informacje na temat środowiska z małą ilością kodu, odwiedź stronę Tworzenie zestawów danych usługi Azure Machine Learning za pomocą usługi Azure Machine Learning Studio.
Zestawy danych usługi Azure Machine Learning umożliwiają:
Przechowywanie pojedynczej kopii danych w magazynie, do których odwołuje się zestawy danych
Bezproblemowy dostęp do danych podczas trenowania modelu bez obaw o parametry połączenia lub ścieżki danych. Aby uzyskać więcej informacji na temat trenowania zestawów danych, odwiedź stronę Dowiedz się więcej na temat trenowania za pomocą zestawów danych
Udostępnianie danych i współpraca z innymi użytkownikami
Ważne
Elementy w tym artykule oznaczone jako "wersja zapoznawcza" są obecnie dostępne w publicznej wersji zapoznawczej. Wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie jest zalecana w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.
Wymagania wstępne
Aby utworzyć zestawy danych i pracować z zestawami danych, potrzebne są następujące elementy:
Subskrypcja Azure. Jeśli nie masz subskrypcji, przed rozpoczęciem utwórz bezpłatne konto. Wypróbuj bezpłatną lub płatną wersję usługi Azure Machine Learning
Zainstalowany zestaw SDK usługi Azure Machine Learning dla języka Python, który zawiera pakiet azureml-datasets
Tworzenie wystąpienia obliczeniowego usługi Azure Machine Learning, w pełni skonfigurowanego i zarządzanego środowiska programistycznego obejmującego zintegrowane notesy i zestaw SDK już zainstalowany
OR
Współpracuj z własnym notesem Jupyter i zainstaluj zestaw SDK samodzielnie
Uwaga
Niektóre klasy zestawów danych mają zależności od pakietu azureml-dataprep , który jest zgodny tylko z 64-bitowym językiem Python. Jeśli programujesz w systemie Linux, te klasy bazują na platformie .NET Core 2.1 i obsługują je tylko określone dystrybucje. Aby uzyskać więcej informacji na temat obsługiwanych dystrybucji, przeczytaj kolumnę .NET Core 2.1 w artykule Instalowanie platformy .NET w systemie Linux .
Ważne
Pakiet może działać w starszych wersjach dystrybucji systemu Linux, ale nie zalecamy używania dystrybucji, która nie jest wspierana przez główny nurt. Dystrybucje, które nie są obsługiwane przez główny nurt, mogą mieć luki w zabezpieczeniach, ponieważ nie otrzymują najnowszych aktualizacji. Zalecamy użycie najnowszej obsługiwanej wersji dystrybucji zgodnej z programem .
Wskazówki dotyczące rozmiaru zasobów obliczeniowych
Podczas tworzenia zestawu danych przejrzyj moc obliczeniową i rozmiar danych w pamięci. Rozmiar danych w magazynie nie jest taki sam jak rozmiar danych w ramce danych. Na przykład dane w plikach CSV mogą być rozszerzane do 10 razy w ramce danych, dzięki czemu plik CSV o rozmiarze 1 GB może stać się 10 GB w ramce danych.
Skompresowane dane mogą rozszerzać się dalej. Dwadzieścia GB stosunkowo rozrzedzone dane przechowywane w skompresowanym formacie parquet może rozwinąć się do ok. 800 GB w pamięci. Ponieważ pliki Parquet przechowują dane w formacie kolumnowym, jeśli potrzebujesz tylko połowy kolumn, wystarczy załadować tylko ok. 400 GB w pamięci.
Aby uzyskać więcej informacji, odwiedź stronę Dowiedz się więcej na temat optymalizowania przetwarzania danych w usłudze Azure Machine Learning.
Typy zestawów danych
Istnieją dwa typy zestawów danych na podstawie sposobu, w jaki użytkownicy korzystają z zestawów danych w trenowaniu: FileDatasets i TabularDatasets. Przepływy pracy trenowania usługi Azure Machine Learning, które obejmują narzędzia do szacowania, rozwiązanie AutoML, funkcję hyperDrive i potoki, mogą używać obu typów.
FileDataset
Zestaw plików odwołuje się do jednego lub wielu plików w magazynach danych lub publicznych adresach URL. Jeśli dane są już czyszczone i gotowe do użycia w eksperymentach szkoleniowych, możesz pobrać lub zainstalować pliki do obliczeń jako obiekt FileDataset.
Zalecamy zestawy plików dla przepływów pracy uczenia maszynowego, ponieważ pliki źródłowe mogą być w dowolnym formacie. Umożliwia to szerszy zakres scenariuszy uczenia maszynowego, w tym uczenia głębokiego.
Utwórz zestaw FileDataset za pomocą zestawu SDK języka Python lub usługi Azure Machine Learning Studio.
Tabelaryczny zestaw danych
Tabelaryczny zestaw danych analizuje podany plik lub listę plików w celu reprezentowania danych w formacie tabelarycznym. Następnie można materializować dane w bibliotece pandas lub Spark DataFrame, aby pracować ze znanymi bibliotekami przygotowywania i trenowania danych podczas pobytu w notesie. Obiekt można utworzyć TabularDataset
na podstawie plików .csv, .tsv, parquet, .json wierszy oraz z wyników zapytania SQL.
Za pomocą zestawów TabularDataset można określić sygnaturę czasową z kolumny w danych lub lokalizację, w której są przechowywane dane wzorca ścieżki, aby włączyć cechę szeregów czasowych. Ta specyfikacja umożliwia łatwe i wydajne filtrowanie według czasu. Na przykład odwiedź stronę Tabelaryczny pokaz interfejsu API powiązanego z szeregami czasowymi z danymi pogodowymi NOAA.
Utwórz tabelaryczny zestaw danych przy użyciu zestawu SDK języka Python lub usługi Azure Machine Learning Studio.
Uwaga
Zautomatyzowane przepływy pracy uczenia maszynowego generowane za pośrednictwem usługi Azure Machine Learning Studio obecnie obsługują tylko tabelaryczne zestawy danych.
Ponadto w przypadku zestawów TabularDataset wygenerowanych na podstawie wyników zapytania SQL język T-SQL (np. zapytanie podrzędne "WITH") lub zduplikowane nazwy kolumn nie są obsługiwane. Złożone zapytania T-SQL mogą powodować problemy z wydajnością. Zduplikowane nazwy kolumn w zestawie danych mogą powodować problemy z niejednoznacznością.
Uzyskiwanie dostępu do zestawów danych w sieci wirtualnej
Jeśli obszar roboczy znajduje się w sieci wirtualnej, należy skonfigurować zestaw danych, aby pominąć walidację. Aby uzyskać więcej informacji na temat używania magazynów danych i zestawów danych w sieci wirtualnej, zobacz Zabezpieczanie obszaru roboczego i skojarzonych zasobów.
Tworzenie zestawów danych na podstawie magazynów danych
Aby dane były dostępne w usłudze Azure Machine Learning, należy utworzyć zestawy danych na podstawie ścieżek w internetowych adresach URL lub magazynach danych usługi Azure Machine Learning.
Napiwek
Zestawy danych można tworzyć bezpośrednio z adresów URL magazynu z dostępem do danych opartych na tożsamościach. Aby uzyskać więcej informacji, zobacz Nawiązywanie połączenia z magazynem przy użyciu dostępu do danych opartych na tożsamościach.
Aby utworzyć zestawy danych na podstawie magazynu danych przy użyciu zestawu SDK języka Python:
Sprawdź, czy masz
contributor
dostępowner
do bazowej usługi magazynu zarejestrowanego magazynu danych usługi Azure Machine Learning. Sprawdź uprawnienia konta magazynu w witrynie Azure Portal.Utwórz zestaw danych, odwołując się do ścieżek w magazynie danych. Zestaw danych można utworzyć na podstawie wielu ścieżek w wielu magazynach danych. Nie ma twardego limitu liczby plików lub rozmiaru danych, z których można utworzyć zestaw danych.
Uwaga
Dla każdej ścieżki danych do usługi magazynu zostanie wysłanych kilka żądań w celu sprawdzenia, czy wskazuje on plik, czy folder. To obciążenie może prowadzić do obniżenia wydajności lub awarii. Zestaw danych odwołujący się do jednego folderu z 1000 plikami wewnątrz jest traktowany jako odwołujące się do jednej ścieżki danych. Aby uzyskać optymalną wydajność, zalecamy utworzenie zestawów danych odwołujących się do mniej niż 100 ścieżek w magazynach danych.
Tworzenie FileDatase
from_files()
Użyj metody w FileDatasetFactory
klasie, aby załadować pliki w dowolnym formacie i utworzyć niezarejestrowany zestaw plików.
Jeśli magazyn znajduje się za siecią wirtualną lub zaporą, ustaw parametr validate=False
w metodzie from_files()
. Spowoduje to obejście początkowego kroku weryfikacji i gwarantuje, że można utworzyć zestaw danych z tych bezpiecznych plików. Aby uzyskać więcej informacji, odwiedź stronę Używanie magazynów danych i zestawów danych w sieci wirtualnej.
from azureml.core import Workspace, Datastore, Dataset
# create a FileDataset recursively pointing to files in 'animals' folder and its subfolder
datastore_paths = [(datastore, 'animals')]
animal_ds = Dataset.File.from_files(path=datastore_paths)
# create a FileDataset from image and label files behind public web urls
web_paths = ['https://azureopendatastorage.blob.core.windows.net/mnist/train-images-idx3-ubyte.gz',
'https://azureopendatastorage.blob.core.windows.net/mnist/train-labels-idx1-ubyte.gz']
mnist_ds = Dataset.File.from_files(path=web_paths)
Aby przekazać wszystkie pliki z katalogu lokalnego, utwórz element FileDataset w jednej metodzie za pomocą upload_directory()
polecenia . Ta metoda przekazuje dane do magazynu bazowego i w wyniku ponoszenia kosztów magazynowania.
from azureml.core import Workspace, Datastore, Dataset
from azureml.data.datapath import DataPath
ws = Workspace.from_config()
datastore = Datastore.get(ws, '<name of your datastore>')
ds = Dataset.File.upload_directory(src_dir='<path to you data>',
target=DataPath(datastore, '<path on the datastore>'),
show_progress=True)
Aby ponownie używać i udostępniać zestawy danych w eksperymentach w obszarze roboczym, zarejestruj zestaw danych.
Tworzenie TabularDataset
from_delimited_files()
Użyj metody w TabularDatasetFactory
klasie, aby odczytywać pliki w formacie .csv lub tsv oraz utworzyć niezarejestrowany zestaw danych tabelarycznych. Aby odczytać pliki z .parquet
formatu, użyj from_parquet_files()
metody . Jeśli odczytujesz z wielu plików, wyniki są agregowane w jednej reprezentacji tabelarycznej.
Aby uzyskać informacje o obsługiwanych formatach plików, odwiedź dokumentację referencyjną TabularDatasetFactory oraz informacje o składni i wzorcach projektowych, takich jak obsługa wielowierszowa.
Jeśli magazyn znajduje się za siecią wirtualną lub zaporą, ustaw parametr validate=False
w metodzie from_delimited_files()
. Spowoduje to obejście początkowego kroku weryfikacji i gwarantuje, że można utworzyć zestaw danych z tych bezpiecznych plików. Aby uzyskać więcej informacji na temat zasobów magazynu danych za siecią wirtualną lub zaporą, odwiedź stronę Magazyny danych i zestawy danych w sieci wirtualnej.
Ten kod pobiera istniejący obszar roboczy i żądany magazyn danych według nazwy. Następnie przekazuje magazyn danych i lokalizacje plików do parametru path
w celu utworzenia nowego zestawu tabularDataset o nazwie weather_ds
:
from azureml.core import Workspace, Datastore, Dataset
datastore_name = 'your datastore name'
# get existing workspace
workspace = Workspace.from_config()
# retrieve an existing datastore in the workspace by name
datastore = Datastore.get(workspace, datastore_name)
# create a TabularDataset from 3 file paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
(datastore, 'weather/2018/12.csv'),
(datastore, 'weather/2019/*.csv')]
weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)
Ustawianie schematu danych
Podczas tworzenia tabelarycznego zestawu danych typy danych kolumn są automatycznie wnioskowane domyślnie. Jeśli wnioskowane typy nie są zgodne z oczekiwaniami, możesz określić typy kolumn przy użyciu następującego kodu, aby zaktualizować zestaw danych. Parametr infer_column_type
ma zastosowanie tylko dla zestawów danych utworzonych na podstawie plików rozdzielanych. Aby uzyskać więcej informacji, odwiedź stronę Dowiedz się więcej o obsługiwanych typach danych.
from azureml.core import Dataset
from azureml.data.dataset_factory import DataType
# create a TabularDataset from a delimited file behind a public web url and convert column "Survived" to boolean
web_path ='https://dprepdata.blob.core.windows.net/demo/Titanic.csv'
titanic_ds = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types={'Survived': DataType.to_bool()})
# preview the first 3 rows of titanic_ds
titanic_ds.take(3).to_pandas_dataframe()
(Indeks) | PassengerId | Przeżył | Pclass | Nazwisko | Płeć | Wiek | SibSp | Parch | Ticket | Taryfy | Kabina | Rozpoczęła |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | Fałsz | 3 | Braund, Pan Owen Harris | mężczyzna | 22,0 | 1 | 0 | A/5 21171 | 7.2500 | S | |
1 | 2 | Prawda | 1 | Cumings, pani John Bradley (Florence Briggs Th... | kobieta | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
2 | 3 | Prawda | 3 | Heikkinen, Miss. Laina | kobieta | 26,0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | S |
Aby ponownie używać i udostępniać zestawy danych w eksperymentach w obszarze roboczym, zarejestruj zestaw danych.
Dane Wrangle
Po utworzeniu i zarejestrowaniu zestawu danych możesz załadować ten zestaw danych do notesu na potrzeby uzdatniania i eksploracji danych przed rozpoczęciem trenowania modelu. Może nie być konieczne wykonywanie żadnych czynności związanych z uzdatnianiem ani eksploracją danych. W takim przypadku aby uzyskać więcej informacji na temat korzystania z zestawów danych w skryptach szkoleniowych na potrzeby przesyłania eksperymentów uczenia maszynowego, odwiedź stronę Trenowanie przy użyciu zestawów danych.
Filtrowanie zestawów danych (wersja zapoznawcza)
Możliwości filtrowania zależą od typu posiadanego zestawu danych.
Ważne
Filtrowanie zestawów danych przy filter()
użyciu metody w wersji zapoznawczej jest funkcją eksperymentalnej wersji zapoznawczej i może ulec zmianie w dowolnym momencie.
W przypadku zestawów tabularDataset można przechowywać lub usuwać kolumny przy użyciu metod keep_columns() i drop_columns().
Aby odfiltrować wiersze według określonej wartości kolumny w zestawie danych tabelarycznych, użyj metody filter() (wersja zapoznawcza).
Te przykłady zwracają niezarejestrowany zestaw danych na podstawie określonych wyrażeń:
# TabularDataset that only contains records where the age column value is greater than 15
tabular_dataset = tabular_dataset.filter(tabular_dataset['age'] > 15)
# TabularDataset that contains records where the name column value contains 'Bri' and the age column value is greater than 15
tabular_dataset = tabular_dataset.filter((tabular_dataset['name'].contains('Bri')) & (tabular_dataset['age'] > 15))
W obszarze FileDatasets każdy wiersz odpowiada ścieżce pliku, więc filtrowanie według wartości kolumny nie pomaga. Można jednak filtrować wiersze według metadanych — na przykład CreationTime, Size itp. Te przykłady zwracają niezarejestrowany zestaw danych na podstawie określonych wyrażeń:
# FileDataset that only contains files where Size is less than 100000
file_dataset = file_dataset.filter(file_dataset.file_metadata['Size'] < 100000)
# FileDataset that only contains files that were either created prior to Jan 1, 2020 or where
file_dataset = file_dataset.filter((file_dataset.file_metadata['CreatedTime'] < datetime(2020,1,1)) | (file_dataset.file_metadata['CanSeek'] == False))
Zestawy danych z etykietami utworzone na podstawie projektów etykietowania obrazów są specjalnym przypadkiem. Te zestawy danych są typem tabularDataset składającym się z plików obrazów. W przypadku tych zestawów danych można filtrować obrazy według metadanych oraz wartości label
kolumn iimage_details
.
# Dataset that only contains records where the label column value is dog
labeled_dataset = labeled_dataset.filter(labeled_dataset['label'] == 'dog')
# Dataset that only contains records where the label and isCrowd columns are True and where the file size is larger than 100000
labeled_dataset = labeled_dataset.filter((labeled_dataset['label']['isCrowd'] == True) & (labeled_dataset.file_metadata['Size'] > 100000))
Partycjonowanie danych
Aby podzielić zestaw danych na partycje, dołącz partitions_format
parametr podczas tworzenia zestawu danych tabelarycznych lub fileDataset.
Podczas partycjonowania zestawu danych informacje o partycji każdej ścieżki pliku są wyodrębniane do kolumn na podstawie określonego formatu. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji i przejść do końca ścieżki pliku.
Na przykład na podstawie ścieżki ../Accounts/2019/01/01/data.jsonl
, gdzie partycja jest według nazwy działu i godziny, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl'
tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną datetime "PartitionDate" z wartością 2019-01-01
.
Jeśli dane mają już istniejące partycje i chcesz zachować ten format, uwzględnij partitioned_format
parametr w from_files()
metodzie , aby utworzyć zestaw FileDataset.
Aby utworzyć tabelaryczny zestaw danych, który zachowuje istniejące partycje, uwzględnij partitioned_format
parametr w metodzie from_delimited_files()
from_parquet_files()
lub .
Ten przykład
- Tworzy zestaw fileDataset z partycjonowanych plików
- Pobiera klucze partycji
- Tworzy nowy, indeksowany zestaw danych pliku
file_dataset = Dataset.File.from_files(data_paths, partition_format = '{userid}/*.wav')
ds.register(name='speech_dataset')
# access partition_keys
indexes = file_dataset.partition_keys # ['userid']
# get all partition key value pairs should return [{'userid': 'user1'}, {'userid': 'user2'}]
partitions = file_dataset.get_partition_key_values()
partitions = file_dataset.get_partition_key_values(['userid'])
# return [{'userid': 'user1'}, {'userid': 'user2'}]
# filter API, this will only download data from user1/ folder
new_file_dataset = file_dataset.filter(ds['userid'] == 'user1').download()
Możesz również utworzyć nową strukturę partycji dla zestawów TabularDataset za pomocą metody partition_by().
dataset = Dataset.get_by_name('test') # indexed by country, state, partition_date
# call partition_by locally
new_dataset = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition"))
partition_keys = new_dataset.partition_keys # ['country']
Eksplorowanie danych
Po uporządkowaniu danych możesz zarejestrować zestaw danych, a następnie załadować go do notesu na potrzeby eksploracji danych przed rozpoczęciem trenowania modelu.
W przypadku zestawów fileDataset można zainstalować lub pobrać zestaw danych i zastosować biblioteki języka Python, których zwykle używasz do eksploracji danych. Aby uzyskać więcej informacji, odwiedź stronę Dowiedz się więcej na temat instalacji a pobierania.
# download the dataset
dataset.download(target_path='.', overwrite=False)
# mount dataset to the temp directory at `mounted_path`
import tempfile
mounted_path = tempfile.mkdtemp()
mount_context = dataset.mount(mounted_path)
mount_context.start()
W przypadku zestawów TabularDataset użyj to_pandas_dataframe()
metody , aby wyświetlić dane w ramce danych.
# preview the first 3 rows of titanic_ds
titanic_ds.take(3).to_pandas_dataframe()
(Indeks) | PassengerId | Przeżył | Pclass | Nazwisko | Płeć | Wiek | SibSp | Parch | Ticket | Taryfy | Kabina | Rozpoczęła |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | Fałsz | 3 | Braund, Pan Owen Harris | mężczyzna | 22,0 | 1 | 0 | A/5 21171 | 7.2500 | S | |
1 | 2 | Prawda | 1 | Cumings, pani John Bradley (Florence Briggs Th... | kobieta | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
2 | 3 | Prawda | 3 | Heikkinen, Miss. Laina | kobieta | 26,0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | S |
Tworzenie zestawu danych na podstawie ramki danych biblioteki pandas
Aby utworzyć element TabularDataset na podstawie ramki danych biblioteki pandas w pamięci, użyj register_pandas_dataframe()
metody . Ta metoda rejestruje zestaw TabularDataset w obszarze roboczym i przekazuje dane do bazowego magazynu. Ten proces wiąże się z kosztami magazynowania.
from azureml.core import Workspace, Datastore, Dataset
import pandas as pd
pandas_df = pd.read_csv('<path to your csv file>')
ws = Workspace.from_config()
datastore = Datastore.get(ws, '<name of your datastore>')
dataset = Dataset.Tabular.register_pandas_dataframe(pandas_df, datastore, "dataset_from_pandas_df", show_progress=True)
Napiwek
Utwórz i zarejestruj zestaw tabularDataset z ramki danych platformy Spark w pamięci lub ramki danych dask przy użyciu metod register_spark_dataframe()
publicznej wersji zapoznawczej i register_dask_dataframe()
. Te metody są eksperymentalnymi funkcjami w wersji zapoznawczej i mogą ulec zmianie w dowolnym momencie.
Te metody przekazują dane do magazynu bazowego i w rezultacie generują koszty magazynowania.
Rejestrowanie zestawów danych
Aby ukończyć proces tworzenia, zarejestruj zestawy danych w obszarze roboczym. register()
Użyj metody , aby zarejestrować zestawy danych w obszarze roboczym, aby udostępnić je innym osobom i użyć ich ponownie w eksperymentach w obszarze roboczym:
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Tworzenie zestawów danych przy użyciu usługi Azure Resource Manager
Wiele szablonów można znaleźć w artykule microsoft.machinelearningservices , których można użyć do tworzenia zestawów danych.
Aby uzyskać informacje na temat tych szablonów, odwiedź stronę Tworzenie obszaru roboczego dla usługi Azure Machine Learning przy użyciu szablonu usługi Azure Resource Manager.
Szkolenie przy użyciu zestawów danych
Użyj zestawów danych w eksperymentach uczenia maszynowego na potrzeby trenowania modeli uczenia maszynowego. Dowiedz się więcej na temat trenowania za pomocą zestawów danych.
Zestawy danych wersji
Nowy zestaw danych można zarejestrować pod tą samą nazwą, tworząc nową wersję. Wersja zestawu danych może dodać do zakładek stan danych, aby zastosować określoną wersję zestawu danych na potrzeby eksperymentowania lub przyszłego odtwarzania. Aby uzyskać więcej informacji, odwiedź stronę Wersje zestawów danych.
# create a TabularDataset from Titanic training data
web_paths = ['https://dprepdata.blob.core.windows.net/demo/Titanic.csv',
'https://dprepdata.blob.core.windows.net/demo/Titanic2.csv']
titanic_ds = Dataset.Tabular.from_delimited_files(path=web_paths)
# create a new version of titanic_ds
titanic_ds = titanic_ds.register(workspace = workspace,
name = 'titanic_ds',
description = 'new titanic training data',
create_new_version = True)
Następne kroki
- Dowiedz się , jak trenować za pomocą zestawów danych
- Trenowanie przy użyciu zautomatyzowanego uczenia maszynowego za pomocą zestawów tabularDataset
- Aby uzyskać więcej przykładów trenowania zestawu danych, zobacz przykładowe notesy