Pojęcia dotyczące danych w usłudze Azure Machine Learning

Artykuł
07/25/2024

Usługa Azure Machine Learning umożliwia importowanie danych z komputera lokalnego lub istniejącego zasobu magazynu w chmurze. W tym artykule opisano kluczowe pojęcia dotyczące danych usługi Azure Machine Learning.

Magazyn danych

Magazyn danych usługi Azure Machine Learning służy jako odwołanie do istniejącego konta usługi Azure Storage. Magazyn danych usługi Azure Machine Learning oferuje następujące korzyści:

Typowy, łatwy w użyciu interfejs API, który współdziała z różnymi typami magazynu (Blob/Files/ADLS).
Łatwiejsze odnajdywanie przydatnych magazynów danych w operacjach zespołowych.
W przypadku dostępu opartego na poświadczeniach (jednostki usługi/sygnatury dostępu współdzielonego/klucza) magazyn danych usługi Azure Machine Learning zabezpiecza informacje o połączeniu. W ten sposób nie trzeba umieszczać tych informacji w skryptach.

Podczas tworzenia magazynu danych przy użyciu istniejącego konta usługi Azure Storage dostępne są dwie różne opcje metody uwierzytelniania:

Oparte na poświadczeniach — uwierzytelnianie dostępu do danych przy użyciu jednostki usługi, tokenu sygnatury dostępu współdzielonego (SAS) lub klucza konta. Użytkownicy z dostępem do obszaru roboczego Czytelnik mogą uzyskiwać dostęp do poświadczeń.
Oparte na tożsamości — użyj tożsamości firmy Microsoft lub tożsamości zarządzanej do uwierzytelniania dostępu do danych.

Ta tabela zawiera podsumowanie usług magazynu w chmurze platformy Azure, które może utworzyć magazyn danych usługi Azure Machine Learning. Ponadto tabela zawiera podsumowanie typów uwierzytelniania, które mogą uzyskiwać dostęp do tych usług:

Obsługiwana usługa magazynu	Uwierzytelnianie na podstawie poświadczeń	Uwierzytelnianie na podstawie tożsamości
Azure Blob Container	✓	✓
Udział plików platformy Azure	✓
Azure Data Lake Gen1	✓	✓
Azure Data Lake Gen2	✓	✓

Aby uzyskać więcej informacji na temat magazynów danych, odwiedź stronę Tworzenie magazynów danych.

Domyślne magazyny danych

Każdy obszar roboczy usługi Azure Machine Learning ma domyślne konto magazynu (konto usługi Azure Storage), które zawiera następujące magazyny danych:

Napiwek

Aby znaleźć identyfikator obszaru roboczego, przejdź do obszaru roboczego w witrynie Azure Portal. Rozwiń węzeł Ustawienia, a następnie wybierz pozycję Właściwości. Zostanie wyświetlony identyfikator obszaru roboczego.

Nazwa magazynu danych	Typ magazynu danych	Nazwa magazynu danych	opis
`workspaceblobstore`	Kontener obiektów blob	`azureml-blobstore-{workspace-id}`	Przechowuje przekazywanie danych, migawki kodu zadania i pamięć podręczną danych potoku.
`workspaceworkingdirectory`	Udział plików	`code-{GUID}`	Przechowuje dane dla notesów, wystąpień obliczeniowych i przepływu monitów.
`workspacefilestore`	Udział plików	`azureml-filestore-{workspace-id}`	Alternatywny kontener do przekazywania danych.
`workspaceartifactstore`	Kontener obiektów blob	`azureml`	Magazyn dla zasobów, takich jak metryki, modele i składniki.

Typy danych

URI (lokalizacja przechowywania) może odwoływać się do pliku, folderu lub tabeli danych. Definicja danych wejściowych i wyjściowych zadania uczenia maszynowego wymaga jednego z następujących trzech typów danych:

Typ	Interfejs API w wersji 2	Interfejs API w wersji 1	Scenariusze kanoniczne	Różnica między interfejsem API w wersji 2 i 1
Plik Odwołanie do pojedynczego pliku	`uri_file`	`FileDataset`	Odczyt/zapis pojedynczego pliku — plik może mieć dowolny format.	Nowy typ dla interfejsów API w wersji 2. W interfejsach API w wersji 1 pliki są zawsze mapowane na folder w systemie plików docelowego obiektu obliczeniowego; to mapowanie wymaga elementu `os.path.join`. W interfejsach API w wersji 2 mapowany jest pojedynczy plik. Dzięki temu można odwoływać się do tej lokalizacji w swoim kodzie.
Folder Odwołanie do pojedynczego folderu	`uri_folder`	`FileDataset`	Musisz odczytać/zapisać folder plików parquet/CSV w Pandas/Spark. Uczenie głębokie przy użyciu obrazów, tekstu, audio, plików wideo znajdujących się w folderze.	W interfejsach API w wersji 1 `FileDataset` był skojarzony z aparatem, który mógł pobrać przykładowy plik z folderu. W interfejsach API w wersji 2 folder to proste mapowanie na docelowy system plików obliczeniowych.
Tabela Odwołanie do tabeli danych	`mltable`	`TabularDataset`	Masz złożony schemat, który podlega częstym zmianom lub potrzebujesz podzbioru dużych danych tabelarycznych. AutoML z tabelami.	W interfejsach API w wersji 1 zaplecze usługi Azure Machine Learning przechowywało strategię materializacji danych. W związku z tym działało tylko wtedy, `TabularDataset` gdy masz obszar roboczy usługi Azure Machine Learning. `mltable`przechowuje strategię materializacji danych w magazynie. Ta lokalizacja magazynu oznacza, że można użyć jej rozłączenia z usługą Azure Machine Learning — na przykład lokalnie i lokalnie. W interfejsach API w wersji 2 łatwiej jest przejść z zadań lokalnych do zdalnych. Aby uzyskać więcej informacji, zobacz Praca z tabelami w usłudze Azure Machine Learning.

Identyfikator URI

Identyfikator URI (Uniform Resource Identifier) reprezentuje lokalizację magazynu na komputerze lokalnym, usłudze Azure Storage lub publicznie dostępnej lokalizacji http(s). W poniższych przykładach pokazano identyfikatory URI dla różnych opcji magazynu:

Lokalizacja usługi Storage	Przykłady identyfikatorów URI
Magazyn danych usługi Azure Machine Learning	`azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet`
Komputer lokalny	`./home/username/data/my_data`
Publiczny serwer HTTP	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Blob storage	`wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/`
Azure Data Lake (gen2)	`abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv`
Azure Data Lake (gen1)	`adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>`

Zadanie usługi Azure Machine Learning mapuje identyfikatory URI na docelowy system plików obliczeniowych. To mapowanie oznacza, że w przypadku polecenia, które używa lub generuje identyfikator URI, ten identyfikator URI działa jak plik lub folder. Identyfikator URI używa uwierzytelniania opartego na tożsamościach w celu nawiązania połączenia z usługami magazynu przy użyciu identyfikatora Entra (domyślnego) firmy Microsoft lub tożsamości zarządzanej. Identyfikatory URI magazynu danych usługi Azure Machine Learning mogą stosować uwierzytelnianie oparte na tożsamościach lub oparte na poświadczeniach (na przykład jednostka usługi, token SAS, klucz konta) bez ujawniania wpisów tajnych.

Identyfikator URI może służyć jako dane wejściowe lub wyjściowe zadania usługi Azure Machine Learning i może mapować go na docelowy system plików obliczeniowych z jedną z czterech różnych opcji trybu :

Instalacja tylko do odczytu (ro_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje wyłącznie dane wyjściowe tylko do odczytu.
Instalacja odczytu i zapisu (rw_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje zarówno odczyt danych wyjściowych, jak i zapisy danych.
Download (download): Identyfikator URI reprezentuje lokalizację magazynu zawierającą dane pobrane do docelowego systemu plików obliczeniowego.
Przekazywanie (upload): wszystkie dane zapisane w lokalizacji docelowej obliczeniowej są przekazywane do lokalizacji magazynu reprezentowanej przez identyfikator URI.

Ponadto można przekazać identyfikator URI jako ciąg wejściowy zadania z trybem bezpośrednim . Ta tabela zawiera podsumowanie kombinacji trybów dostępnych dla danych wejściowych i wyjściowych:

Zadanie Dane wejściowe lub wyjściowe	`upload`	`download`	`ro_mount`	`rw_mount`	`direct`
Dane wejściowe		✓	✓		✓
Dane wyjściowe	✓			✓

Aby uzyskać więcej informacji, odwiedź stronę Access data in a job (Uzyskiwanie dostępu do danych w zadaniu).

Możliwość środowiska uruchomieniowego danych

Usługa Azure Machine Learning używa własnego środowiska uruchomieniowego danych do jednego z trzech celów:

w przypadku instalacji/przekazywania/pobierania
mapowanie identyfikatorów URI magazynu na docelowy system plików obliczeniowych
aby zmaterializować dane tabelaryczne w bibliotece pandas/spark za pomocą tabel usługi Azure Machine Learning (mltable)

Środowisko uruchomieniowe danych usługi Azure Machine Learning zostało zaprojektowane z myślą o wysokiej szybkości i wysokiej wydajności zadań uczenia maszynowego. Oferuje następujące kluczowe korzyści:

Architektura języka Rust . Język Rust jest znany z dużej szybkości i wysokiej wydajności pamięci.
Lekka waga; Środowisko uruchomieniowe danych usługi Azure Machine Learning nie ma zależności od innych technologii — na przykład JVM — więc środowisko uruchomieniowe szybko instaluje się na docelowych obiektach obliczeniowych.
Ładowanie danych wieloprocesowych (równoległych).
Pobieranie danych wstępnie działa jako zadanie w tle na procesorach CPU, aby zwiększyć wykorzystanie procesorów GPU w operacjach uczenia głębokiego.
Bezproblemowe uwierzytelnianie w magazynie w chmurze.

Zasób danych

Zasób danych usługi Azure Machine Learning przypomina zakładki przeglądarki internetowej (ulubione). Zamiast pamiętać długie ścieżki magazynu (URI), które wskazują najczęściej używane dane, można utworzyć zasób danych, a następnie uzyskać dostęp do tego zasobu za pomocą przyjaznej nazwy.

Tworzenie zasobu danych tworzy również odwołanie do lokalizacji źródła danych wraz z kopią metadanych. Ponieważ dane pozostają w istniejącej lokalizacji, nie ponosisz dodatkowych kosztów magazynowania i nie ryzykujesz integralności źródła danych. Zasoby danych można tworzyć na podstawie magazynów danych usługi Azure Machine Learning, usługi Azure Storage, publicznych adresów URL lub plików lokalnych.

Aby uzyskać więcej informacji na temat zasobów danych, odwiedź stronę Tworzenie zasobów danych.

Udostępnij za pośrednictwem