Udostępnij za pośrednictwem


Pojęcia dotyczące danych w usłudze Azure Machine Learning

Usługa Azure Machine Learning umożliwia importowanie danych z komputera lokalnego lub istniejącego zasobu magazynu w chmurze. W tym artykule opisano kluczowe pojęcia dotyczące danych usługi Azure Machine Learning.

Magazyn danych

Magazyn danych usługi Azure Machine Learning służy jako odwołanie do istniejącego konta usługi Azure Storage. Magazyn danych usługi Azure Machine Learning oferuje następujące korzyści:

  • Typowy, łatwy w użyciu interfejs API, który współdziała z różnymi typami magazynu (Blob/Files/ADLS).
  • Łatwiejsze odnajdywanie przydatnych magazynów danych w operacjach zespołowych.
  • W przypadku dostępu opartego na poświadczeniach (jednostki usługi/sygnatury dostępu współdzielonego/klucza) magazyn danych usługi Azure Machine Learning zabezpiecza informacje o połączeniu. W ten sposób nie trzeba umieszczać tych informacji w skryptach.

Podczas tworzenia magazynu danych przy użyciu istniejącego konta usługi Azure Storage dostępne są dwie różne opcje metody uwierzytelniania:

  • Oparte na poświadczeniach — uwierzytelnianie dostępu do danych przy użyciu jednostki usługi, tokenu sygnatury dostępu współdzielonego (SAS) lub klucza konta. Użytkownicy z dostępem do obszaru roboczego Czytelnik mogą uzyskiwać dostęp do poświadczeń.
  • Oparte na tożsamości — użyj tożsamości firmy Microsoft lub tożsamości zarządzanej do uwierzytelniania dostępu do danych.

Ta tabela zawiera podsumowanie usług magazynu w chmurze platformy Azure, które może utworzyć magazyn danych usługi Azure Machine Learning. Ponadto tabela zawiera podsumowanie typów uwierzytelniania, które mogą uzyskiwać dostęp do tych usług:

Obsługiwana usługa magazynu Uwierzytelnianie na podstawie poświadczeń Uwierzytelnianie na podstawie tożsamości
Azure Blob Container
Udział plików platformy Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

Aby uzyskać więcej informacji na temat magazynów danych, odwiedź stronę Tworzenie magazynów danych.

Domyślne magazyny danych

Każdy obszar roboczy usługi Azure Machine Learning ma domyślne konto magazynu (konto usługi Azure Storage), które zawiera następujące magazyny danych:

Napiwek

Aby znaleźć identyfikator obszaru roboczego, przejdź do obszaru roboczego w witrynie Azure Portal. Rozwiń węzeł Ustawienia, a następnie wybierz pozycję Właściwości. Zostanie wyświetlony identyfikator obszaru roboczego.

Nazwa magazynu danych Typ magazynu danych Nazwa magazynu danych opis
workspaceblobstore Kontener obiektów blob azureml-blobstore-{workspace-id} Przechowuje przekazywanie danych, migawki kodu zadania i pamięć podręczną danych potoku.
workspaceworkingdirectory Udział plików code-{GUID} Przechowuje dane dla notesów, wystąpień obliczeniowych i przepływu monitów.
workspacefilestore Udział plików azureml-filestore-{workspace-id} Alternatywny kontener do przekazywania danych.
workspaceartifactstore Kontener obiektów blob azureml Magazyn dla zasobów, takich jak metryki, modele i składniki.

Typy danych

URI (lokalizacja przechowywania) może odwoływać się do pliku, folderu lub tabeli danych. Definicja danych wejściowych i wyjściowych zadania uczenia maszynowego wymaga jednego z następujących trzech typów danych:

Typ Interfejs API w wersji 2 Interfejs API w wersji 1 Scenariusze kanoniczne Różnica między interfejsem API w wersji 2 i 1
Plik
Odwołanie do pojedynczego pliku
uri_file FileDataset Odczyt/zapis pojedynczego pliku — plik może mieć dowolny format. Nowy typ dla interfejsów API w wersji 2. W interfejsach API w wersji 1 pliki są zawsze mapowane na folder w systemie plików docelowego obiektu obliczeniowego; to mapowanie wymaga elementu os.path.join. W interfejsach API w wersji 2 mapowany jest pojedynczy plik. Dzięki temu można odwoływać się do tej lokalizacji w swoim kodzie.
Folder
Odwołanie do pojedynczego folderu
uri_folder FileDataset Musisz odczytać/zapisać folder plików parquet/CSV w Pandas/Spark.

Uczenie głębokie przy użyciu obrazów, tekstu, audio, plików wideo znajdujących się w folderze.
W interfejsach API w wersji 1 FileDataset był skojarzony z aparatem, który mógł pobrać przykładowy plik z folderu. W interfejsach API w wersji 2 folder to proste mapowanie na docelowy system plików obliczeniowych.
Tabela
Odwołanie do tabeli danych
mltable TabularDataset Masz złożony schemat, który podlega częstym zmianom lub potrzebujesz podzbioru dużych danych tabelarycznych.

AutoML z tabelami.
W interfejsach API w wersji 1 zaplecze usługi Azure Machine Learning przechowywało strategię materializacji danych. W związku z tym działało tylko wtedy, TabularDataset gdy masz obszar roboczy usługi Azure Machine Learning. mltableprzechowuje strategię materializacji danych w magazynie. Ta lokalizacja magazynu oznacza, że można użyć jej rozłączenia z usługą Azure Machine Learning — na przykład lokalnie i lokalnie. W interfejsach API w wersji 2 łatwiej jest przejść z zadań lokalnych do zdalnych. Aby uzyskać więcej informacji, zobacz Praca z tabelami w usłudze Azure Machine Learning.

Identyfikator URI

Identyfikator URI (Uniform Resource Identifier) reprezentuje lokalizację magazynu na komputerze lokalnym, usłudze Azure Storage lub publicznie dostępnej lokalizacji http(s). W poniższych przykładach pokazano identyfikatory URI dla różnych opcji magazynu:

Lokalizacja usługi Storage Przykłady identyfikatorów URI
Magazyn danych usługi Azure Machine Learning azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Komputer lokalny ./home/username/data/my_data
Publiczny serwer HTTP https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob storage wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Zadanie usługi Azure Machine Learning mapuje identyfikatory URI na docelowy system plików obliczeniowych. To mapowanie oznacza, że w przypadku polecenia, które używa lub generuje identyfikator URI, ten identyfikator URI działa jak plik lub folder. Identyfikator URI używa uwierzytelniania opartego na tożsamościach w celu nawiązania połączenia z usługami magazynu przy użyciu identyfikatora Entra (domyślnego) firmy Microsoft lub tożsamości zarządzanej. Identyfikatory URI magazynu danych usługi Azure Machine Learning mogą stosować uwierzytelnianie oparte na tożsamościach lub oparte na poświadczeniach (na przykład jednostka usługi, token SAS, klucz konta) bez ujawniania wpisów tajnych.

Identyfikator URI może służyć jako dane wejściowe lub wyjściowe zadania usługi Azure Machine Learning i może mapować go na docelowy system plików obliczeniowych z jedną z czterech różnych opcji trybu :

  • Instalacja tylko do odczytu (ro_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje wyłącznie dane wyjściowe tylko do odczytu.
  • Instalacja odczytu i zapisu (rw_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje zarówno odczyt danych wyjściowych, jak i zapisy danych.
  • Download (download): Identyfikator URI reprezentuje lokalizację magazynu zawierającą dane pobrane do docelowego systemu plików obliczeniowego.
  • Przekazywanie (upload): wszystkie dane zapisane w lokalizacji docelowej obliczeniowej są przekazywane do lokalizacji magazynu reprezentowanej przez identyfikator URI.

Ponadto można przekazać identyfikator URI jako ciąg wejściowy zadania z trybem bezpośrednim . Ta tabela zawiera podsumowanie kombinacji trybów dostępnych dla danych wejściowych i wyjściowych:

Zadanie
Dane wejściowe lub wyjściowe
upload download ro_mount rw_mount direct
Dane wejściowe
Dane wyjściowe

Aby uzyskać więcej informacji, odwiedź stronę Access data in a job (Uzyskiwanie dostępu do danych w zadaniu).

Możliwość środowiska uruchomieniowego danych

Usługa Azure Machine Learning używa własnego środowiska uruchomieniowego danych do jednego z trzech celów:

  • w przypadku instalacji/przekazywania/pobierania
  • mapowanie identyfikatorów URI magazynu na docelowy system plików obliczeniowych
  • aby zmaterializować dane tabelaryczne w bibliotece pandas/spark za pomocą tabel usługi Azure Machine Learning (mltable)

Środowisko uruchomieniowe danych usługi Azure Machine Learning zostało zaprojektowane z myślą o wysokiej szybkości i wysokiej wydajności zadań uczenia maszynowego. Oferuje następujące kluczowe korzyści:

  • Architektura języka Rust . Język Rust jest znany z dużej szybkości i wysokiej wydajności pamięci.
  • Lekka waga; Środowisko uruchomieniowe danych usługi Azure Machine Learning nie ma zależności od innych technologii — na przykład JVM — więc środowisko uruchomieniowe szybko instaluje się na docelowych obiektach obliczeniowych.
  • Ładowanie danych wieloprocesowych (równoległych).
  • Pobieranie danych wstępnie działa jako zadanie w tle na procesorach CPU, aby zwiększyć wykorzystanie procesorów GPU w operacjach uczenia głębokiego.
  • Bezproblemowe uwierzytelnianie w magazynie w chmurze.

Zasób danych

Zasób danych usługi Azure Machine Learning przypomina zakładki przeglądarki internetowej (ulubione). Zamiast pamiętać długie ścieżki magazynu (URI), które wskazują najczęściej używane dane, można utworzyć zasób danych, a następnie uzyskać dostęp do tego zasobu za pomocą przyjaznej nazwy.

Tworzenie zasobu danych tworzy również odwołanie do lokalizacji źródła danych wraz z kopią metadanych. Ponieważ dane pozostają w istniejącej lokalizacji, nie ponosisz dodatkowych kosztów magazynowania i nie ryzykujesz integralności źródła danych. Zasoby danych można tworzyć na podstawie magazynów danych usługi Azure Machine Learning, usługi Azure Storage, publicznych adresów URL lub plików lokalnych.

Aby uzyskać więcej informacji na temat zasobów danych, odwiedź stronę Tworzenie zasobów danych.

Następne kroki