Dane w usłudze Azure Machine Learning w wersji 1

DOTYCZY ROZSZERZENIA ML interfejsu wiersza polecenia platformy Azure w wersji 1

DOTYCZY: Zestaw SDK języka Python azureml w wersji 1

Usługa Azure Machine Edukacja ułatwia łączenie się z danymi w chmurze. Zapewnia warstwę abstrakcji w podstawowej usłudze magazynu, dzięki czemu można bezpiecznie uzyskiwać dostęp do danych i pracować z nimi bez konieczności pisania kodu specyficznego dla typu magazynu. Usługa Azure Machine Edukacja udostępnia również następujące możliwości danych:

  • Współdziałanie z obiektami Pandas i Spark DataFrame
  • Przechowywanie wersji i śledzenie pochodzenia danych
  • Etykietowanie danych
  • Monitorowanie dryfu danych

Przepływ pracy danych

Aby korzystać z danych w rozwiązaniu magazynu w chmurze, zalecamy przepływ pracy dostarczania danych. Przepływ pracy zakłada, że masz konto usługi Azure Storage i dane w usłudze magazynu w chmurze platformy Azure.

  1. Tworzenie magazynu danych usługi Azure Machine Edukacja w celu przechowywania informacji o połączeniu z usługą Azure Storage

  2. Z tego magazynu danych utwórz zestaw danych usługi Azure Machine Edukacja, aby wskazać określony plik lub pliki w bazowym magazynie

  3. Aby użyć tego zestawu danych w eksperymencie uczenia maszynowego, możesz użyć dowolnego z tych zestawów danych

    • Instalowanie zestawu danych do docelowego obiektu obliczeniowego eksperymentu na potrzeby trenowania modelu

      OR

    • Korzystanie z zestawu danych bezpośrednio w rozwiązaniach usługi Azure Machine Edukacja — na przykład przebiegów eksperymentów zautomatyzowanego uczenia maszynowego (zautomatyzowanego uczenia maszynowego), potoków uczenia maszynowego lub projektanta usługi Azure Machine Edukacja.

  4. Tworzenie monitorów zestawu danych dla wyjściowego zestawu danych modelu w celu wykrywania dryfu danych

  5. W przypadku wykrytego dryfu danych zaktualizuj wejściowy zestaw danych i odpowiednio przetrenuj model

Ten zrzut ekranu przedstawia zalecany przepływ pracy:

Screenshot showing the Azure Storage Service, which flows into a datastore and then into a dataset.

Połączenie do magazynu z magazynami danych

Usługa Azure Machine Edukacja magazyny danych bezpiecznie hostują informacje o połączeniu magazynu danych na platformie Azure, więc nie trzeba umieszczać tych informacji w skryptach. Aby uzyskać więcej informacji na temat nawiązywania połączenia z kontem magazynu i dostępem do danych w podstawowej usłudze magazynu, odwiedź stronę Rejestrowanie i tworzenie magazynu danych.

Te obsługiwane usługi magazynu oparte na chmurze platformy Azure mogą rejestrować się jako magazyny danych:

  • Azure Blob Container
  • Udział plików platformy Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database for PostgreSQL
  • System plików usługi Databricks
  • Azure Database for MySQL

Napiwek

Magazyny danych można tworzyć przy użyciu uwierzytelniania opartego na poświadczeniach, aby uzyskać dostęp do usług magazynu, na przykład jednostki usługi lub tokenu sygnatury dostępu współdzielonego (SAS). Użytkownicy z dostępem czytelnika do obszaru roboczego mogą uzyskiwać dostęp do tych poświadczeń.

Jeśli jest to problem, odwiedź stronę tworzenia magazynu danych, który używa dostępu do danych opartych na tożsamościach, aby uzyskać więcej informacji na temat połączeń z usługami magazynu.

Dokumentacja danych w magazynie z zestawami danych

Zestawy danych usługi Azure Machine Edukacja nie są kopiami danych. Tworzenie zestawu danych tworzy odwołanie do danych w usłudze magazynu wraz z kopią metadanych.

Ponieważ zestawy danych są lazily oceniane, a dane pozostają w istniejącej lokalizacji, ty

  • Poniesienie dodatkowych kosztów magazynowania
  • Nie ryzykuj niezamierzonych zmian w oryginalnych źródłach danych
  • Zwiększanie szybkości przepływów pracy uczenia maszynowego

Aby wchodzić w interakcje z danymi w magazynie, utwórz zestaw danych w celu spakowania danych do obiektu eksploatacyjnego na potrzeby zadań uczenia maszynowego. Zarejestruj zestaw danych w obszarze roboczym, aby udostępnić go i ponownie użyć w różnych eksperymentach bez złożoności pozyskiwania danych.

Zestawy danych można tworzyć na podstawie plików lokalnych, publicznych adresów URL, zestawów danych Platformy Azure Open lub usług Azure Storage za pośrednictwem magazynów danych.

Istnieją dwa typy zestawów danych:

  • Zestaw plików odwołuje się do jednego lub wielu plików w magazynach danych lub publicznych adresach URL. Jeśli dane są już oczyszczone i gotowe do eksperymentów szkoleniowych, możesz pobrać lub zainstalować pliki , do których odwołuje się zestawy FileDatasets do docelowego obiektu obliczeniowego

  • Tabelaryczny zestaw danych reprezentuje dane w formacie tabelarycznym, analizuje podany plik lub listę plików. Zestaw danych tabelarycznych można załadować do biblioteki pandas lub ramki danych Platformy Spark w celu dalszego manipulowania i czyszczenia. Aby uzyskać pełną listę formatów danych, z których można utworzyć zestawy TabularDatasets, odwiedź klasę TabularDatasetFactory

Te zasoby oferują więcej informacji na temat możliwości zestawu danych:

Praca z danymi

Zestawy danych umożliwiają wykonywanie zadań uczenia maszynowego dzięki bezproblemowej integracji z funkcjami usługi Azure Machine Edukacja.

Etykietowanie danych przy użyciu projektów etykietowania danych

Etykietowanie dużych ilości danych w projektach uczenia maszynowego może stać się bólem głowy. Projekty, które obejmują składnik przetwarzania obrazów, taki jak klasyfikacja obrazów lub wykrywanie obiektów, często wymagają tysięcy obrazów i odpowiednich etykiet.

Usługa Azure Machine Edukacja udostępnia centralną lokalizację do tworzenia i monitorowania projektów etykietowania oraz zarządzania nimi. Projekty etykietowania ułatwiają koordynowanie danych, etykiet i członków zespołu, dzięki czemu można wydajniej zarządzać zadaniami etykietowania. Obecnie obsługiwane zadania obejmują klasyfikację obrazów, wiele etykiet lub wiele klas oraz identyfikację obiektów przy użyciu pól ograniczonych.

Utwórz projekt etykietowania obrazów lub projekt etykietowania tekstu i wyprowadź zestaw danych do użycia w eksperymentach uczenia maszynowego.

Monitorowanie wydajności modelu za pomocą dryfu danych

W kontekście uczenia maszynowego dryf danych obejmuje zmianę danych wejściowych modelu, co prowadzi do obniżenia wydajności modelu. Jest to główny powód, dla którego dokładność modelu spada w czasie, a monitorowanie dryfu danych pomaga wykrywać problemy z wydajnością modelu.

Aby uzyskać więcej informacji, odwiedź stronę Tworzenie monitora zestawu danych, aby dowiedzieć się, jak wykrywać dryf danych i wysyłać alerty o dryfowaniu danych na nowych danych w zestawie danych.

Następne kroki