Dane w usłudze Azure Machine Learning w wersji 1

Artykuł
06/13/2024

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure w wersji 1

DOTYCZY: Zestaw SDK języka Python w wersji 1

Usługa Azure Machine Learning ułatwia łączenie się z danymi w chmurze. Zapewnia warstwę abstrakcji w podstawowej usłudze magazynu, dzięki czemu można bezpiecznie uzyskiwać dostęp do danych i pracować z nimi bez konieczności pisania kodu specyficznego dla typu magazynu. Usługa Azure Machine Learning udostępnia również następujące możliwości danych:

Współdziałanie z obiektami Pandas i Spark DataFrame
Przechowywanie wersji i śledzenie pochodzenia danych
Etykietowanie danych
Monitorowanie dryfu danych

Przepływ pracy danych

Aby korzystać z danych w rozwiązaniu magazynu w chmurze, zalecamy przepływ pracy dostarczania danych. Przepływ pracy zakłada, że masz konto usługi Azure Storage i dane w usłudze magazynu w chmurze platformy Azure.

Tworzenie magazynu danych usługi Azure Machine Learning w celu przechowywania informacji o połączeniu z usługą Azure Storage
Z tego magazynu danych utwórz zestaw danych usługi Azure Machine Learning, aby wskazać określony plik lub pliki w bazowym magazynie
Aby użyć tego zestawu danych w eksperymencie uczenia maszynowego, możesz użyć dowolnego z tych zestawów danych
- Instalowanie zestawu danych do docelowego obiektu obliczeniowego eksperymentu na potrzeby trenowania modelu
  
  OR
- Korzystanie z zestawu danych bezpośrednio w rozwiązaniach Azure Machine Learning — na przykład przebiegów eksperymentów zautomatyzowanego uczenia maszynowego (zautomatyzowanego uczenia maszynowego), potoków uczenia maszynowego lub projektanta usługi Azure Machine Learning.
Tworzenie monitorów zestawu danych dla wyjściowego zestawu danych modelu w celu wykrywania dryfu danych
W przypadku wykrytego dryfu danych zaktualizuj wejściowy zestaw danych i odpowiednio przetrenuj model

Ten zrzut ekranu przedstawia zalecany przepływ pracy:

Nawiązywanie połączenia z magazynem danych za pomocą magazynów danych

Magazyny danych usługi Azure Machine Learning bezpiecznie hostują informacje o połączeniu magazynu danych na platformie Azure, więc nie trzeba umieszczać tych informacji w skryptach. Aby uzyskać więcej informacji na temat nawiązywania połączenia z kontem magazynu i dostępem do danych w podstawowej usłudze magazynu, odwiedź stronę Rejestrowanie i tworzenie magazynu danych.

Te obsługiwane usługi magazynu oparte na chmurze platformy Azure mogą rejestrować się jako magazyny danych:

Azure Blob Container
Udział plików platformy Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
System plików usługi Databricks
Azure Database for MySQL

Napiwek

Magazyny danych można tworzyć przy użyciu uwierzytelniania opartego na poświadczeniach, aby uzyskać dostęp do usług magazynu, na przykład jednostki usługi lub tokenu sygnatury dostępu współdzielonego (SAS). Użytkownicy z dostępem czytelnika do obszaru roboczego mogą uzyskiwać dostęp do tych poświadczeń.

Jeśli jest to problem, odwiedź stronę tworzenia magazynu danych, który używa dostępu do danych opartych na tożsamościach, aby uzyskać więcej informacji na temat połączeń z usługami magazynu.

Dokumentacja danych w magazynie z zestawami danych

Zestawy danych usługi Azure Machine Learning nie są kopiami danych. Tworzenie zestawu danych tworzy odwołanie do danych w usłudze magazynu wraz z kopią metadanych.

Ponieważ zestawy danych są lazily oceniane, a dane pozostają w istniejącej lokalizacji, ty

Poniesienie dodatkowych kosztów magazynowania
Nie ryzykuj niezamierzonych zmian w oryginalnych źródłach danych
Zwiększanie szybkości przepływów pracy uczenia maszynowego

Aby wchodzić w interakcje z danymi w magazynie, utwórz zestaw danych w celu spakowania danych do obiektu eksploatacyjnego na potrzeby zadań uczenia maszynowego. Zarejestruj zestaw danych w obszarze roboczym, aby udostępnić go i ponownie użyć w różnych eksperymentach bez złożoności pozyskiwania danych.

Zestawy danych można tworzyć na podstawie plików lokalnych, publicznych adresów URL, zestawów danych Platformy Azure Open lub usług Azure Storage za pośrednictwem magazynów danych.

Istnieją dwa typy zestawów danych:

Zestaw plików odwołuje się do jednego lub wielu plików w magazynach danych lub publicznych adresach URL. Jeśli dane są już oczyszczone i gotowe do eksperymentów szkoleniowych, możesz pobrać lub zainstalować pliki , do których odwołuje się zestawy FileDatasets do docelowego obiektu obliczeniowego
Tabelaryczny zestaw danych reprezentuje dane w formacie tabelarycznym, analizuje podany plik lub listę plików. Zestaw danych tabelarycznych można załadować do biblioteki pandas lub ramki danych Platformy Spark w celu dalszego manipulowania i czyszczenia. Aby uzyskać pełną listę formatów danych, z których można utworzyć zestawy TabularDatasets, odwiedź klasę TabularDatasetFactory

Te zasoby oferują więcej informacji na temat możliwości zestawu danych:

Przechowywanie wersji i śledzenie pochodzenia zestawu danych
Monitorowanie zestawu danych w celu ułatwienia wykrywania dryfu danych

Praca z danymi

Zestawy danych umożliwiają wykonywanie zadań uczenia maszynowego dzięki bezproblemowej integracji z funkcjami usługi Azure Machine Learning.

Tworzenie projektu etykietowania danych
Trenowanie modeli uczenia maszynowego:
Uzyskiwanie dostępu do zestawów danych na potrzeby oceniania przy użyciu wnioskowania wsadowego w potokach uczenia maszynowego
Konfigurowanie monitora zestawu danych na potrzeby wykrywania dryfu danych

Etykietowanie danych przy użyciu projektów etykietowania danych

Etykietowanie dużych ilości danych w projektach uczenia maszynowego może stać się bólem głowy. Projekty, które obejmują składnik przetwarzania obrazów, taki jak klasyfikacja obrazów lub wykrywanie obiektów, często wymagają tysięcy obrazów i odpowiednich etykiet.

Usługa Azure Machine Learning udostępnia centralną lokalizację do tworzenia i monitorowania projektów etykietowania oraz zarządzania nimi. Projekty etykietowania ułatwiają koordynowanie danych, etykiet i członków zespołu, dzięki czemu można wydajniej zarządzać zadaniami etykietowania. Obecnie obsługiwane zadania obejmują klasyfikację obrazów, wiele etykiet lub wiele klas oraz identyfikację obiektów przy użyciu pól ograniczonych.

Utwórz projekt etykietowania obrazów lub projekt etykietowania tekstu i wyprowadź zestaw danych do użycia w eksperymentach uczenia maszynowego.

Monitorowanie wydajności modelu za pomocą dryfu danych

W kontekście uczenia maszynowego dryf danych obejmuje zmianę danych wejściowych modelu, co prowadzi do obniżenia wydajności modelu. Jest to główny powód, dla którego dokładność modelu spada w czasie, a monitorowanie dryfu danych pomaga wykrywać problemy z wydajnością modelu.

Aby uzyskać więcej informacji, odwiedź stronę Tworzenie monitora zestawu danych, aby dowiedzieć się, jak wykrywać dryf danych i wysyłać alerty o dryfowaniu danych na nowych danych w zestawie danych.

Następne kroki

Tworzenie zestawu danych w usłudze Azure Machine Learning Studio lub przy użyciu zestawu SDK języka Python
Wypróbuj przykłady trenowania zestawu danych za pomocą naszych przykładowych notesów

Udostępnij za pośrednictwem