Identyfikowanie zasobów usługi Azure Machine Edukacja

Ukończone

Jako analityk danych będziesz głównie pracować z elementami zawartości w obszarze roboczym usługi Azure Machine Edukacja. Zasoby są tworzone i używane na różnych etapach projektu i obejmują:

  • Modele
  • Środowiska
  • Data
  • Elementy

Tworzenie modeli i zarządzanie nimi

Końcowym produktem trenowania modelu jest sam model. Modele uczenia maszynowego można trenować przy użyciu różnych struktur, takich jak Scikit-learn lub PyTorch. Typowym sposobem przechowywania takich modeli jest spakowanie modelu jako pliku pickle języka Python (.pkl rozszerzenie).

Alternatywnie możesz użyć platformy open source MLflow do przechowywania modelu w formacie MLModel.

Niezależnie od wybranego formatu pliki binarne będą reprezentować model i odpowiednie metadane. Aby zachować te pliki, możesz utworzyć lub zarejestrować model w obszarze roboczym.

Podczas tworzenia modelu w obszarze roboczym określisz nazwę i wersję. Szczególnie przydatne podczas wdrażania zarejestrowanego modelu przechowywanie wersji umożliwia śledzenie określonego modelu, którego chcesz użyć.

Tworzenie środowisk i zarządzanie nimi

Podczas pracy z obliczeniami w chmurze ważne jest, aby upewnić się, że kod jest uruchamiany na wszystkich dostępnych obliczeniach. Niezależnie od tego, czy chcesz uruchomić skrypt w wystąpieniu obliczeniowym, czy w klastrze obliczeniowym, kod powinien zostać wykonany pomyślnie.

Wyobraź sobie, że pracujesz w języku Python lub R, używając struktur typu open source do trenowania modelu na urządzeniu lokalnym. Jeśli chcesz użyć biblioteki, takiej jak Scikit-learn lub PyTorch, musisz zainstalować ją na urządzeniu.

Podobnie podczas pisania kodu korzystającego z dowolnych struktur lub bibliotek należy upewnić się, że niezbędne składniki są zainstalowane na obliczeniach, które będą wykonywać kod. Aby wyświetlić listę wszystkich niezbędnych wymagań, możesz utworzyć środowiska. Podczas tworzenia środowiska należy określić nazwę i wersję.

Środowiska określają pakiety oprogramowania, zmienne środowiskowe i ustawienia oprogramowania do uruchamiania skryptów. Środowisko jest przechowywane jako obraz w usłudze Azure Container Registry utworzonym za pomocą obszaru roboczego, gdy jest używane po raz pierwszy.

Za każdym razem, gdy chcesz uruchomić skrypt, możesz określić środowisko, które musi być używane przez docelowy obiekt obliczeniowy. Środowisko zainstaluje wszystkie niezbędne wymagania dotyczące obliczeń przed wykonaniem skryptu, dzięki czemu kod będzie niezawodny i wielokrotnego użytku w obiektach docelowych obliczeniowych.

Tworzenie i zarządzanie danymi

Magazyny danych zawierają informacje o połączeniu z usługami azure data storage, zasoby danych odwołują się do określonego pliku lub folderu.

Za pomocą zasobów danych można łatwo uzyskiwać dostęp do danych za każdym razem bez konieczności zapewniania uwierzytelniania za każdym razem, gdy chcesz uzyskać do nich dostęp.

Podczas tworzenia zasobu danych w obszarze roboczym określisz ścieżkę wskazującą plik lub folder oraz nazwę i wersję.

Tworzenie składników i zarządzanie nimi

Aby wytrenować modele uczenia maszynowego, napiszesz kod. W projektach może istnieć kod, którego można użyć ponownie. Zamiast pisać kod od podstaw, należy ponownie użyć fragmentów kodu z innych projektów.

Aby ułatwić udostępnianie kodu, możesz utworzyć składnik w obszarze roboczym. Aby utworzyć składnik, musisz określić nazwę, wersję, kod i środowisko potrzebne do uruchomienia kodu.

Składniki można używać podczas tworzenia potoków. W związku z tym składnik często reprezentuje krok w potoku, na przykład w celu normalizacji danych, trenowania modelu regresji lub testowania wytrenowanego modelu na zestawie danych weryfikacji.