Śledzenie opracowywania modeli
Proces tworzenia modelu jest iteracyjny i może być trudny do śledzenia pracy podczas opracowywania i optymalizowania modelu. W usłudze Azure Databricks możesz użyć śledzenia platformy MLflow , aby ułatwić śledzenie procesu opracowywania modelu, w tym ustawień parametrów lub kombinacji, które próbowano, oraz sposobu ich wpływu na wydajność modelu.
Śledzenie MLflow używa eksperymentów i przebiegów do rejestrowania i śledzenia opracowywania modelu. Przebieg to pojedyncze wykonanie kodu modelu. Podczas przebiegu platformy MLflow można rejestrować parametry i wyniki modelu. Eksperyment jest kolekcją powiązanych przebiegów. W ramach eksperymentu można porównać i filtrować przebiegi, aby zrozumieć, jak działa model i jak jego wydajność zależy od ustawień parametrów, danych wejściowych itd.
Notesy w tym artykule zawierają proste przykłady, które mogą pomóc w szybkim rozpoczęciu korzystania z platformy MLflow do śledzenia opracowywania modelu. Aby uzyskać więcej informacji na temat korzystania ze śledzenia platformy MLflow w usłudze Azure Databricks, zobacz Śledzenie przebiegów trenowania uczenia maszynowego.
Uwaga
Śledzenie MLflow nie obsługuje zadań przesłanych przy użyciu spark_submit_task w interfejsie API zadań. Zamiast tego możesz użyć projektów MLflow do uruchomienia kodu platformy Spark.
Używanie automatycznego rejestrowania do śledzenia tworzenia modeli
Platforma MLflow może automatycznie rejestrować kod trenowania napisany w wielu strukturach uczenia maszynowego. Jest to najprostszy sposób rozpoczęcia korzystania ze śledzenia platformy MLflow.
W tym przykładowym notesie pokazano, jak używać automatycznego rejestrowania za pomocą biblioteki scikit-learn. Aby uzyskać informacje na temat automatycznego rejestrowania z innymi bibliotekami języka Python, zobacz Automatyczne rejestrowanie przebiegów trenowania w usłudze MLflow.
Szybki start: automatyczne rejestrowanie MLflow — notes języka Python
Śledzenie tworzenia modeli za pomocą interfejsu API rejestrowania
W tym notesie pokazano, jak używać interfejsu API rejestrowania platformy MLflow. Użycie interfejsu API rejestrowania zapewnia większą kontrolę nad rejestrowanymi metrykami i umożliwia rejestrowanie dodatkowych artefaktów, takich jak tabele lub wykresy.
W tym przykładowym notesie pokazano, jak używać interfejsu API rejestrowania języka Python. Platforma MLflow ma również interfejsy API REST, R i Java.
Przewodnik Szybki start dotyczący interfejsu API rejestrowania platformy MLflow w języku Python
Pełny przykład
W tym notesie samouczka przedstawiono kompleksowe przykład trenowania modelu w usłudze Azure Databricks, w tym ładowania danych, wizualizowania danych, konfigurowania równoległej optymalizacji hiperparametrów oraz przeglądania wyników, rejestrowania modelu i wnioskowania na nowych danych przy użyciu zarejestrowanego modelu w funkcji zdefiniowanej przez użytkownika platformy Spark.
Wymagania
Databricks Runtime ML