Wprowadzenie

Ukończone

W uczeniu maszynowym modele są trenowane w celu przewidywania nieznanych wyników przez uczenie się wzorców z oznaczonych danymi treningowymi. Sposób, w jaki model uczy się, ma wpływ nie tylko na same dane, ale także przez hiperparametry — ustawienia kontrolujące proces trenowania. Nie są one wyciągane z danych, ale są ustawiane ręcznie przed rozpoczęciem trenowania, na przykład:

  • W regresji logistycznej współczynnik regularizacji pomaga zapobiegać przeuczaniu, karząc nadmiernie złożone modele.
  • W sieciach neuronowych wskaźnik uczenia określa, jak szybko model aktualizuje jego wagi, wpływając zarówno na szybkość, jak i dokładność.

Uwaga / Notatka

W terminologii uczenia maszynowego wartości poznane na podstawie danych są nazywane parametrami. Aby odróżnić je od wartości, które konfigurują proces trenowania, używamy terminu hiperparametry.

Wybór odpowiednich hiperparametrów ma kluczowe znaczenie. Słabe wybory mogą prowadzić do tego, że modele są niedostatecznie lepsze lub nie mogą uogólniać nowych danych. Z drugiej strony dobrze dostrojone hiperparametry mogą znacznie poprawić dokładność, niezawodność i wydajność modelu.

W tym miejscu następuje dostrajanie hiperparametrów — proces systematycznego testowania różnych kombinacji wartości hiperparametrów w celu znalezienia najlepszej konfiguracji dla określonych danych i zadań.

W usłudze Azure Databricks możesz zautomatyzować ten proces za pomocą biblioteki Optuna . Optuna inteligentnie bada przestrzeń hiperparametrów, trenując i oceniając modele wielokrotnie, aż do zidentyfikowania najbardziej efektywnej konfiguracji. Ułatwia to tworzenie modeli, które nie tylko działają dobrze, ale także lepiej się uogólniają na nieznane dane.

W usłudze Azure Databricks można używać bibliotek, takich jak Optuna lub Ray Tune na potrzeby optymalizacji hiperparametrów. Chociaż oba te narzędzia są zaawansowanymi narzędziami, w tym module skupiamy się na Optuna. Optuna inteligentnie bada przestrzeń hiperparametrów, prowadząc trenowanie i ocenianie modeli wielokrotnie do momentu zidentyfikowania najbardziej efektywnej konfiguracji. Ułatwia to tworzenie modeli, które nie tylko działają dobrze, ale także lepiej uogólniają się na nowe dane.