Wyświetlanie przebiegów dostrajania modelu podstawowego, zarządzanie nimi i analizowanie ich

2025-04-10

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej w następujących regionach: centralus, , eastuseastus2, northcentralusi westus.

W tym artykule opisano, jak wyświetlać, zarządzać i analizować dostrajanie modeli bazowych (obecnie część programu Mosaic AI Model Training) za pomocą interfejsów API lub interfejsu użytkownika.

Aby uzyskać informacje na temat tworzenia treningów, zobacz Tworzenie treningu za pomocą API finetuningu modelu podstawowego i Tworzenie treningu za pomocą interfejsu użytkownika finetuningu modelu podstawowego.

Użyj interfejsów API dostrajania modelu bazowego do zarządzania przebiegami trenowania i ich wyświetlania.

Interfejsy API dostrajania modelu podstawowego udostępniają następujące funkcje do zarządzania przebiegami trenowania.

Rozpocznij bieg

Użyj funkcji , get() aby zwrócić przebieg według nazwy lub uruchomionego obiektu.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Lista przebiegów

Użyj funkcji list(), aby zobaczyć uruchomione przez Ciebie przebiegi. W poniższej tabeli wymieniono opcjonalne filtry, które można określić.

Filtr opcjonalny	Definicja
`finetuning_runs`	Lista przebiegów do pobrania. Domyślnie wybiera wszystkie uruchomienia.
`user_emails`	Jeśli udostępnione uruchomienia są włączone dla obszaru roboczego, możesz filtrować wyniki według użytkownika, który przesłał przebieg trenowania. Domyślnie nie ma filtru użytkownika.
`before`	Ciąg lub obiekt daty/godziny używany do filtrowania przebiegów wcześniejszych. Domyślne ustawienia dotyczą wszystkich przebiegów.
`after`	Data i godzina lub ciąg daty i godziny do filtrowania uruchomień późniejszych. Domyślne ustawienia dotyczą wszystkich przebiegów.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Anuluj sesje treningowe

Aby anulować pojedynczy przebieg trenowania, użyj cancel() funkcji i przekaż nazwę przebiegu.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Aby anulować wiele sesji treningowych, podaj konkretne nazwy sesji jako listę.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Aby anulować wszystkie procesy szkoleniowe w eksperymencie, przekaż identyfikator eksperymentu.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Przegląd stanu sesji szkoleniowych

W poniższej tabeli wymieniono zdarzenia utworzone przez przebieg trenowania. Użyj funkcji get_events() w dowolnym momencie podczas przebiegu, aby zobaczyć jego postęp.

Uwaga

Dostrajanie modelu foundation wymusza limit 10 aktywnych uruchomień. Te zadania, które znajdują się w kolejce, są uruchomione lub kończące się. Przebiegi nie są już traktowane jako aktywne, gdy znajdują się w stanie ZAKOŃCZONY, NIEPOWODZENIE lub ZATRZYMANY.

Typ zdarzenia	Przykładowy komunikat o zdarzeniu	Definicja
`CREATED`	Utworzono zadanie.	Został utworzony przebieg trenowania. Jeśli zasoby są dostępne, proces się rozpocznie. W przeciwnym razie wprowadza w stan `Pending`.
`STARTED`	Rozpoczęto uruchamianie.	Przydzielono zasoby, a przebieg został uruchomiony.
`DATA_VALIDATED`	Zweryfikowane dane szkoleniowe.	Sprawdzono, czy dane szkoleniowe są poprawnie sformatowane.
`MODEL_INITIALIZED`	Dane modelu pobrane i zainicjowane dla modelu `meta-llama/Llama-2-7b-chat-hf`podstawowego.	Wagi dla modelu podstawowego zostały pobrane, a szkolenie jest gotowe do rozpoczęcia.
`TRAIN_UPDATED`	[epoch=1/1][batch=50/56][ETA=5min] Utrata pociągu: 1,71	Raportuje bieżącą partię treningową, epokę lub token oraz szacowany czas do zakończenia trenowania (bez uwzględniania czasu przesyłania punktu kontrolnego) oraz utratę trenowania. To wydarzenie jest aktualizowane po zakończeniu każdej serii. Jeśli konfiguracja przebiegu określa `max_duration` w `tok` jednostkach, postęp jest zgłaszany w tokenach.
`TRAIN_FINISHED`	Ukończono szkolenie.	Szkolenie zostało zakończone. Rozpoczyna się przekazywanie punktów kontrolnych.
`COMPLETED`	Przebieg ukończony. Końcowe wagi zostały przesłane.	Punkt kontrolny został przekazany i proces został ukończony.
`CANCELED`	Uruchom anulowane.	Przebieg zostanie anulowany, jeśli wywołano `fm.cancel()`.
`FAILED`	Co najmniej jedna próbka zestawu danych treningowych ma nieznane klucze. Zapoznaj się z dokumentacją obsługiwanych formatów danych.	Przebieg nie powiódł się. Sprawdź `event_message` dla szczegółów do podjęcia działań lub skontaktuj się ze wsparciem.

from databricks.model_training import foundation_model as fm

fm.get_events()

Wyświetlanie przebiegów i zarządzanie nimi za pomocą interfejsu użytkownika

Aby wyświetlić wyniki w interfejsie użytkownika:

Kliknij pozycję Eksperymenty na pasku nawigacyjnym po lewej stronie, aby wyświetlić stronę Eksperymenty.
W tabeli kliknij nazwę eksperymentu, aby wyświetlić stronę eksperymentu. Strona eksperymentu zawiera listę wszystkich przebiegów skojarzonych z eksperymentem.
Aby wyświetlić dodatkowe informacje lub metryki w tabeli, kliknij i wybierz elementy do wyświetlenia z menu:
Dodatkowe informacje o uruchomieniu są dostępne w zakładce Wykres.
Możesz również kliknąć nazwę przebiegu, aby wyświetlić ekran przebiegu. Ten ekran zapewnia dostęp do dodatkowych szczegółów dotyczących przebiegu.

Punktów kontrolnych

Aby uzyskać dostęp do folderu punktu kontrolnego, kliknij kartę Artefakty na ekranie uruchamiania. Otwórz nazwę eksperymentu, a następnie otwórz folder punktów kontrolnych . Punkty kontrolne związane z artefaktami nie są tym samym co zarejestrowany model na końcu procesu trenowania.

folder punktu kontrolnego na zakładce artefaktów

W tym folderze znajduje się kilka katalogów:

Foldery epok (nazwane ep<n>-xxx) zawierają wagi i stany modelu w każdym punkcie kontrolnym. Punkty kontrolne są okresowo zapisywane w trakcie procesu trenowania. Są one używane do wznowienia sesji trenowania z dostrajaniem modelu oraz kontynuacji tego dostrajania. Ten punkt kontrolny jest punktem kontrolnym, który przekazujesz jako custom_weights_path do rozpoczęcia kolejnego trenowania od tych wag, zobacz więcej w Build on custom model weights (Tworzenie na niestandardowych wagach modelu).
Jest checkpoints/latest-sharded-rank0.symlink to plik, który zawiera ścieżkę do najnowszego punktu kontrolnego, którego można użyć do wznowienia trenowania.

Po zapisaniu można również uzyskać punkty kontrolne dla przebiegu przy użyciu polecenia get_checkpoints(run). Ta funkcja przyjmuje obiekt run jako dane wejściowe. Jeśli punkty kontrolne nie istnieją jeszcze, zostanie wyświetlony monit o ponowne wypróbowanie po zapisaniu punktów kontrolnych.