Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej w następujących regionach: centralus
, , eastus
eastus2
, northcentralus
i westus
.
W tym artykule opisano, jak wyświetlać, zarządzać i analizować dostrajanie modeli bazowych (obecnie część programu Mosaic AI Model Training) za pomocą interfejsów API lub interfejsu użytkownika.
Aby uzyskać informacje na temat tworzenia treningów, zobacz Tworzenie treningu za pomocą API finetuningu modelu podstawowego i Tworzenie treningu za pomocą interfejsu użytkownika finetuningu modelu podstawowego.
Użyj interfejsów API dostrajania modelu bazowego do zarządzania przebiegami trenowania i ich wyświetlania.
Interfejsy API dostrajania modelu podstawowego udostępniają następujące funkcje do zarządzania przebiegami trenowania.
Rozpocznij bieg
Użyj funkcji , get()
aby zwrócić przebieg według nazwy lub uruchomionego obiektu.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Lista przebiegów
Użyj funkcji list()
, aby zobaczyć uruchomione przez Ciebie przebiegi. W poniższej tabeli wymieniono opcjonalne filtry, które można określić.
Filtr opcjonalny | Definicja |
---|---|
finetuning_runs |
Lista przebiegów do pobrania. Domyślnie wybiera wszystkie uruchomienia. |
user_emails |
Jeśli udostępnione uruchomienia są włączone dla obszaru roboczego, możesz filtrować wyniki według użytkownika, który przesłał przebieg trenowania. Domyślnie nie ma filtru użytkownika. |
before |
Ciąg lub obiekt daty/godziny używany do filtrowania przebiegów wcześniejszych. Domyślne ustawienia dotyczą wszystkich przebiegów. |
after |
Data i godzina lub ciąg daty i godziny do filtrowania uruchomień późniejszych. Domyślne ustawienia dotyczą wszystkich przebiegów. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
Anuluj sesje treningowe
Aby anulować pojedynczy przebieg trenowania, użyj cancel()
funkcji i przekaż nazwę przebiegu.
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
Aby anulować wiele sesji treningowych, podaj konkretne nazwy sesji jako listę.
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
Aby anulować wszystkie procesy szkoleniowe w eksperymencie, przekaż identyfikator eksperymentu.
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
Przegląd stanu sesji szkoleniowych
W poniższej tabeli wymieniono zdarzenia utworzone przez przebieg trenowania. Użyj funkcji get_events()
w dowolnym momencie podczas przebiegu, aby zobaczyć jego postęp.
Uwaga
Dostrajanie modelu foundation wymusza limit 10 aktywnych uruchomień. Te zadania, które znajdują się w kolejce, są uruchomione lub kończące się. Przebiegi nie są już traktowane jako aktywne, gdy znajdują się w stanie ZAKOŃCZONY, NIEPOWODZENIE lub ZATRZYMANY.
Typ zdarzenia | Przykładowy komunikat o zdarzeniu | Definicja |
---|---|---|
CREATED |
Utworzono zadanie. | Został utworzony przebieg trenowania. Jeśli zasoby są dostępne, proces się rozpocznie. W przeciwnym razie wprowadza w stan Pending . |
STARTED |
Rozpoczęto uruchamianie. | Przydzielono zasoby, a przebieg został uruchomiony. |
DATA_VALIDATED |
Zweryfikowane dane szkoleniowe. | Sprawdzono, czy dane szkoleniowe są poprawnie sformatowane. |
MODEL_INITIALIZED |
Dane modelu pobrane i zainicjowane dla modelu meta-llama/Llama-2-7b-chat-hf podstawowego. |
Wagi dla modelu podstawowego zostały pobrane, a szkolenie jest gotowe do rozpoczęcia. |
TRAIN_UPDATED |
[epoch=1/1][batch=50/56][ETA=5min] Utrata pociągu: 1,71 | Raportuje bieżącą partię treningową, epokę lub token oraz szacowany czas do zakończenia trenowania (bez uwzględniania czasu przesyłania punktu kontrolnego) oraz utratę trenowania. To wydarzenie jest aktualizowane po zakończeniu każdej serii. Jeśli konfiguracja przebiegu określa max_duration w tok jednostkach, postęp jest zgłaszany w tokenach. |
TRAIN_FINISHED |
Ukończono szkolenie. | Szkolenie zostało zakończone. Rozpoczyna się przekazywanie punktów kontrolnych. |
COMPLETED |
Przebieg ukończony. Końcowe wagi zostały przesłane. | Punkt kontrolny został przekazany i proces został ukończony. |
CANCELED |
Uruchom anulowane. | Przebieg zostanie anulowany, jeśli wywołano fm.cancel() . |
FAILED |
Co najmniej jedna próbka zestawu danych treningowych ma nieznane klucze. Zapoznaj się z dokumentacją obsługiwanych formatów danych. | Przebieg nie powiódł się. Sprawdź event_message dla szczegółów do podjęcia działań lub skontaktuj się ze wsparciem. |
from databricks.model_training import foundation_model as fm
fm.get_events()
Wyświetlanie przebiegów i zarządzanie nimi za pomocą interfejsu użytkownika
Aby wyświetlić wyniki w interfejsie użytkownika:
Kliknij pozycję Eksperymenty na pasku nawigacyjnym po lewej stronie, aby wyświetlić stronę Eksperymenty.
W tabeli kliknij nazwę eksperymentu, aby wyświetlić stronę eksperymentu. Strona eksperymentu zawiera listę wszystkich przebiegów skojarzonych z eksperymentem.
Aby wyświetlić dodatkowe informacje lub metryki w tabeli, kliknij
i wybierz elementy do wyświetlenia z menu:
Dodatkowe informacje o uruchomieniu są dostępne w zakładce Wykres.
Możesz również kliknąć nazwę przebiegu, aby wyświetlić ekran przebiegu. Ten ekran zapewnia dostęp do dodatkowych szczegółów dotyczących przebiegu.
Punktów kontrolnych
Aby uzyskać dostęp do folderu punktu kontrolnego, kliknij kartę Artefakty na ekranie uruchamiania. Otwórz nazwę eksperymentu, a następnie otwórz folder punktów kontrolnych . Punkty kontrolne związane z artefaktami nie są tym samym co zarejestrowany model na końcu procesu trenowania.
W tym folderze znajduje się kilka katalogów:
- Foldery epok (nazwane
ep<n>-xxx
) zawierają wagi i stany modelu w każdym punkcie kontrolnym. Punkty kontrolne są okresowo zapisywane w trakcie procesu trenowania. Są one używane do wznowienia sesji trenowania z dostrajaniem modelu oraz kontynuacji tego dostrajania. Ten punkt kontrolny jest punktem kontrolnym, który przekazujesz jakocustom_weights_path
do rozpoczęcia kolejnego trenowania od tych wag, zobacz więcej w Build on custom model weights (Tworzenie na niestandardowych wagach modelu). - Jest
checkpoints/latest-sharded-rank0.symlink
to plik, który zawiera ścieżkę do najnowszego punktu kontrolnego, którego można użyć do wznowienia trenowania.
Po zapisaniu można również uzyskać punkty kontrolne dla przebiegu przy użyciu polecenia get_checkpoints(run)
. Ta funkcja przyjmuje obiekt run jako dane wejściowe. Jeśli punkty kontrolne nie istnieją jeszcze, zostanie wyświetlony monit o ponowne wypróbowanie po zapisaniu punktów kontrolnych.