Trenowanie modelu podstawowego

Artykuł
05/21/2024

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej. Skontaktuj się z zespołem konta usługi Databricks, aby zarejestrować się w publicznej wersji zapoznawczej.

Korzystając z trenowania modelu foundation, możesz użyć własnych danych, aby dostosować model podstawowy, aby zoptymalizować jego wydajność dla określonej aplikacji. Dostrajając lub kontynuując szkolenie modelu podstawowego, możesz wytrenować własny model przy użyciu znacznie mniejszej ilości danych, czasu i zasobów obliczeniowych niż trenowanie modelu od podstaw.

Dzięki usłudze Databricks masz wszystko na jednej platformie: własne dane do użycia do trenowania, model podstawowy do trenowania, punkty kontrolne zapisane w usłudze MLflow oraz model zarejestrowany w katalogu aparatu Unity i gotowy do wdrożenia.

Ten artykuł zawiera omówienie podstawowego trenowania modelu w usłudze Databricks. Aby uzyskać szczegółowe informacje na temat korzystania z niego, zobacz następujące tematy:

Co to jest szkolenie modelu foundation?

Trenowanie modelu foundation umożliwia korzystanie z interfejsu API lub interfejsu użytkownika usługi Databricks w celu dostosowania lub dalszego trenowania modelu podstawowego.

Za pomocą trenowania modelu foundation można wykonywać następujące czynności:

Trenowanie modelu przy użyciu danych niestandardowych przy użyciu punktów kontrolnych zapisanych w usłudze MLflow. Zachowasz pełną kontrolę nad wytrenowanym modelem.
Automatyczne rejestrowanie modelu w wykazie aparatu Unity, co umożliwia łatwe wdrażanie przy użyciu obsługi modelu.
Następnie przeszkolić ukończony, zastrzeżony model, ładując wagi wcześniej wytrenowanego modelu.

Usługa Databricks zaleca wypróbowanie usługi Foundation Model Training, jeśli:

Próbowano nauczyć się kilku strzałów i chcesz uzyskać lepsze wyniki.
Podjęto próbę monitowania o inżynierię istniejącego modelu i chcesz uzyskać lepsze wyniki.
Chcesz mieć pełną własność modelu niestandardowego na potrzeby prywatności danych.
Zależy ci na opóźnieniach lub kosztach i chcesz użyć mniejszego, tańszego modelu z danymi specyficznymi dla danego zadania.

Obsługiwane zadania

Trenowanie modelu foundation obsługuje następujące przypadki użycia:

Nadzorowane dostrajanie: trenowanie modelu na ustrukturyzowanych danych odpowiedzi na monity. Służy do dostosowywania modelu do nowego zadania, zmiany stylu odpowiedzi lub dodawania możliwości wykonywania instrukcji.
Dalsze wstępne szkolenie: trenowanie modelu przy użyciu dodatkowych danych tekstowych. Użyj tej metody, aby dodać nową wiedzę do modelu lub skoncentrować model na określonej domenie.
Uzupełnianie czatu: trenowanie modelu w dziennikach czatu między użytkownikiem a asystentem sztucznej inteligencji. Ten format może służyć zarówno do rzeczywistych dzienników czatów, jak i jako standardowego formatu odpowiedzi na pytania i tekstu konwersacyjnego. Tekst jest automatycznie sformatowany w odpowiednim formacie czatu dla określonego modelu.

Wymagania

Obszar roboczy usługi Databricks w jednym z następujących regionów świadczenia usługi Azure: centralus, , eastus, eastus2westcentralusnorthcentralus, , westus, . westus3
Interfejsy API trenowania modelu foundation zainstalowane przy użyciu programu pip install databricks_genai.
Środowisko Databricks Runtime 12.2 LTS ML lub nowsze, jeśli dane są w tabeli delty.

Aby uzyskać informacje o wymaganych formatach danych wejściowych, zobacz Przygotowanie danych do trenowania modelu podstawowego.

Zalecany rozmiar danych na potrzeby trenowania modelu

W przypadku nadzorowanego dostrajania i uzupełniania czatów należy podać wystarczającą liczbę tokenów dla co najmniej jednej pełnej długości kontekstu modelu. Na przykład tokeny 4096 dla meta-llama/Llama-2-7b-chat-hf tokenów lub 32768 dla .mistralai/Mistral-7B-v0.1

W przypadku dalszego wstępnego szkolenia usługa Databricks zaleca co najmniej 1,5 miliona próbek, aby uzyskać model o wyższej jakości, który uczy się danych niestandardowych.

Obsługiwane modele

Ważne

Llama 3 jest licencjonowana zgodnie z licencją LLAMA 3 Community License, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

Modele Llama 2 i Code Llama są licencjonowane w ramach licencji społeczności LLAMA 2, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

DBRX jest udostępniany w ramach licencji Databricks Open Model License, Copyright © Databricks, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modeli, w tym zasadami akceptowalnego użycia usługi Databricks.

Model	Maksymalna długość kontekstu
`databricks/dbrx-base`	4096
`databricks/dbrx-instruct`	4096
`meta-llama/Meta-Llama-3-70B`	8192
`meta-llama/Meta-Llama-3-70B-Instruct`	8192
`meta-llama/Meta-Llama-3-8B`	8192
`meta-llama/Meta-Llama-3-8B-Instruct`	8192
`meta-llama/Llama-2-7b-hf`	4096
`meta-llama/Llama-2-13b-hf`	4096
`meta-llama/Llama-2-70b-hf`	4096
`meta-llama/Llama-2-7b-chat-hf`	4096
`meta-llama/Llama-2-13b-chat-hf`	4096
`meta-llama/Llama-2-70b-chat-hf`	4096
`codellama/CodeLlama-7b-hf`	16384
`codellama/CodeLlama-13b-hf`	16384
`codellama/CodeLlama-34b-hf`	16384
`codellama/CodeLlama-7b-Instruct-hf`	16384
`codellama/CodeLlama-13b-Instruct-hf`	16384
`codellama/CodeLlama-34b-Instruct-hf`	16384
`codellama/CodeLlama-7b-Python-hf`	16384
`codellama/CodeLlama-13b-Python-hf`	16384
`codellama/CodeLlama-34b-Python-hf`	16384
`mistralai/Mistral-7B-v0.1`	32768
`mistralai/Mistral-7B-Instruct-v0.2`	32768
`mistralai/Mixtral-8x7B-v0.1`	32768

Korzystanie z trenowania modelu foundation

Trenowanie modelu foundation jest dostępne przy użyciu zestawu databricks_genai SDK. Poniższy przykład tworzy i uruchamia przebieg trenowania, który używa danych z woluminów wykazu aparatu Unity. Aby uzyskać szczegółowe informacje o konfiguracji, zobacz Tworzenie przebiegu trenowania przy użyciu interfejsu API trenowania modelu foundation.

from databricks.model_training import foundation_model as fm

model = 'meta-llama/Llama-2-7b-chat-hf'
# UC Volume with JSONL formatted data
train_data_path = 'dbfs:/Volumes/main/mydirectory/ift/train.jsonl'
register_to = 'main.mydirectory'
run = fm.create(
  model=model,
  train_data_path=train_data_path,
  register_to=register_to,
)

Ograniczenia

Duże zestawy danych (tokeny 10B+) nie są obsługiwane z powodu dostępności zasobów obliczeniowych.
Usługa PrivateLink nie jest obsługiwana.
W przypadku ciągłego wstępnego trenowania obciążenia są ograniczone do plików 60–256 MB. Pliki większe niż 1 GB mogą powodować dłuższe czasy przetwarzania.
Usługa Databricks stara się udostępnić najnowsze najnowocześniejsze modele do dostosowywania przy użyciu trenowania modelu foundation. W miarę udostępniania nowych modeli możemy usunąć możliwość uzyskiwania dostępu do starszych modeli z interfejsu API i/lub interfejsu użytkownika, wycofać starsze modele lub zaktualizować obsługiwane modele. Jeśli model podstawowy zostanie usunięty z interfejsu API i/lub interfejsu użytkownika lub przestarzałego interfejsu użytkownika, usługa Databricks podejmie następujące kroki, aby powiadomić klientów co najmniej trzy miesiące przed datą usunięcia i/lub wycofania:
- Wyświetl komunikat ostrzegawczy na karcie modelu na stronie Trenowanie modelu Experiments > Foundation w obszarze roboczym usługi Databricks wskazujący, że model ma zostać wycofany.
- Zaktualizuj naszą dokumentację, aby uwzględnić powiadomienie wskazujące, że model ma zostać wycofany.

Udostępnij za pośrednictwem