Dostrajanie modelu podstawowego

2025-05-01

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej w następujących regionach: centralus, , eastuseastus2, northcentralusi westus.

Za pomocą dostrajania Modelu Bazowego (obecnie część trenowania modeli w Mosaic AI) możesz wykorzystać własne dane, aby dostosować model bazowy, aby zoptymalizować jego wydajność dla twojej konkretnej aplikacji. Przeprowadzając precyzyjne dostrajanie lub dalsze szkolenie modelu podstawowego, możesz wytrenować własny model przy użyciu znacznie mniejszej ilości danych, czasu i zasobów obliczeniowych niż trenowanie modelu od podstaw.

Dzięki usłudze Databricks masz wszystko na jednej platformie: własne dane do wykorzystania podczas trenowania, model podstawowy do trenowania, punkty kontrolne zapisane w usłudze MLflow oraz model zarejestrowany w Unity Catalog i gotowy do wdrożenia.

Zobacz Samouczek: tworzenie i wdrażanie przebiegu dostrajania modelu podstawowego, aby dowiedzieć się, jak utworzyć przebieg przy użyciu interfejsu API dostrajania modelu podstawowego, a następnie przejrzeć wyniki i wdrożyć model przy użyciu interfejsu użytkownika Databricks i Mosaic AI Model Serving.

Co to jest dostrajanie modelu bazowego?

Dostrajanie modelu bazowego umożliwia wykorzystanie interfejsu API lub interfejsu użytkownika Databricks do dostrajania lub dalszego trenowania modelu bazowego.

Za pomocą dostrajania modelu podstawowego można wykonywać następujące czynności:

Wytrenuj model przy użyciu twoich własnych danych, z punktami kontrolnymi zapisywanymi do MLflow. Zachowasz pełną kontrolę nad wytrenowanym modelem.
Automatycznie rejestruj model w Unity Catalog, co umożliwia łatwe wdrażanie poprzez serwowanie modelu.
Dalsze szkolenie ukończonego, zastrzeżonego modelu poprzez załadowanie wag wcześniej wytrenowanego modelu.

Databricks zaleca wypróbowanie dostrajania modelu bazowego w następujących przypadkach:

Próbowałeś nauki na podstawie małej liczby przykładów i chcesz uzyskać lepsze wyniki.
Wypróbowałeś inżynierię podpowiedzi na istniejącym modelu i chcesz uzyskać lepsze wyniki.
Chcesz mieć pełną własność modelu niestandardowego dla ochrony prywatności danych.
Zależy ci na opóźnieniach lub kosztach i chcesz użyć mniejszego, tańszego modelu z danymi specyficznymi dla danego zadania.

Obsługiwane zadania

Dostrajanie modelu bazowego obsługuje następujące przypadki użycia:

Ukończenie czatu: zalecane zadanie. Trenowanie modelu w dziennikach czatów między użytkownikiem a asystentem sztucznej inteligencji. Ten format może służyć zarówno do rzeczywistych dzienników czatów, jak i jako standardowego formatu odpowiedzi na pytania i tekstu konwersacyjnego. Tekst jest automatycznie sformatowany w odpowiednim formacie dla określonego modelu. Zobacz przykładowe szablony czatów w dokumentacji aplikacji HuggingFace, aby uzyskać więcej informacji na temat tworzenia szablonów .
Dostosowywanie instrukcji: trenowanie modelu na ustrukturyzowanych danych typu zapytanie-odpowiedź. Służy do dostosowywania modelu do nowego zadania, zmiany stylu odpowiedzi lub dodawania możliwości wykonywania instrukcji. To zadanie nie stosuje automatycznie żadnego formatowania do danych i jest zalecane tylko wtedy, gdy wymagane jest niestandardowe formatowanie danych.
Dalsze wstępne szkolenie: trenowanie modelu przy użyciu dodatkowych danych tekstowych. Użyj tej metody, aby dodać nową wiedzę do modelu lub skoncentrować model na określonej domenie.

Wymagania

Obszar roboczy usługi Databricks w jednym z następujących regionów świadczenia usługi Azure: centralus, , eastuseastus2, northcentraluslub westus.
API dostrajania modelu podstawowego zainstalowane przy użyciu pip install databricks_genai.
Środowisko Databricks Runtime 12.2 LTS ML lub nowsze, jeśli dane są w tabeli Delta.

Aby uzyskać informacje na temat wymaganych formatów danych wejściowych, zobacz Przygotowywanie danych do dostrajania modelu podstawowego.

Zalecany rozmiar danych na potrzeby trenowania modelu

Usługa Databricks zaleca początkowe szkolenie przy użyciu jednego do czterech epok. Po dokonaniu oceny dostosowanego modelu, jeśli chcesz, aby dane wyjściowe modelu byłyby bardziej podobne do danych treningowych, możesz rozpocząć trenowanie przy użyciu jednej do dwóch kolejnych epok.

Jeśli wydajność modelu znacznie spada przy zadaniach, które nie są reprezentowane w danych dostrajania, lub jeśli model wydaje się zwracać dokładne kopie tych danych, Databricks zaleca zmniejszenie liczby epok trenowania.

W przypadku dostrajania instrukcji i uzupełniania czatu należy podać wystarczającą liczbę tokenów dla co najmniej jednej pełnej długości kontekstu modelu. Na przykład 131072 tokeny dla meta-llama/Llama-3.2-3B-Instruct.

Do dalszego etapu wstępnego szkolenia usługa Databricks zaleca co najmniej 1,5 miliona tokenów, aby uzyskać model o wyższej jakości, który uczy się na podstawie danych dostosowanych.

Obsługiwane modele

W poniższej tabeli wymieniono obsługiwane modele. Zobacz Licencje modelu, aby uzyskać odpowiednią licencję modelu i informacje o zasadach dopuszczalnego użytkowania.

Aby kontynuować obsługę najbardziej najnowocześniejszych modeli, usługa Databricks może aktualizować obsługiwane modele lub wycofać starsze modele.

Model	Maksymalna długość kontekstu	Uwagi
`meta-llama/Llama-3.3-70B-Instruct`	131072
`meta-llama/Llama-3.2-1B`	131072
`meta-llama/Llama-3.2-1B-Instruct`	131072
`meta-llama/Llama-3.2-3B`	131072
`meta-llama/Llama-3.2-3B-Instruct`	131072
`meta-llama/Meta-Llama-3.1-70B`	131072
`meta-llama/Meta-Llama-3.1-70B-Instruct`	131072
`meta-llama/Meta-Llama-3.1-8B`	131072
`meta-llama/Meta-Llama-3.1-8B-Instruct`	131072

licencje modelu

Poniższa tabela zawiera odpowiednią licencję modelu i dopuszczalne informacje o zasadach użycia dla obsługiwanych rodzin modeli.

Rodzina modeli	Zasady licencji i dopuszczalnego użycia
Metalama 3.2	Meta Llama 3.2 jest licencjonowany na mocy licencji LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z warunkami niniejszej licencji oraz zasadami dopuszczalnego użytkowania Llama 3.2.
Meta Llama 3.1	Meta Llama 3.1 jest licencjonowany na mocy Licencji Społecznościowej LLAMA 3.1, Copyright © Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

Korzystanie z dostrajania modelu podstawowego

Dostrajanie modelu podstawowego jest dostępne przy użyciu zestawu databricks_genai SDK. Poniższy przykład tworzy i uruchamia sesję treningową, która używa danych z woluminów z katalogu Unity. Aby uzyskać szczegółowe informacje o konfiguracji, zobacz Utwórz przebieg trenowania korzystając z interfejsu API do dostrajania Modelu Podstawowego.

from databricks.model_training import foundation_model as fm

model = 'meta-llama/Meta-Llama-3.1-8B-Instruct'
# UC Volume with JSONL formatted data
train_data_path = 'dbfs:/Volumes/main/mydirectory/ift/train.jsonl'
register_to = 'main.mydirectory'
run = fm.create(
  model=model,
  train_data_path=train_data_path,
  register_to=register_to,
)

Zobacz notebook demonstracyjny do dostrajania instrukcji: Rozpoznawanie nazwanych jednostek, aby zapoznać się z przykładem dostrajania instrukcji, który przeprowadzi cię przez proces przygotowania danych, konfiguracji przebiegu treningu i wdrażania.

Ograniczenia

Duże zestawy danych (tokeny 10B+) nie są obsługiwane ze względu na dostępność zasobów obliczeniowych.
W przypadku ciągłego wstępnego trenowania obciążenia są ograniczone do plików 60–256 MB. Pliki większe niż 1 GB mogą powodować dłuższe czasy przetwarzania.
Databricks dąży do udostępnienia zaawansowanych modeli do dostosowywania poprzez odpowiednie dostrajanie modeli bazowych. Gdy nowe modele staną się dostępne, dostęp do starszych modeli z interfejsu API lub interfejsu użytkownika może zostać usunięty, starsze modele mogą stać się przestarzałe lub wspierane modele mogą zostać zaktualizowane. Zobacz Zasady konserwacji modeli generatywnej sztucznej inteligencji.

Aby użyć dostrajania modeli bazowych z włączoną funkcją Azure Private Link w obszarze roboczym usługi Databricks, obszar roboczy musi znajdować się w regionie eastus2.
Jeśli masz skonfigurowany Private Link w swoim magazynie, Databricks zaleca używanie tabel Unity Catalog.
Jeśli masz włączone zapory na koncie usługi Azure Data Lake Storage, które przechowuje dane w Unity Catalog, musisz dodać ruch z bezserwerowych klastrów płaszczyzny danych Databricks do listy dozwolonych, aby móc używać doskonalenia modelu Foundation. Skontaktuj się z zespołem ds. kont w Databricks, aby uzyskać więcej informacji i indywidualnych rozwiązań.