Udostępnij za pośrednictwem


Wprowadzenie do trenowania modelu mozaiki sztucznej inteligencji

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej. Skontaktuj się z zespołem konta usługi Databricks, aby zarejestrować się w publicznej wersji zapoznawczej.

Trenowanie modelu mozaiki sztucznej inteligencji (dawniej trenowanie modelu podstawowego) umożliwia dostosowanie modelu podstawowego w celu zoptymalizowania jego wydajności dla określonej aplikacji. Dostrajając lub kontynuując szkolenie modelu podstawowego, możesz wytrenować własny model przy użyciu znacznie mniejszej ilości danych, czasu i zasobów obliczeniowych niż trenowanie modelu od podstaw.

Dzięki usłudze Databricks masz wszystko na jednej platformie: własne dane do użycia do trenowania, model podstawowy do trenowania, punkty kontrolne zapisane w usłudze MLflow oraz model zarejestrowany w katalogu aparatu Unity i gotowy do wdrożenia.

Co to jest trenowanie modelu mozaiki sztucznej inteligencji?

Trenowanie modelu mozaiki sztucznej inteligencji umożliwia korzystanie z interfejsu API lub interfejsu użytkownika usługi Databricks w celu dostosowania lub dalszego trenowania modelu podstawowego.

Korzystając z trenowania modelu mozaiki sztucznej inteligencji, można wykonywać następujące czynności:

  • Trenowanie modelu przy użyciu danych niestandardowych przy użyciu punktów kontrolnych zapisanych w usłudze MLflow. Zachowasz pełną kontrolę nad wytrenowanym modelem.
  • Automatyczne rejestrowanie modelu w wykazie aparatu Unity, co umożliwia łatwe wdrażanie przy użyciu obsługi modelu.
  • Następnie przeszkolić ukończony, zastrzeżony model, ładując wagi wcześniej wytrenowanego modelu.

Usługa Databricks zaleca wypróbowanie trenowania modelu mozaiki AI, jeśli:

  • Próbowano nauczyć się kilku strzałów i chcesz uzyskać lepsze wyniki.
  • Podjęto próbę monitowania o inżynierię istniejącego modelu i chcesz uzyskać lepsze wyniki.
  • Chcesz mieć pełną własność modelu niestandardowego na potrzeby prywatności danych.
  • Zależy ci na opóźnieniach lub kosztach i chcesz użyć mniejszego, tańszego modelu z danymi specyficznymi dla danego zadania.

Obsługiwane zadania

Trenowanie modelu mozaiki sztucznej inteligencji obsługuje następujące przypadki użycia:

  • Ukończenie czatu: zalecane zadanie. Trenowanie modelu w dziennikach czatów między użytkownikiem a asystentem sztucznej inteligencji. Ten format może służyć zarówno do rzeczywistych dzienników czatów, jak i jako standardowego formatu odpowiedzi na pytania i tekstu konwersacyjnego. Tekst jest automatycznie sformatowany w odpowiednim formacie dla określonego modelu. Zobacz przykładowe szablony czatów w dokumentacji aplikacji HuggingFace, aby uzyskać więcej informacji na temat tworzenia szablonów .
  • Nadzorowane dostrajanie: trenowanie modelu na ustrukturyzowanych danych odpowiedzi na monity. Służy do dostosowywania modelu do nowego zadania, zmiany stylu odpowiedzi lub dodawania możliwości wykonywania instrukcji. To zadanie nie stosuje automatycznie żadnego formatowania do danych i jest zalecane tylko wtedy, gdy wymagane jest niestandardowe formatowanie danych.
  • Dalsze wstępne szkolenie: trenowanie modelu przy użyciu dodatkowych danych tekstowych. Użyj tej metody, aby dodać nową wiedzę do modelu lub skoncentrować model na określonej domenie.

Wymagania

  • Obszar roboczy usługi Databricks w jednym z następujących regionów świadczenia usługi Azure: centralus, , eastus, eastus2westcentralusnorthcentralus, , westus, . westus3
  • Interfejsy API trenowania modelu mozaiki sztucznej inteligencji zainstalowane przy użyciu programu pip install databricks_genai.
  • Środowisko Databricks Runtime 12.2 LTS ML lub nowsze, jeśli dane są w tabeli delty.

Aby uzyskać informacje na temat wymaganych formatów danych wejściowych, zobacz Przygotowanie danych do trenowania modelu mozaiki sztucznej inteligencji.

W przypadku nadzorowanego dostrajania i uzupełniania czatów należy podać wystarczającą liczbę tokenów dla co najmniej jednej pełnej długości kontekstu modelu. Na przykład tokeny 4096 dla meta-llama/Llama-2-7b-chat-hf tokenów lub 32768 dla .mistralai/Mistral-7B-v0.1

W przypadku dalszego wstępnego szkolenia usługa Databricks zaleca co najmniej 1,5 miliona próbek, aby uzyskać model o wyższej jakości, który uczy się danych niestandardowych.

Obsługiwane modele

W przypadku najnowszych obsługiwanych modeli i skojarzonych z nimi długości kontekstu użyj get_models() funkcji .

Ważne

Llama 3 jest licencjonowana zgodnie z licencją LLAMA 3 Community License, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

Modele Llama 2 i Code Llama są licencjonowane w ramach licencji społeczności LLAMA 2, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

DBRX jest udostępniany w ramach licencji Databricks Open Model License, Copyright © Databricks, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modeli, w tym zasadami akceptowalnego użycia usługi Databricks.


from databricks.model_training import foundation_model

foundation_model.get_models()

Poniższa tabela zawiera przykładowe dane wyjściowe i nie jest przeznaczona do wyczerpującej listy obsługiwanych modeli.

Model Maksymalna długość kontekstu
databricks/dbrx-base 4096
databricks/dbrx-instruct 4096
meta-llama/Meta-Llama-3-70B 8192
meta-llama/Meta-Llama-3-70B-Instruct 8192
meta-llama/Meta-Llama-3-8B 8192
meta-llama/Meta-Llama-3-8B-Instruct 8192
meta-llama/Llama-2-7b-hf 4096
meta-llama/Llama-2-13b-hf 4096
meta-llama/Llama-2-70b-hf 4096
meta-llama/Llama-2-7b-chat-hf 4096
meta-llama/Llama-2-13b-chat-hf 4096
meta-llama/Llama-2-70b-chat-hf 4096
codellama/CodeLlama-7b-hf 16384
codellama/CodeLlama-13b-hf 16384
codellama/CodeLlama-34b-hf 16384
codellama/CodeLlama-7b-Instruct-hf 16384
codellama/CodeLlama-13b-Instruct-hf 16384
codellama/CodeLlama-34b-Instruct-hf 16384
codellama/CodeLlama-7b-Python-hf 16384
codellama/CodeLlama-13b-Python-hf 16384
codellama/CodeLlama-34b-Python-hf 16384
mistralai/Mistral-7B-v0.1 32768
mistralai/Mistral-7B-Instruct-v0.2 32768
mistralai/Mixtral-8x7B-v0.1 32768

Korzystanie z trenowania modelu mozaiki sztucznej inteligencji

Trenowanie modelu mozaiki sztucznej inteligencji jest dostępne przy użyciu zestawu databricks_genai SDK. Poniższy przykład tworzy i uruchamia przebieg trenowania, który używa danych z woluminów wykazu aparatu Unity. Aby uzyskać szczegółowe informacje o konfiguracji, zobacz Tworzenie przebiegu trenowania przy użyciu interfejsu API trenowania modelu mozaiki sztucznej inteligencji.

from databricks.model_training import foundation_model as fm

model = 'meta-llama/Llama-2-7b-chat-hf'
# UC Volume with JSONL formatted data
train_data_path = 'dbfs:/Volumes/main/mydirectory/ift/train.jsonl'
register_to = 'main.mydirectory'
run = fm.create(
  model=model,
  train_data_path=train_data_path,
  register_to=register_to,
)

Zobacz szczegółowe dostrajanie instrukcji: nazwany notes demonstracyjny rozpoznawania jednostek, aby zapoznać się z przykładem dostrajania instrukcji, który przeprowadzi cię przez proces przygotowywania danych, dostrajania przebiegu trenowania i wdrażania.

Ograniczenia

  • Duże zestawy danych (tokeny 10B+) nie są obsługiwane z powodu dostępności zasobów obliczeniowych.
  • Usługa PrivateLink nie jest obsługiwana.
  • W przypadku ciągłego wstępnego trenowania obciążenia są ograniczone do plików 60–256 MB. Pliki większe niż 1 GB mogą powodować dłuższe czasy przetwarzania.
  • Usługa Databricks stara się udostępnić najnowsze najnowocześniejsze modele do dostosowywania przy użyciu trenowania modelu mozaiki sztucznej inteligencji. W miarę udostępniania nowych modeli możemy usunąć możliwość uzyskiwania dostępu do starszych modeli z interfejsu API i/lub interfejsu użytkownika, wycofać starsze modele lub zaktualizować obsługiwane modele. Jeśli model podstawowy zostanie usunięty z interfejsu API i/lub interfejsu użytkownika lub przestarzałego interfejsu użytkownika, usługa Databricks podejmie następujące kroki, aby powiadomić klientów co najmniej trzy miesiące przed datą usunięcia i/lub wycofania:
    • Wyświetl komunikat ostrzegawczy na karcie modelu na stronie Trenowanie modelu Mozaika mozaiki > w obszarze roboczym usługi Databricks wskazujący, że model ma zostać wycofany.
    • Zaktualizuj naszą dokumentację, aby uwzględnić powiadomienie wskazujące, że model ma zostać wycofany.