Duże modele językowe (LLM) w usłudze Databricks

Artykuł
06/28/2024

Usługa Azure Databricks ułatwia dostęp i kompilowanie publicznie dostępnych dużych modeli językowych.

Środowisko Databricks Runtime for Machine Learning zawiera biblioteki, takie jak Hugging Face Transformers i LangChain, które umożliwiają integrację istniejących wstępnie wytrenowanych modeli lub innych bibliotek typu open source z przepływem pracy. W tym miejscu możesz korzystać z możliwości platformy Azure Databricks, aby dostroić maszyny LLM przy użyciu własnych danych w celu uzyskania lepszej wydajności domeny.

Ponadto usługa Azure Databricks oferuje wbudowane funkcje umożliwiające użytkownikom SQL uzyskiwanie dostępu do usługi LLM i eksperymentowanie z takimi maszynami jak Azure OpenAI i OpenAI przy użyciu funkcji sztucznej inteligencji.

Trenowanie modelu mozaiki sztucznej inteligencji

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej. Skontaktuj się z zespołem konta usługi Databricks, aby zarejestrować się w publicznej wersji zapoznawczej.

Mosaic AI Model Training (dawniej Foundation Model Training) to prosty interfejs stosu szkoleniowego usługi Databricks w celu wykonania pełnego dostrajania modelu.

Możesz wykonać następujące czynności przy użyciu trenowania modelu mozaiki sztucznej inteligencji:

Dostrajanie modelu przy użyciu niestandardowych danych przy użyciu punktów kontrolnych zapisanych w usłudze MLflow. Zachowasz pełną kontrolę nad dostosowanym modelem.
Automatyczne rejestrowanie modelu w wykazie aparatu Unity, co umożliwia łatwe wdrażanie przy użyciu obsługi modelu.
Dostosuj ukończony, zastrzeżony model, ładując wagi wcześniej dostosowanego modelu.

Zobacz Wprowadzenie do trenowania modelu mozaiki sztucznej inteligencji.

Przytulanie transformatorów twarzy

Dzięki funkcji Hugging Face Transformers w usłudze Databricks można skalować aplikacje wsadowe przetwarzania języka naturalnego (NLP) i dostosowywać modele dla aplikacji modelu w dużych językach.

Biblioteka hugging Face transformers jest wstępnie zainstalowana w środowisku Databricks Runtime 10.4 LTS ML i nowszym. Wiele popularnych modeli NLP działa najlepiej na sprzęcie gpu, więc możesz uzyskać najlepszą wydajność przy użyciu ostatniego sprzętu procesora GPU, chyba że używasz modelu specjalnie zoptymalizowanego do użycia na procesorach CPU.

LangChain

LangChain jest dostępny jako eksperymentalny smak MLflow, który umożliwia klientom LangChain wykorzystanie niezawodnych narzędzi i możliwości śledzenia eksperymentów MLflow bezpośrednio ze środowiska usługi Azure Databricks.

LangChain to struktura oprogramowania, która ułatwia tworzenie aplikacji korzystających z dużych modeli językowych (LLMs) i łączenie ich z danymi zewnętrznymi w celu zapewnienia większego kontekstu szkoleniowego dla llMs.

Środowisko Databricks Runtime ML obejmuje środowisko langchain Databricks Runtime 13.1 ML i nowsze.

Dowiedz się więcej o integracji usługi LangChain specyficznych dla usługi Databricks.

Funkcje sztucznej inteligencji

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Funkcje sztucznej inteligencji to wbudowane funkcje SQL, które umożliwiają użytkownikom SQL:

Użyj interfejsów API modelu usługi Databricks Foundation, aby wykonać różne zadania dotyczące danych firmy.
Uzyskiwanie dostępu do modeli zewnętrznych, takich jak GPT-4 z platformy OpenAI, i eksperymentowanie z nimi.
Modele zapytań hostowane przez mozaikę AI Model Obsługujący punkty końcowe z zapytań SQL.

Udostępnij za pośrednictwem