Wdrażanie modeli z użyciem Mosaic AI Model Serving

W tym artykule opisano usługę Mosaic AI Model Serving , rozwiązanie usługi Databricks do wdrażania modeli sztucznej inteligencji i uczenia maszynowego na potrzeby obsługi w czasie rzeczywistym i wnioskowania wsadowego.

Co to jest Mosaic AI Model Serving?

Usługi uruchamiania modeli sztucznej inteligencji Mosaic zapewniają jednolity interfejs do wdrażania, zarządzania oraz przeprowadzania zapytań dla modeli AI w kontekście wnioskowania w czasie rzeczywistym i wsadowego. Każdy udostępniany model jest dostępny jako REST API, które można zintegrować z aplikacją webową lub klienta.

Obsługa modeli zapewnia usługę o wysokiej dostępności i małym opóźnieniu na potrzeby wdrażania modeli. Usługa automatycznie skaluje się w górę lub w dół, aby sprostać zmianom zapotrzebowania, oszczędzając koszty infrastruktury i optymalizując wydajność w zakresie opóźnień. Ta funkcja korzysta z bezserwerowych obliczeń. Aby uzyskać więcej informacji, zobacz stronę Cennik obsługi modelu.

Obsługa Modeli oferuje ujednolicony interfejs API REST oraz interfejs wdrażania MLflow do zadań CRUD i zapytań. Ponadto zapewnia jeden interfejs użytkownika do zarządzania wszystkimi modelami i odpowiednimi punktami końcowymi ich obsługi. Możesz również uzyskiwać dostęp do modeli bezpośrednio z bazy danych SQL przy użyciu usługi AI Functions w celu łatwej integracji z przepływami pracy analizy.

Funkcje sztucznej inteligencji i obsługa modeli są ściśle zintegrowane dla scenariuszy wnioskowania wsadowego. W swoich potokach wnioskowania wsadowego można użyć dowolnej z funkcji AI specyficznych dla zadania lub ai-query. Jeśli zdecydujesz się użyć wstępnie aprowizowanego modelu hostowanego i zarządzanego przez usługę Databricks, nie musisz samodzielnie konfigurować punktu końcowego obsługującego model.

Zapoznaj się z następującymi przewodnikami, aby rozpocząć pracę:

Aby uzyskać informacje na temat wnioskowania wsadowego, zobacz Stosowanie sztucznej inteligencji na danych przy użyciu usługi Azure Databricks AI Functions.
Aby zapoznać się z samouczkiem wprowadzającym dotyczącym obsługi modeli niestandardowych w usłudze Azure Databricks na potrzeby wnioskowania w czasie rzeczywistym, zobacz Samouczek: wdrażanie i wykonywanie zapytań względem modelu niestandardowego.
Aby zapoznać się z samouczkiem wprowadzającym dotyczącym wykonywania zapytań dotyczących modelu podstawowego w usłudze Databricks w celu wnioskowania w czasie rzeczywistym, zobacz Wprowadzenie do wykonywania zapytań dotyczących maszyn LLM w usłudze Databricks.

Modele, które można wdrożyć

Serwowanie modeli umożliwia wnioskowanie w czasie rzeczywistym i w trybie wsadowym dla następujących typów modeli:

Modele niestandardowe. Są to modele języka Python spakowane w formacie MLflow. Można je zarejestrować w Unity Catalog lub w rejestrze modeli przestrzeni roboczej. Przykłady obejmują scikit-learn, XGBoost, PyTorch i modele transformer Hugging Face.
- Obsługa agenta jest wspierana jako model niestandardowy. Zobacz Wdrażanie agenta na potrzeby generowania aplikacji sztucznej inteligencji (obsługa modelu)
modele bazowe
- Modele bazowe hostowane na platformie Databricks takie jak Meta Llama. Modele te są dostępne za pomocą API modelu fundacyjnego . Te modele podstawowe są wyselekcjonowanymi architekturami, które obsługują zoptymalizowaną analizę. Modele podstawowe, takie jak Meta-Llama-3.3-70B-Instruct, GTE-Large i Mistral-7B, dostępne są do natychmiastowego użycia z płatnością za token, a obciążenia wymagające gwarancji wydajności i dostrojonych wariantów modelu można wdrożyć z zarezerwowaną przepustowością.
- Modele bazowe hostowane poza Databricks, takie jak GPT-4 od OpenAI. Te modele są dostępne za pomocą zewnętrznych modeli . Punkty końcowe obsługujące te modele mogą być centralnie zarządzane przez usługę Azure Databricks, dzięki czemu można usprawnić korzystanie z różnych dostawców LLM i zarządzanie nimi, takich jak OpenAI i Anthropic, w organizacji.

Uwaga

Możesz wchodzić w interakcje z obsługiwanymi dużymi modelami językowymi przy użyciu narzędzia AI Playground. Strefa testowa AI to środowisko przypominające czat, w którym można testować, inicjować i porównywać modele LLM. Ta funkcja jest dostępna w obszarze roboczym usługi Azure Databricks.

Dlaczego warto używać funkcji obsługi modelu?

Wdrażanie i wykonywanie zapytań o dowolne modele: obsługa modelu udostępnia ujednolicony interfejs, który umożliwia zarządzanie wszystkimi modelami w jednej lokalizacji i wykonywanie zapytań względem nich za pomocą jednego interfejsu API, niezależnie od tego, czy są hostowane w usłudze Databricks, czy zewnętrznie. Takie podejście upraszcza proces eksperymentowania, dostosowywania i wdrażania modeli w środowisku produkcyjnym w różnych chmurach i dostawcach.
Bezpieczne dostosowywanie modeli przy użyciu danych prywatnych: oparta na platformie analizy danych funkcja Model Serving upraszcza integrację funkcji i osadzania w modelach za pomocą natywnej integracji z usługą Databricks Feature Store i mozaikowym wyszukiwaniem wektorów sztucznej inteligencji. Aby uzyskać jeszcze większą dokładność i kontekstowe zrozumienie, modele można dostosować do zastrzeżonych danych i bez wysiłku wdrażać w obsłudze modeli.
Zarządzanie i monitorowanie modeli: interfejs użytkownika obsługujący umożliwia centralne zarządzanie wszystkimi punktami końcowymi modelu w jednym miejscu, w tym tymi, które są hostowane zewnętrznie. Możesz zarządzać uprawnieniami, śledzić i ustawiać limity użycia oraz monitorować jakość wszystkich typów modeli, wykorzystując bramę sztucznej inteligencji. Dzięki temu można zdemokratyzować dostęp do SaaS oraz korzystać z otwartych modeli językowych LLM w organizacji, zapewniając jednocześnie odpowiednie zabezpieczenia kontrolne.
Obniżenie kosztów dzięki zoptymalizowanemu wnioskowaniu i szybkiemu skalowaniu: usługa Databricks zaimplementowała szereg optymalizacji, aby zapewnić najlepszą przepływność i opóźnienie dla dużych modeli. Punkty końcowe są automatycznie skalowane w górę lub w dół w celu spełnienia zmian zapotrzebowania, co pozwala zaoszczędzić koszty infrastruktury podczas optymalizowania wydajności opóźnień. Monitorowanie kosztów obsługi modelu.
- W przypadku obciążeń, które są wrażliwe na opóźnienia lub obejmują dużą liczbę zapytań na sekundę, zobacz Optymalizowanie punktów końcowych obsługujących model dla środowiska produkcyjnego w celu uzyskania kompleksowych strategii optymalizacji. Skontaktuj się z zespołem ds. konta w Databricks, aby upewnić się, że obszar roboczy jest przygotowany do zapewnienia wysokiej skalowalności.

Zapewnienie niezawodności i bezpieczeństwa dla rozwiązania Model Serving: Model Serving zaprojektowano z myślą o wysokiej dostępności, niskich opóźnieniach w użytkowaniu produkcyjnym i zdolności obsługi ponad 25 tys. zapytań na sekundę z opóźnieniem mniejszym niż 50 ms. Obciążenia obsługujące są chronione przez wiele warstw zabezpieczeń, zapewniając bezpieczne i niezawodne środowisko nawet dla najbardziej wrażliwych zadań. Dostęp sieciowy do punktów końcowych obsługujących model można kontrolować, konfigurując zasady sieciowe. Zobacz Zarządzaj zasadami sieciowymi dla kontroli ruchu wychodzącego w środowisku bezserwerowym.

Uwaga

Obsługa modelu nie zapewnia poprawek zabezpieczeń istniejących obrazów modelu ze względu na ryzyko destabilizacji wdrożeń produkcyjnych. Nowy obraz modelu utworzony na podstawie nowej wersji modelu będzie zawierać najnowsze poprawki. Skontaktuj się z zespołem kont usługi Databricks, aby uzyskać więcej informacji.

Wymagania

Zarejestrowany model w Unity Catalog lub Workspace Model Registry.
Uprawnienia do zarejestrowanych modeli zgodnie z opisem w temacie Lista kontroli dostępu (ACL) do punktu końcowego.
- MLflow 1.29 lub nowszy.
Jeśli używasz usługi Azure Private Link do przestrzegania reguł ruchu przychodzącego związanych z siecią skonfigurowanych w obszarze roboczym, usługa Azure Private Link jest obsługiwana tylko w przypadku punktów końcowych, które wykorzystują aprowizowaną przepływność lub obsługują modele niestandardowe. Zobacz Konfigurowanie łączności prywatnej z zasobami platformy Azure.
Skonfigurowane uprawnienia obszaru roboczego. Zobacz Zarządzanie uprawnieniami.

Włącz obsługę modelu dla Twojego obszaru roboczego

Do włączenia obsługi modelu w obszarze roboczym nie są wymagane żadne dodatkowe kroki.

Ograniczenia i dostępność regionów

Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Zobacz Limity i regiony serwerowania modeli. Jeśli masz opinię na temat tych limitów lub punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Databricks.

Ochrona danych w usłudze modelowania

Usługa Databricks poważnie traktuje zabezpieczenia danych. Usługa Databricks rozumie znaczenie analizowanych danych przy użyciu usługi Mosaic AI Model Serving i implementuje następujące mechanizmy kontroli zabezpieczeń w celu ochrony danych.

Każde żądanie klienta do obsługi modelu jest logicznie izolowane, uwierzytelniane i autoryzowane.
Usługa mozaikowego modelu sztucznej inteligencji szyfruje wszystkie dane magazynowane (AES-256) i podczas przesyłania (TLS 1.2+).

W przypadku wszystkich płatnych kont usługa Mosaic AI Model Serving nie używa danych wejściowych użytkownika przesłanych do usługi lub danych wyjściowych z usługi w celu trenowania modeli ani ulepszania żadnych usług usługi Databricks.

Dla wszystkich obciążeń Mosaic AI Model Serving, usługa Databricks przechowuje logi budowania kontenerów przez maksymalnie trzydzieści (30) dni i dane metryczne przez maksymalnie czternaście (14) dni.

W przypadku interfejsów API modelu usługi Databricks Foundation w ramach świadczenia usługi usługa Databricks może tymczasowo przetwarzać i przechowywać dane wejściowe i wyjściowe w celu zapobiegania, wykrywania i ograniczania nadużyć lub szkodliwych zastosowań. Dane wejściowe i wyjściowe są odizolowane od innych klientów, przechowywane w tym samym regionie co obszar roboczy przez maksymalnie trzydzieści (30) dni i dostępne tylko do wykrywania i reagowania na problemy związane z bezpieczeństwem lub nadużyciami.

Interfejsy API modelu podstawowego to wyznaczona usługa przez Databricks, co oznacza, że są one zgodne z granicami rezydencji danych wdrożonymi przez Databricks Geos.

Dodatkowe zasoby

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-09-22