Udostępnianie modeli za pomocą usługi Azure Databricks
W tym artykule opisano usługę modelowania mozaiki sztucznej inteligencji, w tym jej zalety i ograniczenia.
Co to jest obsługa modelu mozaiki sztucznej inteligencji?
Obsługa modeli mozaiki sztucznej inteligencji zapewnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań na potrzeby wnioskowania w czasie rzeczywistym i wsadowego. Każdy model, który służy, jest dostępny jako interfejs API REST, który można zintegrować z aplikacją internetową lub kliencką.
Obsługa modeli zapewnia usługę o wysokiej dostępności i małym opóźnieniu na potrzeby wdrażania modeli. Usługa automatycznie skaluje w górę lub w dół, aby sprostać zmianom zapotrzebowania, oszczędzając koszty infrastruktury podczas optymalizowania wydajności opóźnień. Ta funkcja korzysta z bezserwerowych obliczeń. Aby uzyskać więcej informacji, zobacz stronę Cennik obsługi modelu.
Obsługa modelu obsługuje obsługę:
- Modele niestandardowe. Są to modele języka Python spakowane w formacie MLflow. Można je zarejestrować w wykazie aparatu Unity lub w rejestrze modeli obszaru roboczego. Przykłady obejmują modele przekształcania twarzy scikit-learn, XGBoost, PyTorch i Hugging Face transformer.
- Obsługa agenta jest obsługiwana jako model niestandardowy. Zobacz Deploy an agent for generative AI application (Wdrażanie agenta na potrzeby generowania aplikacji sztucznej inteligencji)
- Najnowocześniejsze otwarte modele udostępniane przez interfejsy API modelu foundation. Te modele są nadzorowanymi architekturami modeli podstawowych, które obsługują zoptymalizowane wnioskowanie. Modele podstawowe, takie jak Meta-Llama-3.1-70B-Instruct, GTE-Large i Mistral-7B, są dostępne do natychmiastowego użycia z cenami płatności za token, a obciążenia, które wymagają gwarancji wydajności i dostrojonych wariantów modelu można wdrożyć z aprowizowaną przepływnością.
- Usługa Databricks zaleca używanie funkcji
ai_query
z obsługą modelu na potrzeby wnioskowania wsadowego. W przypadku szybkiego eksperymentowaniaai_query
można używać z punktami końcowymi płatności za token. Gdy wszystko będzie gotowe do uruchamiania wnioskowania wsadowego na dużych lub produkcyjnych danych, usługa Databricks zaleca używanie aprowiowanych punktów końcowych przepływności w celu uzyskania szybszej wydajności. Zobacz Aprowizowanie interfejsów API modelu modelu przepływności, aby dowiedzieć się, jak utworzyć aprowizowany punkt końcowy przepływności.- Zobacz Wykonywanie wnioskowania wsadowego przy użyciu ai_query.
- Aby rozpocząć wnioskowanie wsadowe za pomocą usługi LLMs w tabelach wykazu> aparatu Unity, zobacz przykłady notesów w wnioskowaniu usługi Batch przy użyciu aprowizowanych przepływności interfejsów API modelu foundation.
- Usługa Databricks zaleca używanie funkcji
- Modele zewnętrzne. Są to modele generacyjne sztucznej inteligencji, które są hostowane poza platformą Databricks. Przykłady obejmują modele, takie jak GPT-4 openAI, Claude Anthropic i inne. Punkty końcowe obsługujące modele zewnętrzne mogą być centralnie zarządzane, a klienci mogą ustanowić limity szybkości i kontrolę dostępu dla nich.
Uwaga
Możesz wchodzić w interakcje z obsługiwanymi dużymi modelami językowymi przy użyciu narzędzia AI Playground. Plac zabaw dla sztucznej inteligencji to środowisko przypominające czat, w którym można testować, monitować i porównywać maszyny LLM. Ta funkcja jest dostępna w obszarze roboczym usługi Azure Databricks.
Obsługa modelu oferuje ujednolicony interfejs API REST i interfejs API wdrażania MLflow dla operacji CRUD i wykonywania zapytań dotyczących zadań. Ponadto zapewnia jeden interfejs użytkownika do zarządzania wszystkimi modelami i odpowiednimi punktami końcowymi obsługującymi. Możesz również uzyskiwać dostęp do modeli bezpośrednio z bazy danych SQL przy użyciu funkcji sztucznej inteligencji w celu łatwej integracji z przepływami pracy analizy.
Aby zapoznać się z samouczkiem wprowadzającym dotyczącym obsługi modeli niestandardowych w usłudze Azure Databricks, zobacz Samouczek: wdrażanie i wykonywanie zapytań dotyczących modelu niestandardowego.
Aby zapoznać się z samouczkiem wprowadzającym dotyczącym wykonywania zapytań względem modelu podstawowego w usłudze Databricks, zobacz Wprowadzenie do wykonywania zapytań dotyczących maszyn LLM w usłudze Databricks.
Dlaczego warto używać funkcji obsługi modelu?
- Wdrażanie i wykonywanie zapytań o dowolne modele: obsługa modelu udostępnia ujednolicony interfejs, który umożliwia zarządzanie wszystkimi modelami w jednej lokalizacji i wykonywanie zapytań względem nich za pomocą jednego interfejsu API, niezależnie od tego, czy są hostowane w usłudze Databricks, czy zewnętrznie. Takie podejście upraszcza proces eksperymentowania, dostosowywania i wdrażania modeli w środowisku produkcyjnym w różnych chmurach i dostawcach.
- Bezpieczne dostosowywanie modeli przy użyciu danych prywatnych: oparta na platformie analizy danych funkcja Model Serving upraszcza integrację funkcji i osadzania w modelach za pomocą natywnej integracji z usługą Databricks Feature Store i mozaikowym wyszukiwaniem wektorów sztucznej inteligencji. Aby uzyskać jeszcze większą dokładność i kontekstowe zrozumienie, modele można dostosować do zastrzeżonych danych i bez wysiłku wdrażać w obsłudze modeli.
- Zarządzanie i monitorowanie modeli: interfejs użytkownika obsługujący umożliwia centralne zarządzanie wszystkimi punktami końcowymi modelu w jednym miejscu, w tym tymi, które są hostowane zewnętrznie. Możesz zarządzać uprawnieniami, śledzić i ustawiać limity użycia oraz monitorować jakość wszystkich typów modeli. Dzięki temu można zdemokratyzować dostęp do usługi SaaS i otworzyć maszyny LLM w organizacji, zapewniając jednocześnie odpowiednie zabezpieczenia.
- Obniżenie kosztów dzięki zoptymalizowanemu wnioskowaniu i szybkiemu skalowaniu: usługa Databricks zaimplementowała szereg optymalizacji, aby zapewnić najlepszą przepływność i opóźnienie dla dużych modeli. Punkty końcowe są automatycznie skalowane w górę lub w dół w celu spełnienia zmian zapotrzebowania, co pozwala zaoszczędzić koszty infrastruktury podczas optymalizowania wydajności opóźnień. Monitorowanie kosztów obsługi modelu.
Uwaga
W przypadku obciążeń, które są wrażliwe na opóźnienia lub obejmują dużą liczbę zapytań na sekundę, usługa Databricks zaleca korzystanie z optymalizacji tras w niestandardowych punktach końcowych obsługujących model. Skontaktuj się z zespołem konta usługi Databricks, aby upewnić się, że obszar roboczy jest włączony w celu zapewnienia wysokiej skalowalności.
- Zapewnienie niezawodności i zabezpieczeń do obsługi modeli: obsługa modeli została zaprojektowana pod kątem wysokiej dostępności, użycia produkcyjnego o małych opóźnieniach i może obsługiwać ponad 25 tys. zapytań na sekundę z opóźnieniem mniejszym niż 50 ms. Obciążenia obsługujące są chronione przez wiele warstw zabezpieczeń, zapewniając bezpieczne i niezawodne środowisko nawet dla najbardziej wrażliwych zadań.
Uwaga
Obsługa modelu nie zapewnia poprawek zabezpieczeń istniejących obrazów modelu ze względu na ryzyko destabilizacji wdrożeń produkcyjnych. Nowy obraz modelu utworzony na podstawie nowej wersji modelu będzie zawierać najnowsze poprawki. Skontaktuj się z zespołem kont usługi Databricks, aby uzyskać więcej informacji.
Wymagania
- Zarejestrowany model w wykazie aparatu Unity lub rejestrze modeli obszaru roboczego.
- Uprawnienia do zarejestrowanych modeli zgodnie z opisem w temacie Obsługa list ACL punktów końcowych.
- MLflow 1.29 lub nowszy.
- Jeśli używasz usługi Azure Private Link do przestrzegania reguł ruchu przychodzącego związanych z siecią skonfigurowanych w obszarze roboczym, usługa Azure Private Link jest obsługiwana tylko w przypadku punktów końcowych obsługujących model obsługujących punkty końcowe obsługujące aprowizowaną przepływność lub punkty końcowe obsługujące modele niestandardowe. Zobacz Konfigurowanie łączności prywatnej z zasobów obliczeniowych bezserwerowych.
Włączanie obsługi modelu dla obszaru roboczego
Do włączenia obsługi modelu w obszarze roboczym nie są wymagane żadne dodatkowe kroki.
Ograniczenia i dostępność regionów
Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Zobacz Limity i regiony obsługi modeli. Jeśli masz opinię na temat tych limitów lub punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Databricks.
Ochrona danych w usłudze modelowania
Usługa Databricks poważnie traktuje zabezpieczenia danych. Usługa Databricks rozumie znaczenie analizowanych danych przy użyciu usługi Mosaic AI Model Serving i implementuje następujące mechanizmy kontroli zabezpieczeń w celu ochrony danych.
- Każde żądanie klienta do obsługi modelu jest logicznie izolowane, uwierzytelniane i autoryzowane.
- Usługa mozaikowego modelu sztucznej inteligencji szyfruje wszystkie dane magazynowane (AES-256) i podczas przesyłania (TLS 1.2+).
W przypadku wszystkich płatnych kont usługa Mosaic AI Model Serving nie używa danych wejściowych użytkownika przesłanych do usługi lub danych wyjściowych z usługi w celu trenowania modeli ani ulepszania żadnych usług usługi Databricks.
W przypadku interfejsów API modelu usługi Databricks Foundation w ramach świadczenia usługi usługa Databricks może tymczasowo przetwarzać i przechowywać dane wejściowe i wyjściowe w celu zapobiegania, wykrywania i ograniczania nadużyć lub szkodliwych zastosowań. Dane wejściowe i wyjściowe są odizolowane od innych klientów, przechowywane w tym samym regionie co obszar roboczy przez maksymalnie trzydzieści (30) dni i dostępne tylko do wykrywania i reagowania na problemy związane z bezpieczeństwem lub nadużyciami. Podstawowe interfejsy API modelu to wyznaczona usługa usługi Databricks, co oznacza, że jest ona zgodna z granicami rezydencji danych wdrożonych przez usługę Databricks Geos.
Dodatkowe zasoby
- Rozpocznij wykonywanie zapytań dotyczących usługi LLMs w usłudze Databricks.
- Samouczek: wdrażanie i wykonywanie zapytań względem modelu niestandardowego
- Wprowadzenie do tworzenia aplikacji sztucznej inteligencji w usłudze Databricks
- Wdrażanie modeli niestandardowych.
- Migrowanie do środowiska obsługi modeli
- Migrowanie zoptymalizowanych punktów końcowych usługi LLM do aprowizowanej przepływności