Limity i regiony obsługi modelu
W tym artykule przedstawiono podsumowanie ograniczeń i dostępności regionów dla funkcji Obsługi modelu sztucznej inteligencji mozaiki i obsługiwanych typów punktów końcowych.
Ograniczenia
Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Jeśli masz opinię na temat tych limitów, skontaktuj się z zespołem ds. kont usługi Databricks.
W poniższej tabeli przedstawiono podsumowanie ograniczeń zasobów i ładunków dla punktów końcowych obsługujących model.
Funkcja | Poziom szczegółowości | Limit |
---|---|---|
Rozmiar ładunku | Na żądanie | 16 MB |
Zapytania na sekundę (QPS) | Na obszar roboczy | 200, ale można zwiększyć do 3000 lub więcej, docierając do konta usługi Databricks |
Czas trwania wykonywania modelu | Na żądanie | 120 sekund |
Użycie pamięci modelu punktu końcowego procesora CPU | Na punkt końcowy | 4 GB |
Użycie pamięci modelu punktu końcowego procesora GPU | Na punkt końcowy | Większe niż lub równe przypisanej pamięci procesora GPU zależy od rozmiaru obciążenia procesora GPU |
Aprowizowana współbieżność | Na obszar roboczy | 200 współbieżność. Można zwiększyć, docierając do konta usługi Databricks. |
Opóźnienie związane z obciążeniem | Na żądanie | Mniej niż 50 milisekund |
Limity stawek modelu foundation (pay-per-token) | Na obszar roboczy | Skontaktuj się z zespołem konta usługi Databricks, aby zwiększyć następujące limity. * Model DBRX Poinstruowanie ma limit 1 zapytania na sekundę. * Inne modele czatów i uzupełniania mają domyślny limit szybkości wynoszący 2 zapytania na sekundę. * Modele osadzania mają domyślne 300 osadzonych danych wejściowych na sekundę. |
Limity szybkości interfejsów API modelu foundation (aprowizowana przepływność) | Na obszar roboczy | Tak samo jak w przypadku limitu QPS obsługującego model wymieniony powyżej. |
Punkty końcowe obsługujące model są chronione przez kontrolę dostępu i przestrzeganie reguł ruchu przychodzącego związanych z siecią skonfigurowanych w obszarze roboczym, takich jak listy dozwolonych adresów IP i usługa Private Link.
Istnieją również dodatkowe ograniczenia:
- Możliwe jest wdrożenie obszaru roboczego w obsługiwanym regionie, ale obsługiwane przez płaszczyznę sterowania w innym regionie. Te obszary robocze nie obsługują obsługi modelu i powodują wyświetlenie komunikatu o błędzie informującego, że obszar roboczy nie jest obsługiwany. Skontaktuj się z zespołem kont usługi Azure Databricks, aby uzyskać więcej informacji.
- Obsługa modelu nie obsługuje skryptów inicjowania.
- Domyślnie obsługa modelu nie obsługuje usługi Private Link do zewnętrznych punktów końcowych (takich jak Azure OpenAI). Obsługa tej funkcji jest oceniana i implementowana dla poszczególnych regionów. Skontaktuj się z zespołem kont usługi Azure Databricks, aby uzyskać więcej informacji.
Limity interfejsów API modelu foundation
Uwaga
W ramach udostępniania interfejsów API modelu foundation usługa Databricks może przetwarzać dane poza regionem, w którym pochodzą dane, ale nie poza odpowiednią lokalizacją geograficzną.
Poniżej przedstawiono limity związane z obciążeniami interfejsów API modelu foundation:
- Aprowizowana przepływność obsługuje profil zgodności HIPAA i powinna być używana w przypadku obciążeń wymagających certyfikacji zgodności. Obciążenia z płatnością za token nie są zgodne ze standardem HIPAA ani profilem zabezpieczeń zgodności.
- W przypadku punktów końcowych interfejsów API modelu foundation tylko administratorzy obszarów roboczych mogą zmieniać ustawienia ładu, takie jak limity szybkości. Aby zmienić limity szybkości, wykonaj następujące czynności:
- Otwórz interfejs użytkownika obsługującego w obszarze roboczym, aby wyświetlić punkty końcowe obsługujące.
- W menu kebab w punkcie końcowym interfejsów API modelu foundation, który chcesz edytować, wybierz pozycję Wyświetl szczegóły.
- W menu kebab w prawym górnym rogu strony szczegółów punktów końcowych wybierz pozycję Zmień limit szybkości.
- Aby użyć architektury modelu DBRX dla obciążenia aprowizowanej przepływności, punkt końcowy obsługujący musi znajdować się w jednym z następujących regionów:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Dostępność regionów
Uwaga
Jeśli potrzebujesz punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Azure Databricks.
Aby uzyskać więcej informacji na temat regionalnej dostępności funkcji, zobacz Funkcje z ograniczoną dostępnością regionalną
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla