Udostępnij za pośrednictwem


Limity i regiony obsługi modelu

W tym artykule przedstawiono podsumowanie ograniczeń i dostępności regionów dla funkcji Obsługi modelu sztucznej inteligencji mozaiki i obsługiwanych typów punktów końcowych.

Ograniczenia

Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Jeśli masz opinię na temat tych limitów, skontaktuj się z zespołem ds. kont usługi Databricks.

W poniższej tabeli przedstawiono podsumowanie ograniczeń zasobów i ładunków dla punktów końcowych obsługujących model.

Funkcja Poziom szczegółowości Limit
Rozmiar ładunku Na żądanie 16 MB
Zapytania na sekundę (QPS) Na obszar roboczy 200, ale można zwiększyć do 3000 lub więcej, docierając do konta usługi Databricks
Czas trwania wykonywania modelu Na żądanie 120 sekund
Użycie pamięci modelu punktu końcowego procesora CPU Na punkt końcowy 4 GB
Użycie pamięci modelu punktu końcowego procesora GPU Na punkt końcowy Większe niż lub równe przypisanej pamięci procesora GPU zależy od rozmiaru obciążenia procesora GPU
Aprowizowana współbieżność Na obszar roboczy 200 współbieżność. Można zwiększyć, docierając do konta usługi Databricks.
Opóźnienie związane z obciążeniem Na żądanie Mniej niż 50 milisekund
Limity stawek modelu foundation (pay-per-token) Na obszar roboczy Skontaktuj się z zespołem konta usługi Databricks, aby zwiększyć następujące limity.

* Model DBRX Poinstruowanie ma limit 1 zapytania na sekundę.
* Inne modele czatów i uzupełniania mają domyślny limit szybkości wynoszący 2 zapytania na sekundę.
* Modele osadzania mają domyślne 300 osadzonych danych wejściowych na sekundę.
Limity szybkości interfejsów API modelu foundation (aprowizowana przepływność) Na obszar roboczy Tak samo jak w przypadku limitu QPS obsługującego model wymieniony powyżej.

Punkty końcowe obsługujące model są chronione przez kontrolę dostępu i przestrzeganie reguł ruchu przychodzącego związanych z siecią skonfigurowanych w obszarze roboczym, takich jak listy dozwolonych adresów IP i usługa Private Link.

Istnieją również dodatkowe ograniczenia:

  • Możliwe jest wdrożenie obszaru roboczego w obsługiwanym regionie, ale obsługiwane przez płaszczyznę sterowania w innym regionie. Te obszary robocze nie obsługują obsługi modelu i powodują wyświetlenie komunikatu o błędzie informującego, że obszar roboczy nie jest obsługiwany. Skontaktuj się z zespołem kont usługi Azure Databricks, aby uzyskać więcej informacji.
  • Obsługa modelu nie obsługuje skryptów inicjowania.
  • Domyślnie obsługa modelu nie obsługuje usługi Private Link do zewnętrznych punktów końcowych (takich jak Azure OpenAI). Obsługa tej funkcji jest oceniana i implementowana dla poszczególnych regionów. Skontaktuj się z zespołem kont usługi Azure Databricks, aby uzyskać więcej informacji.

Limity interfejsów API modelu foundation

Uwaga

W ramach udostępniania interfejsów API modelu foundation usługa Databricks może przetwarzać dane poza regionem, w którym pochodzą dane, ale nie poza odpowiednią lokalizacją geograficzną.

Poniżej przedstawiono limity związane z obciążeniami interfejsów API modelu foundation:

  • Aprowizowana przepływność obsługuje profil zgodności HIPAA i powinna być używana w przypadku obciążeń wymagających certyfikacji zgodności. Obciążenia z płatnością za token niezgodne ze standardem HIPAA ani profilem zabezpieczeń zgodności.
  • W przypadku punktów końcowych interfejsów API modelu foundation tylko administratorzy obszarów roboczych mogą zmieniać ustawienia ładu, takie jak limity szybkości. Aby zmienić limity szybkości, wykonaj następujące czynności:
    1. Otwórz interfejs użytkownika obsługującego w obszarze roboczym, aby wyświetlić punkty końcowe obsługujące.
    2. W menu kebab w punkcie końcowym interfejsów API modelu foundation, który chcesz edytować, wybierz pozycję Wyświetl szczegóły.
    3. W menu kebab w prawym górnym rogu strony szczegółów punktów końcowych wybierz pozycję Zmień limit szybkości.
  • Aby użyć architektury modelu DBRX dla obciążenia aprowizowanej przepływności, punkt końcowy obsługujący musi znajdować się w jednym z następujących regionów:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Dostępność regionów

Uwaga

Jeśli potrzebujesz punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Azure Databricks.

Aby uzyskać więcej informacji na temat regionalnej dostępności funkcji, zobacz Funkcje z ograniczoną dostępnością regionalną