Środowisko uruchomieniowe sztucznej inteligencji

Ważna

Środowisko uruchomieniowe sztucznej inteligencji dla zadań z jednym węzłem jest w publicznej wersji zapoznawczej. Rozproszony interfejs API trenowania dla obciążeń z wieloma procesorami GPU pozostaje w wersji beta.

Omówienie środowiska uruchomieniowego sztucznej inteligencji

AI Runtime to oferta obliczeniowa w usłudze Databricks przeznaczona do obsługi obciążeń uczenia głębokiego oraz zapewniająca wsparcie dla GPU w ramach usługi Databricks Serverless. Środowisko uruchomieniowe sztucznej inteligencji umożliwia trenowanie i dostosowywanie modeli niestandardowych przy użyciu ulubionych struktur oraz uzyskiwanie najnowocześniejszej wydajności, wydajności i jakości. Aby zapoznać się z omówieniem sposobu dopasowania bezserwerowych obliczeń do architektury usługi Databricks, zobacz Architektura bezserwerowego obszaru roboczego.

Kluczowe funkcje

W pełni zarządzana infrastruktura GPU — elastyczny, bezserwerowy dostęp do GPU, bez konieczności zarządzania konfiguracją klastra, wyborem sterowników czy politykami automatycznego skalowania.
Środowisko uruchomieniowe dedykowane do uczenia głębokiego — wybierz minimalne domyślne środowisko podstawowe, aby uzyskać maksymalną elastyczność w zależnościach lub wstępnie załadowane środowisko sztucznej inteligencji z popularnymi strukturami uczenia maszynowego.
Natywnie zintegrowane w notesach, zadaniach, katalogu Unity i rozwiązaniu MLflow dla płynnego tworzenia, dostępu do danych i śledzenia eksperymentów.

Opcje sprzętu

Wszystkie akceleratory środowiska uruchomieniowego sztucznej inteligencji aprowizują pojedynczy węzeł. Liczba procesorów GPU w tym węźle zależy od typu akceleratora:

Akcelerator	Liczba GPU na węzeł	Najlepsze dla	Szkolenie rozproszone
A10	1	Małe i średnie zadania uczenia maszynowego i uczenia głębokiego, takie jak klasyczne modele uczenia maszynowego lub dostrajanie mniejszych modeli językowych	Nieobsługiwane (pojedynczy procesor GPU)
8xH100	8	Obciążenia sztucznej inteligencji na dużą skalę, w tym trenowanie lub dostrajanie ogromnych modeli lub uruchamianie zaawansowanych zadań uczenia głębokiego	Obsługiwane — użyj dekoratora `@distributed` z `gpus=8`

Zalecane przypadki użycia

Databricks zaleca korzystanie ze środowiska AI Runtime dla wszystkich niestandardowych przypadków użycia treningu modeli, które obejmują uczenie głębokie, klasyczne obciążenia robocze lub GPU na dużą skalę.

Przykład:

Optymalizacja LLM (LoRA, QLoRA, kompletna optymalizacja)
Przetwarzanie obrazów (wykrywanie obiektów, klasyfikacja obrazów)
Systemy rekomendacji oparte na uczeniu głębokim
Uczenie przez wzmacnianie
Prognozowanie szeregów czasowych opartych na uczeniu głębokim

Wymagania

Obszar roboczy w jednym z następujących regionów obsługiwanych przez Azure:
- centralus
- eastus
- eastus2
- northcentralus
- westcentralus
- westus
- westus3

Ograniczenia

Środowisko uruchomieniowe sztucznej inteligencji obsługuje tylko akceleratory A10 i H100.
Środowisko uruchomieniowe sztucznej inteligencji nie jest obsługiwane w przypadku obszarów roboczych profilu zabezpieczeń zgodności (takich jak HIPAA lub PCI). Przetwarzanie danych regulowanych nie jest obsługiwane.
Dodawanie zależności przy użyciu panelu Środowiska nie jest obsługiwane w przypadku zaplanowanych zadań środowiska uruchomieniowego sztucznej inteligencji. Zainstaluj zależności programowo za pomocą polecenia %pip install w notesie.
W przypadku zaplanowanych zadań w środowisku AI Runtime, zachowanie automatycznego odzyskiwania dla niezgodnych wersji pakietów związanych z notebookiem nie jest obsługiwane.
Maksymalny czas wykonywania obciążenia wynosi siedem dni. W przypadku zadań trenowania modelu, które przekraczają ten limit, zaimplementuj zapisywanie stanu i uruchom ponownie zadanie po osiągnięciu maksymalnego czasu działania.
Środowisko uruchomieniowe sztucznej inteligencji zapewnia dostęp na żądanie do zasobów procesora GPU. Chociaż prowadzi to do łatwego, elastycznego dostępu do procesorów GPU, mogą występować okresy, w których pojemność jest ograniczona lub niedostępna w Twoim regionie.
Środowisko AI korzysta z międzyregionalnych GPU w niektórych przypadkach podczas wysokiego zapotrzebowania. Mogą istnieć koszty ruchu wychodzącego związane z takim użyciem.

Nawiązywanie połączenia ze środowiskiem uruchomieniowym sztucznej inteligencji

Można interaktywnie połączyć się ze środowiskiem uruchomieniowym AI z poziomu notesów, zaplanować notesy jako powtarzające się zadania lub programatycznie tworzyć zadania, korzystając z interfejsu API zadań i pakietów Asset Databricks. Aby uzyskać instrukcje krok po kroku, zobacz Connect to AI Runtime (Nawiązywanie połączenia ze środowiskiem uruchomieniowym AI).

Konfigurowanie środowiska

AI Runtime oferuje dwa zarządzane środowiska Python: minimalne domyślne środowisko podstawowe i w pełni funkcjonalne środowisko AI Databricks, które jest wstępnie załadowane popularnymi frameworkami uczenia maszynowego, takimi jak PyTorch i Transformers. Aby uzyskać szczegółowe informacje na temat wybierania środowiska, zachowania buforowania, importowania modułów niestandardowych i znanych ograniczeń, zobacz Konfigurowanie środowiska.

Odczytywanie danych

Zrozumienie sposobu działania dostępu do danych w środowisku AI Runtime jest niezbędne w celu zapewnienia bezproblemowego środowiska. Aby uzyskać szczegółowe informacje, zobacz Ładowanie danych w środowisku uruchomieniowym sztucznej inteligencji.

Trenowanie rozproszone

Ważna

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie podglądami Azure Databricks.

AI Runtime obsługuje trenowanie rozproszone na wielu jednostkach GPU na jednym węźle, z którym jest połączony Twój komputer przenośny. Korzystając z @distributed dekoratora z interfejsu API serverless_gpu Python (beta), możesz uruchomić obciążenia z wieloma procesorami GPU przy użyciu protokołu PyTorch DDP, FSDP lub DeepSpeed z minimalną konfiguracją. Aby uzyskać szczegółowe informacje, zobacz Obciążenie z wieloma procesorami GPU.

Śledzenie i obserwowanie eksperymentów

Aby uzyskać informacje na temat integracji platformy MLflow, wyświetlania dzienników i zarządzania punktami kontrolnymi dla modeli, zobacz Śledzenie eksperymentów i obserwowalność.

Genie Code for deep learning (Kod genie na potrzeby uczenia głębokiego)

Genie Code obsługuje obciążenia uczenia głębokiego w środowisku uruchomieniowym sztucznej inteligencji. Może pomóc w generowaniu kodu szkoleniowego, rozwiązywaniu błędów instalacji biblioteki, sugerowaniu optymalizacji i debugowaniu typowych problemów. Zobacz Use Genie Code for data science (Używanie kodu Genie na potrzeby nauki o danych).

Guides

Aby uzyskać informacje na temat migracji z klasycznych obciążeń, przykładowych notesów i rozwiązywania problemów, zobacz Przewodniki użytkownika dotyczące środowiska uruchomieniowego sztucznej inteligencji.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-19