Udostępnij za pośrednictwem


Środowisko uruchomieniowe sztucznej inteligencji

Ważna

Środowisko uruchomieniowe sztucznej inteligencji dla zadań z jednym węzłem jest w publicznej wersji zapoznawczej. Rozproszony interfejs API trenowania dla obciążeń z wieloma procesorami GPU pozostaje w wersji beta.

Omówienie środowiska uruchomieniowego sztucznej inteligencji

AI Runtime to oferta obliczeniowa w usłudze Databricks przeznaczona do obsługi obciążeń uczenia głębokiego oraz zapewniająca wsparcie dla GPU w ramach usługi Databricks Serverless. Środowisko uruchomieniowe sztucznej inteligencji umożliwia trenowanie i dostosowywanie modeli niestandardowych przy użyciu ulubionych struktur oraz uzyskiwanie najnowocześniejszej wydajności, wydajności i jakości. Aby zapoznać się z omówieniem sposobu dopasowania bezserwerowych obliczeń do architektury usługi Databricks, zobacz Architektura bezserwerowego obszaru roboczego.

Kluczowe funkcje

  • W pełni zarządzana infrastruktura GPU — elastyczny, bezserwerowy dostęp do GPU, bez konieczności zarządzania konfiguracją klastra, wyborem sterowników czy politykami automatycznego skalowania.
  • Środowisko uruchomieniowe dedykowane do uczenia głębokiego — wybierz minimalne domyślne środowisko podstawowe, aby uzyskać maksymalną elastyczność w zależnościach lub wstępnie załadowane środowisko sztucznej inteligencji z popularnymi strukturami uczenia maszynowego.
  • Natywnie zintegrowane w notesach, zadaniach, katalogu Unity i rozwiązaniu MLflow dla płynnego tworzenia, dostępu do danych i śledzenia eksperymentów.

Opcje sprzętu

Wszystkie akceleratory środowiska uruchomieniowego sztucznej inteligencji aprowizują pojedynczy węzeł. Liczba procesorów GPU w tym węźle zależy od typu akceleratora:

Akcelerator Liczba GPU na węzeł Najlepsze dla Szkolenie rozproszone
A10 1 Małe i średnie zadania uczenia maszynowego i uczenia głębokiego, takie jak klasyczne modele uczenia maszynowego lub dostrajanie mniejszych modeli językowych Nieobsługiwane (pojedynczy procesor GPU)
8xH100 8 Obciążenia sztucznej inteligencji na dużą skalę, w tym trenowanie lub dostrajanie ogromnych modeli lub uruchamianie zaawansowanych zadań uczenia głębokiego Obsługiwane — użyj dekoratora @distributed z gpus=8

Databricks zaleca korzystanie ze środowiska AI Runtime dla wszystkich niestandardowych przypadków użycia treningu modeli, które obejmują uczenie głębokie, klasyczne obciążenia robocze lub GPU na dużą skalę.

Przykład:

  • Optymalizacja LLM (LoRA, QLoRA, kompletna optymalizacja)
  • Przetwarzanie obrazów (wykrywanie obiektów, klasyfikacja obrazów)
  • Systemy rekomendacji oparte na uczeniu głębokim
  • Uczenie przez wzmacnianie
  • Prognozowanie szeregów czasowych opartych na uczeniu głębokim

Wymagania

  • Obszar roboczy w jednym z następujących regionów obsługiwanych przez Azure:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Ograniczenia

  • Środowisko uruchomieniowe sztucznej inteligencji obsługuje tylko akceleratory A10 i H100.
  • Środowisko uruchomieniowe sztucznej inteligencji nie jest obsługiwane w przypadku obszarów roboczych profilu zabezpieczeń zgodności (takich jak HIPAA lub PCI). Przetwarzanie danych regulowanych nie jest obsługiwane.
  • Dodawanie zależności przy użyciu panelu Środowiska nie jest obsługiwane w przypadku zaplanowanych zadań środowiska uruchomieniowego sztucznej inteligencji. Zainstaluj zależności programowo za pomocą polecenia %pip install w notesie.
  • W przypadku zaplanowanych zadań w środowisku AI Runtime, zachowanie automatycznego odzyskiwania dla niezgodnych wersji pakietów związanych z notebookiem nie jest obsługiwane.
  • Maksymalny czas wykonywania obciążenia wynosi siedem dni. W przypadku zadań trenowania modelu, które przekraczają ten limit, zaimplementuj zapisywanie stanu i uruchom ponownie zadanie po osiągnięciu maksymalnego czasu działania.
  • Środowisko uruchomieniowe sztucznej inteligencji zapewnia dostęp na żądanie do zasobów procesora GPU. Chociaż prowadzi to do łatwego, elastycznego dostępu do procesorów GPU, mogą występować okresy, w których pojemność jest ograniczona lub niedostępna w Twoim regionie.
  • Środowisko AI korzysta z międzyregionalnych GPU w niektórych przypadkach podczas wysokiego zapotrzebowania. Mogą istnieć koszty ruchu wychodzącego związane z takim użyciem.

Nawiązywanie połączenia ze środowiskiem uruchomieniowym sztucznej inteligencji

Można interaktywnie połączyć się ze środowiskiem uruchomieniowym AI z poziomu notesów, zaplanować notesy jako powtarzające się zadania lub programatycznie tworzyć zadania, korzystając z interfejsu API zadań i pakietów Asset Databricks. Aby uzyskać instrukcje krok po kroku, zobacz Connect to AI Runtime (Nawiązywanie połączenia ze środowiskiem uruchomieniowym AI).

Konfigurowanie środowiska

AI Runtime oferuje dwa zarządzane środowiska Python: minimalne domyślne środowisko podstawowe i w pełni funkcjonalne środowisko AI Databricks, które jest wstępnie załadowane popularnymi frameworkami uczenia maszynowego, takimi jak PyTorch i Transformers. Aby uzyskać szczegółowe informacje na temat wybierania środowiska, zachowania buforowania, importowania modułów niestandardowych i znanych ograniczeń, zobacz Konfigurowanie środowiska.

Odczytywanie danych

Zrozumienie sposobu działania dostępu do danych w środowisku AI Runtime jest niezbędne w celu zapewnienia bezproblemowego środowiska. Aby uzyskać szczegółowe informacje, zobacz Ładowanie danych w środowisku uruchomieniowym sztucznej inteligencji.

Trenowanie rozproszone

Ważna

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie podglądami Azure Databricks.

AI Runtime obsługuje trenowanie rozproszone na wielu jednostkach GPU na jednym węźle, z którym jest połączony Twój komputer przenośny. Korzystając z @distributed dekoratora z interfejsu API serverless_gpu Python (beta), możesz uruchomić obciążenia z wieloma procesorami GPU przy użyciu protokołu PyTorch DDP, FSDP lub DeepSpeed z minimalną konfiguracją. Aby uzyskać szczegółowe informacje, zobacz Obciążenie z wieloma procesorami GPU.

Śledzenie i obserwowanie eksperymentów

Aby uzyskać informacje na temat integracji platformy MLflow, wyświetlania dzienników i zarządzania punktami kontrolnymi dla modeli, zobacz Śledzenie eksperymentów i obserwowalność.

Genie Code for deep learning (Kod genie na potrzeby uczenia głębokiego)

Genie Code obsługuje obciążenia uczenia głębokiego w środowisku uruchomieniowym sztucznej inteligencji. Może pomóc w generowaniu kodu szkoleniowego, rozwiązywaniu błędów instalacji biblioteki, sugerowaniu optymalizacji i debugowaniu typowych problemów. Zobacz Use Genie Code for data science (Używanie kodu Genie na potrzeby nauki o danych).

Guides

Aby uzyskać informacje na temat migracji z klasycznych obciążeń, przykładowych notesów i rozwiązywania problemów, zobacz Przewodniki użytkownika dotyczące środowiska uruchomieniowego sztucznej inteligencji.