Udostępnij za pośrednictwem


Podręczniki użytkownika dotyczące środowiska uruchomieniowego sztucznej inteligencji

Ważna

Środowisko uruchomieniowe sztucznej inteligencji dla zadań z jednym węzłem jest w publicznej wersji zapoznawczej. Rozproszony interfejs API trenowania dla obciążeń z wieloma procesorami GPU pozostaje w wersji beta.

Ta strona zawiera informacje o migracji, linki do przykładowych notesów i informacje dotyczące rozwiązywania problemów.

Migrowanie klasycznych obciążeń GPU na środowisko bezserwerowe

Jeśli przenosisz istniejące obciążenie uczenia głębokiego z klasycznego klastra usługi Databricks (z usługą Databricks Runtime ML) do bezserwerowego (ze środowiskiem AI Runtime), wykonaj następujące kroki:

  1. Zastąp kod zależny od klastra. Usuń wszystkie odwołania do trenowania rozproszonego opartego na Spark (na przykład TorchDistributor) i zastąp je znacznikiem @distributed z serverless_gpu.
  2. Zaktualizuj proces ładowania danych. Zastąp bezpośrednie ścieżki DBFS ścieżkami woluminów Unity Catalog (/Volumes/...). Zastąp lokalne operacje ramki danych Spark ramką danych Spark Connect.
  3. Zainstaluj ponownie zależności. Nie należy polegać na wstępnie zainstalowanych bibliotekach usługi Databricks Runtime ML. Dodaj jawne %pip install polecenia dla wszystkich wymaganych pakietów.
  4. Aktualizowanie ścieżek punktów kontrolnych. Przenoszenie punktów kontrolnych z DBFS lub magazynu lokalnego do woluminów katalogu Unity (/Volumes/<catalog>/<schema>/<volume>/...).
  5. Zaktualizuj konfigurację platformy MLflow. Upewnij się, że nazwy eksperymentów używają ścieżek bezwzględnych i skonfiguruj nazwy przebiegów, aby można było je łatwo uruchomić ponownie.
  6. Najpierw przetestuj interaktywnie. Zweryfikuj obciążenie w notesie interaktywnym przed zaplanowaniem go jako zadania.

Śledzenie użycia i kosztów

Możesz monitorować wydatki GPU środowiska uruchomieniowego AI, wykonując zapytanie dotyczące tabeli systemu rozliczania użycia (system.billing.usage). Następujące zapytanie zwraca łączne użycie dla bezserwerowych obciążeń procesora GPU:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Aby uzyskać więcej informacji na temat schematu tabeli zużycia rozliczalnego, zobacz Dokumentacja tabeli systemu zużycia rozliczalnego.

Opłaty za środowisko uruchomieniowe sztucznej inteligencji na godzinę procesora GPU w jednostce SKU trenowania modelu w następujących cenach:

  • H100 na żądanie: 7,00 USD/godzina procesora GPU (Wschodnie stany USA)
  • A10 na żądanie: 4,90 USD/godzina procesora GPU (Wschodnie stany USA)

Przykładowe notatniki

Dostępne są następujące kategorie przykładowych notesów, które ułatwiają rozpoczęcie pracy:

Kategoria Opis
Duże modele językowe (LLMs) Dostrajanie dużych modeli językowych, w tym metod efektywnych pod względem parametrów (LoRA, QLoRA)
widzenie komputerowe Wykrywanie obiektów, klasyfikacja obrazów i inne zadania CV
Systemy rekomendacji głębokiego uczenia się Tworzenie systemów rekomendacji przy użyciu nowoczesnych metod uczenia głębokiego, takich jak modele dwóch wież
Klasyczne uczenie maszynowe Tradycyjne zadania uczenia maszynowego, w tym trenowanie modelu XGBoost i prognozowanie szeregów czasowych
Trening rozproszony z użyciem wielu GPU Skalowanie trenowania na wielu procesorach GPU przy użyciu bezserwerowego interfejsu API procesora GPU

Aby uzyskać pełną listę, zobacz przykładowe notesy środowiska AI Runtime.

Troubleshooting

Kod Genie może pomóc zdiagnozować i zasugerować poprawki błędów instalacji biblioteki. Zobacz Debugowanie błędów środowiska obliczeniowego przy użyciu kodu Genie.

ValueError: zmieniony rozmiar numpy.dtype może wskazywać na niezgodność binarną. Oczekiwano 96 z nagłówka C, otrzymano 88 z obiektu Python

Błąd zwykle pojawia się, gdy występuje niezgodność wersji biblioteki NumPy używanych podczas kompilacji pakietu zależnego i wersji biblioteki NumPy aktualnie zainstalowanej w środowisku uruchomieniowym. Ta niezgodność często występuje z powodu zmian w interfejsie API języka C NumPy i jest szczególnie zauważalna między wersjami 1.x a 2.x. Ten błąd wskazuje, że pakiet języka Python zainstalowany w notesie mógł zmienić wersję biblioteki NumPy.

Zalecane rozwiązanie:

Sprawdź wersję biblioteki NumPy w środowisku uruchomieniowym i upewnij się, że jest ona zgodna z pakietami. Aby uzyskać informacje na temat wstępnie zainstalowanych bibliotek języka Python, zobacz Informacje o wersji obliczeniowej bezserwerowego procesora GPU dla środowiska 4 i środowiska 3 . Jeśli masz zależność od innej wersji biblioteki NumPy, dodaj zależność do środowiska obliczeniowego.

PyTorch nie może odnaleźć biblioteki libcudnn podczas instalowania pochodnii

Podczas instalowania innej wersji torchprogramu może zostać wyświetlony błąd: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Jest to spowodowane tym, że torch wyszukuje tylko bibliotekę cuDNN w ścieżce lokalnej.

Zalecane rozwiązanie:

Zainstaluj ponownie zależności, dodając podczas --force-reinstall instalowania programu torch:

%pip install torch --force-reinstall