Konfigurowanie obliczeń dla zadań
Ten artykuł zawiera zalecenia i zasoby dotyczące konfigurowania zasobów obliczeniowych dla zadań usługi Databricks.
Ważne
Ograniczenia dotyczące przetwarzania bezserwerowego dla zadań obejmują następujące elementy:
- Brak obsługi planowania ciągłego .
- Brak obsługi domyślnych lub opartych na czasie wyzwalaczy interwałów w strumieniu ze strukturą.
Aby uzyskać więcej ograniczeń, zobacz Ograniczenia obliczeń bezserwerowych.
Każde zadanie może mieć co najmniej jedno zadanie. Należy zdefiniować zasoby obliczeniowe dla każdego zadania. Wiele zadań zdefiniowanych dla tego samego zadania może używać tego samego zasobu obliczeniowego.
Jakie są zalecane obliczenia dla każdego zadania?
W poniższej tabeli przedstawiono zalecane i obsługiwane typy obliczeń dla każdego typu zadania.
Uwaga
Bezserwerowe obliczenia dla zadań mają ograniczenia i nie obsługują wszystkich obciążeń. Zobacz Ograniczenia obliczeń bezserwerowych.
Zadanie | Zalecane obliczenia | Obsługiwane zasoby obliczeniowe |
---|---|---|
Notesy | Zadania bezserwerowe | Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia |
Skrypt języka Python | Zadania bezserwerowe | Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia |
Koło języka Python | Zadania bezserwerowe | Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia |
SQL | Bezserwerowa usługa SQL Warehouse | Bezserwerowa usługa SQL Warehouse, pro SQL Warehouse |
Potok delta Live Tables | Potok bezserwerowy | Potok bezserwerowy, potok klasyczny |
dbt | Bezserwerowa usługa SQL Warehouse | Bezserwerowa usługa SQL Warehouse, pro SQL Warehouse |
Polecenia interfejsu wiersza polecenia dbt | Zadania bezserwerowe | Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia |
JAR | Zadania klasyczne | Zadania klasyczne, klasyczne zadania all-purpose |
Przesyłanie platformy Spark | Zadania klasyczne | Zadania klasyczne |
Cennik zadań jest powiązany z obliczeniami używanymi do uruchamiania zadań. Aby uzyskać więcej informacji, zobacz Cennik usługi Databricks.
Jak mogę skonfigurować obliczenia dla zadań?
Obliczenia zadań klasycznych są konfigurowane bezpośrednio z interfejsu użytkownika zadań usługi Databricks, a te konfiguracje są częścią definicji zadania. Wszystkie inne dostępne typy obliczeniowe przechowują swoje konfiguracje z innymi zasobami obszaru roboczego. Poniższa tabela zawiera więcej szczegółów:
Typ środowiska obliczeniowego | Szczegóły |
---|---|
Obliczenia zadań klasycznych | Obliczenia dla zadań klasycznych można skonfigurować przy użyciu tego samego interfejsu użytkownika i ustawień dostępnych dla obliczeń wszystkich celów. Zobacz Informacje o konfiguracji obliczeniowej. |
Bezserwerowe obliczenia dla zadań | Bezserwerowe obliczenia dla zadań są domyślne dla wszystkich zadań, które je obsługują. Usługa Databricks zarządza ustawieniami obliczeniowymi dla bezserwerowych obliczeń. Zobacz Uruchamianie zadania usługi Azure Databricks z bezserwerowymi obliczeniami dla przepływów pracy. nn Administrator obszaru roboczego musi włączyć bezserwerowe obliczenia, aby ta opcja jest widoczna. Zobacz Włączanie przetwarzania bezserwerowego. |
Magazyny SQL | Bezserwerowe i pro usługi SQL Warehouse są konfigurowane przez administratorów obszaru roboczego lub użytkowników z nieograniczonymi uprawnieniami tworzenia klastra. Zadania podrzędne są konfigurowane pod kątem uruchamiania względem istniejących magazynów SQL Warehouse. Zobacz Nawiązywanie połączenia z usługą SQL Warehouse. |
Obliczenia potoku tabel na żywo usługi Delta | Podczas konfigurowania potoku można skonfigurować ustawienia obliczeniowe dla potoków delta Live Tables. Zobacz Configure compute for a Delta Live Tables pipeline (Konfigurowanie obliczeń dla potoku tabel na żywo delty). nn Azure Databricks zarządza zasobami obliczeniowymi dla bezserwerowych potoków tabel na żywo delty. Zobacz Konfigurowanie potoku bezserwerowych tabel różnicowych na żywo. |
Obliczenia ogólnego przeznaczenia | Opcjonalnie można skonfigurować zadania przy użyciu klasycznych obliczeń ogólnego przeznaczenia. Usługa Databricks nie zaleca tej konfiguracji dla zadań produkcyjnych. Zobacz Informacje o konfiguracji obliczeniowej i Czy zasoby obliczeniowe przeznaczone do wszystkich celów powinny być kiedykolwiek używane dla zadań?. |
Udostępnianie zasobów obliczeniowych między zadaniami
Skonfiguruj zadania tak, aby używały tych samych zasobów obliczeniowych zadań, aby zoptymalizować użycie zasobów za pomocą zadań, które organizuje wiele zadań. Udostępnianie zasobów obliczeniowych między zadaniami może zmniejszyć opóźnienie związane z czasem uruchamiania.
Za pomocą pojedynczego zasobu obliczeniowego zadania można uruchamiać wszystkie zadania, które są częścią zadania lub wiele zasobów zadań zoptymalizowanych pod kątem określonych obciążeń. Wszystkie obliczenia zadań skonfigurowane jako część zadania są dostępne dla wszystkich innych zadań w zadaniu.
W poniższej tabeli przedstawiono różnice między obliczeniami zadań skonfigurowanymi dla pojedynczego zadania i obliczeniami zadań współużytkowanych między zadaniami:
Jedno zadanie | Współużytkowany między zadaniami | |
---|---|---|
Uruchom | Po rozpoczęciu uruchamiania zadania. | Po rozpoczęciu pierwszego uruchomienia zadania skonfigurowanego do korzystania z zasobu obliczeniowego. |
Zakończ | Po uruchomieniu zadania. | Po zakończeniu zadania skonfigurowanego do korzystania z zasobów obliczeniowych. |
Bezczynne obliczenia | Nie dotyczy. | Zasoby obliczeniowe pozostają w stanie bezczynności, gdy zadania nie korzystają z uruchomienia zasobu obliczeniowego. |
Udostępniony klaster zadań jest w zakresie jednego uruchomienia zadania i nie może być używany przez inne zadania lub uruchomienia tego samego zadania.
Nie można zadeklarować bibliotek w konfiguracji klastra zadań udostępnionych. Biblioteki zależne należy dodać w ustawieniach zadań.
Przeglądanie, konfigurowanie i zamiana zadań obliczeniowych
Sekcja Obliczenia w panelu Szczegóły zadania zawiera listę wszystkich zasobów obliczeniowych skonfigurowanych dla zadań w bieżącym zadaniu.
Zadania skonfigurowane do używania zasobu obliczeniowego są wyróżnione na wykresie zadań po umieszczeniu wskaźnika myszy na specyfikacji obliczeniowej.
Użyj przycisku Zamień, aby zmienić obliczenia dla wszystkich zadań skojarzonych z zasobem obliczeniowym.
Zasoby obliczeniowe zadań klasycznych mają opcję Konfiguruj . Inne zasoby obliczeniowe udostępniają opcje wyświetlania i modyfikowania szczegółów konfiguracji obliczeniowej.
Zalecenia dotyczące konfigurowania obliczeń zadań klasycznych
Ta sekcja koncentruje się na ogólnych zaleceniach dotyczących funkcji i konfiguracji, które mogą przynieść korzyści niektórym przepływom pracy. Konkretne zalecenia dotyczące konfigurowania rozmiaru i typów zasobów obliczeniowych różnią się w zależności od obciążenia.
Usługa Databricks zaleca włączenie przyspieszania photon, używanie najnowszych wersji środowiska Databricks Runtime i używanie obliczeń skonfigurowanych dla wykazu aparatu Unity.
Bezserwerowe obliczenia dla zadań zarządzają całą infrastrukturą, eliminując następujące zagadnienia. Zobacz Uruchamianie zadania usługi Azure Databricks z bezserwerowymi obliczeniami dla przepływów pracy.
Uwaga
Przepływy pracy przesyłania strumieniowego ze strukturą mają określone zalecenia. Zobacz Zagadnienia dotyczące produkcji przesyłania strumieniowego ze strukturą.
Korzystanie z trybu dostępu współdzielonego
Usługa Databricks zaleca używanie trybu dostępu współdzielonego dla zadań. Zobacz Tryby dostępu.
Uwaga
Tryb dostępu współdzielonego nie obsługuje niektórych obciążeń i funkcji. Usługa Databricks zaleca tryb dostępu pojedynczego użytkownika dla tych obciążeń. Zobacz Ograniczenia trybu dostępu obliczeniowego dla wykazu aparatu Unity.
Korzystanie z zasad klastra
Usługa Databricks zaleca, aby administratorzy obszarów roboczych definiowali zasady klastra dla zadań i wymuszali te zasady dla wszystkich użytkowników, którzy konfigurują zadania.
Zasady klastra umożliwiają administratorom obszarów roboczych ustawianie kontroli kosztów i ograniczanie opcji konfiguracji użytkowników. Aby uzyskać szczegółowe informacje na temat konfigurowania zasad klastra, zobacz Tworzenie zasad obliczeniowych i zarządzanie nimi.
Usługa Azure Databricks udostępnia domyślne zasady skonfigurowane dla zadań. Administratorzy mogą udostępnić te zasady innym użytkownikom obszaru roboczego. Zobacz Obliczenia zadań.
Używanie skalowania automatycznego
Skonfiguruj skalowanie automatyczne, aby długotrwałe zadania mogły dynamicznie dodawać i usuwać węzły robocze podczas uruchamiania zadania. Zobacz Włącz skalowanie automatyczne.
Użyj puli, aby skrócić czas uruchamiania klastra
Pule zasobów obliczeniowych umożliwiają rezerwę zasobów obliczeniowych od dostawcy usług w chmurze. Pule są korzystne, aby zmniejszyć czas rozpoczęcia nowego klastra zadań i zapewnić dostępność zasobów obliczeniowych. Zobacz Dokumentację konfiguracji puli.
Używanie wystąpień typu spot
Skonfiguruj wystąpienia typu spot dla obciążeń, które mają wymagania dotyczące opóźnienia w celu optymalizacji kosztów. Zobacz Wystąpienia typu spot.
Czy w przypadku zadań należy kiedykolwiek używać obliczeń wszystkich celów?
Istnieje wiele powodów, dla których usługa Databricks zaleca korzystanie z obliczeń wszystkich celów dla zadań, w tym następujących:
- Opłaty za usługę Azure Databricks dla obliczeń wszystkich celów są naliczane w innej szybkości niż obliczenia zadań.
- Obliczenia zadań kończą się automatycznie po zakończeniu uruchamiania zadania. Obliczenia ogólnego przeznaczenia obsługują automatyczne kończenie, które jest powiązane z brakiem aktywności, a nie końcem uruchomienia zadania.
- Obliczenia ogólnego przeznaczenia są często współużytkowane przez zespoły użytkowników. Zadania zaplanowane dla obliczeń wszystkich celów często zwiększają opóźnienie ze względu na konkurencję dla zasobów obliczeniowych.
- Wiele zaleceń dotyczących optymalizowania konfiguracji obliczeniowej zadań nie jest odpowiednie dla typu zapytań ad hoc i obciążeń interakcyjnych uruchamianych w obliczeniach wszystkich celów.
Poniżej przedstawiono przypadki użycia, w których można użyć obliczeń wszystkich celów dla zadań:
- Iteracyjnie opracowujesz lub testujesz nowe zadania. Czas uruchamiania zasobów obliczeniowych zadań może sprawić, że programowanie iteracyjne będzie żmudne. Obliczenia ogólnego przeznaczenia umożliwiają szybkie stosowanie zmian i uruchamianie zadania.
- Masz krótkotrwałe zadania, które muszą być uruchamiane często lub zgodnie z określonym harmonogramem. Nie ma czasu uruchamiania skojarzonego z aktualnie uruchomionymi obliczeniami typu all-purpose. Rozważ koszty związane z czasem bezczynności, jeśli używasz tego wzorca.
Przetwarzanie bezserwerowe dla zadań jest zalecanym zamiennikiem większości typów zadań, które można rozważyć przy użyciu obliczeń wszystkich celów.