Osvědčené postupy pro fondy
Tento článek vysvětluje, co jsou fondy a jak je můžete nejlépe nakonfigurovat. Informace o vytvoření fondu najdete v tématu Referenční informace o konfiguraci fondu.
Poznámka:
Pokud vaše úloha podporuje bezserverové výpočetní prostředky, doporučuje Databricks místo fondů používat bezserverové výpočetní prostředky, aby využívala škálovatelné výpočetní prostředky s nepřetržitým provozem. Viz Připojení k výpočetním prostředkům bez serveru.
Důležité informace o fondu
Při vytváření fondu zvažte následující skutečnosti:
- Vytvářejte fondy pomocí typů instancí a modulů runtime Azure Databricks na základě cílových úloh.
- Pokud je to možné, naplňte fondy spotovými instancemi, abyste snížili náklady. Jako pracovní uzly používejte pouze spotové fondy. Uzel ovladače by měl používat instance na vyžádání.
- Naplňte fondy instancemi na vyžádání pro úlohy s krátkými dobami provádění a striktními požadavky na dobu provádění.
- Ke správě fakturace použijte značky fondu a značky clusteru.
- Předem naplňte fondy, abyste měli jistotu, že jsou instance dostupné, když je clustery potřebují.
Vytváření fondů na základě úloh
Dobu pořízení instance můžete minimalizovat vytvořením fondu pro každý typ instance a modulem runtime Azure Databricks, který vaše organizace běžně používá. Pokud například většina clusterů přípravy dat používá typ A, clustery datových věd používají typ instance B a analytické clustery používají typ instance C, vytvořte fond s každým typem instance.
Použití fondů spotových instancí
Pokud váš uzel ovladače a pracovní uzly mají různé požadavky, použijte pro každý z nich různé fondy.
Azure Databricks nedoporučuje pro uzel ovladače používat spotové instance. Pokud pro pracovní uzel použijete spotový fond, vyberte jako typ ovladače fond na vyžádání.
Nakonfigurujte fondy tak, aby používaly instance na vyžádání pro úlohy s krátkými dobami provádění a striktními požadavky na dobu provádění. Instance na vyžádání slouží k tomu, aby se zabránilo ztrátě získaných instancí na vyšších cenách na spotovém trhu.
Nakonfigurujte fondy tak, aby používaly spotové instance pro clustery, které podporují interaktivní vývoj nebo úlohy, které upřednostňují úspory nákladů oproti spolehlivosti.
Označování fondů pro správu nákladů a fakturace
Označování fondů do správného nákladového centra umožňuje spravovat náklady a vracení poplatků za využití. K přidružení více nákladových center k fondu můžete použít více vlastních značek. Je ale důležité pochopit, jak se značky šíří při vytváření clusteru z fondů. Značky z fondů se šíří do základních instancí poskytovatele cloudu, ale značky clusteru ne. U fondu použijte všechny vlastní značky potřebné ke správě nákladů na vrácení peněz z výpočetních prostředků poskytovatele cloudu.
Značky fondu i značky clusteru se šíří do fakturace Azure Databricks. Ke správě vracení peněz z jednotek Azure Databricks můžete použít kombinaci značek clusteru a fondu.
Další informace najdete v tématu Monitorování využití pomocí značek.
Konfigurace fondů pro řízení nákladů
.. azure-aws:
You can use the following configuration options to help control the cost of pools:
- Set the [Min Idle](/compute/pools.md#minimum-idle-instances) instances to 0 to avoid paying for running instances that aren’t doing work. The tradeoff is a possible increase in time when a cluster needs to acquire a new instance.
- Set the [Max Capacity](/compute/pools.md#maximum-capacity) based on anticipated usage. This sets the ceiling for the maximum number of used and idle instances in the pool. If a job or cluster requests an instance from a pool at its maximum capacity, the request fails, and the cluster doesn't acquire more instances. Therefore, Databricks recommends that you set the maximum capacity only if there is a strict instance quota or budget constraint.
- Set the [Idle Instance Auto Termination](/compute/pools.md#idle-instance-auto-termination) time to provide a buffer between when the instance is released from the cluster and when it’s dropped from the pool. Set this to a period that allows you to minimize cost while ensuring the availability of instances for scheduled jobs. For example, job A is scheduled to run at 8:00 AM and takes 40 minutes to complete. Job B is scheduled to run at 9:00 AM and takes 30 minutes to complete. Set the Idle Instance Auto Termination value to 20 minutes to ensure that instances returned to the pool when job A completes are available when job B starts. Unless they are claimed by another cluster, those instances are terminated 20 minutes after job B ends.
Předem vyplnit fondy
Pokud chcete plně využívat fondy, můžete předem naplnit nově vytvořené fondy. V konfiguraci fondu nastavte minimální nečinné instance větší než nula. Případně pokud sledujete doporučení nastavit tuto hodnotu na nulu, použijte úvodní úlohu, abyste zajistili, že nově vytvořené fondy mají dostupné instance pro clustery, ke kterým mají přístup.
Při použití úvodní úlohy naplánujte úlohu s flexibilními požadavky na dobu provádění tak, aby běžela před úlohami s přísnějšími požadavky na výkon nebo před tím, než uživatelé začnou používat interaktivní clustery. Po dokončení úlohy se instance použité pro úlohu uvolní zpět do fondu. Nastavte minimální nastavení nečinné instance na hodnotu 0 a nastavte dobu automatického ukončení nečinnosti instance dostatečně vysokou, aby se zajistilo, že nečinné instance zůstanou dostupné pro následné úlohy.
Použití počáteční úlohy umožňuje instancím fondu aktivovat, naplnit fond a zůstat k dispozici pro podřízenou úlohu nebo interaktivní clustery.