Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden die verfügbaren Einstellungen beim Erstellen eines Pools mithilfe der Benutzeroberfläche beschrieben. Anleitungen zum Erstellen eines Pools mit der Databricks-CLI finden Sie unter Datebricks-CLI-Befehle. Anleitungen zur Verwendung der REST-API zum Erstellen eines Pools finden Sie unter Instanzenpools-API.
Hinweis
Wenn Ihre Arbeitslast serverlose Rechenleistung unterstützt, empfiehlt Databricks, anstelle von Pools serverlose Rechenleistung zu verwenden, um von stets verfügbarer, skalierbarer Rechenleistung zu profitieren. Siehe Verbindung mit serverlosem Computing herstellen.
Poolgröße
Wenn Sie einen Pool erstellen, können Sie seine Größe mit drei Parametern festlegen: „Minimale Leerlaufinstanzen“, „Maximale Kapazität“ und „Automatische Beendigung der Leerlaufinstanz“.
Minimale Leerlaufinstanzen
Die Mindestanzahl von Instanzen, die im Pool im Leerlauf gehalten werden. Diese Instanzen werden unabhängig von den Einstellungen für die automatische Beendigung nicht beendet. Wenn ein Cluster ungenutzte Instanzen aus dem Pool verwendet, stellt Azure Databricks zusätzliche Instanzen bereit, um die Mindestanzahl beizubehalten.
Maximale Kapazität
Die maximale Anzahl von Instanzen, die vom Pool bereitgestellt werden können. Wenn dieser Wert festgelegt ist, begrenzt er alle Instanzen (Instanzen im Leerlauf und verwendete Instanzen). Wenn ein Cluster, das den Pool verwendet, während der Autoskalierung mehr Instanzen anfordert als diese Zahl, schlägt die Anforderung mit dem Fehler INSTANCE_POOL_MAX_CAPACITY_FAILURE fehl.
Diese Konfiguration ist optional. Azure Databricks empfiehlt, nur in folgenden Situationen einen Wert festzulegen:
- Sie verfügen über ein Instanzkontingent, das Sie nicht überschreiten dürfen.
- Sie möchten verhindern, dass eine Gruppe von Aufgaben eine andere beeinflusst. Angenommen, Ihr Instanzkontingent beträgt 100, und Ihre Teams A und B müssen Aufträge ausführen. Sie können Pool A mit maximal 50 und Pool B mit maximal 50 erstellen, sodass sich die beiden Teams das Kontingent von 100 gerecht teilen.
- Sie müssen die Kosten begrenzen.
Automatische Beendigung inaktiver Instanzen
Die Zeit in Minuten, die Instanzen über dem in Minimale Leerlaufinstanzen festgelegten Wert im Leerlauf sein dürfen, bevor sie vom Pool beendet werden.
Instanztypen
Ein Pool besteht sowohl aus Leerlaufinstanzen, die für neue Cluster bereit gehalten werden, als auch aus Instanzen, die von ausgeführten Clustern verwendet werden. Diese Instanzen sind vom gleichen Instanzanbietertyp, der beim Erstellen eines Pools ausgewählt wird.
Der Instanztyp eines Pools kann nicht bearbeitet werden. Cluster, die einem Pool zugeordnet sind, verwenden für Driver- und Worker-Knoten denselben Instanztyp. Es gibt verschiedene Familien von Instanztypen für unterschiedliche Anwendungsfälle, z. B. speicherintensive oder rechenintensive Workloads.
Azure Databricks gibt immer ein Jahr im Voraus einen Hinweis zur Einstellung, bevor die Unterstützung für einen Instanztyp eingestellt wird.
Hinweis
Wenn Ihre Sicherheitsanforderungen eine Compute-Isolation vorsehen, wählen Sie eine Standard_F72s_V2-Instanz als Ihren Workertyp. Bei diesen Instanztypen handelt es sich um isolierte VMs, die den gesamten physischen Host in Anspruch nehmen und das erforderliche Maß an Isolation bieten, um z. B. Workloads gemäß DoD IL5 (Department of Defense Impact Level 5) zu unterstützen.
Vorab geladene Databricks Runtime-Version
Sie können den Start von Clustern beschleunigen, indem Sie eine Databricks Runtime-Version auswählen, die auf inaktive Instanzen im Pool geladen wird. Wenn ein Benutzer diese Laufzeit auswählt, wenn er einen Cluster erstellt, der vom Pool unterstützt wird, wird dieser Cluster noch schneller gestartet als ein poolgestützter Cluster, der keine vorinstallierte Databricks-Runtime-Version verwendet.
Wenn Sie diese Option auf Keine festlegen, verlangsamt dies Clusterstarts, da dadurch die Databricks Runtime-Version bei Bedarf auf inaktive Instanzen im Pool heruntergeladen wird. Wenn der Cluster die Instanzen im Pool freigibt, bleibt die Databricks Runtime-Version auf diesen Instanzen zwischengespeichert. Der nächste Vorgang zur Clustererstellung, bei dem dieselbe Databricks Runtime-Version verwendet wird, kann möglicherweise von diesem Caching-Verhalten profitieren, aber dies ist nicht garantiert.
Im Voraus geladenes Docker-Image
Docker-Images werden mit Pools unterstützt, wenn Sie die Instanzpool-API zum Erstellen des Pools verwenden. Weitere Informationen finden Sie unter Verwenden von Databricks-Containerdiensten mit einem Instanzpool .
Pooltags
Mit Pooltags können Sie die Kosten von Cloudressourcen, die von verschiedenen Gruppen in Ihrer Organisation genutzt werden, problemlos überwachen. Sie können Tags als Schlüssel-Wert-Paare angeben, wenn Sie einen Pool erstellen, und Azure Databricks wendet diese Tags auf Cloudressourcen wie VMs und Datenträgervolumes sowie auf DBU-Nutzungsberichte an.
Der Einfachheit halber wendet Azure Databricks drei Standardtags auf jeden Pool an: Vendor, DatabricksInstancePoolId und DatabricksInstancePoolCreatorId. Beim Erstellen eines Pools können Sie auch benutzerdefinierte Tags hinzufügen. Sie können bis zu 41 benutzerdefinierte Tags hinzufügen.
Benutzerdefinierte Tags
Um dem Pool zusätzliche Tags hinzuzufügen, navigieren Sie unten auf der Seite Pool erstellen zur Registerkarte Tags. Klicken Sie auf die Schaltfläche + Hinzufügen, und geben Sie dann das Schlüssel-Wert-Paar ein.
Poolgestützte Cluster erben Standardtags und benutzerdefinierte Tags von der Poolkonfiguration. Ausführliche Informationen dazu, wie Pooltags und Clustertags zusammenarbeiten, finden Sie unter Verwenden von Tags zum Attributieren und Nachverfolgen der Nutzung.
Automatische Skalierung des lokalen Speichers
Es ist oft schwierig abzuschätzen, wie viel Speicherplatz auf dem Datenträger ein bestimmter Auftrag beanspruchen wird. Damit Sie beim Erstellen Ihres Pools nicht selbst schätzen müssen, wie viele GB an verwaltetem Speicherplatz Sie an Ihren Pool anfügen müssen, aktiviert Azure Databricks automatisch für alle Azure Databricks-Pools die automatische Skalierung des lokalen Speichers.
Mit der automatischen Skalierung des lokalen Speichers überwacht Azure Databricks die Menge an freiem Speicherplatz, der in den Instanzen Ihres Pools verfügbar ist. Wenn der Speicherplatz einer Instanz nicht mehr ausreicht, wird automatisch ein neuer verwalteter Datenträger angefügt, bevor kein Speicherplatz mehr vorhanden ist. Datenträger sind bis zu einem Limit von 5 TB Gesamtspeicherplatz pro virtueller Maschine angebracht, einschließlich des ursprünglichen lokalen Speichers der virtuellen Maschine.
Die an eine VM angefügten verwalteten Datenträger werden nur getrennt, wenn die VM an Azure zurückgegeben wird. Das heißt, verwaltete Datenträger werden niemals von einer virtuellen Maschine getrennt, solange sie Teil eines Pools sind.
Spot-Instanzen
Wenn Sie zur Einsparung von Kosten Spot-Instanzen verwenden möchten, aktivieren Sie das Optionsfeld All Spot (Alle Spot-Instanzen).
Cluster in einem Pool werden mit Spot-Instanzen für alle Knoten – sowohl Treiber- als auch Workerknoten – gestartet (im Gegensatz zur hybriden Konfiguration aus On-Demand-Treiberknoten und Spot-Workerknoten bei Clustern ohne Pool).
Wenn Spot-Instanzen wegen Nichtverfügbarkeit verdrängt werden, ersetzen On-Demand-Instanzen die verdrängten Instanzen nicht.