Partager via


clusters groupe de commande

Note

Ces informations s’appliquent à Databricks CLI versions 0.205 et ultérieures. L’interface CLI Databricks est en préversion publique.

L’utilisation de l’interface CLI Databricks est soumise à la licence Databricks et à la notification de confidentialité Databricks, y compris les dispositions relatives aux données d’utilisation.

Le clusters groupe de commandes dans l’interface CLI Databricks vous permet de créer, démarrer, modifier, lister, terminer et supprimer des clusters.

Un cluster Databricks est un ensemble de ressources de calcul et de configurations sur lesquelles vous exécutez l’ingénierie des données, la science des données et les charges de travail d’analytique des données, telles que les pipelines ETL de production, l’analytique de streaming, l’analytique ad hoc et le Machine Learning. Consultez la vue d’ensemble du calcul classique.

Important

Databricks conserve les informations de configuration du cluster pour les clusters arrêtés pendant 30 jours. Pour conserver une configuration de cluster à usage unique, même après son arrêt depuis plus de 30 jours, un administrateur peut épingler un cluster à la liste des clusters.

clusters databricks change-owner

Modifiez le propriétaire du cluster. Vous devez être administrateur et le cluster doit être arrêté pour effectuer cette opération. L'ID d'application du principal de service peut être fourni comme argument à owner_username.

databricks clusters change-owner CLUSTER_ID OWNER_USERNAME [flags]

Arguments

CLUSTER_ID

    Identifiant de cluster.

OWNER_USERNAME

    Nouveau propriétaire du cluster_id après ce RPC.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

Indicateurs globaux

clusters databricks create

Créez un cluster. Cette commande acquiert de nouvelles instances auprès du fournisseur de cloud si nécessaire. Cette commande est asynchrone ; le cluster_id retourné peut être utilisé pour interroger l’état du cluster. Lorsque cette commande est retournée, le cluster est dans un état PENDING. Le cluster est utilisable une fois qu’il entre dans un état RUNNING. Databricks peut ne pas être en mesure d’acquérir certains des nœuds demandés, en raison des limitations du fournisseur de cloud (limites de compte, prix spot, etc.) ou des problèmes réseau temporaires.

Si Databricks acquiert au moins 85% des nœuds à la demande demandés, la création du cluster réussit. Sinon, le cluster se termine par un message d’erreur informatif.

Au lieu de créer la définition JSON du cluster à partir de zéro, Databricks recommande de remplir l’interface utilisateur de calcul de création , puis de copier la définition JSON générée à partir de l’interface utilisateur.

databricks clusters create SPARK_VERSION [flags]

Arguments

SPARK_VERSION

    Version Spark du cluster, par exemple, 13.3.x-scala2.12. Vous pouvez récupérer une liste des versions de Spark disponibles à l’aide de l’API Répertorier les versions de Spark disponibles .

Options

--apply-policy-default-values

    Lorsque la valeur est true, les valeurs fixes et par défaut de la stratégie sont utilisées pour les champs omis.

--autotermination-minutes int

    Met automatiquement fin au cluster une fois qu’il est inactif pendant cette période en minutes.

--cluster-name string

    Nom du cluster demandé par l’utilisateur.

--data-security-mode DataSecurityMode

    Le mode de sécurité des données détermine le modèle de gouvernance des données à utiliser lors de l’accès aux données à partir d’un cluster. Valeurs prises en charge : DATA_SECURITY_MODE_AUTO, DATA_SECURITY_MODE_DEDICATEDDATA_SECURITY_MODE_STANDARDLEGACY_PASSTHROUGHLEGACY_SINGLE_USERLEGACY_SINGLE_USER_STANDARDLEGACY_TABLE_ACLNONESINGLE_USERUSER_ISOLATION

--driver-instance-pool-id string

    ID facultatif du pool d’instances pour le pilote auquel le cluster appartient.

--driver-node-type-id string

    Type de nœud du pilote Spark.

--enable-elastic-disk

    Mise à l’échelle automatique du stockage local : lorsqu’il est activé, ce cluster acquiert dynamiquement un espace disque supplémentaire lorsque ses processeurs Spark sont à court d'espace disque.

--enable-local-disk-encryption

    Indique s’il faut activer LUKS sur les disques locaux des machines virtuelles de cluster.

--instance-pool-id string

    ID facultatif du pool d’instances auquel appartient le cluster.

--is-single-node

    Ce champ ne peut être utilisé que lorsque kind = CLASSIC_PREVIEW.

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--kind Kind

    Type de calcul décrit par cette spécification de calcul. Valeurs prises en charge : CLASSIC_PREVIEW

--no-wait

    N’attendez pas d’atteindre l’état RUNNING

--node-type-id string

    Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster.

--num-workers int

    Nombre de nœuds de travail que ce cluster doit avoir.

--policy-id string

    ID de la stratégie de cluster utilisée pour créer le cluster le cas échéant.

--runtime-engine RuntimeEngine

    Détermine le moteur d’exécution du cluster, standard ou Photon. Valeurs prises en charge : NULL, PHOTON, STANDARD

--single-user-name string

    Nom d’utilisateur unique si data_security_mode est SINGLE_USER.

--timeout duration

    durée maximale pour atteindre l’état RUNNING (20m0s par défaut)

--use-ml-runtime

    Ce champ ne peut être utilisé que lorsque kind = CLASSIC_PREVIEW.

Indicateurs globaux

suppression des clusters databricks

Terminez le cluster avec l’ID spécifié. Le cluster est supprimé de façon asynchrone. Une fois l’arrêt terminé, le cluster est dans un TERMINATED état. Si le cluster est déjà dans un état TERMINATING ou TERMINATED, rien ne se produit.

databricks clusters delete CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster à arrêter.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--no-wait

    N’attendez pas d’atteindre l’état TERMINATED

--timeout duration

    Durée maximale pour atteindre TERMINATED état (par défaut 20 min 0 s)

Indicateurs globaux

modification des clusters databricks

Mettez à jour la configuration d’un cluster pour qu’il corresponde aux attributs et à la taille fournis. Un cluster peut être mis à jour s’il est dans un état RUNNING ou TERMINATED.

Si un cluster est mis à jour dans un état RUNNING, il est redémarré afin que les nouveaux attributs puissent prendre effet.

Si un cluster est mis à jour dans un état TERMINATED, il reste TERMINATED. La prochaine fois qu’il a commencé à utiliser l’API clusters/start, les nouveaux attributs prennent effet. Toute tentative de mise à jour d’un cluster dans un autre état est rejetée avec un code d’erreur INVALID_STATE.

Impossible de modifier les clusters créés par le service Databricks Jobs.

databricks clusters edit CLUSTER_ID SPARK_VERSION [flags]

Arguments

CLUSTER_ID

    ID du cluster

SPARK_VERSION

    Version Spark du cluster, par exemple, 13.3.x-scala2.12. Vous pouvez récupérer une liste des versions de Spark disponibles à l’aide de l’API Répertorier les versions de Spark disponibles .

Options

--apply-policy-default-values

    Utilisez les valeurs fixes et par défaut de la stratégie pour les champs omis.

--autotermination-minutes int

    Arrêter le cluster automatiquement lorsqu'il est inactif pendant cette durée, en minutes.

--cluster-name string

    Nom du cluster demandé par l’utilisateur.

--data-security-mode DataSecurityMode

    Le mode de sécurité des données détermine le modèle de gouvernance des données à utiliser lors de l’accès aux données à partir d’un cluster. Valeurs prises en charge : DATA_SECURITY_MODE_AUTO, , , DATA_SECURITY_MODE_DEDICATED``, DATA_SECURITY_MODE_STANDARDLEGACY_PASSTHROUGHLEGACY_SINGLE_USERLEGACY_SINGLE_USER_STANDARDLEGACY_TABLE_ACLNONESINGLE_USERUSER_ISOLATION

--driver-instance-pool-id string

    ID facultatif du pool d’instances pour le pilote auquel le cluster appartient.

--driver-node-type-id string

    Type de nœud du pilote Spark.

--enable-elastic-disk

    Mise à l’échelle automatique du stockage local : lorsqu’il est activé, ce cluster acquiert dynamiquement un espace disque supplémentaire lorsque ses processeurs Spark sont à court d'espace disque.

--enable-local-disk-encryption

    Indique s’il faut activer LUKS sur les disques locaux des machines virtuelles de cluster.

--instance-pool-id string

    ID facultatif du pool d’instances auquel appartient le cluster.

--is-single-node

    Ce champ ne peut être utilisé que lorsque kind = CLASSIC_PREVIEW.

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--kind Kind

    Type de calcul décrit par cette spécification de calcul. Valeurs prises en charge : CLASSIC_PREVIEW

--no-wait

    N’attendez pas d’atteindre l’état RUNNING

--node-type-id string

    Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster.

--num-workers int

    Nombre de nœuds de travail que ce cluster doit avoir.

--policy-id string

    ID de la stratégie de cluster utilisée pour créer le cluster le cas échéant.

--runtime-engine RuntimeEngine

    Détermine le moteur d’exécution du cluster, standard ou Photon. Valeurs prises en charge : NULL, PHOTON, STANDARD

--single-user-name string

    Nom d’utilisateur unique si data_security_mode est SINGLE_USER.

--timeout duration

    durée maximale pour atteindre l’état RUNNING (20m0s par défaut)

--use-ml-runtime

    Ce champ ne peut être utilisé que lorsque kind = CLASSIC_PREVIEW.

Indicateurs globaux

clusters databricks events

Répertorie les événements relatifs à l’activité d’un cluster. Cette API est paginée. S’il existe d’autres événements à lire, la réponse inclut tous les paramètres nécessaires pour demander la page suivante des événements.

databricks clusters events CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    ID du cluster à propos duquel récupérer des événements.

Options

--end-time int

    Heure de fin en millisecondes d’époque.

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--limit int

    Déconseillé : utilisez page_token en combinaison avec page_size à la place.

--offset int

    Déconseillé : utilisez page_token en combinaison avec page_size à la place.

--order GetEventsOrder

    Ordre dans lequel répertorier les événements. Valeurs prises en charge : ASC, DESC

--page-size int

    Nombre maximal d’événements à inclure dans une page d’événements.

--page-token string

    Utilisez next_page_token ou prev_page_token retournés par la demande précédente pour répertorier respectivement la page suivante ou précédente des événements.

--start-time int

    Heure de début en millisecondes d’époque.

Indicateurs globaux

clusters databricks get

Obtient les informations d’un cluster en fonction de son identificateur. Les clusters peuvent être décrits pendant leur exécution ou jusqu’à 60 jours après leur arrêt.

databricks clusters get CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster sur lequel récupérer des informations.

Options

Indicateurs globaux

clusters databricks list

Liste les informations sur tous les clusters épinglés et actifs ainsi que tous les clusters arrêtés au cours des 30 derniers jours. Les clusters arrêtés avant cette période ne sont pas inclus.

databricks clusters list [flags]

Arguments

None

Options

--cluster-sources []string

    Filtrer les clusters par source

--cluster-states []string

    Filtrer les clusters par états

--is-pinned

    Filtrer les clusters par état d'épinglage

--page-size int

    Utilisez ce champ pour spécifier le nombre maximal de résultats à retourner par le serveur.

--page-token string

    Utilisez next_page_token ou prev_page_token retournés par la requête précédente pour répertorier respectivement la page suivante ou précédente des clusters.

--policy-id string

    Filtrer les clusters par ID de stratégie

Indicateurs globaux

clusters databricks list-node-types

Répertorier les types de nœuds Spark pris en charge. Ces types de nœuds peuvent être utilisés pour lancer un cluster.

databricks clusters list-node-types [flags]

Arguments

None

Options

Indicateurs globaux

clusters databricks list-zones

Répertoriez les zones de disponibilité dans lesquelles les clusters peuvent être créés (par exemple, us-west-2a). Ces zones peuvent être utilisées pour lancer un cluster.

databricks clusters list-zones [flags]

Arguments

None

Options

Indicateurs globaux

clusters databricks permanent-delete

Supprimez définitivement le cluster. Ce cluster est arrêté et les ressources sont supprimées de manière asynchrone.

En outre, les utilisateurs ne verront plus les clusters supprimés définitivement dans la liste des clusters, et les utilisateurs d’API ne peuvent plus effectuer d’action sur des clusters supprimés définitivement.

databricks clusters permanent-delete CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster à supprimer.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

Indicateurs globaux

clusters databricks pin

Épinglez un cluster pour vous assurer que le cluster sera toujours retourné par l’API ListClusters. Épingler un cluster qui est déjà épinglé n’a aucun effet. Cette API ne peut être appelée que par les administrateurs de l’espace de travail.

databricks clusters pin CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Identifiant de cluster.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

Indicateurs globaux

clusters databricks resize

Redimensionnez le cluster pour avoir un nombre souhaité de travailleurs. Cela échoue, sauf si le cluster est dans un état RUNNING.

databricks clusters resize CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster à redimensionner.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--no-wait

    N’attendez pas d’atteindre l’état RUNNING

--num-workers int

    Nombre de nœuds de travail que ce cluster doit avoir.

--timeout duration

    Durée maximale d’atteindre l’état RUNNING (20m0s par défaut)

Indicateurs globaux

Redémarrage des clusters Databricks

Redémarrez un cluster avec l’ID spécifié. Si le cluster n’est pas en cours d’exécution, rien ne se produit.

databricks clusters restart CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster à démarrer.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--no-wait

    N’attendez pas d’atteindre l’état RUNNING

--restart-user string

    Utilisateur qui a redémarré le cluster.

--timeout duration

    Durée maximale d’atteindre l’état RUNNING (20m0s par défaut)

Indicateurs globaux

clusters databricks spark-versions

Répertoriez les versions de Spark disponibles. Ces versions peuvent être utilisées pour lancer un cluster.

databricks clusters spark-versions [flags]

Arguments

None

Options

Indicateurs globaux

Démarrage des clusters Databricks

Redémarrez un cluster arrêté avec l’ID spécifié. Cela fonctionne de la même façon que createCluster, sauf : - L’ID de cluster précédent et les attributs sont conservés. - Le cluster commence par la dernière taille de cluster spécifiée. - Si le cluster précédent était un cluster de mise à l’échelle automatique, le cluster actuel commence par le nombre minimal de nœuds. - Si le cluster n’est pas actuellement dans un état TERMINATED, rien ne se produit. - Les clusters lancés pour exécuter un travail ne peuvent pas être démarrés.

databricks clusters start CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster à démarrer.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--no-wait

    N’attendez pas d’atteindre l’état RUNNING

--timeout duration

    Durée maximale d’atteindre l’état RUNNING (20m0s par défaut)

Indicateurs globaux

cluster databricks unpin

Désépiner un cluster pour permettre au cluster d’être supprimé de l’API ListClusters. Désépingler un cluster qui n’est pas épinglé n’a aucun effet. Cette API ne peut être appelée que par les administrateurs de l’espace de travail.

databricks clusters unpin CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Identifiant de cluster.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

Indicateurs globaux

Mise à jour des clusters Databricks

Mettez à jour la configuration d’un cluster pour qu’il corresponde à l’ensemble partiel d’attributs et de taille. Indiquez les champs à mettre à jour à l’aide du champ update_mask dans le corps de la requête. Un cluster peut être mis à jour s’il est dans un état RUNNING ou TERMINATED. Si un cluster est mis à jour pendant qu’il est en cours d’exécution, il est redémarré afin que les nouveaux attributs puissent prendre effet. Si le cluster est mis à jour alors qu'il est dans l'état "TERMINATED", il restera "TERMINATED". Les attributs mis à jour prennent effet la prochaine fois que le cluster est démarré à l’aide de l’API de démarrage des clusters. Les tentatives de mise à jour d’un cluster dans un autre état seront rejetées avec un code d’erreur INVALID_STATE. Impossible de mettre à jour les clusters créés par le service Databricks Jobs.

databricks clusters update CLUSTER_ID UPDATE_MASK [flags]

Arguments

CLUSTER_ID

    ID du cluster.

UPDATE_MASK

    Permet de spécifier les attributs de cluster et les champs de taille à mettre à jour. Consultez https://google.aip.dev/161 pour plus d’informations. Le masque de champ doit être une seule chaîne, avec plusieurs champs séparés par des virgules (aucun espace). Le chemin du champ est relatif à l’objet de ressource, à l’aide d’un point (.) pour parcourir les sous-champs (par exemple). author.given_name La spécification d’éléments dans des champs de séquence ou de carte n’est pas autorisée, car seul le champ de collection entier peut être spécifié. Les noms de champs doivent correspondre exactement aux noms des champs de ressource. Le masque de champ _ indique un remplacement complet. Il est recommandé de toujours répertorier explicitement les champs mis à jour et d’éviter d’utiliser _ des caractères génériques, car cela peut entraîner des résultats inattendus si l’API change à l’avenir.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

--no-wait

    N’attendez pas d’atteindre l’état RUNNING

--timeout duration

    Durée maximale d’atteindre l’état RUNNING (20m0s par défaut)

Indicateurs globaux

clusters databricks get-permission-levels

Obtenez les niveaux d’autorisation du cluster.

databricks clusters get-permission-levels CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster pour lequel obtenir ou gérer des autorisations.

Options

Indicateurs globaux

clusters databricks get-permissions

Accédez aux permissions du cluster. Les clusters peuvent hériter des autorisations de leur objet racine.

databricks clusters get-permissions CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster pour lequel obtenir ou gérer des autorisations.

Options

Indicateurs globaux

clusters databricks set-permissions

Définissez des autorisations de cluster, en remplaçant les autorisations existantes s’ils existent. Supprime toutes les autorisations directes si aucune n’est spécifiée. Les objets peuvent hériter des autorisations de leur objet racine.

databricks clusters set-permissions CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster pour lequel obtenir ou gérer des autorisations.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

Indicateurs globaux

clusters databricks update-permissions

Mettez à jour les autorisations sur un cluster. Les clusters peuvent hériter des autorisations de leur objet racine.

databricks clusters update-permissions CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    Cluster pour lequel obtenir ou gérer des autorisations.

Options

--json JSON

    Chaîne JSON inline ou chemin @path vers le fichier JSON avec le corps de la requête

Indicateurs globaux

Indicateurs globaux

--debug

  Active la journalisation du débogage.

-h ou --help

    Affiche l’aide pour l’interface CLI de Databricks, le groupe de commandes associé ou la commande concernée.

--log-file chaîne

    Chaîne représentant le fichier dans lequel écrire les journaux de sortie. Si cet indicateur n’est pas défini, les journaux de sortie sont écrits par défaut dans stderr.

--log-format Format

    Format des journaux : text ou json. La valeur par défaut est text.

--log-level chaîne

    Chaîne représentant le niveau de journalisation. Si cet indicateur n’est pas défini, le niveau de format de journal est désactivé.

Type -o, --output

    Type de sortie de commande, text ou json. La valeur par défaut est text.

-p, --profile chaîne

    Nom du profil dans le ~/.databrickscfg fichier à utiliser pour exécuter la commande. Si cet indicateur n’est pas spécifié, s’il existe, le profil nommé DEFAULT est utilisé.

--progress-format Format

    Format d’affichage des journaux d’activité de progression : default, append, inplace ou json

-t, --target chaîne

    Le cas échéant, la cible d’offre groupée à utiliser