Een uitvoeringsidentiteit opgeven voor een Databricks Asset Bundles-werkstroom

Artikel
05/03/2024

In dit artikel wordt beschreven hoe u de run_as instelling gebruikt om de identiteit op te geven die moet worden gebruikt bij het uitvoeren van Databricks Asset Bundles-werkstromen.

De run_as instelling kan worden geconfigureerd als een toewijzing op het hoogste niveau om toe te passen op resources of binnen een target implementatietoewijzing in een bundelconfiguratiebestand. Deze kan worden ingesteld op een user_name of een service_principal_name.

Deze instelling biedt de mogelijkheid om de identiteit te scheiden die wordt gebruikt om een bundeltaak of pijplijn te implementeren van de identiteit die wordt gebruikt door de taak of pijplijnwerkstroom die moet worden uitgevoerd. Dit verhoogt de flexibiliteit van bundelontwikkeling en -beheer, terwijl er ook kaders voor implementaties en uitvoeringen tot stand kunnen worden gebracht. Met name:

Als de identiteit die wordt gebruikt voor het implementeren van een bundel dezelfde is als de identiteit die is geconfigureerd in de instelling van run_as de bundel, zijn er geen beperkingen. Alle bundelbronnen worden ondersteund.
Als de identiteit die wordt gebruikt voor het implementeren van een bundel verschilt van de identiteit die is geconfigureerd in de instelling van de bundel run_as , wordt alleen een subset van bundelbronnen ondersteund. Pijplijnen en modellen die eindpunten leveren, worden niet ondersteund.

Een bundeluitvoeringsidentiteit instellen

Als u de uitvoeringsidentiteit van bundelbronnen wilt instellen, geeft u run_as op als een toewijzing op het hoogste niveau, zoals wordt weergegeven in het volgende voorbeeld:

bundle:
  name: "run_as"

# This is the identity that will be used when "databricks bundle run my_test_job" is executed.
run_as:
  service_principal_name: "5cf3z04b-a73c-4x46-9f3d-52da7999069e"

resources:
  jobs:
    my_test_job _1:
      name: Test job 1
      tasks:
        - task_key: "task_1"
          new_cluster:
            num_workers: 1
            spark_version: 13.2.x-snapshot-scala2.12
            node_type_id: i3.xlarge
            runtime_engine: PHOTON
          notebook_task:
            notebook_path: "./test.py"
    my_test_job_2:
      name: Test job 2
      run_as:
        service_principal_name: "69511ed2-zb27-444c-9863-4bc8ff497637"
      tasks:
        - task_key: "task_2"
          notebook_task:
            notebook_path: "./test.py"

Belangrijk

De run_as instelling wordt niet ondersteund voor pijplijnen of modellen die eindpunten leveren. Er treedt een fout op als deze resources zijn gedefinieerd in een bundel waar run_as ook wordt geconfigureerd.

Doelimplementatie-identiteiten instellen

Het is raadzaam om uitvoeringsidentiteiten te configureren voor faserings- en productiedoelimplementaties. Daarnaast is het instellen van een run_as identiteit voor een service-principal voor productiedoelen de veiligste manier om een productiewerkstroom uit te voeren:

Zorgt ervoor dat de werkstroom is geïmplementeerd door dezelfde service-principal of door iemand met CAN_USE machtigingen voor de service-principal zelf.
Koppelt de machtiging voor het uitvoeren van de productiewerkstroom los van de identiteit die de bundel heeft gemaakt of geïmplementeerd.
Hiermee kunnen gebruikers een service-principal configureren en instellen voor productie met minder machtigingen dan de identiteit die wordt gebruikt om de productiebundel te implementeren.

In het volgende voorbeeldconfiguratiebestand databricks.yml zijn drie doelmodi geconfigureerd: ontwikkeling, fasering en productie. De ontwikkelingsmodus is geconfigureerd voor uitvoering als afzonderlijke gebruiker en de faserings- en productiemodi worden geconfigureerd voor uitvoering met behulp van twee verschillende service-principals. Service-principals hebben altijd de vorm van een toepassings-id, die kan worden opgehaald van de pagina van een service-principal in de beheerinstellingen van uw werkruimte.

bundle:
  name: my_targeted_bundle

run_as:
  service_principal_name: "5cf3z04b-a73c-4x46-9f3d-52da7999069e"

targets:
  # Development deployment settings, set as the default
  development:
    mode: development
    default: true
    workspace:
      host: https://my-host.cloud.databricks.com
    run_as:
      user_name: someone@example.com

  # Staging deployment settings
  staging:
    workspace:
      host: https://my-host.cloud.databricks.com
      root_path: /Shared/staging-workspace/.bundle/${bundle.name}/${bundle.target}
    run_as:
      service_principal_name: "69511ed2-zb27-444c-9863-4bc8ff497637"

  # Production deployment settings
  production:
    mode: production
    workspace:
      host: https://my-host.cloud.databricks.com
      root_path: /Shared/production-workspace/.bundle/${bundle.name}/${bundle.target}
    run_as:
      service_principal_name: "68ed9cd5-8923-4851-x0c1-c7536c67ff99"

resources:
  jobs:
    my_test_job:
      name: Test job
      tasks:
        - task_key: "task"
          new_cluster:
            num_workers: 1
            spark_version: 13.3.x-cpu-ml-scala2.12
            node_type_id: i3.xlarge
            runtime_engine: STANDARD
          notebook_task:
            notebook_path: "./test.py"

Delen via

Een uitvoeringsidentiteit opgeven voor een Databricks Asset Bundles-werkstroom

Een bundeluitvoeringsidentiteit instellen

Doelimplementatie-identiteiten instellen

Feedback

Aanvullende resources