DatabricksStep 클래스
DataBricks Notebook, Python 스크립트 또는 JAR을 노드로 추가하는 Azure ML 파이프라인 단계를 만듭니다.
DatabricksStep 사용의 예제는 Notebook https://aka.ms/pl-databricks를 참조하세요.
Azure ML 파이프라인 단계를 만들어 DataBricks Notebook, Python 스크립트 또는 JAR을 노드로 추가합니다.
DatabricksStep 사용의 예제는 Notebook https://aka.ms/pl-databricks를 참조하세요.
:p aram python_script_name:[필수] 에 상대적 source_directory
인 Python 스크립트의 이름입니다.
스크립트가 입력과 출력을 사용하면 매개 변수로 스크립트에 전달됩니다.
python_script_name
가 지정되면 source_directory
도 지정되어야 합니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
DataReference 개체를 data_reference_name=input1에 입력으로 지정하고 PipelineData 개체를 name=output1에 출력으로 지정하면 입력과 출력이 매개 변수로 스크립트에 전달됩니다. 그러면 다음과 같이 표시되며 각 입력 및 출력의 경로에 액세스하려면 스크립트의 인수를 구문 분석해야 합니다. "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
또한 스크립트 내에서 다음 매개 변수를 사용할 수 있습니다.
- AZUREML_RUN_TOKEN: Azure Machine Learning으로 인증하기 위한 AML 토큰입니다.
- AZUREML_RUN_TOKEN_EXPIRY: AML 토큰 만료 시간입니다.
- AZUREML_RUN_ID: 이 실행에 대한 Azure Machine Learning 실행 ID입니다.
- AZUREML_ARM_SUBSCRIPTION: AML 작업 영역에 대한 Azure 구독입니다.
- AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning 작업 영역에 대한 Azure 리소스 그룹입니다.
- AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning 작업 영역의 이름입니다.
- AZUREML_ARM_PROJECT_NAME: Azure Machine Learning 실험의 이름입니다.
- AZUREML_SERVICE_ENDPOINT: AML 서비스의 엔드포인트 URL입니다.
- AZUREML_WORKSPACE_ID: Azure Machine Learning 작업 영역의 ID입니다.
- AZUREML_EXPERIMENT_ID: Azure Machine Learning 실험의 ID입니다.
- AZUREML_SCRIPT_DIRECTORY_NAME: source_directory가 복사된 DBFS의 디렉터리 경로입니다.
(This parameter is only populated when `python_script_name` is used. See more details below.)
DatabricksStep 매개 변수 source_directory
및 python_script_name
을 사용하여 Databricks의 로컬 머신에서 Python 스크립트를 실행하는 경우 source_directory가 DBFS로 복사되고 DBFS의 디렉터리 경로가 실행을 시작할 때 스크립트에 매개 변수로 전달됩니다.
이 매개 변수의 레이블은 AZUREML_SCRIPT_DIRECTORY_NAME입니다. DBFS의 디렉터리에 액세스하려면 문자열 “dbfs:/” 또는 “/dbfs/”를 접두사로 추가해야 합니다.
- 상속
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
생성자
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
매개 변수
- inputs
- list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
이 단계에서 사용하는 데이터에 대한 입력 연결 목록입니다. dbutils.widgets.get("input_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. DataReference 또는 PipelineData일 수 있습니다. DataReference는 데이터 저장소의 기존 데이터 부분을 나타냅니다. 기본적으로 데이터 저장소의 경로입니다. DatabricksStep은 DBFS, Azure Blob 또는 ADLS v1을 캡슐화하는 데이터 저장소를 지원합니다. PipelineData는 파이프라인의 다른 단계에서 생성된 중간 데이터를 나타냅니다.
이 단계에서 생성된 출력에 대한 출력 포트 정의 목록입니다. dbutils.widgets.get("output_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. PipelineData여야 합니다.
- existing_cluster_id
- str
Databricks 작업 영역에 있는 기존 대화형 클러스터의 클러스터 ID입니다. 이 매개 변수를 전달하는 경우 새 클러스터를 만드는 데 사용되는 다음 매개 변수를 전달할 수 없습니다.
- spark_version
- node_type
- instance_pool_id
- num_workers
- min_workers
- max_workers
- spark_env_variables
- spark_conf
참고: 새 작업 클러스터를 만들려면 위의 매개 변수를 전달해야 합니다. 이러한 매개 변수를 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달할 수 있습니다. 이러한 매개 변수를 RunConfiguration을 통해 직접 전달하면 오류가 발생합니다.
- spark_version
- str
Databricks 실행 클러스터에 대한 spark 버전(예: "10.4.x-scala2.12").
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- node_type
- str
[필수] Databricks에 대한 Azure VM 노드 유형은 클러스터(예: "Standard_D3_v2")를 실행합니다. node_type
또는 instance_pool_id
를 지정합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- instance_pool_id
- str
[필수] 클러스터를 연결해야 하는 인스턴스 풀 ID입니다.
node_type
또는 instance_pool_id
를 지정합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- num_workers
- int
[필수] Databricks 실행 클러스터에 대한 고정 작업자 수입니다.
num_workers
또는 min_workers
와 max_workers
둘 다를 지정해야 합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- min_workers
- int
[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최소 작업자 수입니다.
num_workers
또는 min_workers
와 max_workers
둘 다를 지정해야 합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- max_workers
- int
[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최대 작업자 수입니다.
num_workers
또는 min_workers
와 max_workers
둘 다를 지정해야 합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- spark_env_variables
- dict
Databricks 실행 클러스터에 대한 Spark 환경 변수입니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- spark_conf
- dict
Databricks 실행 클러스터에 대한 Spark 구성입니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- init_scripts
- [str]
더 이상 사용되지 않습니다. Databricks는 DBFS에 저장된 init 스크립트가 2023년 12월 1일 이후에 작업을 중지할 것이라고 발표했습니다. 문제를 완화하려면 1) 다음 https://learn.microsoft.com/azure/databricks/init-scripts/global databricks에서 전역 init 스크립트를 사용하세요. 2) AzureML databricks 단계에서 init_scripts 줄을 주석 처리합니다.
- notebook_path
- str
[필수] Databricks 인스턴스의 Notebook 경로입니다. 이 클래스는 Databricks 클러스터에서 실행할 코드를 지정하는 네 가지 방법을 허용합니다.
Databricks 작업 영역에 있는 Notebook을 실행하려면 notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}을 사용합니다.
DBFS에 있는 Python 스크립트를 실행하려면 python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}를 사용합니다.
DBFS에 있는 JAR을 실행하려면 main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]를 사용합니다.
로컬 컴퓨터에 있는 Python 스크립트를 실행하려면 python_script_name=python_script_name, source_directory=source_directory를 사용합니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
- notebook_params
- dict[str, Union[str, PipelineParameter]]
Notebook에 전달할 매개 변수 사전입니다. notebook_params
는 위젯으로 사용할 수 있습니다. dbutils.widgets.get("myparam")을 사용하여 Notebook 내에서 이러한 위젯의 값을 가져올 수 있습니다.
- python_script_path
- str
[필수] DBFS의 Python 스크립트 경로입니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
- main_class_name
- str
[필수] JAR 모듈의 진입점 이름입니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
- python_script_name
- str
[필수] source_directory
와 관련된 Python 스크립트의 이름입니다.
스크립트가 입력과 출력을 사용하면 매개 변수로 스크립트에 전달됩니다.
python_script_name
가 지정되면 source_directory
도 지정되어야 합니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
DataReference 개체를 data_reference_name=input1에 입력으로 지정하고 PipelineData 개체를 name=output1에 출력으로 지정하면 입력과 출력이 매개 변수로 스크립트에 전달됩니다. 그러면 다음과 같이 표시되며 각 입력 및 출력의 경로에 액세스하려면 스크립트의 인수를 구문 분석해야 합니다. "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
또한 스크립트 내에서 다음 매개 변수를 사용할 수 있습니다.
- AZUREML_RUN_TOKEN: Azure Machine Learning으로 인증하기 위한 AML 토큰입니다.
- AZUREML_RUN_TOKEN_EXPIRY: AML 토큰 만료 시간입니다.
- AZUREML_RUN_ID: 이 실행에 대한 Azure Machine Learning 실행 ID입니다.
- AZUREML_ARM_SUBSCRIPTION: AML 작업 영역에 대한 Azure 구독입니다.
- AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning 작업 영역에 대한 Azure 리소스 그룹입니다.
- AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning 작업 영역의 이름입니다.
- AZUREML_ARM_PROJECT_NAME: Azure Machine Learning 실험의 이름입니다.
- AZUREML_SERVICE_ENDPOINT: AML 서비스의 엔드포인트 URL입니다.
- AZUREML_WORKSPACE_ID: Azure Machine Learning 작업 영역의 ID입니다.
- AZUREML_EXPERIMENT_ID: Azure Machine Learning 실험의 ID입니다.
- AZUREML_SCRIPT_DIRECTORY_NAME: source_directory가 복사된 DBFS의 디렉터리 경로입니다.
(이 매개 변수는 가 사용되는 경우에만 채워집니다
python_script_name
. 자세한 내용은 아래를 참조하세요.)
DatabricksStep 매개 변수 source_directory
및 python_script_name
을 사용하여 Databricks의 로컬 머신에서 Python 스크립트를 실행하는 경우 source_directory가 DBFS로 복사되고 DBFS의 디렉터리 경로가 실행을 시작할 때 스크립트에 매개 변수로 전달됩니다.
이 매개 변수의 레이블은 AZUREML_SCRIPT_DIRECTORY_NAME입니다. DBFS의 디렉터리에 액세스하려면 문자열 “dbfs:/” 또는 “/dbfs/”를 접두사로 추가해야 합니다.
- source_directory
- str
스크립트 및 기타 파일을 포함하는 폴더입니다.
python_script_name
가 지정되면 source_directory
도 지정되어야 합니다.
- hash_paths
- [str]
사용되지 않음: 더 이상 필요하지 않습니다.
단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 검색된 변경 내용이 없으면 파이프라인은 이전 실행의 단계 내용을 재사용합니다. 기본적으로 source_directory
의 내용은 .amlignore 또는 .gitignore에 나열된 파일을 제외하고 해시됩니다.
- runconfig
- RunConfiguration
사용할 runconfig입니다.
참고: maven_libraries
, pypi_libraries
, egg_libraries
, jar_libraries
또는 rcran_libraries
매개 변수를 사용하여 종속성을 원하는 만큼 작업에 전달할 수 있습니다. 이러한 매개 변수를 해당 매개 변수와 함께 직접 전달하거나 runconfig
매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달하되 둘 다 전달해서는 안 됩니다.
- compute_target
- str, DatabricksCompute
[필수] Azure Databricks 컴퓨팅입니다. DatabricksStep을 사용하여 Azure Databricks 작업 영역에서 스크립트 또는 Notebook을 실행하려면 먼저 Azure Databricks 작업 영역을 Azure Machine Learning 작업 영역에 컴퓨팅 대상으로 추가해야 합니다.
- allow_reuse
- bool
동일한 설정으로 다시 실행할 때 단계에서 이전 결과를 재사용해야 하는지 여부를 나타냅니다. 기본적으로 재사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행 결과가 재사용됩니다. 단계를 재사용할 때, 컴퓨팅할 작업을 제출하는 대신 이전 실행의 결과를 후속 단계에 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 집합을 입력으로 사용하는 경우 재사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 집합의 정의가 변경되었는지 여부에 따라 결정됩니다.
- permit_cluster_restart
- bool
existing_cluster_id가 지정되면 이 매개 변수는 사용자를 대신하여 클러스터를 다시 시작할 수 있는지 여부를 알려줍니다.
- inputs
- list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
이 단계에서 사용하는 데이터에 대한 입력 연결 목록입니다. dbutils.widgets.get("input_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. DataReference 또는 PipelineData일 수 있습니다. DataReference는 데이터 저장소의 기존 데이터 부분을 나타냅니다. 기본적으로 데이터 저장소의 경로입니다. DatabricksStep은 DBFS, Azure Blob 또는 ADLS v1을 캡슐화하는 데이터 저장소를 지원합니다. PipelineData는 파이프라인의 다른 단계에서 생성된 중간 데이터를 나타냅니다.
- outputs
- list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
이 단계에서 생성된 출력에 대한 출력 포트 정의 목록입니다. dbutils.widgets.get("output_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. PipelineData여야 합니다.
- existing_cluster_id
- str
Databricks 작업 영역에 있는 기존 대화형 클러스터의 클러스터 ID입니다. 이 매개 변수를 전달하는 경우 새 클러스터를 만드는 데 사용되는 다음 매개 변수를 전달할 수 없습니다.
- spark_version
- node_type
- instance_pool_id
- num_workers
- min_workers
- max_workers
- spark_env_variables
- spark_conf
참고: 새 작업 클러스터를 만들려면 위의 매개 변수를 전달해야 합니다. 이러한 매개 변수를 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달할 수 있습니다. 이러한 매개 변수를 RunConfiguration을 통해 직접 전달하면 오류가 발생합니다.
- spark_version
- str
Databricks 실행 클러스터에 대한 spark 버전(예: "10.4.x-scala2.12").
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- node_type
- str
[필수] Databricks에 대한 Azure VM 노드 유형은 클러스터(예: "Standard_D3_v2")를 실행합니다. node_type
또는 instance_pool_id
를 지정합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- instance_pool_id
- str
[필수] 클러스터를 연결해야 하는 인스턴스 풀 ID입니다.
node_type
또는 instance_pool_id
를 지정합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- num_workers
- int
[필수] Databricks 실행 클러스터에 대한 고정 작업자 수입니다.
num_workers
또는 min_workers
와 max_workers
둘 다를 지정해야 합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- min_workers
- int
[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최소 작업자 수입니다.
num_workers
또는 min_workers
와 max_workers
둘 다를 지정해야 합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- max_workers
- int
[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최대 작업자 수입니다.
num_workers
또는 min_workers
와 max_workers
둘 다를 지정해야 합니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- spark_env_variables
- dict
Databricks 실행 클러스터에 대한 Spark 환경 변수입니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- spark_conf
- dict
Databricks 실행 클러스터에 대한 Spark 구성입니다.
자세한 내용은 existing_cluster_id
매개 변수에 대한 설명을 참조하세요.
- init_scripts
- [str]
더 이상 사용되지 않습니다. Databricks는 DBFS에 저장된 init 스크립트가 2023년 12월 1일 이후에 작업을 중지할 것이라고 발표했습니다. 문제를 완화하려면 1) Databricks에서 전역 init 스크립트를 사용하고 2) AzureML databricks https://learn.microsoft.com/azure/databricks/init-scripts/global 단계에서 init_scripts 줄을 주석 처리합니다.
- notebook_path
- str
[필수] Databricks 인스턴스의 Notebook 경로입니다. 이 클래스는 Databricks 클러스터에서 실행할 코드를 지정하는 네 가지 방법을 허용합니다.
Databricks 작업 영역에 있는 Notebook을 실행하려면 notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}을 사용합니다.
DBFS에 있는 Python 스크립트를 실행하려면 python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}를 사용합니다.
DBFS에 있는 JAR을 실행하려면 main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]를 사용합니다.
로컬 컴퓨터에 있는 Python 스크립트를 실행하려면 python_script_name=python_script_name, source_directory=source_directory를 사용합니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
- notebook_params
- dict[str, (str 또는 PipelineParameter)]
Notebook에 전달할 매개 변수 사전입니다. notebook_params
는 위젯으로 사용할 수 있습니다. dbutils.widgets.get("myparam")을 사용하여 Notebook 내에서 이러한 위젯의 값을 가져올 수 있습니다.
- python_script_path
- str
[필수] DBFS의 Python 스크립트 경로입니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
- main_class_name
- str
[필수] JAR 모듈의 진입점 이름입니다.
notebook_path
, python_script_path
, python_script_name
또는 main_class_name
중 정확히 하나를 지정합니다.
- source_directory
- str
스크립트 및 기타 파일을 포함하는 폴더입니다.
python_script_name
가 지정되면 source_directory
도 지정되어야 합니다.
- hash_paths
- [str]
사용되지 않음: 더 이상 필요하지 않습니다.
단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 검색된 변경 내용이 없으면 파이프라인은 이전 실행의 단계 내용을 재사용합니다. 기본적으로 source_directory
의 내용은 .amlignore 또는 .gitignore에 나열된 파일을 제외하고 해시됩니다.
- runconfig
- RunConfiguration
사용할 runconfig입니다.
참고: maven_libraries
, pypi_libraries
, egg_libraries
, jar_libraries
또는 rcran_libraries
매개 변수를 사용하여 종속성을 원하는 만큼 작업에 전달할 수 있습니다. 이러한 매개 변수를 해당 매개 변수와 함께 직접 전달하거나 runconfig
매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달하되 둘 다 전달해서는 안 됩니다.
- maven_libraries
- list[<xref:azureml.core.runconfig.MavenLibrary>]
Databricks 실행에 사용할 Maven 라이브러리입니다.
Maven 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.MavenLibrary)
하세요.
- pypi_libraries
- list[<xref:azureml.core.runconfig.PyPiLibrary>]
Databricks 실행에 사용할 PyPi 라이브러리입니다.
PyPi 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.PyPiLibrary)
하세요.
- egg_libraries
- list[<xref:azureml.core.runconfig.EggLibrary>]
Databricks 실행에 사용할 Egg 라이브러리입니다.
Egg 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.EggLibrary)
하세요.
- jar_libraries
- list[<xref:azureml.core.runconfig.JarLibrary>]
Databricks 실행에 사용할 Jar 라이브러리입니다.
Jar 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.JarLibrary)
하세요.
- rcran_libraries
- list[<xref:azureml.core.runconfig.RCranLibrary>]
Databricks 실행에 사용할 RCran 라이브러리입니다.
RCran 라이브러리 사양에 대한 자세한 내용은 를 참조 help(azureml.core.runconfig.RCranLibrary)
하세요.
- compute_target
- str, DatabricksCompute
[필수] Azure Databricks 컴퓨팅. DatabricksStep을 사용하여 Azure Databricks 작업 영역에서 스크립트 또는 Notebook을 실행하려면 먼저 Azure Databricks 작업 영역을 Azure Machine Learning 작업 영역에 컴퓨팅 대상으로 추가해야 합니다.
- allow_reuse
- bool
동일한 설정으로 다시 실행할 때 단계에서 이전 결과를 재사용해야 하는지 여부를 나타냅니다. 기본적으로 재사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행 결과가 재사용됩니다. 단계를 재사용할 때, 컴퓨팅할 작업을 제출하는 대신 이전 실행의 결과를 후속 단계에 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 집합을 입력으로 사용하는 경우 재사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 집합의 정의가 변경되었는지 여부에 따라 결정됩니다.
- permit_cluster_restart
- bool
existing_cluster_id가 지정되면 이 매개 변수는 사용자를 대신하여 클러스터를 다시 시작할 수 있는지 여부를 알려줍니다.
메서드
create_node |
Databricks 단계에서 노드를 만들고 지정된 그래프에 추가합니다. 이 메서드는 직접 사용할 수 없습니다. 이 단계에서 파이프라인이 인스턴스화되면 Azure ML은 이 메서드를 통해 필요한 매개 변수를 자동으로 전달하므로 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있습니다. |
create_node
Databricks 단계에서 노드를 만들고 지정된 그래프에 추가합니다.
이 메서드는 직접 사용할 수 없습니다. 이 단계에서 파이프라인이 인스턴스화되면 Azure ML은 이 메서드를 통해 필요한 매개 변수를 자동으로 전달하므로 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있습니다.
create_node(graph, default_datastore, context)
매개 변수
- context
- <xref:azureml.pipeline.core._GraphContext>
그래프 컨텍스트입니다.
반환
만들어진 노드입니다.
반환 형식
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기