Delta Live Tables API 가이드

Important

이 문서의 콘텐츠는 사용 중지되었으며 업데이트되지 않을 수 있습니다. Databricks REST API 참조의 델타 라이브 테이블을 참조하세요.

Delta Live Tables API를 사용하면 파이프라인에 대한 세부 정보를 만들고 편집, 삭제, 시작 및 볼 수 있습니다.

Important

Databricks REST API에 액세스하려면 인증해야 합니다.

파이프라인 만들기

엔드포인트 HTTP 메서드
2.0/pipelines POST

새 Delta Live Tables 파이프라인을 만듭니다.

예시

이 예에서는 새 트리거된 파이프라인을 만듭니다.

요청

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

요청 구조체

PipelineSettings를 참조하세요.

응답 구조

필드 이름 Type 설명
pipeline_id STRING 새로 만들어진 파이프라인의 고유 식별자입니다.

파이프라인 편집

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id} PUT

기존 파이프라인에 대한 설정을 업데이트합니다.

예시

이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인에 target 매개 변수를 추가합니다.

요청

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

요청 구조체

PipelineSettings를 참조하세요.

파이프라인 삭제

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id} DELETE

Delta Live Tables 시스템에서 파이프라인을 삭제합니다.

예시

이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인을 삭제합니다.

요청

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

파이프라인 업데이트 시작

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id}/updates POST

파이프라인에 대한 업데이트를 시작합니다. 전체 파이프라인 그래프에 대한 업데이트 또는 특정 테이블의 선택적 업데이트를 시작할 수 있습니다.

예제

전체 새로 고침 시작

이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인에 대해 전체 새로 고침으로 업데이트를 시작합니다.

요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

선택한 테이블의 업데이트 시작

이 예제는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인에서 sales_orders_cleanedsales_order_in_chicago 테이블을 새로 고치는 업데이트를 시작합니다.

요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

선택한 테이블의 전체 업데이트 시작

이 예제에서는 sales_orders_cleanedsales_order_in_chicago 테이블에 대한 업데이트와 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인의 customerssales_orders_raw 테이블에 대한 업데이트를 시작합니다.

요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

요청 구조체

필드 이름 Type 설명
full_refresh BOOLEAN 모든 데이터를 다시 처리할지 여부입니다. true인 경우 Delta Live Tables시스템은 파이프라인을 실행하기 전에 재설정할 수 있는 모든 테이블을 다시 설정합니다.

이 필드는 선택적입니다.

기본값은 false입니다.

full_refesh이 true이고 refresh_selection 또는 full_refresh_selection이 설정된 경우 오류가 반환됩니다.
refresh_selection 다음 배열 STRING 업데이트할 테이블 목록입니다. 사용
refresh_selection: 파이프라인 그래프에서 선택한 테이블 집합의 새로 고침을 시작합니다.

이 필드는 선택적입니다. 다음
refresh_selection
full_refresh_selection이 둘 다 비어 있으면 전체 파이프라인 그래프가 새로 고쳐집니다.

다음과 같은 경우 오류가 반환됩니다.

* full_refesh가 true이고
refresh_selection 가 설정됩니다.
* 지정된 테이블 중 하나 이상이 파이프라인 그래프에 없습니다.
full_refresh_selection 다음 배열 STRING 전체 새로 고침으로 업데이트할 테이블 목록입니다. full_refresh_selection을 사용하여 선택한 테이블 집합의 업데이트를 시작합니다. Delta Live Tables 시스템이 업데이트를 시작하기 전에 지정된 테이블의 상태가 다시 설정됩니다.

이 필드는 선택적입니다. 다음
refresh_selection
full_refresh_selection이 둘 다 비어 있으면 전체 파이프라인 그래프가 새로 고쳐집니다.

다음과 같은 경우 오류가 반환됩니다.

* full_refesh가 true이고
refresh_selection 가 설정됩니다.
* 지정된 테이블 중 하나 이상이 파이프라인 그래프에 없습니다.
* 지정된 테이블 중 하나 이상을 다시 설정할 수 없습니다.

응답 구조

필드 이름 Type 설명
update_id STRING 새로 만들어진 업데이트의 고유 식별자입니다.
request_id STRING 업데이트를 시작한 요청의 고유 식별자입니다.

파이프라인 업데이트 요청 상태 가져오기

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id}/requests/{request_id} GET

request_id와 연결된 파이프라인 업데이트의 상태 및 정보를 가져옵니다. 여기서 request_id는 파이프라인 업데이트를 시작하는 요청에 대한 고유 식별자입니다. 업데이트를 다시 시도하거나 다시 시작하면 새 업데이트가 request_id를 상속합니다.

예시

ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5가 있는 파이프라인의 경우 이 예제에서는 요청 ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429와 연결된 업데이트에 대한 상태 및 정보를 반환합니다.

요청

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

응답 구조

필드 이름 Type 설명
status STRING 파이프라인 업데이트 요청의 상태입니다. 다음 중 하나의 항목

* ACTIVE: 이 요청에 대한 업데이트가 적극적으로 실행 중이거나 새 업데이트에서 다시 시도될 수 있습니다.
* TERMINATED: 요청이 종료되고 다시 시도되거나 다시 시작하지 않습니다.
pipeline_id STRING 파이프라인의 고유 식별자입니다.
update_id STRING 업데이트의 고유 식별자입니다.
config PipelineSettings 파이프라인 설정.
cause STRING 업데이트를 위한 트리거입니다. 다음 중 하나입니다. API_CALL
RETRY_ON_FAILURE, SERVICE_UPGRADE, SCHEMA_CHANGE
JOB_TASK 또는 USER_ACTION입니다.
state STRING 업데이트 상태입니다. 다음 중 하나입니다. QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED
FAILED 또는 CANCELED입니다.
cluster_id STRING 업데이트를 실행하는 클러스터의 식별자입니다.
creation_time INT64 업데이트가 만들어진 타임스탬프입니다.
full_refresh BOOLEAN 이 업데이트를 실행하기 전에 모든 테이블을 다시 설정할지 여부
refresh_selection 다음 배열 STRING 전체 새로 고침 없이 업데이트할 테이블 목록입니다.
full_refresh_selection 다음 배열 STRING 전체 새로 고침으로 업데이트할 테이블 목록입니다.
request_id STRING 업데이트를 시작한 요청의 고유 식별자입니다. 업데이트 요청에서 반환되는 값입니다. 업데이트를 다시 시도하거나 다시 시작하면 새 업데이트가 request_id를 상속합니다. 그러나 update_id는 다릅니다.

활성 파이프라인 업데이트 중지

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id}/stop POST

활성 파이프라인 업데이트를 중지합니다. 실행 중인 업데이트가 없으면 이 요청은 작동하지 않습니다.

연속 파이프라인의 경우 파이프라인 실행이 일시 중지됩니다. 현재 처리 중인 테이블의 새로 고침이 완료되지만 다운스트림 테이블은 새로 고쳐지지 않습니다. 다음 파이프라인 업데이트에서 Delta Live Tables는 처리가 완료되지 못한 테이블의 선택한 새로 고침을 수행하고 나머지 파이프라인 DAG의 처리를 다시 시작합니다.

트리거된 파이프라인의 경우 파이프라인 실행이 중지됩니다. 현재 처리 중인 테이블의 새로 고침이 완료되지만 다운스트림 테이블은 새로 고쳐지지 않습니다. 다음 파이프라인 업데이트에서 Delta Live Tables는 모든 테이블을 새로 고칩니다.

예시

이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인에 대한 업데이트를 중지합니다.

요청

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

파이프라인 이벤트 나열

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id}/events GET

파이프라인에 대한 이벤트를 검색합니다.

예시

이 예는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인에 대해 최대 5개의 이벤트를 검색합니다.

요청

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

요청 구조체

필드 이름 Type 설명
page_token STRING 이전 호출에서 반환된 페이지 토큰입니다. 이 필드는 max_results를 제외한 이 요청의 모든 필드와 상호 배타적입니다. 이 필드가 설정될 때 max_results 이외의 필드가 설정되면 오류가 반환됩니다.

이 필드는 선택적입니다.
max_results INT32 단일 페이지에 반환할 최대 항목 수입니다. 사용 가능한 이벤트가 더 있더라도 시스템은 응답에서 max_results개 미만의 이벤트를 반환할 수 있습니다.

이 필드는 선택적입니다.

기본값은 25입니다.

최대값은 100입니다. 값이 다음과 같으면 오류가 반환됩니다.
max_results는 100보다 큽니다.
order_by STRING 결과에 대한 타임스탬프별 정렬 순서를 나타내는 문자열입니다(예: ["timestamp asc"]).

정렬 순서는 오름차순 또는 내림차순일 수 있습니다. 기본적으로 이벤트는 타임스탬프를 기준으로 내림차순으로 반환됩니다.

이 필드는 선택적입니다.
filter STRING SQL과 유사한 구문을 사용하여 표현되는 결과의 하위 집합을 선택하는 기준입니다. 지원되는 필터는 다음과 같습니다.

* level='INFO' (WARN 또는 ERROR)
* level in ('INFO', 'WARN')
* id='[event-id]'
* timestamp > 'TIMESTAMP' (또는 >=,<,<=,=)

다음과 같은 복합 식이 지원됩니다.
level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

이 필드는 선택적입니다.

응답 구조

필드 이름 Type 설명
events 파이프라인 이벤트의 배열입니다. 요청 기준과 일치하는 이벤트 목록입니다.
next_page_token STRING 존재하는 경우 이벤트의 다음 페이지를 가져오기 위한 토큰입니다.
prev_page_token STRING 존재하는 경우 이벤트의 이전 페이지를 가져오기 위한 토큰입니다.

파이프라인 세부 정보 가져오기

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id} GET

파이프라인 설정 및 최근 업데이트를 포함하여 파이프라인에 대한 세부 정보를 가져옵니다.

예시

이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인에 대한 세부 정보를 가져옵니다.

요청

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

응답 구조

필드 이름 Type 설명
pipeline_id STRING 파이프라인의 고유 식별자입니다.
spec PipelineSettings 파이프라인 설정.
state STRING 파이프라인의 상태입니다. IDLE 또는 RUNNING 중 하나입니다.

상태 = RUNNING인 경우 활성 업데이트가 하나 이상 있습니다.
cluster_id STRING 파이프라인을 실행하는 클러스터의 식별자입니다.
name STRING 이 파이프라인의 사용자에게 식별 이름입니다.
creator_user_name STRING 파이프라인 작성자의 사용자 이름입니다.
latest_updates UpdateStateInfo 배열 파이프라인의 최신 업데이트 상태로, 최신 업데이트부터 먼저 정렬됩니다.
run_as_user_name STRING 파이프라인이 실행되는 사용자 이름입니다.

업데이트 세부 정보 가져오기

엔드포인트 HTTP 메서드
2.0/pipelines/{pipeline_id}/updates/{update_id} GET

파이프라인 업데이트에 대한 세부 정보를 가져옵니다.

예시

이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5인 파이프라인에 대한 업데이트 9a84f906-fc51-11eb-9a03-0242ac130003에 대한 세부 정보를 가져옵니다.

요청

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

응답 구조

필드 이름 Type 설명
pipeline_id STRING 파이프라인의 고유 식별자입니다.
update_id STRING 이 업데이트의 고유 식별자입니다.
config PipelineSettings 파이프라인 설정.
cause STRING 업데이트를 위한 트리거입니다. 다음 중 하나입니다. API_CALL
RETRY_ON_FAILURE, . SERVICE_UPGRADE
state STRING 업데이트 상태입니다. 다음 중 하나입니다. QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED
FAILED 또는 CANCELED입니다.
cluster_id STRING 파이프라인을 실행하는 클러스터의 식별자입니다.
creation_time INT64 업데이트가 만들어진 타임스탬프입니다.
full_refresh BOOLEAN 전체 새로 고침인지 여부입니다. true인 경우 업데이트를 실행하기 전에 모든 파이프라인 테이블이 다시 설정되었습니다.

파이프라인 나열

엔드포인트 HTTP 메서드
2.0/pipelines/ GET

Delta Live Tables 시스템에 정의된 파이프라인을 나열합니다.

예시

이 예제에서는 이름에 quickstart가 포함된 파이프라인에 대한 세부 정보를 검색합니다.

요청

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

다음을

다음 예제에서는 .netrc 파일을 사용합니다.

응답

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

요청 구조체

필드 이름 Type 설명
page_token STRING 이전 호출에서 반환된 페이지 토큰입니다.

이 필드는 선택적입니다.
max_results INT32 단일 페이지에 반환할 최대 항목 수입니다. 사용 가능한 이벤트가 더 있더라도 시스템은 응답에서 max_results개 미만의 이벤트를 반환할 수 있습니다.

이 필드는 선택적입니다.

기본값은 25입니다.

최대값은 100입니다. 값이 다음과 같으면 오류가 반환됩니다.
max_results는 100보다 큽니다.
order_by 다음 배열 STRING 결과의 순서를 지정하는 문자열 목록, 예:
["name asc"]. 지원되는 order_by 필드는 id이며
name. 기본값은 id asc입니다.

이 필드는 선택적입니다.
filter STRING 지정된 기준에 따라 결과의 하위 집합을 선택합니다.

지원되는 필터는 다음과 같습니다.

"notebook='<path>'"으로 제공된 Notebook 경로를 참조하는 파이프라인을 선택합니다.

name LIKE '[pattern]'으로 이름이 pattern과 일치하는 파이프라인을 선택합니다. 와일드카드는 다음과 같이 지원됩니다.
name LIKE '%shopping%'

복합 필터는 지원되지 않습니다.

이 필드는 선택적입니다.

응답 구조

필드 이름 Type 설명
statuses PipelineStateInfo 배열 요청 기준과 일치하는 이벤트 목록입니다.
next_page_token STRING 존재하는 경우 이벤트의 다음 페이지를 가져오기 위한 토큰입니다.
prev_page_token STRING 존재하는 경우 이벤트의 이전 페이지를 가져오기 위한 토큰입니다.

데이터 구조체

이 섹션의 내용:

ABFSSStorageInfo

ADLS(Azure Data Lake Storage) 스토리지 정보입니다.

필드 이름 Type 설명
destination STRING 파일 대상입니다. 예: abfss://...

ClusterLogConf

클러스터 로그에 대한 경로입니다.

필드 이름 Type 설명
dbfs DbfsStorageInfo 클러스터 로그의 DBFS 위치입니다. 대상을 제공해야 합니다. 예를 들면 다음과 같습니다.
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

DbfsStorageInfo

DBFS 스토리지 정보입니다.

필드 이름 Type 설명
destination STRING DBFS 대상입니다. 예: dbfs:/my/path

FileStorageInfo

파일 스토리지 정보입니다.

참고 항목

이 위치 유형은 Databricks 컨테이너 서비스를 사용하여 설정된 클러스터에만 사용할 수 있습니다.

필드 이름 Type 설명
destination STRING 파일 대상입니다. 예: file:/my/file.sh

InitScriptInfo

init 스크립트의 경로입니다.

Databricks 컨테이너 서비스에서 init 스크립트를 사용하는 방법에 대한 지침은 init 스크립트 사용을 참조하세요.

참고 항목

파일 스토리지 유형(필드 이름: file)은 Databricks Container Services를 사용하여 설정된 클러스터에만 사용할 수 있습니다. FileStorageInfo를 참조하세요.

필드 이름 Type 설명
workspace 또는
dbfs(더 이상 사용되지 않음)

또는
abfss
WorkspaceStorageInfo

DbfsStorageInfo (사용되지 않음)

ABFSSStorageInfo
init 스크립트의 작업 영역 위치입니다. 대상을 제공해야 합니다. 예를 들면 다음과 같습니다.
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(사용되지 않음) init 스크립트의 DBFS 위치입니다. 대상을 제공해야 합니다. 예를 들면 다음과 같습니다.
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

init 스크립트의 ADLS(Azure Data Lake Storage) 위치입니다. 대상을 제공해야 합니다. 예를 들어 { "abfss": { "destination" : "abfss://..." } }

KeyValue

구성 매개 변수를 지정하는 키-값 쌍입니다.

필드 이름 Type 설명
key STRING 구성 속성 이름입니다.
value STRING 구성 속성 값입니다.

NotebookLibrary

파이프라인 코드를 포함하는 Notebook에 대한 사양입니다.

필드 이름 Type 설명
path STRING Notebook의 절대 경로입니다.

이 필드는 필수 필드입니다.

PipelinesAutoScale

자동 크기 조정 클러스터를 정의하는 특성입니다.

필드 이름 Type 설명
min_workers INT32 사용량이 부족할 때 클러스터를 축소할 수 있는 최소 작업자 수입니다. 또한 클러스터를 만든 후 갖게 될 초기 작업자 수이기도 합니다.
max_workers INT32 오버로드될 때 클러스터가 스케일 업할 수 있는 최대 작업자 수입니다. max_workers는 min_workers 보다 현저히 커야 합니다.
mode STRING 클러스터의 자동 크기 조정 모드:

* ENHANCED: 향상된 자동 크기 조정을 사용합니다.
* LEGACY: 클러스터 자동 크기 조정 기능을 사용합니다.

PipelineLibrary

파이프라인 종속성에 대한 사양입니다.

필드 이름 Type 설명
notebook NotebookLibrary Delta Live Tables 데이터 세트를 정의하는 Notebook의 경로입니다. 경로는 Databricks 작업 영역에 있어야 합니다. 예를 들면 다음과 같습니다.
{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNewCluster

파이프라인 클러스터 사양.

Delta Live Tables 시스템은 다음 특성을 설정합니다. 다음 특성은 사용자가 구성할 수 없습니다.

  • spark_version
필드 이름 Type 설명
label STRING 클러스터 사양에 대한 레이블
기본 클러스터를 구성하는 default 또는
유지 관리 클러스터를 구성하는 maintenance입니다.

이 필드는 선택적입니다. 기본값은 default입니다.
spark_conf KeyValue 선택적 사용자 지정 Spark 구성 키-값 쌍 세트를 포함하는 개체입니다. 각각 다음을 통해 추가 JVM 옵션 문자열을 드라이버와 실행기에 전달할 수도 있습니다.
spark.driver.extraJavaOptionsspark.executor.extraJavaOptions.

Spark confs 예제:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} 또는
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING 이 필드는 단일 값을 통해 이 클러스터의 각 Spark 노드에서 사용할 수 있는 리소스를 인코딩합니다. 예를 들어 Spark 노드를 프로비전하고 메모리 또는 컴퓨팅 집약적인 워크로드에 최적화할 수 있습니다. 클러스터 API 호출을 사용하여 사용 가능한 노드 형식 목록을 검색할 수 있습니다.
driver_node_type_id STRING Spark 드라이버의 노드 형식입니다. 이 필드는 선택 사항입니다. 설정되지 않은 경우 드라이버 노드 형식은 위에서 정의한 것과 동일한 node_type_id(으)로 설정됩니다.
ssh_public_keys 다음 배열 STRING 이 클러스터의 각 Spark 노드에 추가될 SSH 공개 키 콘텐츠입니다. 해당 프라이빗 키를 사용하여 포트 2200에서 사용자 이름 ubuntu(으)로 로그인할 수 있습니다. 최대 10개의 키를 지정할 수 있습니다.
custom_tags KeyValue 클러스터 리소스에 대한 태그 집합을 포함하는 개체입니다. Databricks는 default_tags 외에도 이러한 태그를 사용하여 모든 클러스터 리소스에 태그를 지정합니다.

:

* 태그는 컴퓨팅 최적화 및 메모리 최적화와 같은 레거시 노드 형식에서 지원되지 않습니다.
* Azure Databricks는 최대 45개의 사용자 지정 태그를 허용합니다.
cluster_log_conf ClusterLogConf Spark 로그를 장기 스토리지 대상으로 배달하기 위한 구성입니다. 하나의 클러스터에 대해 하나의 대상만 지정할 수 있습니다. 이 구성이 제공되면 로그는 모든 대상에 전달됩니다.
5 mins. 드라이버 로그의 대상은 <destination>/<cluster-ID>/driver이고, 실행기 로그의 대상은 <destination>/<cluster-ID>/executor입니다.
spark_env_vars KeyValue 선택적 사용자 지정 환경 변수 키-값 쌍 세트를 포함하는 개체입니다. 양식의 키-값 쌍(X,Y)은 드라이버 및 작업자를 시작하는 동안 있는 그대로 내보내집니다
(즉, export X='Y').

추가 집합 SPARK_DAEMON_JAVA_OPTS을(를) 지정하려면 다음 예제와 같이 $SPARK_DAEMON_JAVA_OPTS에 추가하는 것이 좋습니다. 이렇게 하면 모든 기본 Azure Databricks 관리 환경 변수도 포함됩니다.

Spark 환경 변수 예제:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} 또는
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
init_scripts InitScriptInfo의 배열 init 스크립트를 저장하기 위한 구성입니다. 원하는 수의 대상을 지정할 수 있습니다. 스크립트는 제공된 순서대로 순차적으로 실행됩니다. cluster_log_conf이(가) 지정된 경우 init 스크립트 로그가 다음으로 전송됩니다.
<destination>/<cluster-ID>/init_scripts.
instance_pool_id STRING 클러스터가 속한 인스턴스 풀의 선택적 ID입니다. 풀 구성 참조를 참조하세요.
driver_instance_pool_id STRING 드라이버 노드에 사용할 인스턴스 풀의 선택적 ID입니다. 다음 항목도 지정해야 합니다.
instance_pool_id. 인스턴스 풀 API를 참조하세요.
policy_id STRING 클러스터 정책 ID입니다.
num_workers OR autoscale INT32 OR InitScriptInfo num_workers의 경우 이 클러스터에 있어야 하는 작업자 노드의 수입니다. 하나의 클러스터에 총 num_workers + 1개의 Spark 노드에 대해 하나의 Spark 드라이버와 num_workers개의 실행기가 있습니다.

클러스터의 속성을 읽을 때 이 필드는 실제 작업자 수가 아닌 원하는 작업자 수를 반영합니다. 예를 들어 클러스터 크기를 5명에서 10명의 작업자로 조정하는 경우 이 필드는 10명의 작업자의 대상 크기를 반영하도록 업데이트되는 반면, 실행기에 나열된 작업자는 새 노드가 프로비전될 때 점차 5에서 10으로 증가합니다.

autoscale인 경우 부하에 따라 클러스터를 자동으로 스케일 업 및 스케일 다운하는 데 필요한 매개 변수입니다.

이 필드는 선택적입니다.
apply_policy_default_values BOOLEAN 누락된 클러스터 특성에 정책 기본값을 사용할지 여부입니다.

PipelineSettings

파이프라인 배포에 대한 설정입니다.

필드 이름 Type 설명
id STRING 이 파이프라인의 고유 식별자입니다.

식별자는 Delta Live Tables 시스템에서 만들어지며 파이프라인을 만들 때 제공하면 안 됩니다.
name STRING 이 파이프라인에 대한 사용자 식별 이름입니다.

이 필드는 선택적입니다.

기본적으로 파이프라인 이름은 고유해야 합니다. 중복 이름을 사용하려면 파이프라인 구성에서 allow_duplicate_namestrue로 설정합니다.
storage STRING 파이프라인에서 만든 검사점 및 테이블을 저장하기 위한 DBFS 디렉터리 경로입니다.

이 필드는 선택적입니다.

이 필드가 비어 있으면 시스템은 기본 위치를 사용합니다.
configuration STRING:STRING의 맵 파이프라인을 실행할 클러스터의 Spark 구성에 추가할 키-값 쌍 목록입니다.

이 필드는 선택적입니다.

요소는 키:값 쌍으로 형식이 지정되어야 합니다.
clusters PipelinesNewCluster 배열 파이프라인을 실행할 클러스터의 사양 배열입니다.

이 필드는 선택적입니다.

지정하지 않으면 시스템은 파이프라인에 대한 기본 클러스터 구성을 선택합니다.
libraries PipelineLibrary 배열 파이프라인 코드와 파이프라인을 실행하는 데 필요한 종속성을 포함하는 Notebooks.
target STRING 파이프라인 출력 데이터를 유지하기 위한 데이터베이스 이름입니다.

자세한 내용은 Delta Live Tables 파이프라인에서 Hive 메타스토어로 데이터 게시를 참조하세요.
continuous BOOLEAN 이것이 연속 파이프라인인지 여부입니다.

이 필드는 선택적입니다.

기본값은 false입니다.
development BOOLEAN 개발 모드에서 파이프라인을 실행할지 여부입니다.

이 필드는 선택적입니다.

기본값은 false입니다.
photon BOOLEAN 이 파이프라인에 대해 Photon 가속이 사용하도록 설정되어 있는지 여부입니다.

이 필드는 선택적입니다.

기본값은 false입니다.
channel STRING 이 파이프라인에 사용할 런타임 버전을 지정하는 Delta Live Tables 릴리스 채널입니다. 지원되는 값은 다음과 같습니다.

* preview: Delta Live Tables 런타임에 대한 예정된 변경 내용으로 파이프라인을 테스트합니다.
* current: 현재 Delta Live Tables 런타임 버전을 사용합니다.

이 필드는 선택적입니다.

기본값은 current입니다.
edition STRING 파이프라인을 실행할 다음과 같은 Delta Live Tables 제품 버전입니다.

* CORE는 스트리밍 수집 워크로드를 지원합니다.
* PRO는 또한 스트리밍 수집 워크로드를 지원하고 CDC(변경 데이터 캡처) 처리에 대한 지원을 추가합니다.
* ADVANCEDPRO 버전의 모든 기능을 지원하며, 데이터 품질 제약 조건을 적용하기 위해 Delta Live Tables의 예상 수치가 필요한 워크로드에 대한 지원을 추가합니다.

이 필드는 선택적입니다.

기본값은 advanced입니다.

PipelineStateInfo

파이프라인의 상태, 최신 업데이트의 상태 및 관련 리소스에 대한 정보입니다.

필드 이름 Type 설명
state STRING 파이프라인의 상태입니다. IDLE 또는 RUNNING 중 하나입니다.
pipeline_id STRING 파이프라인의 고유 식별자입니다.
cluster_id STRING 파이프라인을 실행하는 클러스터의 고유 식별자입니다.
name STRING 파이프라인의 사용자 식별 이름입니다.
latest_updates UpdateStateInfo 배열 파이프라인의 최신 업데이트 상태로, 최신 업데이트부터 먼저 정렬됩니다.
creator_user_name STRING 파이프라인 작성자의 사용자 이름입니다.
run_as_user_name STRING 파이프라인이 실행되는 사용자 이름입니다. 파이프라인 소유자로부터 파생된 읽기 전용 값입니다.

UpdateStateInfo

파이프라인 업데이트의 현재 상태입니다.

필드 이름 Type 설명
update_id STRING 이 업데이트의 고유 식별자입니다.
state STRING 업데이트 상태입니다. 다음 중 하나입니다. QUEUED, CREATED,
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED
FAILED 또는 CANCELED입니다.
creation_time STRING 이 업데이트가 만들어진 타임스탬프입니다.

WorkspaceStorageInfo

작업 영역 스토리지 정보입니다.

필드 이름 Type 설명
destination STRING 파일 대상입니다. 예: /Users/someone@domain.com/init_script.sh