Delta Live Tables API 가이드
Important
이 문서의 콘텐츠는 사용 중지되었으며 업데이트되지 않을 수 있습니다. Databricks REST API 참조의 델타 라이브 테이블을 참조하세요.
Delta Live Tables API를 사용하면 파이프라인에 대한 세부 정보를 만들고 편집, 삭제, 시작 및 볼 수 있습니다.
Important
Databricks REST API에 액세스하려면 인증해야 합니다.
파이프라인 만들기
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines |
POST |
새 Delta Live Tables 파이프라인을 만듭니다.
예시
이 예에서는 새 트리거된 파이프라인을 만듭니다.
요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json
pipeline-settings.json
:
{
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false
}
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}
요청 구조체
PipelineSettings를 참조하세요.
응답 구조
필드 이름 | Type | 설명 |
---|---|---|
pipeline_id | STRING |
새로 만들어진 파이프라인의 고유 식별자입니다. |
파이프라인 편집
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id} |
PUT |
기존 파이프라인에 대한 설정을 업데이트합니다.
예시
이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인에 target
매개 변수를 추가합니다.
요청
curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json
pipeline-settings.json
{
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
}
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
요청 구조체
PipelineSettings를 참조하세요.
파이프라인 삭제
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id} |
DELETE |
Delta Live Tables 시스템에서 파이프라인을 삭제합니다.
예시
이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인을 삭제합니다.
요청
curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
파이프라인 업데이트 시작
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id}/updates |
POST |
파이프라인에 대한 업데이트를 시작합니다. 전체 파이프라인 그래프에 대한 업데이트 또는 특정 테이블의 선택적 업데이트를 시작할 수 있습니다.
예제
전체 새로 고침 시작
이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인에 대해 전체 새로 고침으로 업데이트를 시작합니다.
요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
선택한 테이블의 업데이트 시작
이 예제는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인에서 sales_orders_cleaned
및 sales_order_in_chicago
테이블을 새로 고치는 업데이트를 시작합니다.
요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
선택한 테이블의 전체 업데이트 시작
이 예제에서는 sales_orders_cleaned
및 sales_order_in_chicago
테이블에 대한 업데이트와 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인의 customers
및 sales_orders_raw
테이블에 대한 업데이트를 시작합니다.
요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
요청 구조체
필드 이름 | Type | 설명 |
---|---|---|
full_refresh |
BOOLEAN |
모든 데이터를 다시 처리할지 여부입니다. true 인 경우 Delta Live Tables시스템은 파이프라인을 실행하기 전에 재설정할 수 있는 모든 테이블을 다시 설정합니다.이 필드는 선택적입니다. 기본값은 false 입니다.full_refesh 이 true이고 refresh_selection 또는 full_refresh_selection 이 설정된 경우 오류가 반환됩니다. |
refresh_selection |
다음 배열 STRING |
업데이트할 테이블 목록입니다. 사용refresh_selection : 파이프라인 그래프에서 선택한 테이블 집합의 새로 고침을 시작합니다.이 필드는 선택적입니다. 다음 refresh_selection 및full_refresh_selection 이 둘 다 비어 있으면 전체 파이프라인 그래프가 새로 고쳐집니다.다음과 같은 경우 오류가 반환됩니다. * full_refesh 가 true이고refresh_selection 가 설정됩니다.* 지정된 테이블 중 하나 이상이 파이프라인 그래프에 없습니다. |
full_refresh_selection |
다음 배열 STRING |
전체 새로 고침으로 업데이트할 테이블 목록입니다. full_refresh_selection 을 사용하여 선택한 테이블 집합의 업데이트를 시작합니다. Delta Live Tables 시스템이 업데이트를 시작하기 전에 지정된 테이블의 상태가 다시 설정됩니다.이 필드는 선택적입니다. 다음 refresh_selection 및full_refresh_selection 이 둘 다 비어 있으면 전체 파이프라인 그래프가 새로 고쳐집니다.다음과 같은 경우 오류가 반환됩니다. * full_refesh 가 true이고refresh_selection 가 설정됩니다.* 지정된 테이블 중 하나 이상이 파이프라인 그래프에 없습니다. * 지정된 테이블 중 하나 이상을 다시 설정할 수 없습니다. |
응답 구조
필드 이름 | Type | 설명 |
---|---|---|
update_id |
STRING |
새로 만들어진 업데이트의 고유 식별자입니다. |
request_id |
STRING |
업데이트를 시작한 요청의 고유 식별자입니다. |
파이프라인 업데이트 요청 상태 가져오기
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id}/requests/{request_id} |
GET |
request_id
와 연결된 파이프라인 업데이트의 상태 및 정보를 가져옵니다. 여기서 request_id
는 파이프라인 업데이트를 시작하는 요청에 대한 고유 식별자입니다. 업데이트를 다시 시도하거나 다시 시작하면 새 업데이트가 request_id를 상속합니다.
예시
ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
가 있는 파이프라인의 경우 이 예제에서는 요청 ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429
와 연결된 업데이트에 대한 상태 및 정보를 반환합니다.
요청
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"status": "TERMINATED",
"latest_update":{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
"config":{
"id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
"name": "Retail sales (SQL)",
"storage": "/Users/username/data",
"configuration":{
"pipelines.numStreamRetryAttempts": "5"
},
"clusters":[
{
"label": "default",
"autoscale":{
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries":[
{
"notebook":{
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false,
"development": true,
"photon": true,
"edition": "advanced",
"channel": "CURRENT"
},
"cause": "API_CALL",
"state": "COMPLETED",
"cluster_id": "1234-567891-abcde123",
"creation_time": 1664304117145,
"full_refresh": false,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
응답 구조
필드 이름 | Type | 설명 |
---|---|---|
status |
STRING |
파이프라인 업데이트 요청의 상태입니다. 다음 중 하나의 항목 * ACTIVE : 이 요청에 대한 업데이트가 적극적으로 실행 중이거나 새 업데이트에서 다시 시도될 수 있습니다.* TERMINATED : 요청이 종료되고 다시 시도되거나 다시 시작하지 않습니다. |
pipeline_id |
STRING |
파이프라인의 고유 식별자입니다. |
update_id |
STRING |
업데이트의 고유 식별자입니다. |
config |
PipelineSettings | 파이프라인 설정. |
cause |
STRING |
업데이트를 위한 트리거입니다. 다음 중 하나입니다. API_CALL RETRY_ON_FAILURE , SERVICE_UPGRADE , SCHEMA_CHANGE JOB_TASK 또는 USER_ACTION 입니다. |
state |
STRING |
업데이트 상태입니다. 다음 중 하나입니다. QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED FAILED 또는 CANCELED 입니다. |
cluster_id |
STRING |
업데이트를 실행하는 클러스터의 식별자입니다. |
creation_time |
INT64 |
업데이트가 만들어진 타임스탬프입니다. |
full_refresh |
BOOLEAN |
이 업데이트를 실행하기 전에 모든 테이블을 다시 설정할지 여부 |
refresh_selection |
다음 배열 STRING |
전체 새로 고침 없이 업데이트할 테이블 목록입니다. |
full_refresh_selection |
다음 배열 STRING |
전체 새로 고침으로 업데이트할 테이블 목록입니다. |
request_id |
STRING |
업데이트를 시작한 요청의 고유 식별자입니다. 업데이트 요청에서 반환되는 값입니다. 업데이트를 다시 시도하거나 다시 시작하면 새 업데이트가 request_id를 상속합니다. 그러나 update_id 는 다릅니다. |
활성 파이프라인 업데이트 중지
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id}/stop |
POST |
활성 파이프라인 업데이트를 중지합니다. 실행 중인 업데이트가 없으면 이 요청은 작동하지 않습니다.
연속 파이프라인의 경우 파이프라인 실행이 일시 중지됩니다. 현재 처리 중인 테이블의 새로 고침이 완료되지만 다운스트림 테이블은 새로 고쳐지지 않습니다. 다음 파이프라인 업데이트에서 Delta Live Tables는 처리가 완료되지 못한 테이블의 선택한 새로 고침을 수행하고 나머지 파이프라인 DAG의 처리를 다시 시작합니다.
트리거된 파이프라인의 경우 파이프라인 실행이 중지됩니다. 현재 처리 중인 테이블의 새로 고침이 완료되지만 다운스트림 테이블은 새로 고쳐지지 않습니다. 다음 파이프라인 업데이트에서 Delta Live Tables는 모든 테이블을 새로 고칩니다.
예시
이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인에 대한 업데이트를 중지합니다.
요청
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
파이프라인 이벤트 나열
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id}/events |
GET |
파이프라인에 대한 이벤트를 검색합니다.
예시
이 예는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인에 대해 최대 5개의 이벤트를 검색합니다.
요청
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
요청 구조체
필드 이름 | Type | 설명 |
---|---|---|
page_token |
STRING |
이전 호출에서 반환된 페이지 토큰입니다. 이 필드는 max_results를 제외한 이 요청의 모든 필드와 상호 배타적입니다. 이 필드가 설정될 때 max_results 이외의 필드가 설정되면 오류가 반환됩니다. 이 필드는 선택적입니다. |
max_results |
INT32 |
단일 페이지에 반환할 최대 항목 수입니다. 사용 가능한 이벤트가 더 있더라도 시스템은 응답에서 max_results 개 미만의 이벤트를 반환할 수 있습니다.이 필드는 선택적입니다. 기본값은 25입니다. 최대값은 100입니다. 값이 다음과 같으면 오류가 반환됩니다. max_results 는 100보다 큽니다. |
order_by |
STRING |
결과에 대한 타임스탬프별 정렬 순서를 나타내는 문자열입니다(예: ["timestamp asc"] ).정렬 순서는 오름차순 또는 내림차순일 수 있습니다. 기본적으로 이벤트는 타임스탬프를 기준으로 내림차순으로 반환됩니다. 이 필드는 선택적입니다. |
filter |
STRING |
SQL과 유사한 구문을 사용하여 표현되는 결과의 하위 집합을 선택하는 기준입니다. 지원되는 필터는 다음과 같습니다. * level='INFO' (WARN 또는 ERROR )* level in ('INFO', 'WARN') * id='[event-id]' * timestamp > 'TIMESTAMP' (또는 >= ,< ,<= ,= )다음과 같은 복합 식이 지원됩니다. level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z' 이 필드는 선택적입니다. |
응답 구조
필드 이름 | Type | 설명 |
---|---|---|
events |
파이프라인 이벤트의 배열입니다. | 요청 기준과 일치하는 이벤트 목록입니다. |
next_page_token |
STRING |
존재하는 경우 이벤트의 다음 페이지를 가져오기 위한 토큰입니다. |
prev_page_token |
STRING |
존재하는 경우 이벤트의 이전 페이지를 가져오기 위한 토큰입니다. |
파이프라인 세부 정보 가져오기
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id} |
GET |
파이프라인 설정 및 최근 업데이트를 포함하여 파이프라인에 대한 세부 정보를 가져옵니다.
예시
이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인에 대한 세부 정보를 가져옵니다.
요청
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"spec": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
},
"state": "IDLE",
"cluster_id": "1234-567891-abcde123",
"name": "Wikipedia pipeline (SQL)",
"creator_user_name": "username",
"latest_updates": [
{
"update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:37:30.279Z"
},
{
"update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
"state": "CANCELED",
"creation_time": "2021-08-13T00:35:51.902Z"
},
{
"update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
"state": "FAILED",
"creation_time": "2021-08-13T00:33:38.565Z"
}
],
"run_as_user_name": "username"
}
응답 구조
필드 이름 | Type | 설명 |
---|---|---|
pipeline_id |
STRING |
파이프라인의 고유 식별자입니다. |
spec |
PipelineSettings | 파이프라인 설정. |
state |
STRING |
파이프라인의 상태입니다. IDLE 또는 RUNNING 중 하나입니다.상태 = RUNNING 인 경우 활성 업데이트가 하나 이상 있습니다. |
cluster_id |
STRING |
파이프라인을 실행하는 클러스터의 식별자입니다. |
name |
STRING |
이 파이프라인의 사용자에게 식별 이름입니다. |
creator_user_name |
STRING |
파이프라인 작성자의 사용자 이름입니다. |
latest_updates |
UpdateStateInfo 배열 | 파이프라인의 최신 업데이트 상태로, 최신 업데이트부터 먼저 정렬됩니다. |
run_as_user_name |
STRING |
파이프라인이 실행되는 사용자 이름입니다. |
업데이트 세부 정보 가져오기
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/{pipeline_id}/updates/{update_id} |
GET |
파이프라인 업데이트에 대한 세부 정보를 가져옵니다.
예시
이 예에서는 ID가 a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
인 파이프라인에 대한 업데이트 9a84f906-fc51-11eb-9a03-0242ac130003
에 대한 세부 정보를 가져옵니다.
요청
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"update": {
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
"config": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"configuration": {
"pipelines.numStreamRetryAttempts": "5"
},
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false,
"development": false
},
"cause": "API_CALL",
"state": "COMPLETED",
"creation_time": 1628815050279,
"full_refresh": true,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
응답 구조
필드 이름 | Type | 설명 |
---|---|---|
pipeline_id |
STRING |
파이프라인의 고유 식별자입니다. |
update_id |
STRING |
이 업데이트의 고유 식별자입니다. |
config |
PipelineSettings | 파이프라인 설정. |
cause |
STRING |
업데이트를 위한 트리거입니다. 다음 중 하나입니다. API_CALL RETRY_ON_FAILURE , . SERVICE_UPGRADE |
state |
STRING |
업데이트 상태입니다. 다음 중 하나입니다. QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED FAILED 또는 CANCELED 입니다. |
cluster_id |
STRING |
파이프라인을 실행하는 클러스터의 식별자입니다. |
creation_time |
INT64 |
업데이트가 만들어진 타임스탬프입니다. |
full_refresh |
BOOLEAN |
전체 새로 고침인지 여부입니다. true인 경우 업데이트를 실행하기 전에 모든 파이프라인 테이블이 다시 설정되었습니다. |
파이프라인 나열
엔드포인트 | HTTP 메서드 |
---|---|
2.0/pipelines/ |
GET |
Delta Live Tables 시스템에 정의된 파이프라인을 나열합니다.
예시
이 예제에서는 이름에 quickstart
가 포함된 파이프라인에 대한 세부 정보를 검색합니다.
요청
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27
다음을
<databricks-instance>
를 Azure Databricks 작업 영역 인스턴스 이름(예:adb-1234567890123456.7.azuredatabricks.net
)으로 바꿉니다.
다음 예제에서는 .netrc 파일을 사용합니다.
응답
{
"statuses": [
{
"pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "DLT quickstart (Python)",
"latest_updates": [
{
"update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:34:21.871Z"
}
],
"creator_user_name": "username"
},
{
"pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "My DLT quickstart example",
"creator_user_name": "username"
}
],
"next_page_token": "eyJ...==",
"prev_page_token": "eyJ..x9"
}
요청 구조체
필드 이름 | Type | 설명 |
---|---|---|
page_token |
STRING |
이전 호출에서 반환된 페이지 토큰입니다. 이 필드는 선택적입니다. |
max_results |
INT32 |
단일 페이지에 반환할 최대 항목 수입니다. 사용 가능한 이벤트가 더 있더라도 시스템은 응답에서 max_results 개 미만의 이벤트를 반환할 수 있습니다.이 필드는 선택적입니다. 기본값은 25입니다. 최대값은 100입니다. 값이 다음과 같으면 오류가 반환됩니다. max_results 는 100보다 큽니다. |
order_by |
다음 배열 STRING |
결과의 순서를 지정하는 문자열 목록, 예:["name asc"] . 지원되는 order_by 필드는 id 이며name . 기본값은 id asc 입니다.이 필드는 선택적입니다. |
filter |
STRING |
지정된 기준에 따라 결과의 하위 집합을 선택합니다. 지원되는 필터는 다음과 같습니다. "notebook='<path>'" 으로 제공된 Notebook 경로를 참조하는 파이프라인을 선택합니다.name LIKE '[pattern]' 으로 이름이 pattern 과 일치하는 파이프라인을 선택합니다. 와일드카드는 다음과 같이 지원됩니다.name LIKE '%shopping%' 복합 필터는 지원되지 않습니다. 이 필드는 선택적입니다. |
응답 구조
필드 이름 | Type | 설명 |
---|---|---|
statuses |
PipelineStateInfo 배열 | 요청 기준과 일치하는 이벤트 목록입니다. |
next_page_token |
STRING |
존재하는 경우 이벤트의 다음 페이지를 가져오기 위한 토큰입니다. |
prev_page_token |
STRING |
존재하는 경우 이벤트의 이전 페이지를 가져오기 위한 토큰입니다. |
데이터 구조체
이 섹션의 내용:
- ABFSSStorageInfo
- ClusterLogConf
- DbfsStorageInfo
- FileStorageInfo
- InitScriptInfo
- KeyValue
- NotebookLibrary
- PipelinesAutoScale
- PipelineLibrary
- PipelinesNewCluster
- PipelineSettings
- PipelineStateInfo
- UpdateStateInfo
- WorkspaceStorageInfo
ABFSSStorageInfo
ADLS(Azure Data Lake Storage) 스토리지 정보입니다.
필드 이름 | Type | 설명 |
---|---|---|
destination |
STRING |
파일 대상입니다. 예: abfss://... |
ClusterLogConf
클러스터 로그에 대한 경로입니다.
필드 이름 | Type | 설명 |
---|---|---|
dbfs |
DbfsStorageInfo | 클러스터 로그의 DBFS 위치입니다. 대상을 제공해야 합니다. 예를 들면 다음과 같습니다.{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
DbfsStorageInfo
DBFS 스토리지 정보입니다.
필드 이름 | Type | 설명 |
---|---|---|
destination |
STRING |
DBFS 대상입니다. 예: dbfs:/my/path |
FileStorageInfo
파일 스토리지 정보입니다.
참고 항목
이 위치 유형은 Databricks 컨테이너 서비스를 사용하여 설정된 클러스터에만 사용할 수 있습니다.
필드 이름 | Type | 설명 |
---|---|---|
destination |
STRING |
파일 대상입니다. 예: file:/my/file.sh |
InitScriptInfo
init 스크립트의 경로입니다.
Databricks 컨테이너 서비스에서 init 스크립트를 사용하는 방법에 대한 지침은 init 스크립트 사용을 참조하세요.
참고 항목
파일 스토리지 유형(필드 이름: file
)은 Databricks Container Services를 사용하여 설정된 클러스터에만 사용할 수 있습니다. FileStorageInfo를 참조하세요.
필드 이름 | Type | 설명 |
---|---|---|
workspace 또는dbfs (더 이상 사용되지 않음)또는 abfss |
WorkspaceStorageInfo DbfsStorageInfo (사용되지 않음) ABFSSStorageInfo |
init 스크립트의 작업 영역 위치입니다. 대상을 제공해야 합니다. 예를 들면 다음과 같습니다.{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (사용되지 않음) init 스크립트의 DBFS 위치입니다. 대상을 제공해야 합니다. 예를 들면 다음과 같습니다. { "dbfs" : { "destination" : "dbfs:/home/init_script" } } init 스크립트의 ADLS(Azure Data Lake Storage) 위치입니다. 대상을 제공해야 합니다. 예를 들어 { "abfss": { "destination" : "abfss://..." } } |
KeyValue
구성 매개 변수를 지정하는 키-값 쌍입니다.
필드 이름 | Type | 설명 |
---|---|---|
key |
STRING |
구성 속성 이름입니다. |
value |
STRING |
구성 속성 값입니다. |
NotebookLibrary
파이프라인 코드를 포함하는 Notebook에 대한 사양입니다.
필드 이름 | Type | 설명 |
---|---|---|
path |
STRING |
Notebook의 절대 경로입니다. 이 필드는 필수 필드입니다. |
PipelinesAutoScale
자동 크기 조정 클러스터를 정의하는 특성입니다.
필드 이름 | Type | 설명 |
---|---|---|
min_workers |
INT32 |
사용량이 부족할 때 클러스터를 축소할 수 있는 최소 작업자 수입니다. 또한 클러스터를 만든 후 갖게 될 초기 작업자 수이기도 합니다. |
max_workers |
INT32 |
오버로드될 때 클러스터가 스케일 업할 수 있는 최대 작업자 수입니다. max_workers는 min_workers 보다 현저히 커야 합니다. |
mode |
STRING |
클러스터의 자동 크기 조정 모드: * ENHANCED : 향상된 자동 크기 조정을 사용합니다.* LEGACY : 클러스터 자동 크기 조정 기능을 사용합니다. |
PipelineLibrary
파이프라인 종속성에 대한 사양입니다.
필드 이름 | Type | 설명 |
---|---|---|
notebook |
NotebookLibrary | Delta Live Tables 데이터 세트를 정의하는 Notebook의 경로입니다. 경로는 Databricks 작업 영역에 있어야 합니다. 예를 들면 다음과 같습니다.{ "notebook" : { "path" : "/my-pipeline-notebook-path" } } . |
PipelinesNewCluster
파이프라인 클러스터 사양.
Delta Live Tables 시스템은 다음 특성을 설정합니다. 다음 특성은 사용자가 구성할 수 없습니다.
spark_version
필드 이름 | Type | 설명 |
---|---|---|
label |
STRING |
클러스터 사양에 대한 레이블 기본 클러스터를 구성하는 default 또는유지 관리 클러스터를 구성하는 maintenance 입니다.이 필드는 선택적입니다. 기본값은 default 입니다. |
spark_conf |
KeyValue | 선택적 사용자 지정 Spark 구성 키-값 쌍 세트를 포함하는 개체입니다. 각각 다음을 통해 추가 JVM 옵션 문자열을 드라이버와 실행기에 전달할 수도 있습니다.spark.driver.extraJavaOptions 및 spark.executor.extraJavaOptions .Spark confs 예제: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} 또는{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
이 필드는 단일 값을 통해 이 클러스터의 각 Spark 노드에서 사용할 수 있는 리소스를 인코딩합니다. 예를 들어 Spark 노드를 프로비전하고 메모리 또는 컴퓨팅 집약적인 워크로드에 최적화할 수 있습니다. 클러스터 API 호출을 사용하여 사용 가능한 노드 형식 목록을 검색할 수 있습니다. |
driver_node_type_id |
STRING |
Spark 드라이버의 노드 형식입니다. 이 필드는 선택 사항입니다. 설정되지 않은 경우 드라이버 노드 형식은 위에서 정의한 것과 동일한 node_type_id (으)로 설정됩니다. |
ssh_public_keys |
다음 배열 STRING |
이 클러스터의 각 Spark 노드에 추가될 SSH 공개 키 콘텐츠입니다. 해당 프라이빗 키를 사용하여 포트 2200 에서 사용자 이름 ubuntu (으)로 로그인할 수 있습니다. 최대 10개의 키를 지정할 수 있습니다. |
custom_tags |
KeyValue | 클러스터 리소스에 대한 태그 집합을 포함하는 개체입니다. Databricks는 default_tags 외에도 이러한 태그를 사용하여 모든 클러스터 리소스에 태그를 지정합니다. 고: * 태그는 컴퓨팅 최적화 및 메모리 최적화와 같은 레거시 노드 형식에서 지원되지 않습니다. * Azure Databricks는 최대 45개의 사용자 지정 태그를 허용합니다. |
cluster_log_conf |
ClusterLogConf | Spark 로그를 장기 스토리지 대상으로 배달하기 위한 구성입니다. 하나의 클러스터에 대해 하나의 대상만 지정할 수 있습니다. 이 구성이 제공되면 로그는 모든 대상에 전달됩니다.5 mins . 드라이버 로그의 대상은 <destination>/<cluster-ID>/driver 이고, 실행기 로그의 대상은 <destination>/<cluster-ID>/executor 입니다. |
spark_env_vars |
KeyValue | 선택적 사용자 지정 환경 변수 키-값 쌍 세트를 포함하는 개체입니다. 양식의 키-값 쌍(X,Y)은 드라이버 및 작업자를 시작하는 동안 있는 그대로 내보내집니다 (즉, export X='Y' ).추가 집합 SPARK_DAEMON_JAVA_OPTS 을(를) 지정하려면 다음 예제와 같이 $SPARK_DAEMON_JAVA_OPTS 에 추가하는 것이 좋습니다. 이렇게 하면 모든 기본 Azure Databricks 관리 환경 변수도 포함됩니다.Spark 환경 변수 예제: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} 또는{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
init_scripts |
InitScriptInfo의 배열 | init 스크립트를 저장하기 위한 구성입니다. 원하는 수의 대상을 지정할 수 있습니다. 스크립트는 제공된 순서대로 순차적으로 실행됩니다. cluster_log_conf 이(가) 지정된 경우 init 스크립트 로그가 다음으로 전송됩니다.<destination>/<cluster-ID>/init_scripts . |
instance_pool_id |
STRING |
클러스터가 속한 인스턴스 풀의 선택적 ID입니다. 풀 구성 참조를 참조하세요. |
driver_instance_pool_id |
STRING |
드라이버 노드에 사용할 인스턴스 풀의 선택적 ID입니다. 다음 항목도 지정해야 합니다.instance_pool_id . 인스턴스 풀 API를 참조하세요. |
policy_id |
STRING |
클러스터 정책 ID입니다. |
num_workers OR autoscale |
INT32 OR InitScriptInfo |
num_workers의 경우 이 클러스터에 있어야 하는 작업자 노드의 수입니다. 하나의 클러스터에 총 num_workers + 1개의 Spark 노드에 대해 하나의 Spark 드라이버와 num_workers개의 실행기가 있습니다. 클러스터의 속성을 읽을 때 이 필드는 실제 작업자 수가 아닌 원하는 작업자 수를 반영합니다. 예를 들어 클러스터 크기를 5명에서 10명의 작업자로 조정하는 경우 이 필드는 10명의 작업자의 대상 크기를 반영하도록 업데이트되는 반면, 실행기에 나열된 작업자는 새 노드가 프로비전될 때 점차 5에서 10으로 증가합니다. autoscale인 경우 부하에 따라 클러스터를 자동으로 스케일 업 및 스케일 다운하는 데 필요한 매개 변수입니다. 이 필드는 선택적입니다. |
apply_policy_default_values |
BOOLEAN |
누락된 클러스터 특성에 정책 기본값을 사용할지 여부입니다. |
PipelineSettings
파이프라인 배포에 대한 설정입니다.
필드 이름 | Type | 설명 |
---|---|---|
id |
STRING |
이 파이프라인의 고유 식별자입니다. 식별자는 Delta Live Tables 시스템에서 만들어지며 파이프라인을 만들 때 제공하면 안 됩니다. |
name |
STRING |
이 파이프라인에 대한 사용자 식별 이름입니다. 이 필드는 선택적입니다. 기본적으로 파이프라인 이름은 고유해야 합니다. 중복 이름을 사용하려면 파이프라인 구성에서 allow_duplicate_names 을 true 로 설정합니다. |
storage |
STRING |
파이프라인에서 만든 검사점 및 테이블을 저장하기 위한 DBFS 디렉터리 경로입니다. 이 필드는 선택적입니다. 이 필드가 비어 있으면 시스템은 기본 위치를 사용합니다. |
configuration |
STRING:STRING 의 맵 |
파이프라인을 실행할 클러스터의 Spark 구성에 추가할 키-값 쌍 목록입니다. 이 필드는 선택적입니다. 요소는 키:값 쌍으로 형식이 지정되어야 합니다. |
clusters |
PipelinesNewCluster 배열 | 파이프라인을 실행할 클러스터의 사양 배열입니다. 이 필드는 선택적입니다. 지정하지 않으면 시스템은 파이프라인에 대한 기본 클러스터 구성을 선택합니다. |
libraries |
PipelineLibrary 배열 | 파이프라인 코드와 파이프라인을 실행하는 데 필요한 종속성을 포함하는 Notebooks. |
target |
STRING |
파이프라인 출력 데이터를 유지하기 위한 데이터베이스 이름입니다. 자세한 내용은 Delta Live Tables 파이프라인에서 Hive 메타스토어로 데이터 게시를 참조하세요. |
continuous |
BOOLEAN |
이것이 연속 파이프라인인지 여부입니다. 이 필드는 선택적입니다. 기본값은 false 입니다. |
development |
BOOLEAN |
개발 모드에서 파이프라인을 실행할지 여부입니다. 이 필드는 선택적입니다. 기본값은 false 입니다. |
photon |
BOOLEAN |
이 파이프라인에 대해 Photon 가속이 사용하도록 설정되어 있는지 여부입니다. 이 필드는 선택적입니다. 기본값은 false 입니다. |
channel |
STRING |
이 파이프라인에 사용할 런타임 버전을 지정하는 Delta Live Tables 릴리스 채널입니다. 지원되는 값은 다음과 같습니다. * preview : Delta Live Tables 런타임에 대한 예정된 변경 내용으로 파이프라인을 테스트합니다.* current : 현재 Delta Live Tables 런타임 버전을 사용합니다.이 필드는 선택적입니다. 기본값은 current 입니다. |
edition |
STRING |
파이프라인을 실행할 다음과 같은 Delta Live Tables 제품 버전입니다. * CORE 는 스트리밍 수집 워크로드를 지원합니다.* PRO 는 또한 스트리밍 수집 워크로드를 지원하고 CDC(변경 데이터 캡처) 처리에 대한 지원을 추가합니다.* ADVANCED 는 PRO 버전의 모든 기능을 지원하며, 데이터 품질 제약 조건을 적용하기 위해 Delta Live Tables의 예상 수치가 필요한 워크로드에 대한 지원을 추가합니다.이 필드는 선택적입니다. 기본값은 advanced 입니다. |
PipelineStateInfo
파이프라인의 상태, 최신 업데이트의 상태 및 관련 리소스에 대한 정보입니다.
필드 이름 | Type | 설명 |
---|---|---|
state |
STRING |
파이프라인의 상태입니다. IDLE 또는 RUNNING 중 하나입니다. |
pipeline_id |
STRING |
파이프라인의 고유 식별자입니다. |
cluster_id |
STRING |
파이프라인을 실행하는 클러스터의 고유 식별자입니다. |
name |
STRING |
파이프라인의 사용자 식별 이름입니다. |
latest_updates |
UpdateStateInfo 배열 | 파이프라인의 최신 업데이트 상태로, 최신 업데이트부터 먼저 정렬됩니다. |
creator_user_name |
STRING |
파이프라인 작성자의 사용자 이름입니다. |
run_as_user_name |
STRING |
파이프라인이 실행되는 사용자 이름입니다. 파이프라인 소유자로부터 파생된 읽기 전용 값입니다. |
UpdateStateInfo
파이프라인 업데이트의 현재 상태입니다.
필드 이름 | Type | 설명 |
---|---|---|
update_id |
STRING |
이 업데이트의 고유 식별자입니다. |
state |
STRING |
업데이트 상태입니다. 다음 중 하나입니다. QUEUED , CREATED ,WAITING_FOR_RESOURCES , INITIALIZING , RESETTING SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED FAILED 또는 CANCELED 입니다. |
creation_time |
STRING |
이 업데이트가 만들어진 타임스탬프입니다. |
WorkspaceStorageInfo
작업 영역 스토리지 정보입니다.
필드 이름 | Type | 설명 |
---|---|---|
destination |
STRING |
파일 대상입니다. 예: /Users/someone@domain.com/init_script.sh |