다음을 통해 공유


Lakeflow 파이프라인 편집기를 사용하여 ETL 파이프라인 개발 및 디버그

중요합니다

이 기능은 베타 버전으로 제공됩니다.

이 문서에서는 Lakeflow 파이프라인 편집기를 사용하여 Lakeflow 선언적 파이프라인에서 ETL(추출, 변환 및 로드) 파이프라인을 개발하고 디버그하는 방법을 설명합니다.

Lakeflow 선언형 파이프라인에서 단일 노트북을 사용하는 기본 개발 환경에 대한 정보는 Lakeflow 선언형 파이프라인에서 노트북을 사용하여 ETL 파이프라인을 개발 및 디버그를 참조하세요.

Lakeflow 파이프라인 편집기가 무엇인가요?

Lakeflow 파이프라인 편집기는 Lakeflow 선언적 파이프라인을 개발하기 위해 빌드된 IDE입니다. 단일 화면에서 모든 파이프라인 개발 작업을 결합하여 코드 우선 워크플로, 폴더 기반 코드 조직, 선택적 실행, 데이터 미리 보기 및 파이프라인 그래프를 지원합니다. Azure Databricks 플랫폼과 통합되어 버전 제어, 코드 검토 및 예약된 실행도 사용할 수 있습니다.

Lakeflow 파이프라인 편집기 UI 개요

Lakeflow 파이프라인 편집기에서 제공하는 기능은 다음과 같습니다.

  1. 파이프라인 자산 브라우저: 파이프라인 자산을 만들고, 삭제하고, 이름을 바꾸고, 구성합니다.
  2. 탭이 있는 다중 파일 코드 편집기: 파이프라인과 연결된 여러 코드 파일에서 작동합니다.
  3. 파이프라인 관련 도구 모음: 파이프라인 구성 을 사용하도록 설정하고 파이프라인 수준 실행 작업이 있습니다.
  4. 대화형 DAG(방향성 순환 그래프): 테이블 개요를 확인하고, 데이터 미리 보기 아래쪽 막대를 열고, 다른 테이블 관련 작업을 수행합니다.
  5. 데이터 미리 보기: 스트리밍 테이블 및 구체화된 뷰의 데이터를 검사합니다.
  6. 테이블 수준 실행 인사이트: 파이프라인의 모든 테이블 또는 단일 테이블에 대한 실행 인사이트를 가져옵니다. 최신 파이프라인 실행에 기반한 통찰입니다.
  7. 문제 패널: 이 기능은 파이프라인의 모든 파일에 대한 오류를 요약하고 특정 파일 내에서 오류가 발생한 위치로 이동할 수 있습니다. 코드가 부착된 오류 표시기를 보완합니다.
  8. 선택적 실행: 코드 편집기에서는 파일 실행 작업 또는 단일 테이블을 사용하여 현재 파일에서만 테이블을 새로 고치는 기능과 같은 단계별 개발을 위한 기능을 제공합니다.
  9. 기본 파이프라인 폴더 구조: 새 파이프라인에는 파이프라인의 시작점으로 사용할 수 있는 미리 정의된 폴더 구조와 샘플 코드가 포함됩니다.
  10. 간소화된 파이프라인 만들기: 테이블이 기본적으로 만들어지고 파이프라인이 기본 설정을 사용하여 만들어지는 이름, 카탈로그 및 스키마를 제공합니다. 나중에 파이프라인 편집기 도구 모음에서 설정을 조정할 수 있습니다.

Lakeflow 선언적 파이프라인 Lakeflow 파이프라인 편집기

Lakeflow 파이프라인 편집기 활성화

비고

먼저 작업 영역에 대해 Pipelines 다중 파일 개발자 환경을 사용하도록 설정해야 합니다. 자세한 내용은 Azure Databricks 미리 보기 관리를 참조하세요.

계층이 준수 보안 프로필에 있는 경우 Azure Databricks 연락처에 문의하여 기능을 시도합니다.

ETL 파이프라인 Lakeflow 파이프라인 편집기를 여러 가지 방법으로 사용하도록 설정할 수 있습니다.

  • 새 ETL 파이프라인을 만들 때 ETL 파이프라인 편집기 토글을 사용하여 Lakeflow 선언적 파이프라인에서 편집기를 사용하도록 설정합니다.

    Lakeflow 선언적 파이프라인 ETL 파이프라인 편집기 토글 켜기

    파이프라인에 대한 고급 설정 페이지는 편집기를 처음 사용하도록 설정할 때 사용됩니다. 간소화된 파이프라인 만들기 창은 다음에 새 파이프라인을 만들 때 사용됩니다.

  • 기존 파이프라인의 경우, 파이프라인에서 사용된 노트북을 열고, 헤더에서 ETL 파이프라인 편집기 토글을 사용하도록 설정합니다. 파이프라인 모니터링 페이지로 이동하여 설정을 클릭하여 Lakeflow 파이프라인 편집기를 사용하도록 설정할 수도 있습니다.

ETL 파이프라인 편집기 토글을 사용하도록 설정한 후 모든 ETL 파이프라인은 기본적으로 Lakeflow 파이프라인 편집기를 사용합니다. 편집기에서 ETL 파이프라인 편집기를 켜고 끌 수 있습니다.

또는 사용자 설정에서 Lakeflow 파이프라인 편집기를 사용하도록 설정할 수 있습니다.

  1. 작업 영역의 오른쪽 위 영역에서 사용자 배지 를 클릭한 다음 설정개발자를 클릭합니다.
  2. 전자 필기장 및 파일에 대해 탭을 사용하도록 설정합니다.
  3. ETL 파이프라인 다중 파일 편집기를 사용하도록 설정합니다.

새 ETL 파이프라인 만들기

Lakeflow 파이프라인 편집기를 사용하여 새 ETL 파이프라인을 만들려면 다음 단계를 수행합니다.

  1. 사이드바 위쪽에서 더하기 아이콘을 클릭합니다.새로 만들기를 선택한 다음 파이프라인 아이콘을 선택합니다.ETL 파이프라인.

  2. 맨 위에서 파이프라인에 고유한 이름을 지정할 수 있습니다.

  3. 이름 바로 아래에서 선택한 기본 카탈로그 및 스키마를 볼 수 있습니다. 파이프라인에 다른 기본값을 제공하도록 변경합니다.

    기본 카탈로그 및 기본 스키마는 코드에서 카탈로그 또는 스키마 를 사용하여 데이터 세트를 한정하지 않을 때 데이터 세트를 읽거나 쓰는 위치입니다. 자세한 내용은 Azure Databricks의 데이터베이스 개체 를 참조하세요.

  4. 파이프라인을 만들기 위해 다음 옵션 중 하나를 선택하십시오.

    • SQL에서 샘플 코드로 시작하여 SQL의 샘플 코드를 포함하여 새 파이프라인 및 폴더 구조를 만듭니다.
    • Python에서 샘플 코드로 시작하여 Python의 샘플 코드를 포함하여 새 파이프라인 및 폴더 구조를 만듭니다.
    • 단일 변환으로 시작하여 새 빈 코드 파일을 사용하여 새 파이프라인 및 폴더 구조를 만듭니다.
    • 기존 자산을 추가하여 작업 영역의 기존 코드 파일과 연결할 수 있는 파이프라인을 만듭니다.

    ETL 파이프라인에 SQL 및 Python 소스 코드 파일을 둘 다 사용할 수 있습니다. 새 파이프라인을 만들고 샘플 코드에 대한 언어를 선택할 때 언어는 기본적으로 파이프라인에 포함된 샘플 코드에만 해당합니다.

  5. 선택하면 새로 만든 파이프라인으로 리디렉션됩니다.

ETL 파이프라인은 다음과 같은 기본 설정으로 만들어집니다.

파이프라인 도구 모음에서 이러한 설정을 조정할 수 있습니다.

또는 작업 영역 브라우저에서 ETL 파이프라인을 만들 수 있습니다.

  1. 왼쪽 패널에서 작업 영역을 클릭합니다.
  2. Git 폴더를 포함하여 모든 폴더를 선택합니다.
  3. 오른쪽 위 모서리에서 만들기 를 클릭하고 ETL 파이프라인을 클릭합니다.

작업 및 파이프라인 페이지에서 ETL 파이프라인을 만들 수도 있습니다.

  1. 작업 영역에서 워크플로 아이콘을 클릭합니다.사이드바의 작업 및 파이프라인입니다.
  2. 새로 만들기에서 ETL 파이프라인을 클릭합니다.

기존 ETL 파이프라인 열기

Lakeflow 파이프라인 편집기에서 기존 ETL 파이프라인을 열려면 다음 단계를 수행합니다.

  1. 측면 패널에서 작업 영역을 클릭합니다.
  2. 파이프라인에 대한 소스 코드 파일이 있는 폴더로 이동합니다.
  3. 소스 코드 파일을 클릭하여 편집기에서 파이프라인을 엽니다.

기존 ETL 파이프라인 열기

다음과 같은 방법으로 기존 ETL 파이프라인을 열 수도 있습니다.

  • 왼쪽 사이드바의 최근 정보 페이지에서 파이프라인의 소스 코드로 구성된 파이프라인 또는 파일을 엽니다.
  • 파이프라인 모니터링 페이지에서 파이프라인 편집을 클릭합니다.
  • 왼쪽 사이드바의 작업 실행 페이지에서 작업 및 파이프라인 탭을 클릭하고 Kebab 메뉴 아이콘 을 클릭하고 파이프라인 편집을 클릭합니다.
  • 새 작업을 만들고 파이프라인 작업을 추가할 때 새 탭 새 창 아이콘 에서 열기를 클릭할 수 있습니다. 파이프라인 아래에서 파이프라인을 선택하면 됩니다.
  • 파이프라인을 편집할 때 자산 브라우저 맨 위에 있는 파이프라인의 이름을 클릭하여 최근에 본 파이프라인 목록에서 선택할 수 있습니다.
  • 자산 브라우저에서 다른 파이프라인에 대한 소스 코드로 구성된 소스 코드 파일을 열면 해당 파일의 편집기 맨 위에 배너가 표시되어 연결된 파이프라인을 열라는 메시지가 표시됩니다. 파이프라인의 일부가 아닌 소스 코드 파일을 열려면 자산 브라우저 맨 위에 있는 모든 파일을 선택합니다.

파이프라인 자산 브라우저

Lakeflow 파이프라인 편집기에서는 파이프라인 자산 브라우저 라는 작업 영역 브라우저 사이드바에 대한 특수 모드가 있으며, 기본적으로 파이프라인에 패널을 집중합니다.

브라우저 맨 위에 있는 파이프라인 이름을 클릭하여 최근에 본 파이프라인 간에 전환합니다.

자산 브라우어에는 다음 두 개의 탭이 있습니다.

  • 파이프라인: 파이프라인과 연결된 모든 파일을 찾을 수 있습니다. 만들고, 삭제하고, 이름을 바꾸고, 폴더로 구성할 수 있습니다.
  • 모든 파일: 다른 모든 작업 영역 자산은 여기에서 사용할 수 있습니다.

파이프라인 자산 브라우저

파이프라인에 다음과 같은 형식의 파일을 사용할 수 있습니다.

  • 소스 코드 파일: 이러한 파일은 설정에서 볼 수 있는 파이프라인의 소스 코드 정의의 일부입니다. Databricks는 항상 파이프라인 루트 폴더 내에 소스 코드 파일을 저장하는 것이 좋습니다. 그렇지 않으면 브라우저 아래쪽의 외부 파일 섹션에 표시되고 덜 풍부한 기능 집합이 있습니다.
  • 소스 코드가 아닌 파일: 이러한 파일은 파이프라인 루트 폴더 내에 저장되지만 파이프라인 소스 코드 정의의 일부가 아닙니다.

중요합니다

파이프라인 탭 아래의 파이프라인 자산 브라우저를 사용하여 파이프라인 에 대한 파일 및 폴더를 관리해야 합니다. 이렇게 하면 파이프라인 설정이 올바르게 업데이트됩니다. 작업 영역 브라우저 또는 모든 파일 탭에서 파일 및 폴더를 이동하거나 이름을 바꾸면 파이프라인 구성이 중단되고 설정에서 이 문제를 수동으로 해결해야 합니다.

루트 폴더

파이프라인 자산 브라우저는 파이프라인 루트 폴더에 고정됩니다. 새 파이프라인을 만들 때 파이프라인 루트 폴더는 사용자 홈 폴더에 만들어지고 파이프라인 이름과 동일한 이름을 지정합니다.

파이프라인 자산 브라우저에서 루트 폴더를 변경할 수 있습니다. 이 기능은 폴더에 파이프라인을 만들고 나중에 모든 항목을 다른 폴더로 이동하려는 경우에 유용합니다. 예를 들어 일반 폴더에 파이프라인을 만들었으며 버전 제어를 위해 소스 코드를 Git 폴더로 이동하려고 합니다.

  1. Kebab 메뉴 아이콘 을 클릭합니다. 루트 폴더의 오버플로 메뉴입니다.
  2. 새 루트 폴더 구성을 클릭합니다.
  3. 파이프라인 루트 폴더에서 폴더 아이콘을 클릭하고 다른 폴더를 파이프라인 루트 폴더로 선택합니다.
  4. 저장을 클릭합니다.

파이프라인 루트 폴더 변경

Kebab 메뉴 아이콘 에서 루트 폴더의 이름을 바꾸려면 루트 폴더 이름 바꾸기를 클릭할 수도 있습니다. 여기에서 루트 폴더 이동을 클릭하여 루트 폴더 를 Git 폴더로 이동할 수도 있습니다.

설정에서 파이프라인 루트 폴더를 변경할 수도 있습니다.

  1. 설정을 클릭합니다.
  2. 코드 자산에서경로 구성을 클릭합니다.
  3. 폴더 아이콘 을 클릭하여 파이프라인 루트 폴더 아래의 폴더를 변경합니다.
  4. 저장을 클릭합니다.

비고

파이프라인 루트 폴더를 변경하면 이전 루트 폴더의 파일이 외부 파일로 표시되므로 파이프라인 자산 브라우저에 표시되는 파일 목록이 영향을 받습니다.

루트 폴더가 없는 기존 파이프라인

Lakeflow 선언적 파이프라인에서 단일 Notebook을 사용하여 기본 개발 환경에서 만든 기존 파이프라인에는 루트 폴더가 구성되지 않습니다. 다음 단계에 따라 기존 파이프라인에 대한 루트 폴더를 구성합니다.

  1. 파이프라인 자산 브라우저에서 구성을 클릭합니다.
  2. 폴더 아이콘 을 클릭하여 파이프라인 루트 폴더 아래의 루트 폴더를 선택합니다.
  3. 저장을 클릭합니다.

파이프라인 루트 폴더 없음

기본 폴더 구조

새 파이프라인을 만들 때 기본 폴더 구조가 만들어집니다. 이는 아래 설명된 대로 파이프라인 소스 및 비 소스 코드 파일을 구성하는 데 권장되는 구조입니다.

이 폴더 구조에는 소수의 샘플 코드 파일이 만들어집니다.

폴더 이름 이러한 유형의 파일에 권장되는 위치
<pipeline_root_folder> 파이프라인에 대한 모든 폴더와 파일이 포함된 루트 폴더입니다.
explorations 예비 데이터 분석에 사용되는 Notebook, 쿼리 및 코드 파일과 같은 소스가 아닌 코드 파일입니다.
transformations 테이블 정의가 있는 Python 또는 SQL 코드 파일과 같은 소스 코드 파일입니다.
utilities 다른 코드 파일에서 가져올 수 있는 Python 모듈이 있는 소스가 아닌 코드 파일입니다. 샘플 코드의 언어로 SQL을 선택하면 이 폴더가 만들어지지 않습니다.

폴더 이름의 이름을 바꾸거나 워크플로에 맞게 구조를 변경할 수 있습니다. 새 소스 코드 폴더를 추가하려면 다음 단계를 수행합니다.

  1. 파이프라인 자산 브라우저에서 추가 를 클릭합니다.
  2. 파이프라인 소스 코드 폴더 만들기를 클릭합니다.
  3. 폴더 이름을 입력하고 만들기를 클릭합니다.

소스 코드 파일

소스 코드 파일은 파이프라인의 소스 코드 정의에 속합니다. 파이프라인을 실행하면 이러한 파일이 평가됩니다. 소스 코드 정의의 파일 및 폴더 부분에는 미니 파이프라인 아이콘이 겹쳐진 특수 아이콘이 있습니다.

새 소스 코드 파일을 추가하려면 다음 단계를 수행합니다.

  1. 파이프라인 자산 브라우저에서 추가 를 클릭합니다.
  2. 변환을 클릭합니다.
  3. 파일의 이름을 입력하고 Python 또는 SQL언어로 선택합니다.
  4. 만들기를 클릭합니다.

또한 Kebab 메뉴 아이콘 을 클릭할 수 있습니다. 파이프라인 자산 브라우저의 모든 폴더에 대해 소스 코드 파일을 추가할 수 있습니다.

transformations 소스 코드의 폴더는 새 파이프라인을 만들 때 기본적으로 만들어집니다. 이 폴더는 파이프라인 테이블 정의가 있는 Python 또는 SQL 코드 파일과 같은 파이프라인 소스 코드에 권장되는 위치입니다.

소스가 아닌 코드 파일

소스가 아닌 코드 파일은 파이프라인 루트 폴더 내에 저장되지만 파이프라인 소스 코드 정의에는 포함되지 않습니다. 이러한 파일은 파이프라인을 실행할 때 평가되지 않습니다. 소스가 아닌 코드 파일은 외부 파일일 수 없습니다.

소스 코드와 함께 저장하려는 파이프라인의 작업과 관련된 파일에 사용할 수 있습니다. 다음은 그 예입니다.

  • Lakeflow 선언적 파이프라인이 아닌 곳에서 실행되는 임시 탐색에 사용되는 노트북은 파이프라인의 수명 주기 외부에서 처리됩니다.
  • 소스 코드 파일 내에서 이러한 모듈을 명시적으로 가져오지 않는 한 소스 코드로 평가되지 않는 Python 모듈입니다.

소스가 아닌 새 코드 파일을 추가하려면 다음 단계를 수행합니다.

  1. 파이프라인 자산 브라우저에서 추가 를 클릭합니다.
  2. 탐색 또는 유틸리티를 클릭합니다.
  3. 파일의 이름을 입력합니다.
  4. 만들기를 클릭합니다.

Kebab 메뉴 아이콘 을 클릭할 수도 있습니다. 파이프라인 루트 폴더 또는 소스가 아닌 코드 파일의 경우 이 폴더에 소스가 아닌 코드 파일을 추가합니다.

새 파이프라인을 만들 때 소스가 아닌 코드 파일에 대한 다음 폴더는 기본적으로 만들어집니다.

폴더 이름 설명
explorations 이 폴더는 노트북, 쿼리, 대시보드 및 기타 파일을 저장하기에 권장되는 위치이며, 일반적으로 파이프라인 실행 주기 외부에서 하듯이 비 Lakeflow 선언적 파이프라인 컴퓨트에서 실행할 수 있습니다.
중요: 파이프라인에 대한 소스 코드로 추가해서는 안 됩니다. 이러한 파일은 임의의 비 Lakeflow 선언적 파이프라인 코드를 포함할 가능성이 높기 때문에 파이프라인에서 오류가 발생할 수 있습니다.
utilities 이 폴더는 부모 폴더가 루트 폴더 아래에 계층적으로 있는 한 표현된 from <filename> import직접 가져오기를 통해 다른 파일에서 가져올 수 있는 Python 모듈에 권장되는 위치입니다.

루트 폴더 외부에 있는 Python 모듈을 가져올 수도 있지만, 이 경우 Python 코드에 폴더 경로를 sys.path 추가해야 합니다.

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

외부 파일

파이프라인 브라우저의 외부 파일 섹션에는 루트 폴더 외부의 소스 코드 파일이 표시됩니다.

외부 파일을 루트 폴더인 transformations로 이동하려면 다음 단계를 수행합니다.

  1. Kebab 메뉴 아이콘 을 클릭합니다. 자산 브라우저의 파일에 대해 이동을 클릭합니다.
  2. 파일을 이동할 폴더를 선택하고 이동을 클릭합니다.

여러 파이프라인과 연결된 파일

파일이 둘 이상의 파이프라인과 연결된 경우 파일의 헤더에 배지가 표시됩니다. 연결된 파이프라인 수가 있으며 다른 파이프라인으로 전환할 수 있습니다.

모든 파일 섹션

파이프라인 섹션 외에도 작업 영역에서 모든 파일을 열 수 있는 모든 파일 섹션이 있습니다. 다음을 수행할 수 있습니다.

  • Lakeflow 파이프라인 편집기를 벗어나지 않고 탭의 루트 폴더 외부에 있는 파일을 엽니다.
  • 다른 파이프라인의 소스 코드 파일로 이동하여 엽니다. 그러면 편집기에서 파일이 열리고 편집기에서 포커스를 이 두 번째 파이프라인으로 전환하는 옵션이 포함된 배너가 표시됩니다.
  • 파이프라인의 루트 폴더로 파일을 이동합니다.
  • 파이프라인 소스 코드 정의의 루트 폴더 외부에 파일을 포함합니다.

파이프라인 코드 실행

파이프라인 코드를 실행하는 세 가지 옵션이 있습니다.

  1. 파이프라인에서 모든 소스 코드 파일을 실행합니다. 파이프라인 실행 또는 전체 테이블 새로 고침을 사용하여 파이프라인 소스 코드로 정의된 모든 파일의 모든 테이블 정의를 실행하려면 파이프라인 실행을 클릭합니다.

    파이프라인 실행

    드라이 실행을 클릭하여 데이터를 업데이트하지 않고 파이프라인의 유효성을 검사할 수도 있습니다.

  2. 단일 파일에서 코드를 실행합니다. 파일 실행을 클릭하거나 전체 테이블 새로 고침이 있는 파일 실행을 클릭하여 현재 파일의 모든 테이블 정의를 실행합니다.

    파일 실행

  3. 단일 테이블에 대한 코드를 실행하려면 소스 코드 파일의 테이블 정의에서 테이블 실행DLT 실행 테이블 아이콘을 클릭하고, 테이블 새로 고침 또는 전체 테이블 새로 고침을 클릭합니다.

    테이블 실행

방향성 비순환 그래프(DAG)

파이프라인의 모든 소스 코드 파일을 실행하거나 유효성을 검사한 후에는 지시된 DAG(순환 그래프)가 표시됩니다. 그래프는 테이블 종속성 그래프를 보여줍니다. 각 노드에는 파이프라인 수명 주기에 따라 유효성 검사됨, 실행 중 또는 오류와 같은 상태가 다릅니다.

DAG(Directed Acyclical Graph)

오른쪽 패널에서 그래프 아이콘을 클릭하여 그래프를 켜고 끌 수 있습니다. 그래프를 최대화할 수도 있습니다. 오른쪽 아래에는 확대/축소 옵션 및 슬라이더 아이콘을 비롯한 추가 옵션이 있습니다.그래프를 세로 또는 가로 레이아웃으로 표시하는 추가 옵션입니다.

노드를 마우스로 가리키면 쿼리 새로 고침을 비롯한 옵션이 포함된 도구 모음이 표시됩니다. 노드를 마우스 오른쪽 단추로 클릭하면 상황에 맞는 메뉴에서 동일한 옵션이 제공됩니다.

노드를 클릭하면 데이터 미리 보기 및 테이블 정의가 표시됩니다. 파일을 편집할 때 해당 파일에 정의된 테이블이 그래프에 강조 표시됩니다.

데이터 미리 보기

데이터 미리 보기 섹션에는 선택한 테이블에 대한 샘플 데이터가 표시됩니다.

지시된 DAG(순환 그래프)에서 노드를 클릭하면 테이블 데이터의 미리 보기가 표시됩니다.

테이블이 선택되지 않은 경우 테이블 섹션으로 이동하여 데이터 미리 보기DLT 데이터 보기 미리 보기 아이콘을 클릭합니다. 테이블을 선택한 경우 모든 테이블을 클릭하여 모든 테이블로 돌아갑니다.

실행 인사이트

편집기 하단의 패널에서 최신 파이프라인 업데이트에 대한 테이블 실행 인사이트를 볼 수 있습니다.

패널 설명
테이블 상태 및 메트릭이 있는 모든 테이블을 나열합니다. 테이블 하나를 선택하면 해당 테이블의 메트릭 및 성능과 데이터 미리 보기 탭이 표시됩니다.
성능 이 파이프라인의 모든 흐름에 대한 쿼리 기록 및 프로필입니다. 실행 중 및 실행 후에 실행 메트릭 및 자세한 쿼리 계획에 액세스할 수 있습니다. 자세한 내용은 Lakeflow 선언적 파이프라인에 대한 액세스 쿼리 기록을 참조하세요.
문제 패널 패널을 클릭하여 파이프라인에 대한 간소화된 오류 및 경고 보기를 봅니다. 항목을 클릭하여 자세한 내용을 확인하고 오류가 발생한 코드의 위치로 이동할 수 있습니다. 오류가 현재 표시된 파일이 아닌 다른 파일에 있는 경우 오류가 있는 파일로 리디렉션됩니다.
세부 정보 보기를 클릭하여 해당 이벤트 로그 항목을 확인하여 전체 세부 정보를 확인합니다. 로그 보기를 클릭하여 전체 이벤트 로그를 확인합니다.
코드에 부착된 오류 표시기가 코드의 특정 부분과 연결된 오류에 대해 표시됩니다. 자세한 내용을 보려면 오류 아이콘을 클릭하거나 빨간색 선을 마우스로 가리킵니다. 자세한 정보가 포함된 팝업이 나타납니다. 그런 다음 빠른 수정 을 클릭하여 오류 문제를 해결하기 위한 작업 집합을 표시할 수 있습니다.
이벤트 로그 마지막 파이프라인 실행 중에 트리거된 모든 이벤트입니다. 문제 트레이의 로그 또는 항목 보기를 클릭합니다.

파이프라인 설정

파이프라인 설정 패널에 액세스하려면 도구 모음에서 설정을 클릭하거나 기어 아이콘 을 클릭합니다. 파이프라인 자산 브라우저의 미니 카드에서.

파이프라인 설정

이벤트 로그

설정에서 설정할 때까지 파이프라인에 대한 이벤트 로그를 사용할 수 없습니다.

  1. 설정을 엽니다.
  2. 펼침 단추 오른쪽 아이콘 을 클릭합니다. 고급 설정 옆의 화살표입니다.
  3. 고급 설정 편집을 클릭합니다.
  4. 메타스토어에 이벤트 로그 게시를 선택합니다.
  5. 이벤트 로그의 이름, 카탈로그 및 스키마를 제공합니다.
  6. 저장을 클릭합니다.

이제 파이프라인 이벤트가 지정한 테이블에 게시됩니다.

환경

설정에 종속성을 추가하여 소스 코드에 대한 환경을 만들 수 있습니다.

  1. 설정을 엽니다.
  2. 환경 아래에서 환경 편집을 클릭합니다.
  3. 더하기 아이콘 을 선택합니다. 종속성을 추가하여 마치 requirements.txt 파일에 추가하는 것처럼 추가합니다. 종속성에 대한 자세한 내용은 Notebook에 종속성 추가를 참조하세요.

Databricks는 ==로 버전을 고정할 것을 권장합니다. PyPI 패키지를 참조하세요.

환경은 파이프라인의 모든 소스 코드 파일에 적용됩니다.

공지

레거시 파이프라인 설정을 사용하여 알림을 추가할 수 있습니다.

  1. 설정을 엽니다.
  2. 파이프라인 설정 패널의 맨 아래에서 레거시 파이프라인 설정을 클릭합니다.
  3. 알림 아래에서 알림 추가를 클릭합니다.
  4. 하나 이상의 전자 메일 주소를 추가하고 보내려는 이벤트를 지정합니다.
  5. 알림추가를 클릭합니다.

제한 사항 및 알려진 문제

Lakeflow 선언적 파이프라인의 ETL 파이프라인 편집기에서 다음과 같은 제한 사항 및 알려진 문제를 참조하세요.

  1. 이러한 파일 또는 Notebook이 파이프라인 소스 코드 정의의 일부가 아니기 때문에 폴더 또는 Notebook에서 explorations 파일을 열어 시작하면 작업 영역 브라우저 사이드바가 파이프라인에 초점을 맞추지 않습니다.

    1. 작업 영역 브라우저에서 파이프라인 포커스 모드로 전환하려면 파이프라인과 연결된 파일을 엽니다.
  2. 데이터 미리 보기는 일반 보기에서 지원되지 않습니다.

  3. 다중 테이블 새로 고침은 파이프라인 모니터링 페이지에서만 수행할 수 있습니다. 파이프라인 브라우저에서 미니 카드를 사용하여 해당 페이지로 이동합니다.

  4. 코드의 줄 바꿈으로 인해 실행 테이블 아이콘이 잘못된 위치에 나타날 수 있습니다.

  5. %pip install 는 파일에서 지원되지 않습니다(새 편집기가 있는 기본 자산 형식). 설정에서 종속성을 추가할 수 있습니다. 환경을 참조하세요.

    대안으로, 파이프라인과 연관된 Notebook의 소스 코드 정의 내에서 %pip install를 계속 사용할 수 있습니다.

자주 묻는 질문(FAQ)

  1. 소스 코드에 Notebook이 아닌 파일을 사용하는 이유는 무엇인가요?

    Notebooks의 셀 기반 실행은 Lakeflow 선언적 파이프라인과 호환되지 않습니다. 그래서 기능을 해제하거나 동작을 변경해야 했기 때문에 혼란이 있었습니다.

    Lakeflow 파이프라인 편집기에서 파일 편집기는 Lakeflow 선언적 파이프라인에 대한 일류 편집기를 위한 기초로 사용됩니다. 기능은 다른 동작으로 익숙한 기능을 오버로드하는 대신 실행 테이블DLT 실행 테이블 아이콘과 같은 Lakeflow 선언적 파이프라인을 명시적으로 대상으로 합니다.

  2. 전자 필기장을 소스 코드로 계속 사용할 수 있나요?

    예, 가능합니다. 그러나 테이블 DLT 실행 테이블아이콘 또는 실행 파일과 같은 일부 기능은 존재하지 않습니다.

    Notebook을 사용하는 기존 파이프라인이 있는 경우 새 편집기에서 계속 작동합니다. 그러나 Databricks는 새 파이프라인에 대한 파일로 전환하는 것이 좋습니다.

  3. 새로 만든 파이프라인에 기존 코드를 추가하려면 어떻게 해야 하나요?

    기존 소스 코드 파일을 새 파이프라인에 추가할 수 있습니다. 기존 파일이 있는 폴더를 추가하려면 다음 단계를 수행합니다.

    1. 설정을 클릭합니다.
    2. 소스 코드에서 경로 구성을 클릭합니다.
    3. 경로 추가를 클릭하고 기존 파일의 폴더를 선택합니다.
    4. 저장을 클릭합니다.

    개별 파일을 추가할 수도 있습니다.

    1. 파이프라인 자산 브라우저에서 모든 파일을 클릭합니다.
    2. 파일로 이동하여 Kebab 메뉴 아이콘을 클릭한 다음 파이프라인에서 [포함]을 클릭합니다.

    이러한 파일을 파이프라인 루트 폴더로 이동하는 것이 좋습니다. 파이프라인 루트 폴더 외부에 남아 있으면 외부 파일 섹션에 표시됩니다.

  4. Git에서 파이프라인 소스 코드를 관리할 수 있나요?

    처음에 파이프라인을 만들 때 Git 폴더를 선택하여 Git에서 파이프라인 원본을 관리할 수 있습니다. 버전 제어 없이 파이프라인을 만든 후에는 원본을 Git 폴더로 이동할 수 있습니다. Databricks는 편집기 작업을 사용하여 전체 루트 폴더를 Git 폴더로 이동하는 것이 좋습니다. 이렇게 하면 모든 설정이 그에 따라 업데이트됩니다. 루트 폴더를 참조하세요.

    파이프라인 자산 브라우저에서 루트 폴더를 Git 폴더로 이동하려면 다음을 수행합니다.

    1. Kebab 메뉴 아이콘 을 클릭하여 루트 폴더로 이동합니다.
    2. 루트 폴더 이동을 클릭합니다.
    3. 루트 폴더의 새 위치를 선택하고 이동을 클릭합니다.

    자세한 내용은 루트 폴더 섹션을 참조하세요.

    이동한 후 루트 폴더 이름 옆에 친숙한 Git 아이콘이 표시됩니다.

    중요합니다

    파이프라인 루트 폴더를 이동하려면 파이프라인 자산 브라우저 및 위의 단계를 사용합니다. 다른 방법으로 이동하면 파이프라인 구성이 중단되고 설정에서 올바른 폴더 경로를 수동으로 구성해야 합니다.

  5. 동일한 루트 폴더에 여러 파이프라인을 사용할 수 있나요?

    가능하지만 Databricks는 루트 폴더당 하나의 파이프라인만 사용하는 것이 좋습니다.

  6. 언제 드라이 런을 실행해야 하나요?

    테이블을 업데이트하지 않고 코드를 확인하려면 드라이 실행을 클릭합니다.

  7. 임시 뷰를 사용해야 하는 경우와 코드에서 구체화된 뷰를 사용해야 하는 경우는 언제인가요?

    데이터를 구체화하지 않으려면 임시 뷰를 사용합니다. 예를 들어 이는 스트리밍 테이블 또는 카탈로그에 등록된 구체화된 뷰를 사용하여 구체화할 준비가 되기 전에 데이터를 준비하는 단계의 일련의 단계입니다.