다음을 통해 공유


데이터 엔지니어링 에이전트 사용

중요합니다

이 기능은 공개 미리보기 단계에 있습니다.

이 페이지에서는 Databricks Assistant에 기능을 추가하는 데이터 엔지니어링 에이전트를 소개합니다. 데이터 엔지니어링 에이전트를 사용하려면 길잡이에서 에이전트 모드를 선택합니다.

데이터 엔지니어링 에이전트는 SDP(Lakeflow Spark 선언적 파이프라인) 및 Lakeflow 파이프라인 편집기를 위해 특별히 설계되었으며, 단일 프롬프트에서 데이터를 탐색하고, 파이프라인 코드를 생성 및 실행하고, 오류를 수정합니다.

데이터 엔지니어링 에이전트란?

데이터 엔지니어링 에이전트는 Databricks Assistant 에이전트 모드의 강력한 기능으로, 도우미를 SDP 및 Lakeflow 파이프라인 편집기에서 전체 다단계 데이터 엔지니어링 워크플로를 자동화할 수 있는 자율 파트너로 변환합니다.

데이터 엔지니어링 에이전트를 사용합니다.

도우미 채팅 모드에 비해 에이전트 모드는 솔루션 계획, 관련 자산 검색, 코드 실행, 파이프라인 출력을 사용하여 결과 개선, 오류 자동 수정 등 기능을 확장했습니다.

데이터 엔지니어링 에이전트는 전체 파이프라인을 처음부터 처음부터 끝까지 계획하고 생성하거나 기존 파이프라인에서 작업을 가속화할 수 있습니다. 에이전트는 계속하기 전에 사용자와 협력하여 계획을 승인하고 다음 단계를 확인합니다. 승인을 통해 데이터 엔지니어링 에이전트는 도구를 사용하여 테이블 검색, SQL 또는 Python 원본 파일 편집, 파이프라인 업데이트 실행 및 파이프라인 데이터 세트 읽기와 같은 작업을 수행할 수 있습니다.

데이터 엔지니어링 에이전트의 액세스 및 작업은 사용자의 권한에 의해 제어됩니다. 액세스 권한이 있는 데이터에만 액세스하고 권한이 있는 작업을 수행할 수 있습니다.

비고

도우미에서 에이전트 모드를 켜면 도우미는 Databricks에서 현재 사용 중인 기능에 따라 해당 기능을 조정합니다. 예를 들어 Lakeflow 파이프라인 편집기에서 도우미는 파이프라인 편집 및 데이터 엔지니어링 작업에 중점을 둡니다. Notebook 및 SQL 편집기에서 도우미는 데이터 탐색 및 분석을 지원합니다. 자세한 내용은 데이터 과학 에이전트 를 참조하세요.

요구 사항

데이터 엔지니어링 에이전트를 사용하려면 작업 영역에 다음이 필요합니다.

데이터 엔지니어링 에이전트 사용

데이터 엔지니어링 에이전트를 사용하려면 다음을 수행합니다.

  1. Lakeflow 파이프라인 편집기에서 아바타 도우미 아이콘을 클릭하여 작업 공간의 오른쪽 위 모서리에 있는 도우미 패널을 엽니다.

  2. 오른쪽 아래 모서리에서 에이전트를 선택합니다. 이렇게 하면 도우미의 에이전트 모드가 전환되어 데이터 엔지니어링 에이전트와 상호 작용할 수 있습니다.

  3. 에이전트에 대한 프롬프트를 입력합니다. 예를 들어 파이프라인에 대해 "이 파이프라인 설명"과 같은 질문을 할 수 있습니다. 새 데이터 세트를 추가하도록 시스템에 요청할 수도 있습니다. 예를 들어, "bronze_sales_data에서 정보를 읽고, 데이터를 정리하며, 유용한 품질 기대치를 설정하는 새 파일에 silver_sales_data를 생성합니다."

    비고

    에이전트는 사용자의 Unity 카탈로그 권한을 준수하므로 액세스 권한이 있는 데이터 및 파이프라인 원본에만 액세스할 수 있습니다.

  4. 에이전트가 응답을 생성할 때 입력을 가져오기 위해 일시 중지되는 경우가 많습니다.

    • 더 복잡한 작업의 경우 에이전트는 단계별 계획을 만들고 명확한 질문을 할 수 있습니다. 에이전트의 명확한 질문에 대답하여 계획을 연마하는 데 도움을 주세요.

    • 에이전트가 코드를 실행하거나 파이프라인을 업데이트해야 하는 경우 계속하기 전에 승인을 요청합니다. 요청을 허용하거나 거부합니다. 이 스레드에서 허용(도우미 대화 스레드 참조)을 선택하거나 항상 허용을 선택할 수도 있습니다.

      중요합니다

      데이터 엔지니어링 에이전트는 파이프라인에서 코드를 생성하고 실행할 수 있습니다. 위험한 행동을 방지하기 위한 가드레일이 있지만 여전히 위험이 있습니다. 신뢰할 수 있는 데이터에서만 사용해야 하며 코드를 실행하기 전에 검토해야 합니다.

    • 에이전트가 작업을 계속하면 계속 또는 거부를 선택하라는 메시지가 표시될 수 있습니다 . 에이전트의 기존 작업을 검토한 다음 계속을 선택하여 에이전트가 다음 단계를 계속 진행하도록 허용하거나 거부 를 선택하여 다른 작업을 시도하도록 지시합니다.

    • 에이전트가 작동하는 동안 중지하려면 빨간색 중지 아이콘을 클릭합니다.

에이전트는 새 파일을 만들고, 텍스트, 쿼리 및 코드를 생성하고, 파일 또는 파이프라인을 실행하고, 출력 데이터 세트에 액세스하여 결과를 해석할 수 있습니다.

비고

데이터 엔지니어링 에이전트가 작업을 계속하고 다음 단계를 수행하려면 에이전트가 작업 중인 현재 탭을 유지해야 합니다.

팁 (조언)

대부분의 응답에서 사용할 에이전트에 대한 지침을 추가할 수 있습니다. 예를 들어 사용하려는 코드 규칙 또는 사용할 기본 라이브러리가 있는 경우 에이전트에 대한 지침에 이러한 지침을 추가할 수 있습니다. 도메인별 작업에 대한 특수 기능을 사용하여 에이전트를 확장하는 기술을 만들 수도 있습니다. 자세한 내용 및 기타 팁은 Databricks Assistant 응답 사용자 지정 및 향상을 참조하세요.

역량

데이터 엔지니어링 에이전트는 대부분의 파이프라인 개발 작업에 도움이 될 수 있습니다. 주요 기능은 다음과 같습니다.

  • 데이터 검색: 에이전트는 작업 영역에서 테이블을 검색하여 작업에 필요한 데이터를 찾을 수 있습니다.
  • 파이프라인 코드 편집: 에이전트는 한 번에 여러 파일을 만들고 편집할 수 있습니다. 변경 중인 파일에 대한 정보를 유지하고 각 파일의 코드 차이(diff)를 표시하므로 변경 내용을 개별적으로 검토하거나 마지막에 모두 검토할 수 있습니다.
  • 파이프라인 실행: 에이전트는 개별 파일을 실행하거나, 파이프라인을 테스트 실행/실행하거나, 전체 새로 고침을 수행할 수 있습니다. 에이전트가 계속 진행하기 전에 귀하의 확인을 요청합니다.
  • 파이프라인 동작 이해 및 개선: 에이전트는 데이터 세트 및 파이프라인 출력을 검사하여 파이프라인이 엔드 투 엔드를 수행하는 것과 그 이유를 이해하는 데 도움이 될 수 있습니다. 예를 들어 변환을 요약하고, 데이터가 다운스트림 테이블로 흐르는 방식을 추적하고, 행 개수 또는 스키마의 예기치 않은 변경 내용을 강조 표시할 수 있습니다. 잠재적인 데이터 품질 문제가 표시되면 에이전트는 원인에 대해 추론하고 파이프라인에서 해당 문제를 해결하는 위치와 방법을 제안할 수 있습니다.

이러한 기능은 다음과 같은 일반적인 사용 사례를 지원합니다.

  • 새 파이프라인 작성: 데이터 엔지니어링 에이전트는 데이터 수집, 데이터 표준화 및 정리, 데이터 변환 및 분석에 이르기까지 새 medallion 아키텍처 파이프라인을 만드는 모든 단계를 도울 수 있습니다.
  • 파이프라인 설명: 에이전트는 기존 파이프라인을 분석하고 설명하여 빠르게 확장할 수 있습니다.
  • 문제 해결: 오류가 있는 경우 에이전트는 문제를 진단하고 해결하는 데 도움을 줄 수 있으며, 문제가 해결될 때까지 여러 파일을 반복합니다.

예시

다음 프롬프트를 시도하여 시작합니다.

  • "my_catalog.my_schema의 테이블 트랜잭션 및 고객을 사용하여 사기 탐지를 위한 medallion 아키텍처 파이프라인을 빌드하고 실행합니다."
  • "이 파이프라인의 모든 단계를 설명합니다."
  • "이 파이프라인의 오류를 수정합니다."

다음 단계