영어로 읽기

다음을 통해 공유


Databricks Lakehouse 모니터링 소개

이 문서에서는 Databricks Lakehouse 모니터링에 대해 설명합니다. 데이터 모니터링의 이점에 대해 설명하고 Databricks Lakehouse 모니터링의 구성 요소 및 사용에 대한 개요를 제공합니다.

Databricks Lakehouse 모니터링을 사용하면 계정의 모든 테이블에서 데이터의 통계 속성 및 품질을 모니터링할 수 있습니다. 모델 입력 및 예측을 포함하는 유추 테이블을 모니터링하여 기계 학습 모델 및 모델 제공 엔드포인트의 성능을 추적하는 데 사용할 수도 있습니다. 이 다이어그램은 Databricks의 데이터 및 ML 파이프라인을 통한 데이터 흐름과 모니터링을 사용하여 데이터 품질 및 모델 성능을 지속적으로 추적하는 방법을 보여 줍니다.

Databricks Lakehouse 모니터링 개요

Databricks Lakehouse 모니터링을 사용하는 이유는 무엇인가요?

데이터에서 유용한 인사이트를 활용하려면 데이터의 품질에 대한 확신을 가져야 합니다. 데이터를 모니터링하면 시간에 따른 데이터의 품질과 일관성을 추적하고 확인하는 데 도움이 되는 정량적 측정값을 제공합니다. 테이블의 데이터 배포 또는 해당 모델의 성능에서 변경 내용을 감지하면 Databricks Lakehouse 모니터링에서 만든 테이블이 변경 내용을 캡처하고 경고할 수 있으며 원인을 식별하는 데 도움이 될 수 있습니다.

Databricks Lakehouse 모니터링은 다음과 같은 질문에 대답하는 데 도움이 됩니다.

  • 데이터 무결성은 어떤 모양이며 시간이 지남에 따라 어떻게 변경됩니까? 예를 들어 현재 데이터에서 null 또는 0 값의 비율은 무엇이며 증가하나요?
  • 데이터의 통계 분포는 어떻게 표시되며 시간이 지남에 따라 어떻게 변경됩니까? 예를 들어 숫자 열의 90번째 백분위수는 무엇인가요? 또는 범주 열의 값 분포는 무엇이며 어제와 어떻게 다른가요?
  • 현재 데이터와 알려진 기준선 간에 또는 데이터의 연속 시간 기간 사이에 드리프트가 있나요?
  • 데이터의 하위 집합 또는 조각의 통계 분포 또는 드리프트는 어떻게 표시됩니까?
  • ML 모델 입력 및 예측은 시간이 지남에 따라 어떻게 이동합니까?
  • 시간이 지남에 따라 모델 성능 추세는 어떻게 합니까? 모델 버전 A가 버전 B보다 성능이 더 좋은가요?

또한 Databricks Lakehouse 모니터링을 사용하면 관찰 시간 세분성을 제어하고 사용자 지정 메트릭을 설정할 수 있습니다.

요구 사항

Databricks Lakehouse 모니터링을 사용하려면 다음이 필요합니다.

  • Unity 카탈로그에 대해 작업 영역을 사용하도록 설정해야 하며 Databricks SQL에 대한 액세스 권한이 있어야 합니다.
  • 델타 테이블만 모니터링에 지원되며 테이블은 관리 테이블, 외부 테이블, 뷰, 구체화된 뷰 또는 스트리밍 테이블과 같은 테이블 형식 중 하나여야 합니다.
  • 구체화된 뷰 및 스트리밍 테이블을 통해 만든 모니터는 증분 처리를 지원하지 않습니다.
  • 모든 지역이 지원되는 것은 아닙니다. 지역별 지원은 지역 가용성이 제한된 테이블 기능의 Notebook 및 워크플로에 대한 서버리스 컴퓨팅 열을 참조하세요.

참고

Databricks Lakehouse 모니터링은 작업에 서버리스 컴퓨팅을 사용합니다. Lakehouse 모니터링 비용을 추적하는 방법에 대한 자세한 내용은 Lakehouse 모니터링 비용 보기를 참조 하세요.

Databricks에서 Lakehouse 모니터링이 작동하는 방식

Databricks에서 테이블을 모니터링하려면 테이블에 연결된 모니터를 만듭니다. 기계 학습 모델의 성능을 모니터링하려면 모델의 입력 및 해당 예측을 포함하는 유추 테이블에 모니터를 연결합니다.

Databricks Lakehouse 모니터링은 시계열, 스냅샷 및 유추와 같은 유형의 분석을 제공합니다.

프로필 유형 설명
Time series(시계열) 타임스탬프 열을 기반으로 하는 시계열 데이터 세트가 포함된 테이블에 사용합니다. 모니터링은 시계열의 시간 기반 창에서 데이터 품질 메트릭을 계산합니다.
유추 모델에 대한 요청 로그가 포함된 테이블에 사용합니다. 각 행은 타임스탬프, 모델 입력, 해당 예측 및 (선택 사항) 접지 진실 레이블에 대한 열이 있는 요청입니다. 모니터링은 요청 로그의 시간 기반 창에서 모델 성능 및 데이터 품질 메트릭을 비교합니다.
스냅샷 다른 모든 유형의 테이블에 사용합니다. 모니터링은 테이블의 모든 데이터에 대한 데이터 품질 메트릭을 계산합니다. 전체 테이블은 새로 고칠 때마다 처리됩니다.

이 섹션에서는 Databricks Lakehouse 모니터링에서 사용하는 입력 테이블 및 생성되는 메트릭 테이블에 대해 간략하게 설명합니다. 다이어그램은 입력 테이블, 메트릭 테이블, 모니터 및 대시보드 간의 관계를 보여 줍니다.

Databricks Lakehouse 모니터링 다이어그램

기본 테이블 및 기준 테이블

"기본 테이블"이라고 하는 모니터링할 테이블 외에도 필요에 따라 드리프트를 측정하기 위한 참조로 사용할 기준 테이블을 지정하거나 시간에 따른 값의 변경을 지정할 수 있습니다. 기준 테이블은 데이터의 모양에 대한 샘플이 있는 경우에 유용합니다. 이 아이디어는 드리프트가 예상 데이터 값 및 분포를 기준으로 계산된다는 것입니다.

기준 테이블에는 통계 분포, 개별 열 분포, 누락 값 및 기타 특성 측면에서 입력 데이터의 예상 품질을 반영하는 데이터 세트가 포함되어야 합니다. 모니터링되는 테이블의 스키마와 일치해야 합니다. 시계열 또는 유추 프로필에 사용되는 테이블의 타임스탬프 열은 예외입니다. 기본 테이블 또는 기준 테이블에 열이 누락된 경우 모니터링은 최상의 추론을 사용하여 출력 메트릭을 계산합니다.

스냅샷 프로필을 사용하는 모니터의 경우 기준 테이블에는 배포가 허용 가능한 품질 표준을 나타내는 데이터의 스냅샷이 포함되어야 합니다. 예를 들어 성적 분포 데이터에서 기준선을 성적이 균등하게 분산된 이전 클래스로 설정할 수 있습니다.

시계열 프로필을 사용하는 모니터의 경우 기준 테이블에는 데이터 분포가 허용 가능한 품질 표준을 나타내는 시간 창을 나타내는 데이터가 포함되어야 합니다. 예를 들어 날씨 데이터에서 온도가 예상 정상 온도에 근접한 주, 월 또는 연도로 기준을 설정할 수 있습니다.

유추 프로필을 사용하는 모니터의 경우 기준선에 적합한 방법은 모니터링되는 모델을 학습하거나 유효성을 검사하는 데 사용된 데이터입니다. 이러한 방식으로 모델이 학습되고 유효성을 검사한 것을 기준으로 데이터가 드리프트될 때 사용자에게 경고를 받을 수 있습니다. 이 테이블은 기본 테이블과 동일한 기능 열을 포함해야 하며, 또한 데이터가 일관되게 집계되도록 주 테이블의 InferenceLog에 대해 지정된 것과 동일해야 합니다 model_id_col . 이상적으로 모델을 평가하는 데 사용되는 테스트 또는 유효성 검사 집합을 사용하여 비슷한 모델 품질 메트릭을 확인해야 합니다.

메트릭 테이블 및 대시보드

테이블 모니터는 두 개의 메트릭 테이블과 대시보드를 만듭니다. 메트릭 값은 전체 테이블 및 모니터를 만들 때 지정하는 기간 및 데이터 하위 집합(또는 "조각")에 대해 계산됩니다. 또한 유추 분석을 위해 메트릭은 각 모델 ID에 대해 계산됩니다. 메트릭 테이블에 대한 자세한 내용은 메트릭 테이블 모니터링을 참조 하세요.

  • 프로필 메트릭 테이블에는 요약 통계가 포함되어 있습니다. 프로필 메트릭 테이블 스키마를 참조하세요.
  • 드리프트 메트릭 테이블에는 시간에 따른 데이터 드리프트와 관련된 통계가 포함됩니다. 기준 테이블이 제공되면 초기 계획 값을 기준으로 드리프트도 모니터링됩니다. 드리프트 메트릭 테이블 스키마를 참조하세요.

메트릭 테이블은 델타 테이블이며 지정한 Unity 카탈로그 스키마에 저장됩니다. Databricks UI를 사용하여 이러한 테이블을 보고, Databricks SQL을 사용하여 쿼리하고, 이를 기반으로 대시보드 및 경고를 만들 수 있습니다.

각 모니터에 대해 Databricks는 모니터 결과를 시각화하고 표시하는 데 도움이 되는 대시보드를 자동으로 만듭니다. 대시보드는 다른 레거시 대시보드와 마찬가지로 완전히 사용자 지정할 수 있습니다.

Databricks에서 Lakehouse 모니터링 사용 시작

시작하려면 다음 문서를 참조하세요.