Microsoft Purview에서 Hive Metastore 데이터베이스에 연결 및 관리

이 문서에서는 Hive Metastore 데이터베이스를 등록하는 방법과 Microsoft Purview에서 Hive Metastore 데이터베이스를 인증하고 상호 작용하는 방법을 간략하게 설명합니다. Microsoft Purview에 대한 자세한 내용은 소개 문서를 참조하세요.

지원되는 기능

메타데이터 추출 전체 검사 증분 검사 범위가 지정된 검사 분류 레이블 지정 액세스 정책 계보 데이터 공유 라이브 보기
아니요 아니요 아니요 아니요 예* 아니요 아니요

* 데이터 원본 내 자산의 계보 외에도 데이터 세트가 Data Factory 또는 Synapse 파이프라인에서 원본/싱크로 사용되는 경우에도 계보가 지원됩니다.

지원되는 Hive 버전은 2.x~3.x입니다. 지원되는 플랫폼은 Apache Hadoop, Cloudera 및 Hortonworks입니다. Azure Databricks를 검사하려는 경우 더 호환되고 사용자에게 친숙한 Azure Databricks 커넥터 를 사용하는 것이 좋습니다.

Hive 메타스토어 원본을 검사할 때 Microsoft Purview는 다음을 지원합니다.

  • 다음을 포함한 기술 메타데이터 추출:

    • 서버
    • 데이터베이스
    • 열, 외장 키, 고유 제약 조건 및 스토리지 설명을 포함한 테이블
    • 열 및 스토리지 설명을 포함한 보기
  • 테이블 및 뷰 간의 자산 관계에 대한 정적 계보 가져오기

검사를 설정할 때 전체 Hive 메타스토어 데이터베이스를 검색하도록 선택하거나 지정된 이름 또는 이름 패턴과 일치하는 스키마 하위 집합에 검사를 scope 수 있습니다.

알려진 제한

개체가 데이터 원본에서 삭제되면 현재 후속 검사에서 Microsoft Purview에서 해당 자산을 자동으로 제거하지 않습니다.

필수 구성 요소

등록

이 섹션에서는 Microsoft Purview 거버넌스 포털을 사용하여 Microsoft Purview에 Hive Metastore 데이터베이스를 등록하는 방법을 설명합니다.

Hive Metastore 데이터베이스에 대해 지원되는 유일한 인증은 기본 인증입니다.

  1. 다음을 통해 Microsoft Purview 거버넌스 포털을 엽니다.

  2. 왼쪽 창에서 데이터 맵 을 선택합니다.

  3. 등록을 선택하세요.

  4. 원본 등록에서 Hive 메타스토어>계속을 선택합니다.

  5. 원본 등록(Hive Metastore) 화면에서 다음을 수행합니다.

    1. 이름에 Microsoft Purview가 데이터 원본으로 나열할 이름을 입력합니다.

    2. Hive 클러스터 URL의 경우 Ambari URL에서 가져오는 값을 입력합니다. 예를 들어 hive.azurehdinsight.net 입력합니다.

    3. Hive Metastore 서버 URL에 서버의 URL을 입력합니다. 예를 들어 sqlserver://hive.database.windows.net 입력합니다.

    4. 컬렉션 선택에 대해 목록에서 컬렉션을 선택하거나 새 컬렉션을 만듭니다. 이 단계는 선택 사항입니다.

    Hive 원본을 등록하기 위한 상자를 보여 주는 스크린샷

  6. 완료를 선택합니다.

검사

검사와 관련된 문제를 해결하려면 다음을 수행합니다.

  1. 모든 필수 구성 요소를 따랐는지 확인합니다.
  2. 검사 문제 해결 설명서를 검토합니다.

다음 단계를 사용하여 Hive Metastore 데이터베이스를 검사하여 자산을 자동으로 식별합니다. 일반적인 검사에 대한 자세한 내용은 Microsoft Purview의 검사 및 수집을 참조하세요.

  1. 관리 센터에서 통합 런타임을 선택합니다. 자체 호스팅 통합 런타임이 설정되어 있는지 확인합니다. 설정되지 않은 경우 자체 호스팅 통합 런타임 만들기 및 관리의 단계를 사용합니다.

  2. 원본으로 이동합니다.

  3. 등록된 Hive Metastore 데이터베이스를 선택합니다.

  4. + 새 검사를 선택합니다.

  5. 다음 세부 정보를 제공하세요.

    1. 이름: 검사의 이름을 입력합니다.

    2. 통합 런타임을 통해 연결: 구성된 자체 호스팅 통합 런타임을 선택합니다.

    3. 자격 증명: 자격 증명을 선택하여 데이터 원본에 연결합니다. 다음을 수행해야 합니다.

      • 자격 증명을 만드는 동안 기본 인증을 선택합니다.
      • 적절한 상자에 Metastore 사용자 이름을 제공합니다.
      • 메타스토어 암호를 비밀 키에 저장합니다.

      자세한 내용은 Microsoft Purview에서 원본 인증을 위한 자격 증명을 참조하세요.

    4. Metastore JDBC 드라이버 위치: 컴퓨터에서 자체 호스트 통합 런타임이 실행되는 JDBC 드라이버 위치의 경로를 지정합니다(예: D:\Drivers\HiveMetastore). 유효한 JAR 폴더 위치의 경로입니다. 자체 호스팅 통합 런타임에서 드라이버에 액세스할 수 있는지 확인합니다. 필수 구성 요소 섹션에서 자세히 알아보세요.

    5. Metastore JDBC 드라이버 클래스: 연결 드라이버의 클래스 이름을 제공합니다. 예를 들어 \com.microsoft.sqlserver.jdbc.SQLServerDriver를 입력합니다.

    6. Metastore JDBC URL: 연결 URL 값을 제공하고 Metastore 데이터베이스 서버의 URL에 대한 연결을 정의합니다. 예: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300

      참고

      hive-site.xmlURL을 복사하면 문자열에서 를 제거 amp; 하거나 검색이 실패합니다.

      SSL 인증서를 자체 호스팅 통합 런타임 머신에 다운로드한 다음 URL에서 컴퓨터의 SSL 인증서 위치에 대한 경로를 업데이트합니다.

      검색 구성에 로컬 파일 경로를 입력할 때 백슬래시()에서 슬래시(\/)로 Windows 경로 구분 기호 문자를 변경합니다. 예를 들어 로컬 파일 경로 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem에 SSL 인증서를 배치하는 경우 매개 변수 값을 D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem으로 변경 serverSslCert 합니다.

      Metastore JDBC URL 값은 다음 예제와 같습니다.

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Metastore 데이터베이스 이름: Hive Metastore 데이터베이스의 이름을 제공합니다.

    8. 스키마: 가져올 Hive 스키마 목록을 지정합니다. 예: schema1; schema2.

      해당 목록이 비어 있으면 모든 사용자 스키마를 가져옵니다. 모든 시스템 스키마(예: SysAdmin) 및 개체는 기본적으로 무시됩니다.

      SQL LIKE 식 구문을 사용하는 허용 가능한 스키마 이름 패턴에는 백분율 기호(%)가 포함됩니다. 예를 들어 은 다음을 A%; %B; %C%; D 의미합니다.

      • A 또는 로 시작
      • B 또는 로 종료
      • C 또는 포함
      • 같음 D

      및 특수 문자의 NOT 사용은 허용되지 않습니다.

    9. 사용 가능한 최대 메모리: 검사 프로세스에서 사용할 최대 메모리(기가바이트)를 고객의 컴퓨터에서 사용할 수 있습니다. 이 값은 검사할 Hive Metastore 데이터베이스의 크기에 따라 달라집니다.

      참고

      1,000개 테이블마다 1GB 메모리를 제공하세요.

    스캔 세부 정보에 대한 상자를 보여 주는 스크린샷.

  6. 계속을 선택합니다.

  7. 검사 트리거의 경우 일정을 설정할지 아니면 검사를 한 번 실행할지 선택합니다.

  8. 검사를 검토하고 저장 및 실행을 선택합니다.

검사 및 검사 실행 보기

기존 검사를 보려면 다음을 수행합니다.

  1. Microsoft Purview 거버넌스 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
  2. 데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
  3. 보려는 결과가 있는 검사를 선택합니다. 창에는 이전의 모든 검사 실행과 각 검사 실행에 대한 상태 및 메트릭이 표시됩니다.
  4. 실행 ID를 선택하여 검사 실행 세부 정보를 검사.

검사 관리

검사를 편집, 취소 또는 삭제하려면 다음을 수행합니다.

  1. Microsoft Purview 거버넌스 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.

  2. 데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.

  3. 관리하려는 검사를 선택합니다. 그 후에, 다음 작업을 수행할 수 있습니다.

    • 검사 편집을 선택하여 검사를 편집합니다.
    • 검사 실행 취소를 선택하여 진행 중인 검사를 취소합니다.
    • 검사 삭제를 선택하여 검사를 삭제합니다.

참고

  • 검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.
  • 원본 테이블이 변경되고 Microsoft Purview의 스키마 탭에서 설명을 편집한 후 원본 테이블을 다시 검사하면 자산이 더 이상 스키마 변경으로 업데이트되지 않습니다.

계보

Hive Metastore 원본을 검사한 후 데이터 카탈로그를 찾아보거나 데이터 카탈로그검색 하여 자산 세부 정보를 볼 수 있습니다.

자산 -> 계보 탭으로 이동하면 해당되는 경우 자산 관계를 볼 수 있습니다. 지원되는 Hive Metastore 계보 시나리오에서 지원되는 기능 섹션을 참조하세요. 일반적인 계보에 대한 자세한 내용은 데이터 계보계보 사용자 가이드를 참조하세요.

다음 단계

원본을 등록했으므로 다음 가이드를 사용하여 Microsoft Purview 및 데이터에 대해 자세히 알아보세요.