다음을 통해 공유


자습서: Google BigQuery에 대한 미러링 설정(미리 보기)

이 자습서에서는 Google BigQuery에서 패브릭 미러된 데이터베이스를 구성합니다.

비고

이 예제는 BigQuery와 관련이 있지만 Azure SQL Database 또는 Azure Cosmos DB와 같은 다른 데이터 원본에 대한 미러링을 구성하는 자세한 단계를 찾을 수 있습니다. 자세한 내용은 패브릭의 미러링이란 무엇인가?

필수 조건

  • 기존 BigQuery 웨어하우스를 만들거나 사용합니다. Microsoft Azure를 비롯한 모든 클라우드에서 모든 버전의 BigQuery 인스턴스에 연결할 수 있습니다.
  • Fabric의 기존 용량이 필요합니다. 그렇지 않은 경우 Fabric 평가판을 시작합니다.

사용 권한 요구 사항

다음 권한이 포함된 BigQuery 데이터베이스에 대한 사용자 권한이 필요합니다.

  • bigquery.datasets.create
  • bigquery.tables.list
  • bigquery.tables.create
  • bigquery.tables.export
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.tables.updateData
  • bigquery.routines.get
  • bigquery.routines.list
  • bigquery.jobs.create
  • storage.buckets.create
  • storage.buckets.list
  • storage.objects.create
  • storage.objects.delete
  • storage.objects.list
  • iam.serviceAccounts.signBlob

테이블 메타데이터 검색 및 변경 기록 구성(필수)

BigQueryAdminStorageAdmin 역할에는 이러한 권한이 포함되어야 합니다. 변경 기록을 사용할 수 있는지 여부를 확인하고 기본 키 또는 복합 키 정보를 검색하려면 다음 권한이 필요합니다.

사용자에게 BigQuery 인스턴스에 대한 액세스를 허용하는 역할이 하나 이상 할당되어야 합니다. BigQuery 데이터 원본에 액세스하려면 네트워킹 요구 사항을 확인합니다. Google BigQuery for On-Premises Data Gateway(OPDG)용 미러링을 사용하는 경우 성공적인 미러링을 사용하려면 OPDG 버전 3000.286.6 이상이 있어야 합니다.

필요한 권한

버킷을 수동으로 설정하고 storage.buckets.create 권한을 부여할 필요가 없도록 하려면 다음을 사용할 수 있습니다.

  • bigquery.tables.get
  • bigquery.tables.list
  • bigquery.routines.get
  • bigquery.routines.list
  1. Google 콘솔 내 의 Cloud Storage 로 이동하여 버킷을 선택합니다.
  2. 만들기를 선택하고 이 형식으로 버킷의 이름을 지정합니다(대/소문자 구분).<projectid>_fabric_staging_bucket
  3. 버킷의 위치/지역이 미러링하려는 GCP 프로젝트와 동일한지 확인합니다.
  4. 선택하고생성합니다. 미러링 시스템에서 버킷을 자동으로 검색합니다.

사용 사례에 따라 더 많은 권한이 필요할 수 있습니다. 필요한 최소 권한은 변경 기록을 사용하고 다양한 크기의 테이블(10GB보다 큰 테이블)을 처리하는 데 사용됩니다. 10GB보다 큰 테이블로 작업하지 않더라도 미러링 사용의 성공을 위해 이러한 최소 권한을 모두 사용하도록 설정합니다.

변경 기록 및 테이블 데이터 검색(필수)

사용 권한에 대한 자세한 내용은 스트리밍 데이터에 필요한 권한, 변경 기록 액세스에 필요한 권한 및 쿼리 결과를 작성하기 위한 필수 권한에 대한 Google BigQuery 설명서를 참조하세요.

변경 기록 및 테이블 데이터를 읽으려면 다음 권한이 필요합니다.

중요합니다

원본 BigQuery 웨어하우스에 설정된 세분화된 보안은 Microsoft Fabric의 미러된 데이터베이스에서 다시 구성해야 합니다. 자세한 내용은 Microsoft Fabric의 SQL 세부 권한 관리를 참조하세요.

필요한 권한

  • bigquery.tables.getData
  • bigquery.jobs.create
  • bigquery.jobs.get
  • bigquery.jobs.list
  • bigquery.readsessions.create
  • bigquery.readsessions.getData

변경 기록 기능 사용(필수)

다음 옵션 중 하나를 사용하여 원본 BigQuery 테이블에서 변경 기록을 사용하도록 설정해야 합니다.

옵션 1: 사용 권한 활성화

  • bigquery.tables.update

테이블에서 변경 기록을 사용하도록 설정할 수 있습니다.

옵션 2: GCP에서 테이블 옵션 사용

다음 테이블 옵션이 다음으로 설정되어 있는지 확인합니다 TRUE.

  • enable_change_history

스테이징을 위해 Google Cloud Storage로 데이터 내보내기 및 OneLake로 복사(필수)

스테이징을 위해 BigQuery 데이터를 Google Cloud Storage로 내보내고 OneLake에 복사하려면 다음 권한이 필요합니다.

필요한 권한

  • bigquery.tables.export
  • storage.objects.create
  • storage.objects.list
  • storage.buckets.get
  • iam.serviceAccounts.signBlob

스테이징을 위한 Google Cloud Storage 버킷(필수)

스테이징을 위해 BigQuery 테이블 데이터를 내보내려면 Google Cloud Storage 버킷이 필요합니다.

버킷 만들기 옵션

다음 방법 중 하나를 사용합니다.

옵션 1: 자동 버킷 만들기 허용

다음 권한을 부여합니다.

  • storage.buckets.create

옵션 2: 스테이징 버킷 수동으로 만들기

다음 명명 규칙을 사용하여 버킷을 만듭니다. <your_project_id_in_lowercase>_fabric_staging_bucket

버킷 요구 사항

  • 버킷은 BigQuery 데이터 세트와 동일한 위치/지역에 있어야 합니다.
  • 미러링 시스템은 버킷이 있을 경우 자동으로 감지합니다.

데이터 세트 나열(필수)

필요한 권한

  • bigquery.datasets.get

프로젝트 나열(필수)

필요한 권한

  • resourcemanager.projects.get

역할 및 액세스 요구 사항

BigQuery 관리자스토리지 관리자 역할에는 일반적으로 위에 나열된 권한이 포함됩니다.

대상 BigQuery 프로젝트 및 데이터 세트에 대한 액세스 권한을 부여하는 하나 이상의 역할이 사용자에게 할당되어야 합니다.


네트워킹 및 게이트웨이 요구 사항

BigQuery 데이터 원본에 액세스하려면 네트워킹 요구 사항을 확인합니다.

온-프레미스 OPDG(Data Gateway)에서 Google BigQuery용 미러링을 사용하는 경우 다음을 사용해야 합니다.

  • OPDG 버전 3000.286.6 이상

추가 참고 사항

사용 사례에 따라 더 많은 권한이 필요할 수 있습니다. 위에 나열된 사용 권한은 다음 작업에 필요한 최소 값을 나타냅니다.

  • 변경 기록 작업
  • 10GB보다 큰 테이블을 포함하여 다양한 크기의 테이블 처리

현재 10GB보다 큰 테이블로 작업하지 않더라도 미러링에 성공하려면 모든 최소 권한을 사용하도록 설정하는 것이 좋습니다.

자세한 내용은 다음을 참조하십시오.

중요합니다

원본 BigQuery 웨어하우스에 정의된 세분화된 보안은 Microsoft Fabric의 미러된 데이터베이스에서 다시 구성해야 합니다. 자세한 내용은 Microsoft Fabric의 SQL 세부 권한 관리를 참조하세요.

미러된 데이터베이스 만들기

이 섹션에서는 미러된 BigQuery 데이터 원본에서 새 미러된 데이터베이스를 만듭니다.

기존 작업 영역(내 작업 영역 아님)을 사용하거나 새 작업 영역을 만들 수 있습니다.

  1. 작업 영역에서 허브 만들기 로 이동합니다.
  2. 사용하려는 작업 영역을 선택한 후 만들기를 선택합니다.
  3. 미러된 Google BigQuery 카드를 선택합니다.
  4. 새 데이터베이스의 이름을 입력합니다.
  5. 선택하고생성합니다.

모든 클라우드에서 BigQuery 인스턴스에 연결

비고

미러링이 BigQuery 인스턴스에 연결할 수 있도록 클라우드 방화벽을 변경해야 할 수 있습니다. OPDG 버전 3000.286.6 이상용 Google BigQuery용 미러링을 지원합니다. VNET도 지원합니다.

  1. 새 연결에서 BigQuery를 선택하거나 기존 연결을 선택했습니다.

  2. 새 연결을 선택한 경우 BigQuery 데이터베이스에 대한 연결 세부 정보를 입력합니다.

    연결 설정 Description
    서비스 계정 전자 메일 기존 서비스 계정이 있는 경우: Google BigQuery 콘솔에서 서비스 계정으로 이동하여 서비스 계정 전자 메일 및 기존 키를 찾을 수 있습니다. 기존 서비스 계정이 없는 경우: Google BigQuery 콘솔에서 "서비스 계정"으로 이동하여 서비스 계정 만들기를 선택합니다. 서비스 계정 이름(입력된 서비스 계정 이름에 따라 서비스 계정 ID가 자동으로 생성됨) 및 서비스 계정 설명을 입력합니다. 완료를 선택합니다. 서비스 계정 전자 메일을 복사하여 Fabric의 지정된 연결 자격 증명 섹션에 붙여넣습니다.
    서비스 계정 JSON 키 파일 내용 서비스 계정 대시보드 내에서 새로 만든 서비스 계정에 대한 작업을 선택합니다. 키 관리를 선택합니다. 서비스 계정당 키가 이미 있는 경우 JSON 키 파일 콘텐츠를 다운로드합니다.

    서비스 계정당 키가 아직 없는 경우 키 추가 를 선택하고 새 키를 만듭니다. 그런 다음 , JSON을 선택합니다. JSON 키 파일은 자동으로 다운로드됩니다. JSON 키를 복사하여 Fabric 포털의 지정된 연결 자격 증명 섹션에 붙여넣습니다.
    연결 새 연결을 만듭니다.
    연결 이름 자동으로 채워져야 합니다. 사용하려는 이름으로 변경합니다.
  3. 드롭다운 목록에서 데이터베이스를 선택합니다.

미러링 프로세스 시작

  1. 미러링 구성 화면에서는 기본적으로 데이터베이스의 모든 데이터를 미러링할 수 있습니다.

    • 모든 데이터를 미러 링한다는 것은 미러링이 시작된 후 생성된 모든 새 테이블이 미러링됨을 의미합니다.

    • 필요에 따라 미러링할 특정 개체만 선택합니다. 모든 데이터 미러링 옵션을 사용 안 함으로 설정한 다음 데이터베이스에서 개별 테이블을 선택합니다.

    이 예제에서는 모든 데이터 미러 옵션을 사용합니다.

  2. 미러 데이터베이스를 선택합니다. 미러링이 시작됩니다.

  3. 2-5분 동안 기다립니다. 그런 다음, 복제 모니터링을 선택하여 상태를 확인합니다.

  4. 몇 분 후에 상태가 실행 중으로 변경됩니다. 즉, 테이블이 동기화되고 있음을 의미합니다.

    테이블 및 해당 복제 상태가 표시되지 않으면 몇 초 정도 기다린 다음 패널을 새로 고칩니다.

  5. 테이블의 초기 복사를 마치면 마지막 새로 고침 열에 날짜가 표시됩니다.

  6. 이제 데이터가 실행되고 있으므로 모든 Fabric에서 사용할 수 있는 다양한 분석 시나리오가 있습니다.

중요합니다

  • Google BigQuery용 미러링에는 변경 리플렉션이 최대 15분 지연됩니다. 이는 Google BigQuery의 변경 기록 기능의 제한 사항입니다.
  • 원본 데이터베이스에 설정된 세분화된 보안은 Microsoft Fabric의 미러된 데이터베이스에서 다시 구성해야 합니다.

패브릭 미러링 모니터링

미러링이 구성되면 미러링 상태 페이지로 이동됩니다. 여기서 복제의 현재 상태를 모니터링할 수 있습니다.

복제 상태에 대한 자세한 내용 및 자세한 내용은 Monitor Fabric 미러된 데이터베이스 복제를 참조하세요.

중요합니다

BigQuery 데이터베이스의 원본 테이블에 업데이트가 없으면 복제기 엔진(BigQuery 미러링에 대한 변경 데이터를 구동하는 엔진)이 느려지고 매시간만 테이블을 복제합니다. 초기 로드 후의 데이터가 예상보다 오래 걸리는 경우 특히 원본 테이블에 새 업데이트가 없는 경우 놀라지 마세요. 스냅샷 후 미러 엔진은 변경 내용을 가져오기 전에 최대 15분 동안 기다립니다. 이는 새로운 변경 내용을 반영하는 데 10분 지연을 적용하는 Google BigQuery의 제한 때문입니다. BigQuery의 변경 리플렉션 지연에 대해 자세히 알아보기