통합 데이터 플랫폼은 리더가 분석 및 AI에 대한 데이터를 신뢰할 수 있도록 일관된 수집, 변환 및 게시 표준에 따라 달라집니다. 추천: OneLake에 입력되는 데이터를 제어하는 조직 전체 표준, 팀이 해당 데이터를 구체화하는 방법 및 관리되는 데이터 제품이 소비자에게 도달하는 방식을 제어하는 조직 차원의 표준을 수립합니다(그림 1 참조). 이 권장 사항을 적용하려면 이 문서를 검사 목록으로 사용합니다.
그림 1. 데이터에 대한 운영 표준을 설정하는 세 단계입니다.
1. 데이터 수집 표준 설정
OneLake는 Microsoft Fabric에서 분석 및 AI를 위한 중앙 데이터 레이크 역할을 하므로 리더는 입력되는 내용을 제어해야 합니다. 추천: 팀이 정의된 비즈니스 결과를 지원하는 데이터만 수집하도록 명확한 경계를 설정합니다. 이 권장 사항을 적용하려면 다음 검사 목록을 사용합니다.
어떤 데이터를 통합합니까? OneLake의 데이터 통합은 측정 가능한 비즈니스 결과와 연결된 데이터 제품을 지원하는 데이터를 선택하는 것을 의미합니다. 모범 사례: 데이터 제품을 지원하고 비즈니스 가치를 추가하는 경우에만 OneLake로 데이터를 가져옵니다. 데이터 수집을 기술 기본값이 아닌 제품 결정으로 처리합니다. 의사 결정 지침: 리더가 추적하는 비즈니스 프로세스 또는 결과를 설명하거나 측정할 때 데이터를 수집하도록 결정합니다. 활성 사용 사례가 없는 경우 운영 시스템 또는 부서 스토리지에 데이터를 그대로 두도록 선택합니다. 이 옵션을 선택하면 스토리지 비용 및 거버넌스 오버헤드가 줄어듭니다.
Microsoft 365에서 공동 작업 및 지식 콘텐츠를 유지합니다. Microsoft 365 데이터는 Microsoft 365 Copilot 에이전트를 지원합니다. 이러한 에이전트는 기존 사용 권한을 유지하면서 문서, 이메일 및 공동 작업 아티팩트 검색합니다. Microsoft 365 Copilot 아키텍처를 참조하세요. 모범 사례: Microsoft 365를 공동 작업, 참조 또는 지식 검색의 주요 목적인 콘텐츠에 대한 레코드 시스템으로 사용합니다. Microsoft 365 채택 가이드를 사용하여 이 데이터를 준비합니다.
지원되는 패턴을 통해 운영 데이터베이스를 통합합니다. 운영 데이터베이스는 분석 및 AI 시나리오를 제공하는 경우가 많지만 직접 액세스는 위험과 불안정을 야기합니다. 모범 사례: 가상 액세스 에 대한 바로 가기 및 복제된 액세스에 대한 미러링 과 같은 Microsoft Fabric 지원 패턴을 사용합니다. Azure 데이터베이스는 신뢰할 수 있는 통합을 위해 미러링이 필요한 경우가 많습니다. 의사 결정 지침: 가상 액세스가 성능 요구 사항을 충족하는 경우 바로 가기를 선택합니다. 분석 성능, 격리 또는 다운스트림 재사용에 OneLake의 물리적 복사본이 필요한 경우 미러링을 선택합니다.
기존 데이터 레이크를 통합합니다. 많은 조직에서 이미 ADLS(Azure Data Lake Storage), Google Cloud Storage 또는 Amazon S3와 같은 데이터 레이크를 운영하고 있습니다. 모범 사례: 즉각적인 마이그레이션을 강제하는 대신 기존 레이크를 통합 데이터 자산의 일부로 처리합니다. 바로 가기 또는 미러링을 사용합니다. 의사 결정 지침: 준비 상태 및 위험에 따라 결정합니다. 중복을 방지하려면 바로 가기를 선택합니다. 일관성, 성능 또는 규정 준수가 중복 비용보다 클 때 미러링을 선택합니다.
OneLake에서 Azure Databricks 출력을 표시합니다. Azure Databricks는 종종 큐레이팅된 분석 데이터를 이미 생성합니다. 모범 사례: Databricks 파이프라인을 제자리에 유지하고 OneLake에서 최종 골드 출력을 표시합니다. 의사 결정 지침: 복제를 방지하고 원격 액세스가 요구 사항을 충족하는 경우 바로 가기 를 선택합니다. 거버넌스 또는 소비 패턴이 로컬 데이터를 요구하는 경우 미러링을 선택합니다.
내부 및 외부 데이터 유입을 구분합니다. 내부 분석 데이터 및 외부 연결 데이터에는 서로 다른 컨트롤이 필요합니다. 모범 사례: 외부 데이터 제품에 대한 별도의 작업 영역 또는 레이크 영역을 만듭니다. 승인된 외부 데이터 세트만 해당 위치에 저장합니다. 의사 결정 지침: 데이터가 내부 의사 결정 또는 외부 공유를 지원하는지 여부를 조기에 결정합니다. 물리적 분리를 선택하여 우발적인 노출을 줄이고 보안 정책 적용을 간소화합니다.
2. 데이터 변환 표준 설정
OneLake로 데이터를 가져오는 것은 첫 번째 단계일 뿐입니다. 실제 가치는 원시 데이터를 고품질의 즉시 사용할 수 있는 데이터 제품으로 변환하는 것에서 비롯됩니다. 리더는 파이프라인을 설계하지 않지만 조각화를 방지하는 플랫폼 및 아키텍처 표준을 정의합니다. 추천: 변환 플랫폼을 표준화하고 일관된 구체화 아키텍처를 적용합니다. 이 권장 사항을 적용하려면 다음 검사 목록을 사용합니다.
2.1. 올바른 데이터 플랫폼 사용
선택한 플랫폼은 Microsoft 및 Azure 환경에서 데이터 제품에 대한 운영 요구 사항을 설정합니다. 추천: 각 데이터 제품에 대해 특수 엔지니어링 기능의 필요성과 단순성 및 통합의 균형을 맞습니다. 이 권장 사항을 적용하려면 다음 검사 목록을 사용합니다.
패브릭(기본값). Fabric은 OneLake에서 직접 작동하는 통합 데이터 엔지니어링, 분석 및 BI 엔진을 제공합니다. 이 엔진은 조직의 통합 관리 데이터 자산 역할을 합니다. 모범 사례: 표준 분석, 보고 및 데이터 준비에 Fabric을 사용합니다. 데이터 흐름 Gen2, Spark 및 SQL과 같은 네이티브 패브릭 엔진을 선호하여 액세스 제어, 계보 및 비용 관리를 간소화합니다. OneLake를 단일 스토리지 계층으로 사용합니다. 의사 결정 지침: 요구 사항이 기본 제공 기능에 맞는 경우와 리더십 값이 통합 거버넌스 및 청구에 부합하는 경우 Fabric을 선택합니다. 운영 오버헤드를 줄이는 대가로 제한된 사용자 지정을 허용합니다.
Azure Databricks입니다. 많은 사람들이 Azure Databricks를 선호합니다. 대규모 처리 및 고급 기계 학습 시나리오를 지원합니다. 모범 사례: 전문 지식 또는 규모가 이미 있는 Databricks를 계속 사용합니다. 거버넌스, 보안 및 검색이 중앙 집중식으로 유지되도록 출력이 OneLake에 저장되거나 OneLake 바로 가기를 통해 연결해야 합니다. 의사 결정 지침: 패브릭이 현재 요구 사항을 충족하지 않는 경우 Databricks를 선택합니다. 더 높은 통합 및 기술 오버헤드를 절충으로 수락합니다.
플랫폼 소유권 경계를 적용합니다. 명확한 플랫폼 경계는 시스템 전체에서 중복 비용 및 일관되지 않은 논리를 방지합니다. 모범 사례: 워크로드의 각 클래스에 대한 책임을 하나의 플랫폼에 할당합니다. 플랫폼 간 처리를 승인하기 전에 아키텍처 검토가 필요합니다. 의사 결정 지침: 수집, 변환 및 분석 결과를 소유하는 플랫폼을 결정합니다. 동일한 비즈니스 결과를 제공하는 중복 변환 및 겹치는 파이프라인을 방지합니다.
2.2. 메달리온 아키텍처 적용
medallion 아키텍처는 원시 데이터에서 비즈니스 준비 출력으로의 명확한 진행을 정의하여 모든 데이터 제품에 대한 신뢰, 일관성 및 거버넌스를 설정합니다. 추천: OneLake의 모든 데이터 제품이 브론즈, 실버 및 골드 구조를 따르고 이러한 레이어를 우회하는 바로 가기를 금지하도록 요구합니다. 이 권장 사항을 적용하려면 다음 검사 목록을 사용합니다.
브론즈 계층을 레코드 시스템(원시 수집)으로 위임: 브론즈 계층은 OneLake에 도착하는 것과 똑같은 데이터를 캡처하고 원래 원본 충실도를 유지합니다. 모범 사례: 데이터를 추가 전용으로 저장하고 변경할 수 없습니다. 이 단계에서 수정 또는 보강을 금지합니다. 모든 인바운드 데이터 세트는 먼저 브론즈 레이어에 저장되어야 합니다. 의사 결정 지침: 청동이 소스 시스템에서 진리를 보존하기 위해서만 존재한다고 결정하십시오. 감사 가능성 및 추적 가능성을 대가로 더 느린 유용성을 허용합니다.
실버 계층을 신뢰할 수 있는 보기로 설정합니다. 실버 계층은 팀이 일관된 분석을 위해 사용하는 유효성 검사, 표준화 및 정리된 데이터를 보유합니다. 모범 사례: 데이터 품질 규칙, 형식 맞춤 및 기본 비즈니스 유효성 검사를 적용합니다. 실버 데이터 세트를 명확하게 문서화하고 거버넌스 프로세스를 통해 변경 내용을 관리합니다. 의사 결정 지침: 신뢰할 수 있는 정리 계층으로 은을 선택합니다. 팀이 원시 데이터를 독립적으로 다시 수집하는 것을 금지하여 상반되는 해석을 만듭니다.
골드(비즈니스 컨텍스트, 데이터 제품): 골드 데이터 세트를 비즈니스 데이터 제품으로 인증합니다. 골드 계층은 리더가 의사 결정, 성능 추적 및 보고에 사용하는 관리되는 데이터 제품을 제공합니다. 모범 사례: 골드 데이터를 승인된 비즈니스 정의 및 메트릭에 맞춥니다. 소비를 위해 구조를 최적화합니다. 모든 골드 데이터 세트를 Microsoft Purview의 데이터 제품으로 소유권, 목적 및 새로 고침 세부 정보를 등록합니다. 의사 결정 지침: 팀 또는 의사 결정에 사용되는 모든 데이터 세트가 골드 상태로 존재해야 합니다. 거버넌스를 우회하는 관리되지 않거나 인증되지 않은 데이터 세트를 거부합니다.
외부 사용을 위해 소독된 제품을 만듭니다. 외부 공유를 사용하려면 내부 운영 데이터에서 의도적으로 분리해야 합니다. 모범 사례: 중요한 필드를 제거하거나 마스크하고 필요한 경우 세부 정보를 줄이는 큐레이팅된 데이터 세트를 생성합니다. 소유권을 할당하고 공용 또는 외부 사용과 같은 명확한 레이블을 적용합니다. 이러한 데이터 세트를 승인된 위치에 저장합니다. 의사 결정 지침: 외부 데이터 세트를 독립적인 제품으로 처리하도록 선택합니다. 법적 및 보안 위험을 줄이기 위해 추가된 거버넌스 단계를 수락합니다.
패브릭은 변환을 자동으로 관리할 수 있는 구체화된 레이크 뷰 를 통해 이 모델을 지원합니다. 패브릭의 Medallion Lakehouse 아키텍처를 참조하세요. 분석 아키텍처는 Microsoft Fabric을 사용한 Analytics 엔드 투 엔드를 참조하세요.
테이블. 예제 메달리온 아키텍처. 골드 계층은 두 데이터 세트의 데이터를 결합합니다.
| 데이터 세트 | 레이어 | 예제 데이터 | 무슨 일이 있었나요 |
|---|---|---|---|
| 판매 트랜잭션 | 청동 | OrderID=984321 · StoreID=17 · Amount="1,200" · TxnDate="2026-01-05T14:32:09Z" | 이 기록은 판매 시스템에서 전송된 그대로 도착했습니다. 양은 텍스트입니다. 타임스탬프는 시스템 형식을 따릅니다. 의미가 적용되지 않습니다. |
| 은 | OrderID=984321 · StoreID=17 · Amount=1200.00 · TxnDate=2026-01-05 | 트랜잭션이 표준화되고 유효성이 검사됩니다. 양은 숫자입니다. 날짜는 엔터프라이즈 규칙을 따릅니다. 이제 데이터를 신뢰할 수 있습니다. | |
| 저장소 참조 | 청동 | StoreID="17" · RegionName="EAST " | 이 레코드는 위치 시스템에서 도착했습니다. 서식은 원본을 반영합니다. |
| 은 | StoreID=17 · Region=East | 매장 식별자는 판매 데이터와 일치합니다. 지역 값은 정리되고 일관됩니다. | |
| 지역별 일일 수익 | 금 | Region=East · Date=2026-01-05 · TotalRevenue=425000 | 이 값은 Silver 판매 트랜잭션과 Silver Store 참조 데이터를 결합합니다. 비즈니스 질문에 대답하기 위해 개별 레코드가 요약됩니다. |
2.3. 적응형 골드 레이어 고려
적응 골드는 미래 예측 고려 사항으로 여기에 포함되어 있습니다. AI 에이전트를 사용하여 골드 레이어를 만드는 것이 좋습니다. 에이전트는 사용자가 수행할 수 없는 패턴을 관찰할 수 있습니다. 사용자가 "월별 지역별 주요 고객 문제"를 자주 요청하는 경우 AI 에이전트는 해당 데이터 세트를 구체화할 수 있습니다. 이 기능은 현재 Microsoft Fabric에서 기본으로 제공되지 않습니다. 패브릭 및 Power BI 원격 분석에서 작동하는 사용자 지정 AI 에이전트를 빌드해야 합니다.
3. 데이터 제품 게시 표준 설정
게시 표준은 조직이 Microsoft Fabric OneLake 및 Microsoft Purview를 통해 신뢰할 수 있는 데이터 제품을 노출하는 방법을 정의합니다. 목표는 분석 및 AI 워크로드 전반에서 재사용 크기를 조정하고, 거버넌스를 적용하고, 위험을 줄이는 것입니다. 추천: 광범위한 용도로 사용하기 전에 모든 승인된 데이터 제품을 검색 가능하고, 제어하며, 정의된 대상을 위해 명확하게 의도하는 단일 게시 표준을 설정합니다. 이 권장 사항을 적용하려면 다음 검사 목록을 사용합니다.
OneLake 카탈로그를 통해 게시를 표준화합니다. OneLake 카탈로그는 패브릭 및 외부 처리 플랫폼(예: Databricks)의 데이터 제품에 대한 통합 액세스 화면을 제공합니다. 모범 사례: 승인된 모든 데이터 제품에 대한 기본 실행 및 사용 계층으로 OneLake를 사용합니다. Microsoft Purview를 거버넌스 및 비즈니스 정의에 대한 레코드 시스템으로 취급합니다. 이러한 맞춤을 통해 Power BI, 패브릭 데이터 에이전트 및 Azure AI Search는 중앙 집중식 거버넌스 가시성을 유지하면서 데이터를 일관되게 사용할 수 있습니다.
검색 가능성을 보장합니다. 검색 기능을 통해 의사 결정자와 소비자는 비공식적인 지식에 의존하지 않고 신뢰할 수 있는 데이터 제품을 찾을 수 있습니다. 모범 사례: 관련 대상 사용자가 항목을 검색할 수 있도록 패브릭 작업 영역 표시 유형을 구성합니다. 액세스가 필요하지 않고 액세스를 요청하는 기능만 필요합니다. 사용자가 카탈로그에서 직접 권한을 요청할 수 있도록 Purview 액세스 요청 워크플로 를 사용하도록 설정합니다. 의사 결정 지침: 여러 도메인에서 재사용을 목표로 할 때 광범위한 발견 가능성을 선택하십시오. 규제 또는 기밀성 제약 조건이 적용되는 경우 제한된 검색 가능성을 선택합니다. 자산을 숨기지 않고 액세스 제어와 가시성의 균형을 조정합니다.
게시 시 메타데이터 보강을 위임합니다. 메타데이터는 리더가 데이터 제품의 적합성, 신뢰 및 재사용을 평가할 수 있는 컨텍스트를 제공합니다. 모범 사례: 게시 시 설명이 포함된 메타데이터가 필요합니다. Fabric의 태그를 사용하여 비즈니스 도메인 또는 이니셔티브별로 제품을 분류합니다. 설명이 목적 및 데이터 범위를 설명하는지 확인합니다. 이 방법은 카탈로그 검색을 지원하고 재사용에 대한 신뢰도를 향상시킵니다. 의사 결정 지침: 메타데이터 요구 사항을 최소한으로 유지할지 아니면 표준 스키마를 적용할지 결정합니다. 조직이 여러 도메인을 운영하고 일관성이 필요한 경우 표준 스키마를 선택합니다. 초기 성숙 단계에서 가벼운 접근 방식을 선택합니다.
적절한 경우 보증하고 인증합니다. 보증 및 인증 기준을 정의합니다. 보증은 신뢰 수준 및 거버넌스 완성도를 조직에 알릴 수 있습니다. 모범 사례: 프로모션된을 사용하여 도메인에서 권장하는 제품을 나타냅니다. Certified를 사용하여 공식적인 거버넌스 검토를 통과한 제품을 나타냅니다. 임원 보고 또는 중요한 분석을 지원하는 Gold 데이터 세트에 인증을 적용합니다. 보증에서 패브릭 인증 지침을 참조 하세요. 의사 결정 지침: 인증이 필요한 제품을 결정합니다. 임원 또는 규제 워크로드에 대한 필수 인증을 선택합니다. 속도 및 실험이 우선하는 경우 선택적 인증을 선택합니다. 더 높은 신뢰를 위한 절충으로 느린 온보딩을 허용합니다.
Purview에서 데이터 제품으로 게시합니다. Purview 데이터 제품은 자산을 관리되는 제품 수명 주기로 그룹화하는 더 높은 수준의 보기를 제공합니다. 모범 사례: 게시된 각 데이터 제품에 대한 Purview 데이터 제품 항목을 만듭니다. 제품 이름, 설명, 소유자, 품질 상태 및 관련 자산(예: 테이블, 모델 및 보고서)을 포함합니다. 통합 카탈로그의 참조 데이터 제품입니다. 의사 결정 지침: Purview 데이터 제품이 게시된 모든 자산에 필요한지 아니면 전략적 제품에만 필요한지 결정합니다. 포트폴리오 가시성이 중요한 경우 전체 범위를 선택합니다. 거버넌스 용량이 제한될 때 선택적 적용 범위를 선택합니다.
의도한 대상 그룹 및 사용량을 선언합니다. 명확한 의도는 오용을 방지하고 분석 및 AI 시나리오에서 규정 준수를 지원합니다. 모범 사례: 각 데이터 제품이 의도한 대상 그룹 및 지원되는 워크로드 유형을 명시하도록 요구합니다. 내부, 파트너 또는 공용 사용을 지정합니다. AI, 분석, BI 또는 공용 웹 시나리오를 식별합니다. Purview 메타데이터, 용어집 용어 및 민감도 레이블을 함께 사용하여 이 의도를 일관되게 표현합니다. 의사 결정 지침: 외부 또는 에이전트 사용에 추가 승인이 필요한지 여부를 결정합니다. 데이터가 조직의 경계를 벗어나면 더 엄격한 승인을 선택합니다. 위험 감소에 대한 절충으로 느린 게시를 허용합니다.