이 문서는 IT 전문가 및 IT 관리자를 대상으로 합니다. COE의 BI 솔루션 아키텍처 및 채택된 다양한 기술에 대해 알아봅니다. 기술에는 Azure, Power BI 및 Excel이 포함됩니다. 함께 활용하여 확장 가능하고 데이터 기반 클라우드 BI 플랫폼을 제공할 수 있습니다.
강력한 BI 플랫폼을 설계하는 것은 브리지 빌드와 비슷합니다. 변환되고 보강된 원본 데이터를 데이터 소비자에게 연결하는 브리지입니다. 이러한 복잡한 구조를 설계하려면 엔지니어링 사고방식이 필요하지만 디자인할 수 있는 가장 창의적이고 보람 있는 IT 아키텍처 중 하나일 수 있습니다. 대규모 조직에서 BI 솔루션 아키텍처는 다음으로 구성됩니다.
- 데이터 원본
- 데이터 수집
- 빅 데이터/데이터 준비
- 데이터 웨어하우스
- BI 의미 체계 모델
- 보고서
플랫폼은 특정 요구를 지원해야 합니다. 특히 비즈니스 서비스 및 데이터 소비자의 기대에 맞게 크기를 조정하고 수행해야 합니다. 동시에 처음부터 안전해야 합니다. 또한 새로운 데이터와 주제 영역을 온라인으로 전환해야 하는 것이 확실하기 때문에 변화에 적응하는 데 충분히 탄력적이어야 합니다.
프레임워크
Microsoft에서는 처음부터 프레임워크 개발에 투자하여 시스템과 같은 접근 방식을 채택했습니다. 기술 및 비즈니스 프로세스 프레임워크는 디자인 및 논리의 재사용을 늘리고 일관된 결과를 제공합니다. 또한 많은 기술을 활용하는 아키텍처의 유연성을 제공하며 반복 가능한 프로세스를 통해 엔지니어링 오버헤드를 간소화하고 줄입니다.
잘 설계된 프레임워크는 데이터 계보, 영향 분석, 비즈니스 논리 유지 관리, 분류 관리 및 거버넌스 간소화에 대한 가시성을 높이는 것을 배웠습니다. 또한 개발이 더 빨라졌고 대규모 팀 간의 협업이 더욱 반응적이고 효과적입니다.
이 문서에서는 몇 가지 프레임워크에 대해 설명합니다.
데이터 모델
데이터 모델은 데이터를 구조화하고 액세스하는 방법을 제어할 수 있습니다. 비즈니스 서비스 및 데이터 소비자에게 데이터 모델은 BI 플랫폼과의 인터페이스입니다.
BI 플랫폼은 세 가지 유형의 모델을 제공할 수 있습니다.
- 엔터프라이즈 모델
- BI 의미 체계 모델
- ML(Machine Learning) 모델
엔터프라이즈 모델
엔터프라이즈 모델은 IT 설계자가 빌드하고 유지 관리합니다. 차원 모델 또는 데이터 마트라고도 합니다. 일반적으로 데이터는 차원 및 팩트 테이블로 관계형 형식으로 저장됩니다. 이러한 테이블은 여러 시스템에서 통합된 정리 및 보강된 데이터를 저장하며 보고 및 분석을 위한 신뢰할 수 있는 원본을 나타냅니다.
엔터프라이즈 모델은 보고 및 BI를 위해 일관되고 단일 데이터 원본을 제공합니다. 한 번 빌드되고 회사 표준으로 공유됩니다. 거버넌스 정책은 데이터를 안전하게 보호하므로 고객 정보 또는 재무와 같은 중요한 데이터 집합에 대한 액세스는 필요에 따라 제한됩니다. 일관성을 보장하는 명명 규칙을 채택하여 데이터 및 품질에 대한 신뢰성을 더욱 확립합니다.
클라우드 BI 플랫폼에서 엔터프라이즈 모델을 Azure Synapse의 Synapse SQL 풀에 배포할 수 있습니다. 그러면 Synapse SQL 풀은 조직이 빠르고 강력한 인사이트를 믿을 수 있는 단일 버전의 진실이 됩니다.
BI 의미 체계 모델
BI 의미 체계 모델은 엔터프라이즈 모델에 대한 의미 체계 계층을 나타냅니다. BI 개발자 및 비즈니스 사용자가 빌드하고 유지 관리합니다. BI 개발자는 엔터프라이즈 모델에서 데이터를 원본으로 하는 핵심 BI 의미 체계 모델을 만듭니다. 비즈니스 사용자는 소규모의 독립 모델을 만들거나 부서 또는 외부 원본을 사용하여 핵심 BI 의미 체계 모델을 확장할 수 있습니다. BI 의미 체계 모델은 일반적으로 단일 주제 영역에 중점을 두고 널리 공유되는 경우가 많습니다.
비즈니스 기능은 데이터만 사용하는 것이 아니라 개념, 관계, 규칙 및 표준을 설명하는 BI 의미 체계 모델을 통해 사용하도록 설정됩니다. 이러한 방식으로 데이터 관계를 정의하고 비즈니스 규칙을 계산으로 캡슐화하는 직관적이고 이해하기 쉬운 구조를 나타냅니다. 또한 세분화된 데이터 권한을 적용하여 올바른 사용자가 올바른 데이터에 액세스할 수 있도록 할 수 있습니다. 중요한 것은 쿼리 성능을 가속화하여 테라바이트 이상의 데이터에 대해서도 매우 반응성이 뛰어난 대화형 분석을 제공한다는 점입니다. 엔터프라이즈 모델과 마찬가지로 BI 의미 체계 모델은 일관성을 보장하는 명명 규칙을 채택합니다.
클라우드 BI 플랫폼에서 BI 개발자는 BI 의미 체계 모델을 Azure Analysis Services, Power BI Premium 용량, 또는 Microsoft Fabric 용량에 배포할 수 있습니다.
중요합니다
이 문서에서는 Power BI Premium 또는 P SKU(용량 구독)를 참조합니다. 현재 Microsoft는 구매 옵션을 통합하고 용량당 Power BI Premium SKU를 사용 중지하고 있습니다. 신규 및 기존 고객은 F SKU(패브릭 용량 구독)를 대신 구매하는 것을 고려해야 합니다.
자세한 내용은 Power BI Premium 라이선스 관련 중요 업데이트 및 Power BI Premium FAQ를 참조하세요.
보고 및 분석 계층으로 사용되는 경우 Power BI에 배포하는 것이 좋습니다. 이러한 제품은 데이터 모델 테이블이 데이터를 캐시하거나 기본 데이터 원본으로 쿼리를 전달하는 기술인 DirectQuery를 사용할 수 있도록 다양한 스토리지 모드를 지원합니다. DirectQuery는 모델 테이블이 큰 데이터 볼륨을 나타내거나 거의 실시간으로 결과를 제공해야 하는 경우에 이상적인 스토리지 모드입니다. 두 스토리지 모드를 결합할 수 있습니다. 복합 모델은 단일 모델 에서 서로 다른 스토리지 모드를 사용하는 테이블을 결합합니다.
쿼리가 많은 모델의 경우 Azure Load Balancer 를 사용하여 모델 복제본 간에 쿼리 부하를 균등하게 분산할 수 있습니다. 또한 애플리케이션의 크기를 조정하고 고가용성 BI 의미 체계 모델을 만들 수 있습니다.
Machine Learning 모델
ML(Machine Learning) 모델은 데이터 과학자에 의해 빌드되고 유지 관리됩니다. 주로 데이터 레이크의 원시 원본에서 개발됩니다.
학습된 ML 모델은 데이터 내의 패턴을 표시할 수 있습니다. 대부분의 경우 이러한 패턴을 사용하여 데이터를 보강하는 데 사용할 수 있는 예측을 만들 수 있습니다. 예를 들어 구매 동작을 사용하여 고객 변동을 예측하거나 고객을 분할할 수 있습니다. 예측 결과를 엔터프라이즈 모델에 추가하여 고객 세그먼트별 분석을 허용할 수 있습니다.
클라우드 BI 플랫폼에서 Azure Machine Learning 을 사용하여 ML 모델을 학습, 배포, 자동화, 관리 및 추적할 수 있습니다.
데이터 웨어하우스
BI 플랫폼의 중심에는 엔터프라이즈 모델을 호스트하는 데이터 웨어하우스가 있습니다. 이는 보고, BI 및 데이터 과학을 위한 엔터프라이즈 모델을 제공하는 레코드 시스템 및 허브로서 승인된 데이터의 원본입니다.
LOB(기간 업무) 애플리케이션을 비롯한 많은 비즈니스 서비스는 데이터 웨어하우스를 신뢰할 수 있고 관리되는 엔터프라이즈 지식 원본으로 사용할 수 있습니다.
Microsoft에서 우리의 데이터 웨어하우스는 Azure Data Lake Storage Gen2 (ADLS Gen2) 및 Azure Synapse Analytics에서 호스팅됩니다.
- ADLS Gen2 는 Azure Storage를 Azure에서 엔터프라이즈 데이터 레이크를 빌드하기 위한 토대가 됩니다. 수백 기가비트의 처리량을 유지하는 동시에 여러 페타바이트의 정보를 처리하도록 설계되었습니다. 또한 저비용 스토리지 용량 및 트랜잭션을 제공합니다. 또한 HdFS(Hadoop 분산 파일 시스템)와 마찬가지로 데이터를 관리하고 액세스할 수 있는 Hadoop 호환 액세스를 지원합니다. 실제로 Azure HDInsight, Azure Databricks 및 Azure Synapse Analytics는 모두 ADLS Gen2에 저장된 데이터에 액세스할 수 있습니다. 따라서 BI 플랫폼에서는 원시 원본 데이터, 반프로세스 또는 스테이징된 데이터 및 프로덕션 준비 데이터를 저장하는 것이 좋습니다. 모든 비즈니스 데이터를 저장하는 데 사용합니다.
- Azure Synapse Analytics 는 엔터프라이즈 데이터 웨어하우징과 빅 데이터 분석을 함께 제공하는 분석 서비스입니다. 서버리스 주문형 또는 프로비전된 리소스를 대규모로 사용하여 조건에 따라 데이터를 자유롭게 쿼리할 수 있습니다. Azure Synapse Analytics의 구성 요소인 Synapse SQL은 완전한 T-SQL 기반 분석을 지원하므로 차원 및 팩트 테이블로 구성된 엔터프라이즈 모델을 호스트하는 것이 이상적입니다. 간단한 Polybase T-SQL 쿼리를 사용하여 ADLS Gen2에서 테이블을 효율적으로 로드할 수 있습니다. 그런 다음 MPP 의 기능을 통해 고성능 분석을 실행할 수 있습니다.
비즈니스 규칙 엔진 프레임워크
데이터 웨어하우스 계층에서 구현할 수 있는 비즈니스 논리를 카탈로그로 만드는 BRE(비즈니스 규칙 엔진 ) 프레임워크를 개발했습니다. BRE는 많은 것을 의미할 수 있지만 데이터 웨어하우스의 컨텍스트에서는 관계형 테이블에서 계산 열을 만드는 데 유용합니다. 이러한 계산 열은 일반적으로 조건문을 사용하여 수학 계산 또는 식으로 표시됩니다.
핵심 BI 코드에서 비즈니스 논리를 분할하려는 의도입니다. 일반적으로 비즈니스 규칙은 SQL 저장 프로시저로 하드 코딩되므로 비즈니스 요구 사항이 변경될 때 이를 유지하기 위해 많은 노력을 기울이는 경우가 많습니다. BRE에서 비즈니스 규칙은 여러 데이터 웨어하우스 엔터티에 적용될 때 한 번 정의되고 여러 번 사용됩니다. 계산 논리를 변경해야 하는 경우 여러 저장 프로시저가 아닌 한 곳에서만 업데이트해야 합니다. BRE 프레임워크는 자체 업데이트 설명서를 만드는 일련의 보고서를 통해 노출될 수 있는 구현된 비즈니스 논리에 대한 투명성과 가시성을 유도하는 측면의 이점도 있습니다.
데이터 원본
데이터 웨어하우스는 거의 모든 데이터 원본의 데이터를 통합할 수 있습니다. 주로 LOB 데이터 원본을 통해 빌드되며, 일반적으로 판매, 마케팅, 재무 등에 대한 주체별 데이터를 저장하는 관계형 데이터베이스입니다. 이러한 데이터베이스는 클라우드 호스팅이거나 온-프레미스에 상주할 수 있습니다. 다른 데이터 원본은 파일 기반, 특히 웹 로그 또는 디바이스에서 원본된 IOT 데이터일 수 있습니다. 또한 SaaS(Software-as-a-Service) 공급업체에서 데이터를 공급받을 수 있습니다.
Microsoft의 일부 내부 시스템은 원시 파일 형식을 사용하여 운영 데이터를 ADLS Gen2로 직접 출력합니다. 데이터 레이크 외에도 다른 원본 시스템은 관계형 LOB 애플리케이션, Excel 통합 문서, 기타 파일 기반 원본, MDM(Master Data Management) 및 사용자 지정 데이터 리포지토리로 구성됩니다. MDM 리포지토리를 사용하면 마스터 데이터를 관리하여 신뢰할 수 있고 표준화되고 유효성이 검사된 버전의 데이터를 보장할 수 있습니다.
데이터 수집
주기적으로 비즈니스의 리듬에 따라 데이터는 원본 시스템에서 수집되어 데이터 웨어하우스에 로드됩니다. 하루에 한 번 또는 더 빈번한 간격일 수 있습니다. 데이터 수집은 데이터 추출, 변환 및 로드와 관련이 있습니다. 또는 다른 방법으로 데이터 추출, 로드 및 변환을 수행할 수도 있습니다. 차이점은 변환이 발생하는 위치에 따라 달라집니다. 변환은 데이터를 정리, 준수, 통합 및 표준화하기 위해 적용됩니다. 자세한 내용은 ETL(추출, 변환 및 로드)을 참조하세요.
궁극적으로 목표는 가능한 한 빠르고 효율적으로 엔터프라이즈 모델에 올바른 데이터를 로드하는 것입니다.
Microsoft에서는 ADF( Azure Data Factory )를 사용합니다. 이 서비스는 외부 원본 시스템에서 데이터 레이크로 데이터 유효성 검사, 변환 및 대량 로드를 예약하고 오케스트레이션하는 데 사용됩니다. 사용자 지정 프레임워크에서 병렬로 대규모로 데이터를 처리하도록 관리됩니다. 또한 문제 해결, 성능 모니터링을 지원하고 특정 조건이 충족될 때 경고 알림을 트리거하기 위해 포괄적인 로깅이 수행됩니다.
한편 Azure 클라우드 서비스 플랫폼에 최적화된 Apache Spark 기반 분석 플랫폼인 Azure Databricks는 데이터 과학을 위해 특별히 변환을 수행합니다. 또한 Python Notebook을 사용하여 ML 모델을 빌드하고 실행합니다. 이러한 ML 모델의 점수는 엔터프라이즈 애플리케이션 및 보고서와 예측을 통합하기 위해 데이터 웨어하우스에 로드됩니다. Azure Databricks는 데이터 레이크 파일에 직접 액세스하므로 데이터를 복사하거나 가져올 필요가 없습니다.
수집 프레임워크
저희는 데이터 수집 프레임워크를 구성 테이블 및 절차 집합으로 개발했습니다. 고속으로 최소한의 코드로 대량의 데이터를 획득하는 데이터 기반 접근 방식을 지원합니다. 즉, 이 프레임워크는 데이터 웨어하우스를 로드하는 데이터 취득 프로세스를 간소화합니다.
프레임워크는 원본 유형, 서버, 데이터베이스, 스키마 및 테이블 관련 세부 정보와 같은 데이터 원본 및 데이터 대상 관련 정보를 저장하는 구성 테이블에 따라 달라집니다. 이 디자인 접근 방식은 특정 ADF 파이프라인 또는 SSIS(SQL Server Integration Services) 패키지를 개발할 필요가 없다는 것을 의미합니다. 대신 프로시저는 런타임에 동적으로 생성되고 실행되는 ADF 파이프라인을 만들기 위해 선택한 언어로 작성됩니다. 따라서 데이터 취득은 쉽게 작동할 수 있는 구성 연습이 됩니다. 일반적으로 하드 코딩된 ADF 또는 SSIS 패키지를 만들려면 광범위한 개발 리소스가 필요합니다.
수집 프레임워크는 업스트림 원본 스키마 변경 처리 프로세스를 간소화하도록 설계되었습니다. 원본 시스템에서 새로 추가된 특성을 획득하기 위해 스키마 변경 내용이 감지되면 구성 데이터를 수동으로 또는 자동으로 쉽게 업데이트할 수 있습니다.
오케스트레이션 프레임워크
데이터 파이프라인을 운영 및 오 케스트레이션하는 오케스트레이션 프레임워크 를 개발했습니다. 오케스트레이션 프레임워크는 구성 테이블 집합에 따라 달라지는 데이터 기반 디자인을 사용합니다. 이러한 테이블은 파이프라인 종속성 및 원본 데이터를 대상 데이터 구조에 매핑하는 방법을 설명하는 메타데이터를 저장합니다. 이 적응형 프레임워크 개발에 대한 투자는 그 이후로 그 자체로 지불되었습니다. 각 데이터 이동을 하드 코딩해야 하는 요구 사항은 더 이상 없습니다.
데이터 스토리지
Data Lake는 스테이징 데이터 변환과 함께 나중에 사용할 수 있는 대량의 원시 데이터를 저장할 수 있습니다.
Microsoft에서는 ADLS Gen2를 유일한 진실의 원천으로 사용합니다. 준비된 데이터 및 프로덕션 준비 데이터와 함께 원시 데이터를 저장합니다. 빅 데이터 분석을 위해 확장성이 뛰어나고 비용 효율적인 데이터 레이크 솔루션을 제공합니다. 고성능 파일 시스템의 기능을 대규모로 결합하여 데이터 분석 워크로드에 최적화되어 인사이트 시간을 단축합니다.
ADLS Gen2는 세분화된 액세스 권한으로 구성하는 BLOB 스토리지와 고성능 파일 시스템 네임스페이스의 두 가지 세계를 제공합니다.
그런 다음, 구체화된 데이터는 관계형 데이터베이스에 저장되어 보안, 거버넌스 및 관리 효율성과 함께 엔터프라이즈 모델에 대해 확장성이 뛰어난 고성능 데이터 저장소를 제공합니다. 주체별 데이터 마트는 Azure Databricks 또는 Polybase T-SQL 쿼리에 의해 로드되는 Azure Synapse Analytics에 저장됩니다.
데이터 사용량
보고 계층에서 비즈니스 서비스는 데이터 웨어하우스에서 원본으로 제공되는 엔터프라이즈 데이터를 사용합니다. 또한 임시 분석 또는 데이터 과학 작업을 위해 데이터 레이크에서 직접 데이터에 액세스합니다.
세분화된 권한은 데이터 레이크, 엔터프라이즈 모델 및 BI 의미 체계 모델과 같은 모든 계층에서 적용됩니다. 사용 권한은 데이터 소비자가 액세스 권한이 있는 데이터만 볼 수 있도록 합니다.
Microsoft에서는 Power BI 보고서 및 대시보드 및 Power BI 페이지를 매긴 보고서를 사용합니다. 일부 보고 및 임시 분석은 특히 재무 보고를 위해 Excel에서 수행됩니다.
데이터 모델에 대한 참조 정보를 제공하는 데이터 사전을 게시합니다. 사용자가 BI 플랫폼에 대한 정보를 검색할 수 있도록 사용할 수 있습니다. 사전은 엔터티, 형식, 구조, 데이터 계보, 관계 및 계산에 대한 설명을 제공하는 모델 디자인을 문서화합니다. Azure Data Catalog를 사용하여 데이터 원본을 쉽게 검색하고 이해할 수 있도록 합니다.
일반적으로 데이터 사용 패턴은 역할에 따라 다릅니다.
- 데이터 분석가는 핵심 BI 의미 체계 모델에 직접 연결합니다. 핵심 BI 의미 체계 모델에 필요한 모든 데이터와 논리가 포함된 경우 라이브 연결을 사용하여 Power BI 보고서 및 대시보드를 만듭니다. 부서 데이터로 모델을 확장해야 하는 경우 Power BI 복합 모델을 만듭니다. 스프레드시트 스타일 보고서가 필요한 경우 Excel을 사용하여 핵심 BI 의미 체계 모델 또는 부서별 BI 의미 체계 모델을 기반으로 보고서를 생성합니다.
- BI 개발자 및 운영 보고서 작성자는 엔터프라이즈 모델에 직접 연결합니다. Power BI Desktop을 사용하여 라이브 연결 분석 보고서를 만듭니다. 운영 유형 BI 보고서를 Power BI 페이지를 매긴 보고서로 작성하고, T-SQL을 사용하여 Azure Synapse Analytics 엔터프라이즈 모델에서 데이터에 액세스하는 네이티브 SQL 쿼리를 작성하거나, DAX 또는 MDX를 사용하여 Power BI 의미 체계 모델을 작성할 수도 있습니다.
- 데이터 과학자는 데이터 레이크의 데이터에 직접 연결합니다. Azure Databricks 및 Python Notebook을 사용하여 ML 모델을 개발합니다. 이 모델은 종종 실험적이며 프로덕션용 특수 기술이 필요합니다.
관련 콘텐츠
이 문서에 대한 자세한 내용은 다음 리소스를 확인하세요.
- 패브릭 채택 로드맵: 우수 센터
- Azure Synapse Analytics를 사용하는 Azure의 Enterprise BI
- 질문? 패브릭 커뮤니티에 문의해 보세요
- 제안 사항은? 패브릭을 개선하기 위한 아이디어를 제안하세요
전문 서비스
인증된 Power BI 파트너는 COE를 설정할 때 조직의 성공을 돕기 위해 사용할 수 있습니다. 비용 효율적인 교육 또는 데이터 감사를 제공할 수 있습니다. Power BI 파트너를 찾으려면 Microsoft Power BI 파트너 포털방문하세요.
숙련된 컨설팅 파트너와도 소통할 수 있습니다. Power BI를 평가, 평가 또는 구현하는 데 도움이 될 수 있습니다.