조직은 일반적으로 여러 연결이 끊긴 서비스를 사용하여 데이터를 수집, 저장, 변환, 분석 및 시각화합니다. 이 조각화는 데이터 사일로를 만들고, 통합 오버헤드를 증가시키고, 인사이트 시간을 늦출 수 있습니다. Microsoft Fabric은 데이터 수명 주기의 모든 단계를 공유 기반 기반의 단일 플랫폼으로 통합하여 이러한 문제를 해결합니다.
이 아키텍처의 중심에는 열려 있는 Delta Parquet 형식으로 모든 데이터를 저장하는 단일 조직 데이터 레이크인 OneLake가 있습니다. OneLake는 모든 패브릭 테넌트에서 자동으로 프로비전됩니다. 모든 패브릭 워크로드가 OneLake에서 읽고 쓰기 때문에 데이터는 엔진 간에 이동하지 않습니다. 파이프라인을 통해 수집되고, Notebook에서 구체화되고, Power BI 보고서에서 시각화된 데이터 세트는 전체 과정에서 한 곳에 유지됩니다.
데이터 수명 주기는 6단계로 구성되며 Fabric은 각각에 대해 특별히 빌드된 도구를 제공합니다.
데이터 가져오기: 연속 데이터베이스 복제를 통해 또는 외부 스토리지를 참조하여 실시간으로 수백 개의 원본에서 OneLake로 데이터를 가져옵니다.
데이터 저장: 유연한 빅 데이터 분석, 구조적 SQL 쿼리, 실시간 이벤트 분석, 트랜잭션 처리 또는 관리되는 비즈니스 보고 등 워크로드에 최적화된 스토리지 형식으로 데이터를 유지합니다.
준비 및 변환: OneLake에서 데이터를 이동하지 않고 코드가 낮은 시각적 변환 또는 코드 우선 Notebook 및 재사용 가능한 함수를 사용하여 데이터를 정리, 재구성 및 보강합니다.
분석 및 학습: 기계 학습 모델을 빌드 및 운영하며, 고급 분석을 실행하고, 프로그래밍 방식으로 데이터를 쿼리하고, 자연어 AI 에이전트를 통해 인사이트를 탐색합니다.
추적 및 시각화: 대화형 보고서를 통해 인사이트를 표시하고, 실시간 대시보드에서 라이브 데이터 스트림을 모니터링하며, 조건이 충족되면 자동화된 작업을 트리거합니다.
외부 통합: 자동화, 협업, 거버넌스, 개발자 도구 및 CI/CD를 위해 외부 서비스에 안전하게 연결합니다.
다음 다이어그램에서는 이러한 단계가 연결되는 방법과 각 단계에서 참여하는 패브릭 항목을 보여 줍니다. 각 단계는 전용 문서에서 자세히 설명합니다. 각 섹션의 링크를 사용하여 해당 단계에서 사용할 수 있는 기능 및 도구를 탐색합니다.
데이터 가져오기
다양한 유형의 데이터 세트는 데이터 복제, 외부 스토리지 참조, 일괄 처리 데이터 세트 및 실시간 데이터 스트림을 비롯한 다양한 데이터 시나리오에서 다양한 데이터 원본에서 제공됩니다. 패브릭의 통합 도구를 통해 이러한 데이터 세트를 수집하고 변환합니다. 데이터는 모든 패브릭에 대한 중앙 집중식 데이터 스토리지인 OneLake에 배치됩니다. 주요 수집 방법은 다음과 같습니다.
- 실시간 이벤트 수집 및 라우팅을 위한 이벤트 스트림입니다.
- 200개 이상의 커넥터를 사용하여 일괄 처리 및 예약된 데이터 이동을 위한 데이터 파이프라인.
- ETL 파이프라인을 빌드하지 않고 운영 데이터베이스에서 연속 복제를 위한 미러링입니다.
- 외부 저장소인 Azure Data Lake, Amazon S3 또는 Google Cloud Storage에서 데이터 가상화를 복사하지 않고 사용할 수 있는 단축키입니다.
자세한 내용은 Microsoft Fabric으로 데이터 가져오기를 참조하세요.
데이터 저장
수집되면 모든 데이터가 오픈 Delta Parquet 형식으로 OneLake에 저장됩니다. OneLake는 별도의 프로비저닝이 필요하지 않은 전체 조직에 단일 데이터 레이크를 제공합니다. 패브릭은 다양한 워크로드에 최적화된 여러 스토리지 항목을 제공합니다.
- 파일 및 관리되는 델타 테이블을 자동 SQL 엔드포인트와 결합하는 유연한 빅 데이터 스토리지를 위한 Lakehouse입니다.
- 구조적 관계형 분석 및 전체 T-SQL 지원, 저장 프로시저, ACID 트랜잭션을 위한 데이터 웨어하우스입니다.
- KQL(Kusto Query Language)을 사용하여 스트리밍 및 원격 분석 데이터에 대한 실시간 분석을 위한 Eventhouse입니다.
- 트랜잭션 워크로드 및 운영 분석을 위한 SQL Database입니다.
- 보고서 및 AI를 구동하는 큐레이팅된 비즈니스 논리, 측정값 및 계층 구조에 대한 의미 체계 모델입니다.
자세한 내용은 Microsoft Fabric의 데이터 저장을 참조하세요.
데이터 준비 및 변환
OneLake에서 엔진 간에 데이터 이동 없이 패브릭 내에서 코드 우선 엔진 또는 하위 코드 도구를 사용하여 데이터를 추가로 변환할 수 있습니다.
- 데이터 흐름 Gen2 는 데이터 정리, 변환 및 보강을 위한 낮은 코드 파워 쿼리 인터페이스를 제공합니다.
- Notebook은 Python, T-SQL 및 Scala 기반 데이터 엔지니어링을 위한 Jupyter와 유사한 환경을 제공합니다.
- 사용자 데이터 함수를 사용하면 파이프라인, Notebook 및 Activator 규칙에서 호출할 수 있는 재사용 가능한 사용자 지정 Python 논리를 포함할 수 있습니다.
자세한 내용은 데이터 준비 및 변환을 참조하세요.
데이터 분석 및 모델 학습
준비된 데이터를 사용하여 ML 모델을 학습시키고 고급 분석을 수행합니다. Fabric의 데이터 과학 워크로드는 ML 모델을 빌드, 학습 및 운영하기 위한 환경을 제공합니다.
- MLflow 실험은 하이퍼 매개 변수, 메트릭 및 항목의 자동 로깅을 사용하여 모델 학습 실행을 추적합니다.
- ML 모델은 버전 관리, 메타데이터 추적 및 재현성을 위해 MLflow 기반 레지스트리에 등록됩니다.
- 데이터 에이전트 및운영 에이전트를 사용하면 자연어를 사용하여 데이터와 상호 작용하고 찾은 조건 및 패턴에 따라 작업할 수 있습니다.
- GraphQL API 는 개발자가 단일 엔드포인트를 통해 여러 패브릭 데이터 원본을 쿼리할 수 있는 유연한 데이터 액세스 계층을 제공합니다.
- Power BI용 어시스턴트는 즉석 분석, DAX 생성 및 자연어를 통한 데이터 탐색을 위해 생성 AI를 활용합니다.
자세한 내용은 Microsoft Fabric에서 데이터 분석 및 학습을 참조하세요.
데이터 추적 및 시각화
준비된 데이터와 모델링된 데이터를 사용하여 보고서, 대시보드 및 실시간 경고를 만듭니다.
- Power BI 보고서는 의미 체계 모델을 기반으로 하는 대화형 데이터 시각화를 제공하며 Teams, SharePoint, PowerPoint 및 Excel과 같은 Microsoft 365 앱에 배포됩니다.
- Translytical 작업 흐름을 사용하면 사용자가 사용자 데이터 함수를 호출하여 Power BI 보고서에서 직접 작업을 수행할 수 있습니다.
- Real-Time Intelligence 대시보드는 KQL 쿼리 및 시각적 작성을 사용하여 초 미만의 대기 시간으로 스트리밍 데이터를 모니터링합니다.
- 액티베이터는 스트리밍 데이터에서 조건을 감지하고 Teams 경고, 이메일, 또는 Power Automate 플로우와 같은 자동화된 작업을 실행합니다.
- Fabric IQ 는 엔터프라이즈 데이터를 공유 비즈니스 온톨로지로 매핑하고 AI 에이전트가 전체 비즈니스 컨텍스트로 데이터를 추론할 수 있도록 합니다.
자세한 내용은 데이터 추적 및 시각화를 참조하세요.
외부 통합
패브릭은 데이터 수집 및 인사이트 전달을 위해 외부 시스템과 통합됩니다.
- Power Automate 및 Data Activator 를 사용하면 데이터 조건에 따라 실시간 워크플로 자동화를 사용할 수 있습니다.
- Microsoft 365 통합은 Teams, SharePoint, PowerPoint 및 Excel의 인사이트를 제공합니다.
- REST API 및 클라이언트 라이브러리는 패브릭 리소스에 프로그래밍 방식으로 액세스할 수 있도록 합니다.
- Microsoft Entra ID 는 인증, 조건부 액세스 및 서비스 주체 지원을 처리합니다.
- Azure DevOps 및 GitHub와 Git 통합을 통해 패브릭 항목에 대한 버전 제어 및 CI/CD를 사용할 수 있습니다.
- Microsoft Purview 는 패브릭 데이터 자산 전체에서 통합 데이터 거버넌스, 카탈로그링 및 규정 준수를 제공합니다.
자세한 내용은 외부 통합 및 플랫폼 연결을 참조하세요.
자연어 및 AI 지원
자연어 지원은 Power BI Copilot, 데이터 에이전트 및 Operations Agents 형식으로 제공되며, OneLake의 엔터프라이즈 데이터를 추론하고 사용자가 액세스할 수 있는 데이터 항목을 기반으로 답변을 생성할 수 있습니다. 사용자가 여러 애플리케이션의 기존 워크플로 내에서 OneLake에서 인사이트를 얻을 수 있도록 데이터 에이전트를 Microsoft 365 Copilot, Microsoft Foundry 및 Copilot Studio에 통합할 수 있습니다.