MDM(master 데이터 관리)을 위한 Microsoft Purview 및 CluedIn 통합

아티클
11/20/2024

이 CluedIn 아키텍처는 수집되는 데이터의 품질에 대한 메트릭을 비즈니스에 제공하고, 더티 데이터를 지능적으로 검색하고, 데이터 엔지니어 및 데이터 관리자가 정리할 준비를 합니다. 독점 유사 논리 기계 학습 알고리즘은 비즈니스 사용자와 큐레이터가 데이터에 레이블을 지정하고 시간이 지남에 따라 데이터 품질 문제를 식별, 수정 및 방지하도록 시스템을 교육하는 데 도움이 됩니다.

아키텍처

CluedIn 아키텍처 구조 및 데이터 흐름을 보여 주는 다이어그램

데이터 흐름

CluedIn 솔루션은 AKS(Azure Kubernetes Service)의 Kubernetes 클러스터에서 실행되는 다양한 기능 계층으로 구성됩니다. .NET Core 마이크로 서비스 애플리케이션의 조합은 데이터 수집, 스트리밍 데이터 처리, 큐 및 사용자 인터페이스와 같은 고유한 함수를 처리합니다.

CluedIn 크롤링 계층은 Azure Data Factory 커넥터를 통해 Azure SQL DB, Azure Cosmos DB, PostgreSQL 및 Salesforce 데이터베이스와 같은 고객 클라우드 원본에서 데이터를 수집합니다.

CluedIn은 SAP, Oracle, IBM 및 Hadoop과 같은 온-프레미스 액세스 가능 시스템의 입력을 받거나 온-프레미스 에이전트를 사용하여 비공용 데이터를 크롤링할 수 있습니다.
엔터프라이즈 서비스 버스는 관리 엔드포인트용 포트 5672 및 15672를 통해 연결됩니다. 크롤러가 버스로 데이터를 보내고 처리 계층은 포트 5672를 통해 버스의 데이터를 사용합니다.
트랜잭션 로그 계층은 처리 계층의 결과를 가져옵니다.
지속성 계층에서 데이터베이스는 트랜잭션 로그의 데이터를 사용하고 이를 유지하여 여러 데이터 저장소에서 최종 일관성을 제공합니다. 모든 저장소는 HA(고가용성) 모드로 실행됩니다.

데이터 가상화와 달리 CluedIn 지속성 계층은 원본 데이터의 일부를 수집하고 데이터 및 해당 구조의 가장 높은 충실도 버전을 유지합니다. 이러한 높은 충실도는 CluedIn Data Fabric이 모든 형식 또는 모델에서 데이터에 대한 비즈니스 요청을 처리할 수 있음을 의미합니다.
데이터 추상화 계층은 각 저장소의 포트를 통해 다른 데이터 저장소에 연결됩니다.
데이터 액세스는 포트 443을 통한 GraphQL, REST 및 WebSockets 호출을 통해 진행됩니다. GraphQL 및 REST는 끌어오기 모델을 사용하고 WebSockets는 푸시 모델을 사용합니다.

CluedIn은 제한 및 CSRF(교차 사이트 요청 위조) 방지를 통해 데이터 액세스를 보호합니다.
CluedIn ASP.NET Core 웹 애플리케이션은 포트 443을 통해 REST 및 GraphQL 호출의 조합을 통해 통신합니다.

브라우저에서 애플리케이션으로의 모든 통신은 단일 공용 IP 주소만 필요로 하는 수신 정의 집합을 사용합니다. 프로덕션 환경에서 모든 통신은 SSL(보안 소켓 계층)을 통해 이루어집니다.
CluedIn 애플리케이션은 인사이트를 생성하기 위해 Power BI 및 Azure Synapse Analytics와 같은 분석 서비스에 정리되고 처리된 데이터를 제공합니다. 시스템은 모든 데이터를 백업하고 SQL 또는 Redis 데이터베이스에 저장합니다.

구성 요소

CluedIn은 컨테이너화된 애플리케이션을 배포하고 관리하기 위한 고가용성, 보안 및 완전 관리형 Kubernetes 서비스인 AKS(Azure Kubernetes Service)에서 실행됩니다. AKS는 서버리스 Kubernetes, 통합 CI/CD 및 엔터프라이즈급 보안 및 거버넌스를 제공합니다.

CluedIn은 다음을 비롯한 많은 데이터베이스 원본 및 서비스를 사용하고 지원합니다.

Azure SQL Database는 항상 최신 상태이며 요청 시 리소스를 자동으로 확장할 수 있는 관리형 관계형 클라우드 데이터베이스 서비스입니다.
기존 SQL Server 애플리케이션과의 광범위한 SQL Server 엔진 호환성을 위해 Azure SQL Managed Instance. SQL Managed Instance 탄력적 규모, 통합 관리 및 클라우드 청구 모델과 같은 Azure 클라우드 이점을 온-프레미스 데이터베이스 인프라에 제공합니다.
Azure Cosmos DB는 최신 앱 개발을 위한 완전 관리형 비관계형 NoSQL 서버리스 데이터베이스입니다.
확장 가능한 데이터 스토리지 및 분석 서비스인 Azure Data Lake.
Azure Data Factory 대규모로 데이터를 수집, 준비 및 변환하기 위한 완전 관리형 서버리스 데이터 통합 솔루션입니다. CluedIn은 90개가 넘는 기본 제공 Data Factory 커넥터를 사용하여 Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow 및 모든 Azure 데이터 서비스와 같은 원본에서 데이터를 가져옵니다.

CluedIn은 다음을 비롯한 많은 분석 앱 및 서비스에 처리되고 관리되는 데이터를 제공합니다.

빠르고 쉽고 공동 작업적인 Apache Spark 기반 분석 서비스인 Azure Databricks.
엔터프라이즈 데이터 웨어하우징과 빅 데이터 분석을 결합한 무제한 분석 서비스인 Azure Synapse Analytics입니다.
Log Analytics는 Azure Monitor 로그 데이터에서 쿼리를 편집, 실행 및 분석하는 Azure Portal 도구입니다.
지능형 앱을 빌드하기 위한 포괄적인 AI 서비스 및 인식 API 제품군인 Azure Cognitive Services.
Power BI는 대화형 시각화와 비즈니스 인텔리전스를 사용하기 쉬운 보고서 만들기 인터페이스와 결합한 Microsoft 비즈니스 분석 서비스입니다.

시나리오 세부 정보

최신 엔터프라이즈 기업은 데이터에 많은 프로세스와 프로젝트를 기반으로 하지만 원시 데이터는 사용할 수 있도록 준비해야 합니다. 고급 분석에서 기계 학습에 이르는 데이터 사용 사례에는 모두 유사한 데이터 준비 프로세스와 주의가 필요합니다.

데이터 프로젝트는 데이터 검색으로 시작하여 데이터가 어디에 있는지, 어떤 시스템을 사용하는지 결정합니다.
그런 다음, 데이터 통합 은 여러 데이터 원본을 통합 또는 연결된 데이터 세트로 통합합니다.
다음 단계는 컴퓨터가 균일하고 일관되며 충실도가 높은 방식으로 처리할 수 있도록 데이터를 정규화, 표준화, 조화 및 클린 것입니다.
마지막으로, 비즈니스 요구 사항에 맞게 데이터를 쉽고 쉽게 사용할 수 있어야 합니다.

이러한 프로세스 중에 거버넌스 는 명확한 소유권, 전체 추적 가능성 및 데이터 원본, 처리 및 사용에 대한 감사 추적을 통해 데이터 제어 및 개인 정보 보호를 보장해야 합니다.

CluedIn 플랫폼은 이러한 데이터 관리 프로세스와 핵심을 일관되고 일관된 엔드투엔드 MDM(마스터 데이터 관리) 솔루션으로 캡슐화합니다. CluedIn은 클래식 추출, 변환, 로드(ETL) 또는 ELT(추출, 로드, 변환) 모델보다 더 나은 결과를 생성하는 최종 연결이라는 데이터 통합 기술을 사용합니다. 최종 연결은 GraphQL 쿼리를 사용하여 여러 사일로 데이터 원본에서 데이터를 원활하게 혼합합니다.

최종 연결을 사용하면 다른 시스템에 진입하거나 로드할 때 데이터가 조인되거나 혼합되지 않습니다. 대신 CluedIn은 데이터를 있는 그대로 로드하고 메타데이터를 사용하여 레코드에 태그를 지정합니다. 결국 동일한 태그가 있는 레코드는 그래프에서 관계를 병합하거나 빌드합니다.

이 정교한 데이터 병합 기술은 데이터 기반 솔루션의 토대를 제공합니다. CluedIn Data Fabric은 데이터를 정리, 준비, 모델, 제어, 보강, 중복 제거 및 카탈로그하는 파이프라인에 통합하여 비즈니스 용도로 쉽게 사용 가능하고 액세스할 수 있도록 합니다.

CluedIn은 수집되는 데이터의 품질에 대한 메트릭을 비즈니스에 제공하고, 더티 데이터를 지능적으로 감지하고, 데이터 엔지니어 및 데이터 관리자가 정리할 준비를 합니다. 독점 유사 논리 기계 학습 알고리즘은 비즈니스 사용자와 큐레이터가 데이터에 레이블을 지정하고 시간이 지남에 따라 데이터 품질 문제를 식별, 수정 및 방지하도록 시스템을 교육하는 데 도움이 됩니다.

CluedIn에는 데이터를 안전하고 자신 있게 사용할 수 있다는 보장을 위해 엔터프라이즈급 거버넌스가 포함됩니다. CluedIn은 정리되고 관리되는 데이터를 Power BI, Azure Databricks, Azure Synapse Analytics 또는 Azure Cognitive Services와 같은 분석 시스템으로 직접 스트리밍하여 나머지 비즈니스에서 쉽게 사용할 수 있도록 할 수 있습니다. 자동 크기 조정에 대한 기본 지원은 Azure의 기능을 사용하여 가장 큰 데이터 워크로드에 확장 가능한 환경을 제공합니다.

잠재적 사용 사례

단일 데이터 보기 빌드

CluedIn의 의미 체계 모델링으로 인해 마스터 데이터의 단일 보기를 빌드하는 것이 기존 접근 방식에 비해 더 쉽게 달성할 수 있습니다. CluedIn의 고객은 CluedIn을 사용하여 가장 중요한 비즈니스 데이터에 대한 연결되고 과거적이고 고품질의 뷰를 빌드하고 있습니다. CluedIn은 사람, 회사, 공급업체 및 제품과 같은 클래식 마스터 도메인의 마스터링을 지원할 뿐만 아니라 파일, 메일, 이벤트 등과 같은 구조화되지 않은 도메인뿐만 아니라 다양한 도메인을 무한수만큼 지원합니다. 클린, 보강, 관리, 품질 제어 및 카탈로그화된 master 데이터의 중앙 집중식 리포지토리가 필요한 경우 CluedIn은 사용 사례에 적합합니다.

데이터 패브릭

CluedIn은 10대, 100대, 1000년대의 다양한 복잡한 데이터 원본을 통합 데이터 허브로 오케스트레이션하는 기능으로 인해 2020년에 Gartner Cool Vendor입니다. 다양한 데이터 원본의 데이터를 쉽게 랭글해야 하는 경우 CluedIn을 데이터 패브릭으로 사용하여 이를 달성할 수 있습니다. 이렇게 하면 데이터를 다운스트림 소비자에게 전달하면서 데이터를 사전에 클린 master 수 있는 데이터에 대한 스트리밍 인프라를 제공할 수 있습니다.

master 데이터의 정교한 병합 및 연결

CluedIn의 고유한 데이터 모델링 접근 방식은 그래프 데이터베이스를 활용하므로 복잡한 데이터를 병합하고 단순하게 연결할 수 있습니다. 기존의 접근 방식과 달리 CluedIn은 이 문제를 해결하기 위해 더 많은 기계 학습 및 그래프 분석을 추가하여 레코드를 병합, 일치 및 연결하고 정밀도를 높입니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 개선하는 데 사용할 수 있는 안내 신조 집합인 Azure Well-Architected Framework의 핵심을 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

안정성

안정성을 통해 애플리케이션이 고객에 대한 약속을 충족할 수 있습니다. 자세한 내용은 안정성 핵심 요소 개요를 참조하세요.

CluedIn은 자동 일일 데이터베이스 백업을 수행하고 기본적으로 30일 동안 장기 스토리지에 유지합니다. 전체 플랫폼은 모든 하위 시스템에 대한 백업을 유지하는 중복 내결함성 스택을 기반으로 합니다. 시계 모니터링 시스템을 반올림하여 서비스가 가능한 한 오염되지 않도록 합니다. CluedIn은 인프라 중복에 대한 업계 표준 사례를 따릅니다.
CluedIn은 원본 버전이 아닌 데이터의 표현만 표시하고 저장합니다. CluedIn이 파괴적인 데이터 침입을 감지하면 서버에서 CluedIn 데이터를 일시적으로 초기화할 수 있습니다. 침입이 가라앉으면 CluedIn은 데이터를 다시 수집하여 원래 상태로 돌아갑니다.
모든 데이터 저장소는 고가용성 모드로 실행됩니다.

확장성

CluedIn은 Docker 컨테이너 에서 실행되며 Kubernetes를 사용하여 애플리케이션의 다양한 부분을 호스트하고 오케스트레이션합니다. 이 아키텍처는 CluedIn이 탄력적 환경에서 잘 작동하며 필요한 크기 및 인프라로 자동으로 확장될 수 있음을 의미합니다.
자동 크기 조정에 대한 기본 지원은 Azure의 기능을 적용하여 가장 큰 데이터 워크로드에 확장 가능한 환경을 제공합니다.
스키마 없는 그래프 모델링은 원본 데이터에서 데이터 모델을 자동으로 유추합니다. 새 데이터 원본은 명시적으로 통합되지 않고 다른 모든 데이터 원본에 자동으로 연결됩니다. 데이터 원본의 수는 통합 복잡성을 증가하지 않고 무한히 확장할 수 있습니다.

보안

보안은 고의적인 공격과 귀중한 데이터 및 시스템의 남용에 대한 보증을 제공합니다. 자세한 내용은 보안 핵심 요소 개요를 참조하세요.

CluedIn 보안은 Azure Key Vault 보안 키 제어 및 Azure Monitor 액세스 추적 및 로깅을 사용하여 Azure RBAC를 통해 다양한 서비스에 대한 액세스 권한을 부여하고 제어합니다.
CluedIn은 인증된 사용자 계정 외에도 SSO(Single Sign-On) 및 ID 프레임워크도 지원합니다. CluedIn 애플리케이션에 대한 요청은 사용자 ID와 상관 관계가 없는 암호화된 액세스 토큰을 사용합니다.
CluedIn은 여러 방화벽 및 프록시 계층 뒤에 저장된 데이터 표현을 관리하고 고유한 키 집합으로 인증합니다.
CluedIn은 지원되는 데이터 원본의 암호화 수준보다 더 강하거나 같은 256비트 AES 암호화를 사용하여 모든 원본 데이터를 저장합니다.
제한 및 CSRF 방지는 데이터 액세스를 보호합니다.

DevOps

CluedIn은 Azure Pipelines CI/CD(연속 통합 및 지속적인 업데이트) 파이프라인을 사용하여 AKS 환경에 대한 배포 및 롤링 업데이트를 처리합니다.
CluedIn은 단위, 통합 및 기능 테스트를 지원하여 데이터가 예상대로 변환되도록 합니다. 가상화된 처리 파이프라인은 샌드박스 테스트를 위해 메모리에서 실행할 수 있습니다. 프로덕션 등급 어설션은 데이터 문제를 디버그하고 추적하는 데 도움이 될 수 있습니다.
테스트 및 프로덕션 환경의 경우 CluedIn은 CluedIn을 Kubernetes 클러스터에 신속하게 설치하는 Helm 패키지 관리자 차트를 제공합니다. 완전히 스크립팅된 데이터 배포 프로세스는 설정, 테스트 및 롤아웃을 지원합니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 개선하는 방법을 모색하는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

CluedIn에 대한 가격은 개방적이고 투명합니다. 해당 웹 사이트에서 가격 책정을 볼 수 있습니다.

Azure 크기 조정 및 평가판 시작

웹 사이트에서 CluedIn의 7일 평가판을 시작할 수 있으며, 이는 다양한 크기의 환경에 대해 미리 빌드된 Azure 예상으로 Azure 호스팅 비용을 scope 데 도움이 될 수 있습니다.

이 시나리오 배포

Docker를 사용하여 개발 및 평가 목적으로 CluedIn을 배포하려면 Docker 에서 CluedIn을 참조하세요.
Kubernetes 클러스터에 CluedIn을 신속하게 설치하려면 Kubernetes에서 CluedIn을 참조하세요. Helm 차트는 CluedIn 서버, 웹 사이트 및 스토리지 및 큐와 같은 기타 필수 서비스를 설치합니다.

다음 단계

CluedIn에 대한 자세한 내용은 CluedIn 웹 사이트를 참조하세요.
CluedIn 설명서는 CluedIn 설명서를 참조하세요.

다음을 통해 공유