다음을 통해 공유


데이터 제품이란?

모든 애플리케이션은 일시적으로 또는 영구적으로 데이터를 만들고 저장합니다. 또한 많은 애플리케이션은 오류 로깅 및 상태 모니터링과 같은 운영 관리 목적으로 데이터를 만들고 저장합니다. 중앙 집중식 데이터 팀은 ETL 프로세스를 사용하여 이러한 애플리케이션이 생성하는 데이터를 사용하고 처리합니다. 애플리케이션 운영 팀에는 애플리케이션 상태 및 KPI 상태 모니터링과 같은 추가 데이터 처리 흐름이 있는 경우가 많습니다.

데이터 통합의 경우 팀과 책임의 폭포에 대한 전통적인 접근 방식은 이상적이지 않습니다. 최종 사용자의 데이터 품질, 적시성 및 가치에 영향을 주는 지식 격차, 소유권 문제, 통신 충돌로 이어질 수 있습니다. 애플리케이션 팀은 애플리케이션 성능 및 성공을 담당합니다. 작업 시 다른 팀이 소유한 다운스트림 프로세스를 변경해야 하지만 이러한 변경 내용은 계획대로 진행되지 않는 경우가 많습니다. 예를 들어 소위 사소한 업스트림 변경으로 KPI의 추세가 크게 변경될 수 있습니다. 이러한 종류의 데이터 문제는 중요한 결정을 내리는 역량에 영향을 줄 수 있습니다.

데이터 메시 접근 방식은 데이터 개념을 제품으로 채택하여 이러한 문제를 방지합니다. 애플리케이션 소유자와 애플리케이션 팀은 데이터를 다른 사용자가 관리하는 일부 프로세스의 부산물이 아닌 완전히 포함된 제품으로 취급합니다. 애플리케이션 및 분석 데이터 서비스 작업은 모두 도메인 책임 영역 내에 있습니다.

데이터 제품은 분석 사용을 위해 특별히 만들어집니다. 셰이프, 소비 인터페이스, 유지 관리, 새로 고침 주기를 정의하고 합의했으며 모두 문서화되어 있습니다.

데이터 제품은 SLO의 인터페이스를 통해 다운스트림 프로세스와 공유되고 처리된 도메인 데이터 자산/데이터 세트입니다. 달리 필요하지 않은 경우 원시 데이터를 처리, 형성, 정리, 집계, 정규화하여 합의된 품질 표준을 충족해야 사용이 가능합니다.

다음 섹션에서는 좋은 데이터 제품에 있는 일반적인 특징을 간략하게 설명합니다.

데이터 제품 특성

잘 디자인된 데이터 제품은 다음과 같습니다.

검색 가능하고, 이해하기 쉽고, 신뢰할 수 있음: 도메인 팀은 각 데이터 제품, 데이터, 해당 의미, 데이터 셰이프 형식, 새로 고침 주기에 대한 정보를 공유하고 업데이트하여 검색을 가능하게 하고 이해하기 쉽게 만듭니다. 데이터 또는 셰이프의 변경 내용을 적시에 다운스트림 소비자에게 전달합니다. 인터페이스는 데이터 제품 셰이프에 시간 제한 이전 버전과의 호환성을 제공하여 신뢰성을 보장합니다.

주소 지정 가능, 고유 액세스 가능 및 보안: 각 데이터 제품에 대한 액세스 권한을 찾아서 얻기 위해 정의된 프로세스를 통해 주소를 지정할 수 있습니다. 다양한 액세스 요구 사항에 필요한 보안 조치가 적용됩니다. 데이터 도메인 소유권 사고방식은 게이트키핑 데이터에서 잘 정의된 보안 예방 조치를 사용하여 데이터를 제공하는 것으로 전환됩니다. 제공된 액세스 인터페이스는 잘 문서화되어 있으며 다양한 기술에 따라 달라질 수 있습니다. 고유하게 액세스할 수 있는 데이터 제품에 일반적으로 사용되는 인터페이스에는 API, 데이터베이스 사용자, 테이블 또는 뷰, 필요한 액세스 권한이 있는 파일이 포함됩니다.

상호 운용 가능하고 진실하며 가치 있음: 데이터는 항상 동일한 이름과 데이터 형식을 갖는 동일한 값과 같이 정의된 공통 표준을 따라 상호 운용성을 제공합니다. 예를 들어 고객 식별 데이터가 포함된 열의 제목은 모든 데이터 제품에서 CustomerID일 수 있으며 해당 데이터는 항상 정수이거나 모든 인스턴스에서 snake_case 또는 camelCase를 사용할 수 있습니다. 데이터 제품은 고객에게 가치를 제공하며 동일하거나 다른 도메인의 새 데이터 제품에 대한 업스트림 원본으로 사용할 수도 있습니다. 그러나 동일한 데이터 제품을 여러 곳에 보관하고 복사할 수는 없습니다. 이전 데이터 제품에서 제공되는 각 데이터 제품은 다운스트림 소비자에게 새로운 가치와 정보를 제공해야 합니다. 또한 데이터 제품은 항상 진실하고 오류가 없는 데이터를 제공해야 합니다.

잘 디자인되고 잘 유지 관리되는 데이터 제품 및 인터페이스는 조직이 데이터 중복을 방지하고 고유한 단일 정보 소스를 만드는 데 도움이 될 수 있습니다.

데이터 제품 디자인 권장 사항

데이터 제품 서비스 요구 사항을 충족하려면 도메인 팀이 새로운 기술을 획득하고 새로운 도구와 플랫폼을 사용해야 합니다.

도메인 애플리케이션 팀을 완벽하게 구성하여 데이터 애플리케이션을 빌드하고 데이터 제품을 생산하거나 제공합니다. 팀은 친숙한 기술 스택을 사용하여 데이터 제품을 빌드할 수 있습니다. 가능한 경우 자체 Spark 인스턴스 또는 파이프라인 엔진을 선호할 수도 있습니다. 예를 들어 많은 데이터 제품을 제공하는 대규모 도메인은 자체 Azure Synapse Analytics에서 데이터 제품을 처리하고 제공하기로 결정할 수 있습니다. 소규모 조직 및 대기업의 소규모 도메인은 중앙에 위치한 Azure Data Factory, Azure Synapse Analytics 또는 Azure Databricks와 같은 공유 플랫폼에서 데이터 애플리케이션을 개발하고 실행하기로 결정할 수 있습니다.

데이터 제품에 이 문서에 설명된 일반적인 특성이 있는지, 계보 리포지토리에 데이터 애플리케이션 계보가 반영되고, 구현 및 액세스가 제어되는지 확인합니다.

도메인과 랜딩 존에 가능한 데이터 애플리케이션 논리가 있는지 보여 주는 다이어그램

Azure용 데이터 제품 및 데이터 애플리케이션 지침

도메인 애플리케이션 팀이 공유 플랫폼 및 일련의 서비스를 사용하는 경우 Azure 데이터 랜딩 존 내에서 데이터 애플리케이션 환경에 대해 가능한 모든 접근 방식을 적용할 수 있습니다.

데이터 애플리케이션 컨텍스트의 data-application-rg 리소스 그룹과 핵심 서비스 컨텍스트의 shared-application-rg 리소스 그룹을 보여 주는 다이어그램

Azure의 클라우드 규모 분석 데이터 제품 - 샘플 데이터 애플리케이션에서 Azure 데이터 랜딩 존에 대한 세 가지 데이터 애플리케이션 패턴 템플릿을 찾을 수 있습니다.

다음 단계