학습 프로세스에 사용할 Azure 기술

8분

이 단원에서는 혁신 수명 주기의 측정 단계의 결과를 적용하는 방법에 대해 알아봅니다. 또한 데이터 민주화의 중요성에 대해서도 알아봅니다.

데이터 민주화

앞 단원에서 배운 것처럼 여러 소스를 사용하여 고객으로부터 데이터를 수집할 수 있습니다. 이러한 소스에는 짧은 설문 조사, Azure Application Insights에서 얻은 사용률 데이터, 고객이 직접 사용하거나 사용하지 않도록 설정할 수 있는 기능 플래그가 포함됩니다. 데이터가 많을수록 더 좋은 의사 결정을 내릴 수 있지만 계속 증가하는 데이터 흐름을 처리할 수 있는 방법이 필요합니다.

Satya Nadella는 2014년에 조직 내 데이터 문화의 중요성에 대해 이야기한 바 있습니다. 의사 결정은 감정이나 주관적인 의견이 아니라 데이터를 기반으로 이루어지고 검증되어야 한다고 그는 말했습니다. 또한 데이터는 필요한 모든 사람에게 제공되어야 하며, 데이터 기반의 의사 결정을 내릴 수 있도록 데이터를 유용한 인사이트로 쉽게 변환할 수 있어야 한다고도 했습니다.

조직은 액세스 가능한 안정적인 데이터 플랫폼을 기반으로 하는 경우에만 파급력 있는 데이터 의사 결정을 내릴 수 있습니다. 이러한 노력에는 다음 네 가지 영역이 포함됩니다.

데이터 수집: 데이터 기반 결정을 내리기 위한 첫 번째 단계는 데이터를 수집하는 것입니다. 데이터 수집은 기존 데이터 리포지토리에서 마이그레이션, Azure Application Insights와 같은 소스에서 데이터 생성, 다른 소스에서 데이터 수집과 같은 여러 가지 형태로 진행할 수 있습니다.
데이터 공유: 수집한 데이터는 데이터 전문가뿐 아니라 데이터가 필요한 모든 사람이 사용할 수 있어야 합니다. 조직의 모든 구성원이 데이터를 사용하여 의사 결정을 내릴 수 있어야 합니다.
데이터 중앙 집중화: 중앙 집중식 데이터 플랫폼은 데이터 공유 및 관리를 간소화하는 데 도움이 될 수 있습니다.
데이터 관리: 데이터 공유는 누구나 모든 데이터를 사용할 수 있어야 한다는 의미는 아닙니다. 중요한 데이터를 공유하기 전에 보호, 추적 및 관리가 이루어져야 합니다.

Azure 데이터 플랫폼

Azure 플랫폼은 데이터 기반 의사 결정 및 데이터 민주화를 위해 기본적으로 필요한 전체 데이터 수명 주기를 포괄합니다. 간단한 주문형 데이터베이스에서 대규모 데이터 웨어하우스나 유연한 NoSQL 시스템에 이르기까지, Azure 데이터 플랫폼을 사용하면 다음과 같은 네 가지 데이터 작업 영역을 포괄할 수 있습니다.

데이터 수집

Azure 데이터 에코시스템은 데이터의 마이그레이션, 수집, 저장 및 분석을 위한 서비스와 도구를 포함합니다. 다음 목록은 데이터 기반의 의사 결정을 내릴 수 있도록 하기 위해 데이터를 처리하고 향후에 공유 가능하게 만드는 데 사용할 수 있는 몇 가지 메커니즘만 보여 줍니다.

데이터 분석: Azure Synapse Analytics는 데이터 웨어하우스와 빅 데이터 시스템 전체에서 인사이트를 얻는 시간을 앞당길 수 있는 엔터프라이즈 분석 서비스입니다. Azure Synapse Analytics는 다음과 같은 최상의 기능을 제공합니다.
- 엔터프라이즈 데이터 웨어하우징에서 사용되는 SQL 기술.
- 빅 데이터에 사용되는 Spark 기술
- 데이터 통합과 ETL(추출, 변환, 로드) 및 ELT(추출, 로드, 변환)를 위한 파이프라인.
- Power BI, Azure Cosmos DB, Azure Machine Learning과 같은 기타 Microsoft 서비스와의 긴밀한 통합.
데이터 마이그레이션: 데이터가 기존 소스에 이미 저장되어 있더라도 유용한 인사이트로 변환하려면 최신 플랫폼으로 마이그레이션해야 합니다. Azure Database Migration Service는 SQL Server, PostgreSQL, Oracle, MongoDB와 같은 시스템에서의 데이터 마이그레이션을 지원하는 도구를 포함합니다.
데이터 처리: Azure는 Azure Stream Analytics를 사용하여 데이터 스트림을 분석 및 변환하는 서비스와 Azure Data Factory를 사용하여 대규모로 ETL 프로세스를 실행하는 서비스를 포함합니다.

Microsoft Power BI는 여러 소스의 데이터를 통합된 대화형 시각화로 통합하는 도구 세트입니다. 사용자는 직관적 컨트롤을 작동하여 데이터에 대해 자세히 알아볼 수 있습니다. 인사이트는 데이터 전문가뿐 아니라 조직의 모든 구성원이 사용할 수 있습니다.

영역 소유자는 애플리케이션의 특정 측면에 대한 관련 정보를 포함하는 보고서 및 대시보드를 만들 수 있습니다. 가설을 검증하기 위해 새로운 기능이 도입된 후에는 데이터를 손쉽게 사용하여 실제 고객 사용량을 기준으로 가설을 검증하거나 기각할 수 있습니다.

Microsoft Power BI는 다양한 관점에서 데이터 공유를 지원합니다. 몇 가지 예제는 다음과 같습니다.

동료 및 파트너와 데이터 공유: Power BI 대시보드는 데이터 사용을 간소화합니다. 데이터 전문가가 아닌 사용자도 시각화를 사용하면 기본 구조를 잘 모르더라도 데이터를 드릴다운할 수 있습니다.
데이터 인사이트를 빠르게 생성: Power BI는 빠른 인사이트 기능을 사용하여 데이터 세트의 시각화를 자동으로 생성할 수 있습니다. 사용자는 대시보드를 신속하게 만들 수 있으며, 처음에는 명확하지 않았을 수 있는 데이터 상관 관계를 찾을 수 있습니다.
웹 사이트 또는 포털에 보고서 포함: Power BI를 사용하면 시각화를 기본 Power BI 포털에서 액세스할 수 있을 뿐 아니라 다른 웹 애플리케이션에도 보고서와 대시보드를 포함할 수 있습니다. 이로써 사용자는 의사 결정 프로세스에 필요한 데이터를 찾기 위해 익숙한 회사 웹 사이트를 벗어날 필요가 없습니다.

데이터 중앙 집중화

데이터 중앙 집중화의 주된 문제는 다양한 수준에서 스케일링하는 것입니다. 과도하게 단순화할 위험이 있지만 빅 데이터를 세 가지 V로 정리할 수 있습니다.

규모(Volume): Azure Data Lake Storage Gen2는 데이터 저장을 위한 비용 효율적이고 스케일링 가능한 Azure 플랫폼입니다. Azure Storage에서 제공하는 막대한 스케일링 성능을 바탕으로 하는 Azure Data Lake Storage는 수 페타바이트의 정보를 처리하고 수백 기가비트의 처리량을 견디도록 설계되었습니다.
다양성: 다양성은 데이터가 항상 정형 상태는 아니라는 사실을 의미합니다. 반정형 데이터뿐 아니라 비정형 데이터도 있을 수 있습니다. Azure Synapse는 이 부분에서 가치를 발휘합니다. 주로 빅 데이터에 사용되는 Spark와 함께 엔터프라이즈 데이터 웨어하우징 분야에서 사용되는 최고의 SQL 기술을 하나로 통합하기 때문입니다.
속도(Velocity): 이전의 데이터 아키텍처에서 종종 발생하는 문제는 스토리지 용량, 분석 속도 및 수집 속도 사이의 상호 종속성입니다. Azure 데이터 솔루션에서 조직은 플랫폼의 여러 측면을 분리하여 독립적으로 스케일링할 수 있습니다. 엔터프라이즈 비즈니스 인텔리전스 아키텍처에서 볼 수 있듯이 필요한 Azure 데이터 서비스를 사용하는 데이터 파이프라인을 사용하여 데이터를 수집, 처리 및 공유할 수 있습니다.

데이터 거버넌스

오늘날 데이터는 중요한 자산과 중대한 책임을 모두 나타냅니다. 저장된 데이터에는 부적절하게 유출하거나 공유하는 경우 재정적 또는 개인적 피해를 줄 수 있는 기밀 정보가 포함되는 경우가 많습니다. 데이터를 저장하고 처리한다는 것은 암묵적으로 조직에서 해당 책임을 받아들인다는 것을 의미합니다. 개인 또는 기밀 데이터를 잘못 취급하는 조직은 법률 규정에 따라 위약금을 물게 될 수 있습니다.

따라서 데이터 민주화라는 목표를 가진 모든 조직에서는 데이터 거버넌스가 중요합니다. 데이터 거버넌스를 구현하기 위한 첫 번째 단계는 특정 방식으로 취급해야 하는 데이터를 분류하는 것입니다. Microsoft가 데이터 분류를 위해 내부적으로 사용하는 데이터 범주는 다음과 같습니다.

비즈니스 외: Microsoft에 속하지 않는 개인적인 데이터
공개: 공개적으로 자유롭게 사용할 수 있도록 승인된 비즈니스 데이터
일반: 대중을 대상으로 하지 않는 비즈니스 데이터
기밀: 과잉 공유될 경우 Microsoft에 피해를 줄 수 있는 비즈니스 데이터
특급 기밀: 과잉 공유될 경우 Microsoft에 광범위한 피해를 줄 수 있는 비즈니스 데이터

데이터 분류를 수행한 후의 다음 단계는 무단 액세스로부터 각 데이터 범주를 보호하는 것입니다. Azure는 기밀성을 적용하는 다음 기술을 지원합니다.

미사용 데이터 암호화: 모든 Azure 데이터는 Microsoft 데이터 센터에 저장될 때 암호화됩니다. 일부 Azure 서비스는 Azure Synapse 및 Azure SQL Database의 투명한 데이터 암호화와 같은 특정 암호화 기능을 제공합니다.
이동 중 데이터 암호화: 모든 Azure 데이터 서비스는 데이터를 네트워크로 전송하기 전에 TLS/SSL로 데이터를 암호화합니다. Azure Storage와 같은 일부 서비스는 암호화되지 않은 트래픽을 선택적으로 허용할 수 있습니다. 조직에서는 모든 유형의 중요한 데이터에 대해 암호화되지 않은 통신을 사용하지 않도록 설정해야 합니다.
데이터 액세스 제어: Azure는 Azure 플랫폼에 대한 액세스와 데이터 자체에 대한 액세스를 위해 고급 인증 및 권한 부여 메커니즘을 제공합니다. Azure 역할 기반 액세스 제어, 조건부 액세스 및 Privileged Identity Management는 권한 있는 사용자만 중요한 정보에 액세스하도록 지원하는 기본적인 서비스의 세 가지 예입니다.
데이터 감사: 여러 규정 준수 표준에서는 특정 작업을 수행하고 특정 데이터에 액세스한 사용자를 기록하여 데이터 보호 메커니즘에 대한 증거를 요구합니다. Azure SQL Database 및 Azure Synapse Analytics에 대한 감사에 설명된 대로 Azure의 데이터 감사는 감사의 세 가지 측면을 고려합니다.
- 감사할 데이터 동작의 범주를 정의할 수 있는, 선택한 이벤트에 대한 감사 내역을 ‘보존’합니다.
- 데이터베이스 작업에 대해 ‘보고’합니다. 선택적으로 미리 구성된 보고서와 대시보드를 사용하여 빠르게 시작할 수 있습니다.
- 보고서를 분석하여 의심스러운 이벤트, 비정상 작업 및 동향을 보여 줍니다.

성장형 사고방식

학습 단계에서 좋지 않은 소식이 전해지는 경우도 있습니다. 옳다고 생각한 가설이 틀린 것으로 밝혀질 수도 있습니다. 혁신 프로세스를 원활하게 진행하려면 다른 아이디어를 열린 마음으로 받아들이는 자세가 중요합니다. 가설 전체가 틀렸거나, 프로토타입을 개발한 방식만 문제일 수 있습니다.

어떤 경우든 항상 데이터 기반의 결론을 내려야 합니다. 팀은 첫 번째 가설을 수정하거나 반복하여 다음 가설을 도출해야 합니다.

기존 데이터로는 가설의 진위를 명백히 결론짓지 못할 수도 있습니다. 이 경우 의사 결정 프로세스에 도움이 되는 데이터 세트를 향상해야 합니다. 애플리케이션에 새로운 원격 분석 지점을 도입하거나, 고객 경험에 대한 정보를 얻을 새로운 방법을 찾으세요.

이 단계에서는 성장형 사고방식이 기본적으로 필요합니다. 틀렸거나 부분적으로 틀린 것으로 입증된 가설은 배움의 기회로 생각하세요. 조직은 예상한 비즈니스 결과가 나타나지 않는 혁신에 시간을 낭비하지 않아야 합니다.

다음으로 살펴볼 자료

이 단원에서 소개한 여러 개념은 데이터 민주화에 대한 클라우드 채택 프레임워크 설명서에서 자세히 설명합니다.

계속