데이터 분석 프로세스 살펴보기

완료됨

데이터 분석은 의사 결정을 지원하기 위해 데이터를 수집, 변환 및 표시하는 프로세스입니다. 분석 솔루션 개발은 기술이 관련되기 전에 시작되며 요구 사항 수집 활동이 포함됩니다. 여기에서 프로세스는 데이터 수집, 처리 및 탐색으로 이어집니다. 분석 및 솔루션 배포 후에는 비즈니스 팀에 피드백을 요청합니다. 마지막으로 분석 솔루션이 최적화되고 프로세스가 다시 시작됩니다. 분석 프로세스는 완료가 없습니다.

Steps in the data anlytics process portrayed in a circular process, beginning with requirements gathering, then data ingestion and processing, the data exploration, then data analysis, then deploy analytics solution, then request and process feedback, and finally optimize solution. Arrow indicates that process begins again.

여기서는 데이터 분석 프로세스에 포함된 단계를 알아봅니다.

요구 사항 수집

데이터 팀은 비즈니스 팀과 협력하여 비즈니스 요구 사항과 분석 프로젝트에서 의도하는 결과를 이해합니다. 요구 사항 수집에서는 다음과 같은 사항을 식별합니다.

  • 주요 비즈니스 질문은 무엇인가?
  • 어떤 데이터를 사용할 수 있는가? 사용 가능한 데이터가 비즈니스 요구 사항에 대응하는가 아니면 더 많은 데이터를 수집해야 하는가?
  • 필수 차원은 무엇인가 - 관련자가 어떻게 데이터를 분할할 것인가?
  • 핵심 성과 지표 또는 성능 메트릭은 무엇인가?
  • 사용자는 분석을 어떻게 사용하는가?
  • 데이터 수집 빈도는 무엇인가?
  • 보고 빈도는 무엇인가?

데이터 팀이 위와 같은 질문에 대해 논의하지 않고도 대량의 데이터에서 인사이트를 추출할 수 있다는 것은 일반적인 오해입니다. 데이터 팀은 구조화된 요구 사항 수집 프로세스를 따르지 않고서는 적절한 유형의 분석 및/또는 올바른 솔루션을 결정할 수 없습니다.

요구 사항 수집은 팀 구조, 데이터 볼륨 및 속도, 필요한 분석 유형에 따라 다양한 형태를 띨 수 있습니다.

데이터 수집 및 처리

비즈니스 팀에서 수집한 요구 사항을 사용하여 데이터 팀은 데이터 수집 및 변환을 시작합니다.

수집 및 변환에 사용할 수 있는 Azure 데이터 서비스에는 Azure Cosmos DB, Azure SQL Database, Azure Synapse Analytics, Azure Databricks, Azure Data Lake, Azure Event Hubs, Azure Stream Analytics 등이 있습니다.

데이터 엔지니어가 데이터의 초기 수집 및 변환을 담당하는 경우가 많습니다. 그런 다음 데이터는 탐색 및 분석을 위해 데이터 팀의 다른 구성원에게 제공됩니다. 엔터프라이즈 데이터 분석가 및 데이터 과학자가 일반적으로 사용하는 Azure 데이터 서비스는 특정 데이터베이스 또는 데이터 레이크로 제한될 수 있습니다.

ETL(추출, 변환 및 로드) 또는 ELT(추출, 로드 및 변환)라는 용어는 데이터를 수집하고 처리하는 프로세스를 나타냅니다.

참고

ETL 프로세스에 대해 자세히 알아보세요.

데이터 살펴보기

데이터 탐색은 작업 중인 데이터가 비즈니스 요구 사항에 어떻게 대응할 수 있는지 파악하기 위한 노력입니다. 데이터 탐색은 다양한 도구에서 수행할 수 있습니다. 기본 수준에서 데이터 팀은 Excel을 사용하여 .csv 파일을 통해 레코드 수 및/또는 탐색해야 하는 특정 변수를 볼 수 있습니다. 데이터 팀의 각 구성원은 서로 다른 도구에서 데이터 프로파일링을 수행할 수 있습니다. 분석가가 Power BI에서 파워 쿼리를 사용하여 데이터를 프로파일링하고 데이터 과학자가 Azure Synapse에서 Apache Spark를 사용할 수 있습니다.

데이터 탐색은 필요한 데이터 변환 및 정리 단계를 파악하는 데 도움이 되며, 분석 솔루션에 포함시키기 위해 데이터 엔지니어에게 백업 업스트림으로 전달될 수 있습니다.

분석가는 데이터 탐색 단계에서 대시보드 또는 보고서 프로토타입 만들기를 시작할 수도 있습니다. 데이터 탐색 중에 발견된 추세 및 인사이트와 함께 비즈니스 팀에서 분석 결과를 보고 사용하는 방법을 이해하면 어떤 프로토타입을 만들어야 할지 파악할 수 있습니다.

데이터 분석

데이터를 탐색한 후 데이터 분석을 시작할 수 있습니다. 분석은 설명적, 예측적, 규범적 또는 인지적일 수 있으며 다양한 도구에서 수행할 수 있습니다. 결과는 식별된 비즈니스 요구 사항에 대응해야 하며 초기 검토 시 더 많은 질문과 분석으로 이어질 수 있습니다.

일회성 분석과 분석 솔루션 간에는 차이가 있습니다. 둘 다 제 용도가 있으며 무엇이 필요한지는 요구 사항을 수집하는 과정에서 결정됩니다.

분석 솔루션 배포

결과는 Microsoft Power BI 같은 보고 또는 데이터 시각화 도구에서 관련자에게 제공됩니다. 그러면 의사 결정을 위해 분석 결과를 조작하고 사용할 수 있습니다.

분석 솔루션 배포의 주요 고려 사항은 데이터를 필요로 하는 모든 사람에게 데이터를 제공하는 데 필요한 올바른 도구, 라이선스 및 권한을 결정하는 데 도움이 됩니다. 시기 적절하게 인사이트에 액세스할 수 있으면 궁극적으로 데이터에 기반한 의사 결정으로 이어집니다.

피드백 요청 및 처리

분석 솔루션 배포가 결승선처럼 느껴질 수 있지만 몇 가지 주요 질문에 대한 답변을 이해하는 것이 중요합니다.

  • 데이터 제품이 사용되고 있는가?
  • 분석이 진정으로 비즈니스 요구 사항을 충족하는가?
  • 솔루션에 예기치 않은 기술적 문제가 있는가?
  • 데이터 제품에 액세스할 수 있는가?
  • 이 분석에서 제기하는 새로운 비즈니스 질문은 무엇인가?

분석 솔루션을 사용하는 개인은 고객이며, 빌드한 제품이 요구 사항을 적절히 충족하지 않는 경우 수행해야 할 작업이 있습니다.

피드백을 요청하는 매체는 여러 가지가 있습니다. 솔루션을 처음 릴리스할 때는 정기적인 검토 모임이 필요할 수 있지만, 진행 중인 프로젝트의 사용량 메트릭을 모니터링하면 시간에 따른 사용량과 솔루션에서 유용하지 않은 영역을 이해하는 데 도움이 됩니다.

솔루션 최적화

사용자의 피드백을 구현하는 것은 논리적으로 분석 솔루션 최적화를 위한 첫 번째 단계입니다. 예를 들어 할당된 시간에 데이터 새로 고침이 수행되도록 하여 프로세스에서 대기 시간을 제거할 수 있는 기회일 수도 있습니다. 최적화는 시각적 개체 디자인을 조정하거나 보고서 시각적 개체가 신속하게 렌더링되도록 하여 사용자 요구를 보다 정확하게 반영하는 것을 의미할 수도 있습니다.

다시 시작

분석 프로세스는 본질적으로 순환적입니다. 데이터 및 인사이트를 노출하면 더 많은 분석을 요청하는 경우가 많고, 이로 인해 더 많은 피드백이 발생하는 식입니다. 대규모 데이터 팀에서 분석 프로세스는 세분화된 작업으로 발생할 수 있습니다. 여러 팀 구성원이 프로세스의 다음 단계로 이동하기 전에 세분화된 목표를 달성하기 위해 동시에 작업하는 것입니다. 소규모 팀에서는 한 구성원이 여러 역할을 담당할 수 있으므로 프로세스가 다르게 보일 수 있습니다.

프로세스가 어떤 모습인지 관계없이 의사 소통은 전반적으로 중요한 구성 요소입니다. 데이터 팀은 솔루션 개발이 비즈니스 요구 사항과 데이터에 나타날 수 있는 요구에 대응하도록 서로 의사 소통하고 비즈니스 팀과 대화해야 합니다.