데이터 과학 엔드 투 엔드 시나리오: 소개 및 아키텍처

이 자습서 집합은 패브릭 데이터 과학 환경의 샘플 엔드 투 엔드 시나리오를 보여 줍니다. 데이터 수집, 클린sing 및 준비에서 기계 학습 모델 학습 및 인사이트 생성에 이르기까지 각 단계를 구현한 다음 Power BI와 같은 시각화 도구를 사용하여 이러한 인사이트를 사용합니다.

Microsoft Fabric을 접하는 경우 Microsoft Fabric이란?을 참조하세요.

소개

데이터 과학 프로젝트의 수명 주기에는 일반적으로 다음 단계(종종 반복)가 포함됩니다.

  • 비즈니스 이해
  • 데이터 취득
  • 데이터 탐색, 클린sing, 준비 및 시각화
  • 모델 학습 및 실험 추적
  • 모델 채점 및 인사이트 생성

각 단계의 목표 및 성공 기준은 공동 작업, 데이터 공유 및 설명서에 따라 달라집니다. 패브릭 데이터 과학 환경은 원활한 방식으로 협업, 데이터 획득, 공유 및 소비를 가능하게 하는 여러 기본 제공 기능으로 구성됩니다.

이 자습서에서는 은행에서 10,000명의 고객 상태 변동이 포함된 데이터 세트를 탐색, 클린 및 변환하는 작업을 받은 데이터 과학자의 역할을 수행합니다. 그런 다음, 기계 학습 모델을 빌드하여 떠날 가능성이 있는 은행 고객을 예측합니다.

다음 작업을 수행하는 방법을 알아봅니다.

  1. 데이터 과학 시나리오에 패브릭 Notebook을 사용합니다.
  2. Apache Spark를 사용하여 패브릭 레이크하우스로 데이터를 수집합니다.
  3. Lakehouse 델타 테이블에서 기존 데이터를 로드합니다.
  4. Apache Spark 및 Python 기반 도구를 사용하여 데이터를 정리하고 변환합니다.
  5. 다양한 기계 학습 모델을 학습하기 위한 실험 및 실행을 만듭니다.
  6. MLflow 및 패브릭 UI를 사용하여 학습된 모델을 등록하고 추적합니다.
  7. 대규모로 채점을 실행하고 예측 및 유추 결과를 Lakehouse에 저장합니다.
  8. DirectLake를 사용하여 Power BI에서 예측을 시각화합니다.

아키텍처

이 자습서 시리즈에서는 다음과 같은 간소화된 엔드 투 엔드 데이터 과학 시나리오를 소개합니다.

  1. 외부 데이터 원본에서 데이터를 수집합니다.
  2. 데이터를 탐색하고 클린.
  3. 기계 학습 모델을 학습하고 등록합니다.
  4. 일괄 처리 채점을 수행하고 예측을 저장합니다.
  5. Power BI에서 예측 결과를 시각화합니다.

Diagram of the Data science end-to-end scenario components.

데이터 과학 시나리오의 다양한 구성 요소

데이터 원본 - Fabric을 사용하면 Azure Data Services, 기타 클라우드 플랫폼 및 온-프레미스 데이터 원본에 쉽고 빠르게 연결하여 데이터를 수집할 수 있습니다. 패브릭 Notebook을 사용하면 기본 제공 Lakehouse, Data Warehouse, 의미 체계 모델 및 다양한 Apache Spark 및 Python 지원 사용자 지정 데이터 원본에서 데이터를 수집할 수 있습니다. 이 자습서 시리즈는 레이크하우스에서 데이터를 수집하고 로드하는 데 중점을 둡니다.

탐색, 클린 및 준비 - Fabric의 데이터 과학 환경은 데이터 랭글러 및 SemPy 라이브러리와 같은 Python 기반 도구뿐만 아니라 Spark의 기본 제공 환경을 사용하여 데이터 클린sing, 변환, 탐색 및 기능화를 지원합니다. 이 자습서에서는 Python 라이브러리 seaborn 를 사용한 데이터 탐색과 Apache Spark를 사용한 데이터 클린 및 준비를 보여 줍니다.

모델 및 실험 - Fabric을 사용하면 실험 추적 및 모델 등록/배포를 위해 MLflow와 원활하게 통합된 기본 제공 실험 및 모델 항목을 사용하여 기계 학습 모델을 학습, 평가 및 채점할 수 있습니다. 패브릭은 또한 비즈니스 인사이트를 얻고 공유하기 위해 PREDICT(대규모 모델 예측)를 위한 기능을 제공합니다.

스토리지 - Fabric은 Delta Lake에서 표준화됩니다. 즉, 패브릭의 모든 엔진이 레이크하우스에 저장된 동일한 데이터 세트와 상호 작용할 수 있습니다. 이 스토리지 계층을 사용하면 파일 기반 스토리지와 테이블 형식을 모두 지원하는 구조화된 데이터와 구조화되지 않은 데이터를 모두 저장할 수 있습니다. 저장된 데이터 세트 및 파일은 Notebook 및 파이프라인과 같은 모든 패브릭 환경 항목을 통해 쉽게 액세스할 수 있습니다.

분석 및 인사이트 노출 - 레이크하우스의 데이터는 보고 및 시각화를 위해 업계 최고의 비즈니스 인텔리전스 도구인 Power BI에서 사용할 수 있습니다. Lakehouse에 유지되는 데이터는 Spark 또는 Python 네이티브 시각화 라이브러리(예: matplotlib, seabornplotly등)를 사용하여 Notebook에서 시각화할 수도 있습니다. 의미 체계 데이터 모델, 종속성 및 위반, 분류 및 회귀 사용 사례에 대해 기본 제공된 풍부한 작업별 시각화를 지원하는 SemPy 라이브러리를 사용하여 데이터를 시각화할 수도 있습니다.

다음 단계