데이터 과학 엔드 투 엔드 시나리오: 소개 및 아키텍처
이 자습서 집합은 패브릭 데이터 과학 환경의 샘플 엔드 투 엔드 시나리오를 보여 줍니다. 데이터 수집, 클린sing 및 준비에서 기계 학습 모델 학습 및 인사이트 생성에 이르기까지 각 단계를 구현한 다음 Power BI와 같은 시각화 도구를 사용하여 이러한 인사이트를 사용합니다.
Microsoft Fabric을 접하는 경우 Microsoft Fabric이란?을 참조하세요.
소개
데이터 과학 프로젝트의 수명 주기에는 일반적으로 다음 단계(종종 반복)가 포함됩니다.
- 비즈니스 이해
- 데이터 취득
- 데이터 탐색, 클린sing, 준비 및 시각화
- 모델 학습 및 실험 추적
- 모델 채점 및 인사이트 생성
각 단계의 목표 및 성공 기준은 공동 작업, 데이터 공유 및 설명서에 따라 달라집니다. 패브릭 데이터 과학 환경은 원활한 방식으로 협업, 데이터 획득, 공유 및 소비를 가능하게 하는 여러 기본 제공 기능으로 구성됩니다.
이 자습서에서는 은행에서 10,000명의 고객 상태 변동이 포함된 데이터 세트를 탐색, 클린 및 변환하는 작업을 받은 데이터 과학자의 역할을 수행합니다. 그런 다음, 기계 학습 모델을 빌드하여 떠날 가능성이 있는 은행 고객을 예측합니다.
다음 작업을 수행하는 방법을 알아봅니다.
- 데이터 과학 시나리오에 패브릭 Notebook을 사용합니다.
- Apache Spark를 사용하여 패브릭 레이크하우스로 데이터를 수집합니다.
- Lakehouse 델타 테이블에서 기존 데이터를 로드합니다.
- Apache Spark 및 Python 기반 도구를 사용하여 데이터를 정리하고 변환합니다.
- 다양한 기계 학습 모델을 학습하기 위한 실험 및 실행을 만듭니다.
- MLflow 및 패브릭 UI를 사용하여 학습된 모델을 등록하고 추적합니다.
- 대규모로 채점을 실행하고 예측 및 유추 결과를 Lakehouse에 저장합니다.
- DirectLake를 사용하여 Power BI에서 예측을 시각화합니다.
아키텍처
이 자습서 시리즈에서는 다음과 같은 간소화된 엔드 투 엔드 데이터 과학 시나리오를 소개합니다.
- 외부 데이터 원본에서 데이터를 수집합니다.
- 데이터를 탐색하고 클린.
- 기계 학습 모델을 학습하고 등록합니다.
- 일괄 처리 채점을 수행하고 예측을 저장합니다.
- Power BI에서 예측 결과를 시각화합니다.
데이터 과학 시나리오의 다양한 구성 요소
데이터 원본 - Fabric을 사용하면 Azure Data Services, 기타 클라우드 플랫폼 및 온-프레미스 데이터 원본에 쉽고 빠르게 연결하여 데이터를 수집할 수 있습니다. 패브릭 Notebook을 사용하면 기본 제공 Lakehouse, Data Warehouse, 의미 체계 모델 및 다양한 Apache Spark 및 Python 지원 사용자 지정 데이터 원본에서 데이터를 수집할 수 있습니다. 이 자습서 시리즈는 레이크하우스에서 데이터를 수집하고 로드하는 데 중점을 둡니다.
탐색, 클린 및 준비 - Fabric의 데이터 과학 환경은 데이터 랭글러 및 SemPy 라이브러리와 같은 Python 기반 도구뿐만 아니라 Spark의 기본 제공 환경을 사용하여 데이터 클린sing, 변환, 탐색 및 기능화를 지원합니다. 이 자습서에서는 Python 라이브러리 seaborn
를 사용한 데이터 탐색과 Apache Spark를 사용한 데이터 클린 및 준비를 보여 줍니다.
모델 및 실험 - Fabric을 사용하면 실험 추적 및 모델 등록/배포를 위해 MLflow와 원활하게 통합된 기본 제공 실험 및 모델 항목을 사용하여 기계 학습 모델을 학습, 평가 및 채점할 수 있습니다. 패브릭은 또한 비즈니스 인사이트를 얻고 공유하기 위해 PREDICT(대규모 모델 예측)를 위한 기능을 제공합니다.
스토리지 - Fabric은 Delta Lake에서 표준화됩니다. 즉, 패브릭의 모든 엔진이 레이크하우스에 저장된 동일한 데이터 세트와 상호 작용할 수 있습니다. 이 스토리지 계층을 사용하면 파일 기반 스토리지와 테이블 형식을 모두 지원하는 구조화된 데이터와 구조화되지 않은 데이터를 모두 저장할 수 있습니다. 저장된 데이터 세트 및 파일은 Notebook 및 파이프라인과 같은 모든 패브릭 환경 항목을 통해 쉽게 액세스할 수 있습니다.
분석 및 인사이트 노출 - 레이크하우스의 데이터는 보고 및 시각화를 위해 업계 최고의 비즈니스 인텔리전스 도구인 Power BI에서 사용할 수 있습니다. Lakehouse에 유지되는 데이터는 Spark 또는 Python 네이티브 시각화 라이브러리(예: matplotlib
, seaborn
plotly
등)를 사용하여 Notebook에서 시각화할 수도 있습니다. 의미 체계 데이터 모델, 종속성 및 위반, 분류 및 회귀 사용 사례에 대해 기본 제공된 풍부한 작업별 시각화를 지원하는 SemPy 라이브러리를 사용하여 데이터를 시각화할 수도 있습니다.