데이터 과학 엔드투엔드 시나리오: 소개 및 아키텍처

이러한 자습서는 패브릭 데이터 과학 환경의 전체 엔드 투 엔드 시나리오를 제공합니다. 그들은 각 단계를 처음부터 다룹니다.

데이터 수집
데이터 정리
데이터 준비

에게

기계 학습 모델 학습
인사이트 생성

그런 다음, 시각화 도구(예: Power BI)를 사용하여 이러한 인사이트 사용을 다룹니다.

Microsoft Fabric을 접하는 사람들은 Microsoft Fabric이란?을 방문해야 합니다.

소개

데이터 과학 프로젝트 수명 주기에는 일반적으로 다음 단계가 포함됩니다.

비즈니스 규칙 이해
데이터 가져오기
데이터 탐색, 정리, 준비 및 시각화
모델 학습 및 실험 추적
모델 점수 매기기 및 인사이트 생성

단계는 종종 반복적으로 진행됩니다. 각 단계의 목표와 성공 조건은 공동 작업, 데이터 공유 및 설명서에 따라 달라집니다. 패브릭 데이터 과학 환경에는 원활한 공동 작업, 데이터 획득, 공유 및 소비를 가능하게 하는 여러 기본 제공 기능이 포함됩니다.

이 자습서에서는 10,000명의 은행 고객의 이탈 상태를 포함하는 데이터 세트를 탐색, 정리 및 변환해야 하는 데이터 과학자의 역할을 수행합니다. 그런 다음, 기계 학습 모델을 빌드하여 어떤 은행 고객이 떠날지 예측합니다.

자습서에서 다음 작업을 수행합니다.

데이터 과학 시나리오에 Fabric Notebook 사용
Apache Spark를 사용하여 패브릭 레이크하우스로 데이터 수집
레이크하우스 델타 테이블에서 기존 데이터 로드
Apache Spark 및 Python 기반 도구를 사용하여 데이터 정리 및 변환
다양한 기계 학습 모델을 학습하는 실험 및 실행 만들기
MLflow 및 패브릭 UI를 사용하여 학습된 모델 등록 및 추적
대규모로 점수 매기기를 실행하고 예측 및 유추 결과를 레이크하우스에 저장합니다.
DirectLake를 사용하여 Power BI에서 예측 시각화

아키텍처

이 자습서 시리즈에서는 다음과 같은 간소화된 엔드 투 엔드 데이터 과학 시나리오를 보여 줍니다.

데이터 과학 시나리오의 다양한 구성 요소

데이터 원본 - Fabric을 사용하여 데이터를 수집하려면 Azure Data Services, 기타 클라우드 플랫폼 및 온-프레미스 데이터 리소스에 쉽고 빠르게 연결할 수 있습니다. Fabric Notebooks를 사용하면 다음 리소스에서 데이터를 수집할 수 있습니다.

기본 제공 레이크하우스
데이터 웨어하우스
의미 체계 모델
다양한 Apache Spark 데이터 원본
Python을 지원하는 다양한 데이터 원본

이 자습서 시리즈는 레이크하우스에서 데이터 수집 및 로드에 중점을 둡니다.

탐색, 정리 및 준비 - Fabric 데이터 과학 환경은 데이터 정리, 변환, 탐색 및 기능화를 지원합니다. 기본 제공 Spark 환경 및 Python 기반 도구(예: 데이터 랭글러 및 SemPy 라이브러리)를 사용합니다. 이 자습서에서는 Python 라이브러리를 사용한 seaborn 데이터 탐색과 Apache Spark를 사용한 데이터 정리 및 준비를 보여 줍니다.

모델 및 실험 - Fabric을 사용하면 기본 제공 실험을 사용하여 기계 학습 모델을 학습, 평가 및 채점할 수 있습니다. 모델을 등록 및 배포하고 실험을 추적하기 위해 MLflow 는 항목을 모델링하는 방법으로 Fabric과 원활하게 통합됩니다. 비즈니스 인사이트를 빌드하고 공유하기 위해 Fabric은 비즈니스 인사이트를 빌드하고 공유하기 위해 PREDICT(모델 예측)를 위한 다른 기능을 제공합니다.

스토리지 - 패브릭은 Delta Lake에서 표준화됩니다. 즉, 모든 패브릭 엔진이 레이크하우스에 저장된 동일한 데이터 세트와 상호 작용할 수 있습니다. 해당 스토리지 계층을 사용하면 파일 기반 스토리지와 테이블 형식을 모두 지원하는 구조화된 데이터와 구조화되지 않은 데이터를 모두 저장할 수 있습니다. 모든 패브릭 환경 항목(예: Notebook 및 파이프라인)을 통해 데이터 세트 및 저장된 파일에 쉽게 액세스할 수 있습니다.

분석 및 인사이트 노출 - 업계 최고의 비즈니스 인텔리전스 도구인 Power BI는 보고서 및 시각화 생성을 위해 Lakehouse 데이터를 사용할 수 있습니다. 노트북 리소스에서 Python 또는 Spark 네이티브 시각화 라이브러리

matplotlib
seaborn
plotly
등.

는 레이크하우스에 유지되는 데이터를 시각화할 수 있습니다. SemPy 라이브러리는 데이터 시각화도 지원합니다. 이 라이브러리는 다음에 대한 풍부한 작업별 시각화를 기본적으로 지원합니다.

의미 체계 데이터 모델
종속성 및 해당 위반
분류 및 회귀 사용 사례

다음 단계

데이터 과학 자습서를 위한 시스템 준비

피드백

이 페이지가 도움이 되었나요?

Last updated on 2025-04-22

데이터 과학 엔드투엔드 시나리오: 소개 및 아키텍처

소개

아키텍처

데이터 과학 시나리오의 다양한 구성 요소

다음 단계

피드백

추가 리소스