데이터 보강 및 비즈니스 인사이트를 위해 Microsoft Fabric은 사용자가 엔드 투 엔드 데이터 과학 워크플로를 빌드할 수 있도록 하는 데이터 과학 환경을 제공합니다. 전체 데이터 과학 프로세스에서 다양한 활동을 완료할 수 있습니다.
- 데이터 탐색
- 데이터 준비
- 데이터 정리
- 실험
- 모델링
- 모델 채점
- BI 보고서에 예측 인사이트 제공
Microsoft Fabric 사용자는 데이터 과학 홈페이지에 액세스할 수 있습니다. 그런 다음, 다음 스크린샷과 같이 다양한 관련 리소스를 검색하고 액세스할 수 있습니다.
대부분의 기계 학습 프로젝트는 데이터 과학 프로세스를 따릅니다. 높은 수준에서 해당 프로세스에는 다음 단계가 포함됩니다.
- 문제 공식화 및 아이디어
- 데이터 검색 및 전처리
- 실험 및 모델링
- 보강 및 운영
- 인사이트 개발
이 문서에서는 데이터 과학 프로세스 관점에서 Microsoft Fabric 데이터 과학 기능에 대해 설명합니다. 데이터 과학 프로세스의 각 단계에 대해 도움이 되는 Microsoft Fabric 기능이 요약되어 있습니다.
문제 공식화 및 아이디어
Microsoft Fabric의 데이터 과학 사용자는 비즈니스 사용자 및 분석가와 동일한 플랫폼에서 작동합니다. 결과적으로 데이터 공유 및 협업은 서로 다른 역할 간에 더 원활하게 진행됩니다. 분석가는 Power BI 보고서 및 데이터 세트를 데이터 과학 실무자와 쉽게 공유할 수 있습니다. Microsoft Fabric의 역할 간 공동 작업의 용이성을 통해 문제 공식화 단계에서 손쉽게 작업을 할 수 있습니다.
데이터 검색 및 전처리
Microsoft Fabric 사용자는 Lakehouse 리소스를 사용하여 OneLake의 데이터와 상호 작용할 수 있습니다. 데이터를 찾아보고 상호 작용하기 위해 Lakehouse는 전자 필기장에 쉽게 연결합니다. 사용자는 Lakehouse에서 Pandas 데이터 프레임으로 직접 데이터를 쉽게 읽을 수 있습니다. 탐색을 위해 OneLake에서 원활한 데이터를 읽는 것이 가능해집니다.
Microsoft Fabric의 고유하게 통합된 부분인 데이터 통합 파이프라인을 사용하여 데이터 수집 및 데이터 오케스트레이션 파이프라인에 강력한 도구 세트를 사용할 수 있습니다. 데이터 파이프라인을 손쉽게 빌드하고 기계 학습에 사용할 수 있는 형식으로 데이터를 변환하여 이용할 수 있습니다.
데이터 탐색
기계 학습 프로세스의 중요한 부분은 탐색 및 시각화를 통해 데이터를 이해하는 것입니다.
데이터 스토리지 위치에 따라 Microsoft Fabric은 분석 및 기계 학습을 위해 데이터를 탐색하고 준비하는 도구를 제공합니다. Notebook 자체는 효율적이고 효과적인 데이터 탐색 도구가 됩니다.
데이터 준비를 위한 Apache Spark 및 Python
Microsoft Fabric은 대규모로 데이터를 변환, 준비 및 탐색할 수 있습니다. Spark를 사용하면 사용자는 PySpark/Python, Scala 및 SparkR/SparklyR 도구를 사용하여 대규모로 데이터를 전처리할 수 있습니다. 강력한 오픈 소스 시각화 라이브러리는 더 나은 데이터 이해를 위해 데이터 탐색 환경을 향상시킬 수 있습니다.
원활한 데이터 정리를 위한 Data Wrangler
데이터 랭글러를 사용하기 위해 Microsoft Fabric Notebook 환경은 데이터를 준비하고 Python 코드를 생성하는 코드 도구 기능을 추가했습니다. 이 경험을 통해 지루하고 일상적인 작업(예: 데이터 정리)을 쉽게 가속화할 수 있습니다. 이를 통해 생성된 코드를 통해 자동화 및 반복성을 빌드할 수도 있습니다. 이 문서의 Data Wrangler 섹션에서 Data Wrangler에 대해 자세히 알아봅니다.
실험 및 ML 모델링
PySpark/Python 및 SparklyR/R과 같은 도구를 사용하여 Notebook은 기계 학습 모델 학습을 처리할 수 있습니다. 기계 학습 알고리즘 및 라이브러리는 기계 학습 모델을 학습시키는 데 도움이 될 수 있습니다. 라이브러리 관리 도구는 이러한 라이브러리 및 알고리즘을 설치할 수 있습니다. 그런 다음 사용자는 인기 있는 기계 학습 라이브러리를 사용하여 Microsoft Fabric에서 ML 모델 학습을 완료할 수 있습니다. 또한 Scikit Learn과 같이 인기 있는 라이브러리는 모델을 개발할 수도 있습니다.
MLflow 실험 및 실행은 ML 모델 학습을 추적할 수 있습니다. 실험 및 모델을 기록하기 위해 Microsoft Fabric은 상호 작용을 지원하는 기본 제공 MLflow 환경을 제공합니다. MLflow를 사용하여 Microsoft Fabric에서 실험을 추적하고 모델을 관리하는 방법에 대해 자세히 알아봅니다.
SynapseML
Microsoft는 SynapseML(이전에는 MMLSpark라고도 함) 오픈 소스 라이브러리를 소유하고 운영합니다. 확장성이 뛰어난 기계 학습 파이프라인 생성을 간소화합니다. 도구의 에코시스템으로서 Apache Spark 프레임워크를 몇 가지 새로운 방향으로 확장합니다. SynapseML은 여러 기존 기계 학습 프레임워크와 새로운 Microsoft 알고리즘을 확장 가능한 단일 API로 통합합니다. 오픈 소스 SynapseML 라이브러리에는 예측 모델 개발을 위한 풍부한 ML 도구 에코시스템이 포함되어 있으며 Azure AI 서비스의 미리 학습된 AI 모델을 사용합니다. 자세한 내용은 SynapseML 리소스를 참조하세요.
보강 및 조작
Notebook은 예측을 위해 오픈 소스 라이브러리를 사용하여 기계 학습 모델 일괄 처리 채점을 처리할 수 있습니다. 또한 Microsoft Fabric 확장 가능한 유니버설 Spark Predict 함수를 처리할 수도 있습니다. 이 함수는 Microsoft Fabric 모델 레지스트리에서 MLflow 패키지 모델을 지원합니다.
인사이트 얻기
Microsoft Fabric에서는 예측 값을 OneLake에 쉽게 쓸 수 있습니다. 이로부터 Power BI 보고서는 Power BI Direct Lake 모드를 통해 데이터를 원활하게 활용할 수 있습니다. 그런 다음 데이터 과학 실무자는 작업 결과를 이해 관계자와 쉽게 공유할 수 있으며 운영화를 간소화합니다.
Notebook 예약 기능을 사용하여 일괄 처리 점수 매기기를 포함하는 Notebook 실행을 예약할 수 있습니다. 데이터 파이프라인 작업 또는 Spark 작업의 일부로 일괄 처리 채점을 예약할 수도 있습니다. Microsoft Fabric의 Direct Lake 모드를 사용하면 Power BI는 데이터 로드 또는 새로 고침 없이 최신 예측을 자동으로 가져옵니다.
의미 체계 링크를 사용하여 데이터 탐색
데이터 과학자와 비즈니스 분석가는 의미 있는 분석을 시작하기 전에 데이터를 이해하고, 정리하고, 변환하는 데 많은 시간을 할애합니다. 비즈니스 분석가는 일반적으로 의미 체계 모델을 사용하고 도메인 지식 및 비즈니스 논리를 Power BI 측정값으로 인코딩합니다. 반면에 데이터 과학자는 동일한 데이터로 작업할 수 있지만 일반적으로 다른 코드 환경이나 언어에서 작업할 수 있습니다. 의미 체계 링크를 통해 데이터 과학자는 SemPy Python 라이브러리를 통해 Microsoft Fabric 환경에서 Power BI 의미 체계 모델과 Synapse 데이터 과학 간의 연결을 설정할 수 있습니다. 데이터 분석을 간소화하기 위해 SemPy는 사용자가 의미 체계 모델에서 다양한 변환을 수행할 때 데이터 의미 체계를 캡처하고 사용합니다. 데이터 과학자가 semantic link를 사용하는 경우,
- 코드에서 비즈니스 논리 및 도메인 지식을 다시 구현하지 마세요.
- 코드에서 Power BI 측정값에 쉽게 액세스하고 사용
- 의미 체계를 사용하여 새 환경(예: 의미 체계 함수)에 전원을 공급합니다.
- 데이터 간의 기능 종속성 및 관계 탐색 및 유효성 검사
조직에서 SemPy를 사용하는 경우 예상할 수 있습니다.
- 동일한 데이터 세트에 대해 작동하는 팀 간 생산성 향상 및 더 빠른 공동 작업
- 비즈니스 인텔리전스 및 AI 팀 간 협업 향상
- 새 모델 또는 데이터 세트에 온보딩할 때 모호성이 감소하고 학습 곡선이 더 쉬워집니다.
의미 체계 링크에 대한 자세한 내용은 의미 체계 링크란? 리소스를 방문하세요.
관련 콘텐츠
- 데이터 과학 자습서를 방문하여 엔드 투 엔드 데이터 과학 샘플을 시작하세요.
- 데이터 랭글러를 사용하여 데이터 준비 및 정리에 대한 자세한 내용은 데이터 랭글러를 방문하세요.
- 기계 학습 실험을 방문하여 실험 추적에 대한 자세한 정보를 알아보세요.
- 모델 관리에 대해 자세히 알아보려면 Machine Learning 모델을 방문하세요.
- PREDICT를 사용하여 모델 점수 매기기 페이지를 방문하여 Predict를 통한 일괄 처리 점수 계산에 대해 자세히 알아보기.
- 직접 레이크 모드를 사용하여 Power BI에 Lakehouse 예측 제공