Microsoft Fabric의 데이터 과학란?

Microsoft Fabric은 사용자가 데이터 보강 및 비즈니스 인사이트를 위해 엔드 투 엔드 데이터 과학 워크플로를 완료할 수 있도록 하는 데이터 과학 환경을 제공합니다. 데이터 탐색, 준비 및 클린부터 실험, 모델링, 모델 점수 매기기 및 예측 인사이트 제공에서 BI 보고서에 이르기까지 전체 데이터 과학 프로세스에서 광범위한 활동을 완료할 수 있습니다.

Microsoft Fabric 사용자는 데이터 과학 홈페이지에 액세스할 수 있습니다. 여기에서 다양한 관련 리소스를 검색하고 액세스할 수 있습니다. 예를 들어 기계 학습 실험, 모델 및 Notebook을 만들 수 있습니다. 데이터 과학 홈페이지에서 기존 전자 필기장을 가져올 수도 있습니다.

데이터 과학 홈페이지의 스크린샷.

일반적인 데이터 과학 프로세스의 작동 방식을 알 수 있습니다. 잘 알려진 프로세스로, 대부분의 기계 학습 프로젝트는 이를 따릅니다.

높은 수준에서 프로세스에는 다음 단계가 포함됩니다.

  • 문제 공식화 및 아이디어
  • 데이터 검색 및 사전 처리
  • 실험 및 모델링
  • 보강 및 운영
  • 인사이트 얻기

데이터 과학 프로세스의 다이어그램.

이 문서에서는 데이터 과학 프로세스 관점에서 Microsoft Fabric 데이터 과학 기능에 대해 설명합니다. 데이터 과학 프로세스의 각 단계에 대해 이 문서에서는 도움이 될 수 있는 Microsoft Fabric 기능을 요약합니다.

문제 공식화 및 아이디어

Microsoft Fabric의 데이터 과학 사용자는 비즈니스 사용자 및 분석가와 동일한 플랫폼에서 작동합니다. 결과적으로 데이터 공유 및 협업은 서로 다른 역할 간에 더 원활하게 진행됩니다. 분석가는 Power BI 보고서 및 데이터 세트를 데이터 과학 실무자와 쉽게 공유할 수 있습니다. Microsoft Fabric의 역할 간 공동 작업의 용이성을 통해 문제 공식화 단계에서 손쉽게 작업을 할 수 있습니다.

데이터 검색 및 사전 처리

Microsoft Fabric 사용자는 Lakehouse 항목을 사용하여 OneLake의 데이터와 상호 작용할 수 있습니다. Lakehouse는 전자 필기장에 쉽게 연결하여 데이터를 찾아보고 상호 작용합니다.

사용자는 Lakehouse에서 Pandas 데이터 프레임으로 직접 데이터를 쉽게 읽을 수 있습니다. 탐색을 위해 OneLake에서 원활한 데이터 읽기를 가능하게 합니다.

Microsoft Fabric의 고유하게 통합된 부분인 데이터 통합 파이프라인을 사용하여 데이터 수집 및 데이터 오케스트레이션 파이프라인에 강력한 도구 집합을 사용할 수 있습니다. 빌드하기 쉬운 데이터 파이프라인은 데이터에 액세스하고 기계 학습에서 사용할 수 있는 형식으로 변환할 수 있습니다.

데이터 탐색

기계 학습 프로세스의 중요한 부분은 탐색 및 시각화를 통해 데이터를 이해하는 것입니다.

데이터 스토리지 위치에 따라 Microsoft Fabric은 분석 및 기계 학습을 위해 데이터를 탐색하고 준비하는 다양한 도구 집합을 제공합니다. Notebook은 데이터 탐색을 시작하는 가장 빠른 방법 중 하나가 됩니다.

데이터 준비를 위한 Apache Spark 및 Python

Microsoft Fabric은 대규모로 데이터를 변환, 준비 및 탐색하는 기능을 제공합니다. Spark를 사용하면 사용자는 PySpark/Python, Scala 및 SparkR/SparklyR 도구를 활용하여 대규모로 데이터 사전 처리를 수행할 수 있습니다. 강력한 오픈 소스 시각화 라이브러리는 데이터를 더 잘 이해할 수 있도록 데이터 탐색 환경을 향상시킬 수 있습니다.

원활한 데이터 클린sing을 위한 데이터 랭글러

Microsoft Fabric Notebook 환경은 데이터를 준비하고 Python 코드를 생성하는 코드 도구인 데이터 랭글러를 사용하는 기능을 추가했습니다. 이 환경을 사용하면 지루하고 일상적인 작업(예: 데이터 클린sing)을 쉽게 가속화하고 생성된 코드를 통해 반복성 및 자동화를 빌드할 수 있습니다. 이 문서의 데이터 랭글러 섹션에서 데이터 랭글러에 대해 자세히 알아봅니다.

실험 및 ML 모델링

PySpark/Python, SparklyR/R과 같은 도구를 사용하여 Notebook은 기계 학습 모델 학습을 처리할 수 있습니다.

ML 알고리즘 및 라이브러리는 기계 학습 모델을 학습시키는 데 도움이 될 수 있습니다. 라이브러리 관리 도구는 이러한 라이브러리 및 알고리즘을 설치할 수 있습니다. 따라서 사용자는 널리 사용되는 다양한 기계 학습 라이브러리를 활용하여 Microsoft Fabric에서 ML 모델 학습을 완료할 수 있습니다.

또한 Scikit Learn과 같은 인기 있는 라이브러리도 모델을 개발할 수 있습니다.

MLflow 실험 및 실행은 ML 모델 학습을 추적할 수 있습니다. Microsoft Fabric은 사용자가 실험 및 모델을 기록하기 위해 상호 작용할 수 있는 기본 제공 MLflow 환경을 제공합니다. MLflow를 사용하여 Microsoft Fabric에서 실험을 추적하고 모델을 관리하는 방법에 대해 자세히 알아봅니다.

SynapseML

Microsoft가 소유하고 기본 있는 SynapseML(이전에는 MMLSpark라고도 함) 오픈 소스 라이브러리는 확장성이 뛰어난 기계 학습 파이프라인 생성을 간소화합니다. 도구 에코시스템으로서 Apache Spark 프레임워크를 몇 가지 새로운 방향으로 확장합니다. SynapseML은 여러 기존 기계 학습 프레임워크와 새로운 Microsoft 알고리즘을 확장 가능한 단일 API로 통합합니다. 오픈 소스 SynapseML 라이브러리에는 예측 모델 개발을 위한 풍부한 ML 도구 에코시스템과 Azure AI 서비스에서 미리 학습된 AI 모델을 활용합니다. SynapseML에 대해 자세히 알아보세요.

보강 및 운영

Notebook은 예측을 위해 오픈 소스 라이브러리를 사용하여 기계 학습 모델 일괄 처리 채점을 처리하거나 Microsoft Fabric 모델 레지스트리에서 MLflow 패키지 모델을 지원하는 Microsoft Fabric 확장 가능한 유니버설 Spark Predict 함수를 처리할 수 있습니다.

인사이트 얻기

Microsoft Fabric에서 예측 값을 OneLake에 쉽게 쓸 수 있으며 Power BI Direct Lake 모드를 사용하여 Power BI 보고서에서 원활하게 사용할 수 있습니다. 이렇게 하면 데이터 과학 실무자가 관련자와 작업 결과를 매우 쉽게 공유할 수 있으며 운영화도 간소화됩니다.

일괄 처리 점수 매기기를 포함하는 Notebook은 Notebook 예약 기능을 사용하여 실행되도록 예약할 수 있습니다. 일괄 처리 채점은 데이터 파이프라인 작업 또는 Spark 작업의 일부로 예약할 수도 있습니다. Power BI는 Microsoft Fabric의 Direct Lake 모드 덕분에 데이터를 로드하거나 새로 고칠 필요 없이 최신 예측을 자동으로 가져옵니다.

Important

이 기능은 미리 보기로 제공됩니다.

데이터 과학자와 비즈니스 분석가는 의미 있는 분석을 시작하기 전에 데이터를 이해하고, 클린, 변환하는 데 많은 시간을 할애합니다. 비즈니스 분석가는 일반적으로 의미 체계 모델을 사용하여 작업하고 해당 작업기본 지식 및 비즈니스 논리를 Power BI 측정값으로 인코딩합니다. 반면에 데이터 과학자는 동일한 데이터로 작업할 수 있지만 일반적으로 다른 코드 환경이나 언어에서 작업할 수 있습니다.

의미 체계 링크(미리 보기)를 사용하면 데이터 과학자가 SemPy Python 라이브러리를 통해 Power BI 의미 체계 모델과 Microsoft Fabric 환경의 Synapse 데이터 과학 간에 연결을 설정할 수 있습니다. SemPy는 사용자가 의미 체계 모델에서 다양한 변환을 수행할 때 데이터 의미 체계를 캡처하고 활용하여 데이터 분석을 간소화합니다. 의미 체계 링크를 활용하여 데이터 과학자는 다음을 수행할 수 있습니다.

  • 비즈니스 논리를 다시 구현하고 코드에서 지식을 기본 필요가 없습니다.
  • 코드에서 Power BI 측정값에 쉽게 액세스하고 사용
  • 의미 체계를 사용하여 의미 체계 함수와 같은 새로운 환경에 전원을 공급합니다.
  • 데이터 간의 기능 종속성 및 관계 탐색 및 유효성 검사

조직은 SemPy를 사용하여 다음을 확인할 수 있습니다.

  • 동일한 데이터 세트에 대해 작동하는 팀 간 생산성 향상 및 더 빠른 공동 작업
  • 비즈니스 인텔리전스 및 AI 팀 간 협업 향상
  • 새 모델 또는 데이터 세트에 온보딩할 때 모호성이 감소되고 학습 곡선이 더 쉬워집니다.

의미 체계 링크 에 대한 자세한 내용은 의미 체계 링크란?(미리 보기)을 참조하세요.

  • 엔드 투 엔드 데이터 과학 샘플 시작, 데이터 과학 자습서 참조
  • 데이터 랭글러를 사용하여 데이터 준비 및 클린sing에 대한 자세한 내용은 데이터 랭글러를 참조하세요.
  • 실험 추적에 대한 자세한 내용은 Machine Learning 실험을 참조하세요 .
  • 모델 관리에 대한 자세한 내용은 Machine Learning 모델을 참조 하세요.
  • Predict를 사용하여 일괄 처리 채점에 대한 자세한 내용은 PREDICT를 사용하여 모델 점수 매기기 참조
  • 직접 레이크 모드를 사용하여 Lakehouse에서 Power BI로 예측 제공