기계 학습 모델 학습

Microsoft Fabric의 Apache Spark를 사용하면 빅 데이터로 기계 학습을 수행할 수 있으므로 많은 양의 구조화되고 구조화되지 않고 빠르게 이동하는 데이터에서 귀중한 인사이트를 얻을 수 있습니다. Microsoft Fabric에서 Apache Spark를 사용하여 기계 학습 모델을 학습할 때는 Apache Spark MLlib, SynapseML 및 기타 다양한 오픈 소스 라이브러리와 같은 몇 가지 옵션이 있습니다.

Apache SparkML 및 MLlib

Microsoft Fabric의 Apache Spark는 메모리 내 처리를 지원하는 통합 오픈 소스 병렬 데이터 처리 프레임워크를 제공하여 빅 데이터 분석을 향상시킵니다. 속도, 간편한 사용 및 정교한 분석을 위해 Spark 처리 엔진이 빌드되었습니다. Spark는 메모리 내 분산형 계산 기능을 지원하여 기계 학습 및 그래프 계산에 사용된 반복 알고리즘에 적합합니다.

이 분산 환경에 알고리즘 모델링 기능을 제공하는 확장 가능한 기계 학습 라이브러리에는 MLlib 및 SparkML이라는 두 가지가 있습니다. MLlib에는 RDD를 기반으로 빌드된 원래 API가 포함되어 있습니다. SparkML은 ML 파이프라인을 생성하기 위해 데이터 프레임에 기반하여 빌드된 높은 수준의 고급 API를 제공하는 새로운 패키지입니다. SparkML은 아직 MLlib의 모든 기능을 지원하지 않지만 MLlib를 Spark의 표준 기계 학습 라이브러리로 대체하고 있습니다.

참고 항목

Apache Spark MLlib를 사용하여 모델 학습 문서에서 SparkML 모델을 만드는 방법에 대해 자세히 알아볼 수 있습니다.

Apache Spark용 Microsoft Fabric 런타임에는 기계 학습 모델 학습을 위한 몇 가지 인기 있는 오픈 소스 패키지가 포함되어 있습니다. 이러한 라이브러리는 프로그램이나 프로젝트에 포함할 수 있는 재사용 가능한 코드를 제공합니다. 기본적으로 포함되는 관련 기계 학습 라이브러리 중 일부는 다음과 같습니다.

  • Scikit-learn 은 클래식 ML 알고리즘에 가장 인기 있는 단일 노드 기계 학습 라이브러리 중 하나입니다. Scikit-learn은 대부분의 지도 및 비지도 학습 알고리즘을 지원하며 데이터 마이닝 및 데이터 분석에도 사용할 수 있습니다.

  • XGBoost 는 의사 결정 트리 및 임의 포리스트를 학습하기 위한 최적화된 알고리즘을 포함하는 인기 있는 기계 학습 라이브러리입니다.

  • PyTorchTensorflow 는 강력한 Python 딥 러닝 라이브러리입니다. 이러한 라이브러리를 사용하여 풀의 실행기 수를 0으로 설정하여 단일 컴퓨터 모델을 빌드할 수 있습니다. Apache Spark는 이 구성에서 작동하지 않지만 단일 머신 모델을 만드는 간단하고 비용 효율적인 방법입니다.

SynapseML

SynapseML (이전에는 MMLSpark라고도 함)은 ML(대규모 확장성 기계 학습) 파이프라인 생성을 간소화하는 오픈 소스 라이브러리입니다. 이 라이브러리는 Spark에서 데이터 과학자의 생산성을 높이고, 실험 속도를 높이고, 대규모 데이터 세트에 딥 러닝을 포함한 최첨단 기계 학습 기술을 활용하도록 설계되었습니다.

SynapseML은 문자열 인덱싱, 기계 학습 알고리즘에서 예상하는 레이아웃으로 데이터 강제 변환, 기능 벡터 어셈블과 같은 확장 가능한 ML 모델을 빌드할 때 SparkML의 하위 수준 API 위에 계층을 제공합니다. SynapseML 라이브러리는 PySpark에서 모델을 빌드하기 위한 이러한 작업과 기타 일반적인 작업을 간소화합니다.

이 문서에서는 Microsoft Fabric의 Apache Spark 내에서 기계 학습 모델을 학습시키는 다양한 옵션에 대한 개요를 제공합니다. 아래 자습서를 따라 모델 학습에 대해 자세히 알아볼 수 있습니다.