다음을 통해 공유


Databricks 커넥트 Spark ML 모델 학습pyspark.ml.connect

Important

이 기능은 공개 미리 보기 상태입니다.

이 문서에서는 모듈을 사용하여 pyspark.ml.connect 분산 학습을 수행하여 Spark ML 모델을 학습시키고 Databricks 커넥트 모델 유추를 실행하는 방법을 보여 주는 예제를 제공합니다.

pyspark.ml.connect이란 무엇인가요?

Spark 3.5는 Spark 연결 모드 및 Databricks 커넥트 지원하도록 설계된 것을 소개합니다pyspark.ml.connect. Databricks 커넥트 대해 자세히 알아봅니다.

이 모듈은 pyspark.ml.connect 분류, 기능 변환기, ML 파이프라인 및 교차 유효성 검사를 비롯한 일반적인 학습 알고리즘 및 유틸리티로 구성됩니다. 이 모듈은 레거시 pyspark.ml 모듈과 비슷한 인터페이스를 제공하지만 현재 pyspark.ml.connect 모듈에는 알고리즘의 하위 집합만 포함되어 있습니다 pyspark.ml. 지원되는 알고리즘은 다음과 같습니다.

  • 분류 알고리즘: pyspark.ml.connect.classification.LogisticRegression
  • 기능 변환기: pyspark.ml.connect.feature.MaxAbsScalerpyspark.ml.connect.feature.StandardScaler
  • 계산기: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • 파이프라인: pyspark.ml.connect.pipeline.Pipeline
  • 모델 튜닝: pyspark.ml.connect.tuning.CrossValidator

요구 사항

  • 클러스터에서 Databricks 커넥트 설정합니다. Databricks 커넥트 대한 클러스터 구성을 참조하세요.
  • Databricks Runtime 14.0 ML 이상이 설치되었습니다.
  • 의 클러스터 액세스 모드입니다 Assigned.

예제 Notebook

다음 Notebook에서는 Databricks 커넥트 분산 ML을 사용하는 방법을 보여 줍니다.

Databricks 커넥트 분산 ML

전자 필기장 가져오기

의 API에 대한 참조 정보를 보려면 Databricks에서 pyspark.ml.connectApache Spark API 참조를 권장합니다.