기계 학습 모델을 학습하는 방법 이해
기계 학습 모델을 학습하는 방법은 학습하려는 모델의 유형에 따라 달라집니다. Microsoft Fabric에서 기계 학습 모델을 학습하는 데 사용할 수 있는 몇 가지 일반적으로 사용되는 프레임워크를 살펴보겠습니다.
기계 학습 프레임워크 살펴보기
많은 데이터 과학자가 Python에서 작업하며, 많은 기계 학습 라이브러리는 Python과 잘 작동하도록 설계되었습니다.
Microsoft Fabric에서 작업할 수 있는 일부 라이브러리 및 널리 사용되는 용도는 다음과 같습니다.
- Scikit-learn: 분류, 회귀 및 클러스터링과 같은 작업에 대한 기존 기계 학습 모델을 학습합니다.
- PyTorch 및 TensorFlow: 자연어 처리 또는 컴퓨터 비전 작업을 위한 딥 러닝 모델을 학습합니다.
- SynapseML: 최적의 모델 학습을 위해 확장 가능한 기계 학습 파이프라인을 만들 수 있습니다.
Microsoft Fabric에서 노트북 사용
Microsoft Fabric에서 모델을 학습하려는 경우 Notebook을 사용할 수 있습니다.
데이터 과학자는 Jupyter Notebook에 이미 익숙할 수 있습니다. Microsoft Fabric 작업 영역에서 사용할 수 있는 Notebook은 Jupyter Notebook과 유사하므로 코드를 예상대로 쉽게 실행할 수 있습니다.
Microsoft Fabric의 Notebook은 Spark 컴퓨팅을 통해 구동되므로 PySpark 및 Python을 사용할 수 있습니다. scikit-learn, PyTorch 및 TensorFlow와 같은 대부분의 기계 학습 프레임워크는 Python 및 Pandas DataFrames에서 작동합니다.
PySpark는 분산 데이터 처리를 위해 빌드된 Python 라이브러리입니다. 확장성 있는 기계 학습 파이프라인이 필요할 때마다 프로젝트에서 PySpark 및 SynapseML의 사용을 탐색할 수 있습니다.
모델을 훈련시키다
기계 학습 학습에 접근하는 방법은 학습하는 모델의 유형에 따라 달라집니다. 기존 모델의 일반적인 방법은 다음 단계를 반복하는 것입니다.
- Notebook에서 데이터를 DataFrame으로 사용할 수 있도록 하여 데이터를 로드합니다.
- 데이터를 시각화하고 기능(모델 입력) 간의 관계와 레이블(모델 출력)에 미치는 영향을 이해하여 데이터를 탐색합니다.
- 기능 엔지니어링이라고도 하는 데이터를 준비합니다.
- 데이터를 학습 데이터 세트로 분할하고 데이터 세트를 테스트합니다.
- 모델을 학습합니다.
- 성능 메트릭을 검사하여 모델을 평가합니다.
예제를 살펴보고 모델 학습을 위해 탐색하고 준비한 데이터 세트가 이미 있다고 가정해 보겠습니다. 회귀 모델을 학습시키고 scikit-learn을 사용하도록 선택하려는 경우를 상상해 보십시오.
준비된 데이터 세트를 다음 코드로 분할할 수 있습니다.
from sklearn.model_selection import train_test_split
X, y = df[['feature1','feature2','feature3']].values, df['label'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)
데이터 세트를 분할하면 다음과 같은 4개의 DataFrame이 생성됩니다.
-
X_train: 기능만 포함하는 학습 데이터 세트입니다. -
X_test: 기능만 포함하는 데이터 세트를 테스트합니다. -
y_train: 레이블만 포함하는 학습 데이터 세트입니다. -
y_test: 레이블만 포함하는 데이터 세트를 테스트합니다.
모델을 학습하려는 경우 선택한 프레임워크(예: scikit-learn)에서 사용할 수 있는 작업에 대한 알고리즘(예: 선형 회귀)을 선택할 수 있습니다. 다음 코드는 회귀 모델을 학습하는 예제를 보여줍니다.
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
모델을 맞추면 모델을 사용하여 테스트 데이터 세트에 대한 예측을 생성하여 모델 성능 메트릭을 만들 수 있습니다. MLflow를 사용하여 모델을 추적하는 경우 계산하는 성능 메트릭을 추적할 수 있습니다. 또는 MLflow에서 표준 성능 메트릭을 만들고 추적하도록 할 수 있습니다.
MLflow를 사용하여 추적할 때 모델을 형식으로 저장하여 이후 단계에서 모델 채점을 사용하도록 설정할 수도 있습니다.