기계 학습 모델을 학습하는 방법 이해

6분

기계 학습 모델을 학습하는 방법은 학습하려는 모델의 유형에 따라 달라집니다. Microsoft Fabric에서 기계 학습 모델을 학습하는 데 사용할 수 있는 몇 가지 일반적으로 사용되는 프레임워크를 살펴보겠습니다.

기계 학습 프레임워크 살펴보기

많은 데이터 과학자가 Python에서 작업하며, 많은 기계 학습 라이브러리는 Python과 잘 작동하도록 설계되었습니다.

Microsoft Fabric에서 작업할 수 있는 일부 라이브러리 및 널리 사용되는 용도는 다음과 같습니다.

Scikit-learn: 분류, 회귀 및 클러스터링과 같은 작업에 대한 기존 기계 학습 모델을 학습합니다.
PyTorch 및 TensorFlow: 자연어 처리 또는 컴퓨터 비전 작업을 위한 딥 러닝 모델을 학습합니다.
SynapseML: 최적의 모델 학습을 위해 확장 가능한 기계 학습 파이프라인을 만들 수 있습니다.

Microsoft Fabric에서 노트북 사용

Microsoft Fabric에서 모델을 학습하려는 경우 Notebook을 사용할 수 있습니다.

데이터 과학자는 Jupyter Notebook에 이미 익숙할 수 있습니다. Microsoft Fabric 작업 영역에서 사용할 수 있는 Notebook은 Jupyter Notebook과 유사하므로 코드를 예상대로 쉽게 실행할 수 있습니다.

Microsoft Fabric의 Notebook은 Spark 컴퓨팅을 통해 구동되므로 PySpark 및 Python을 사용할 수 있습니다. scikit-learn, PyTorch 및 TensorFlow와 같은 대부분의 기계 학습 프레임워크는 Python 및 Pandas DataFrames에서 작동합니다.

PySpark는 분산 데이터 처리를 위해 빌드된 Python 라이브러리입니다. 확장성 있는 기계 학습 파이프라인이 필요할 때마다 프로젝트에서 PySpark 및 SynapseML의 사용을 탐색할 수 있습니다.

모델을 훈련시키다

기계 학습 학습에 접근하는 방법은 학습하는 모델의 유형에 따라 달라집니다. 기존 모델의 일반적인 방법은 다음 단계를 반복하는 것입니다.

Notebook에서 데이터를 DataFrame으로 사용할 수 있도록 하여 데이터를 로드합니다.
데이터를 시각화하고 기능(모델 입력) 간의 관계와 레이블(모델 출력)에 미치는 영향을 이해하여 데이터를 탐색합니다.
기능 엔지니어링이라고도 하는 데이터를 준비합니다.
데이터를 학습 데이터 세트로 분할하고 데이터 세트를 테스트합니다.
모델을 학습합니다.
성능 메트릭을 검사하여 모델을 평가합니다.

예제를 살펴보고 모델 학습을 위해 탐색하고 준비한 데이터 세트가 이미 있다고 가정해 보겠습니다. 회귀 모델을 학습시키고 scikit-learn을 사용하도록 선택하려는 경우를 상상해 보십시오.

준비된 데이터 세트를 다음 코드로 분할할 수 있습니다.

from sklearn.model_selection import train_test_split

X, y = df[['feature1','feature2','feature3']].values, df['label'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

데이터 세트를 분할하면 다음과 같은 4개의 DataFrame이 생성됩니다.

X_train: 기능만 포함하는 학습 데이터 세트입니다.
X_test: 기능만 포함하는 데이터 세트를 테스트합니다.
y_train: 레이블만 포함하는 학습 데이터 세트입니다.
y_test: 레이블만 포함하는 데이터 세트를 테스트합니다.

모델을 학습하려는 경우 선택한 프레임워크(예: scikit-learn)에서 사용할 수 있는 작업에 대한 알고리즘(예: 선형 회귀)을 선택할 수 있습니다. 다음 코드는 회귀 모델을 학습하는 예제를 보여줍니다.

from sklearn.linear_model import LinearRegression

model = LinearRegression() 
model.fit(X_train, y_train)

모델을 맞추면 모델을 사용하여 테스트 데이터 세트에 대한 예측을 생성하여 모델 성능 메트릭을 만들 수 있습니다. MLflow를 사용하여 모델을 추적하는 경우 계산하는 성능 메트릭을 추적할 수 있습니다. 또는 MLflow에서 표준 성능 메트릭을 만들고 추적하도록 할 수 있습니다.

MLflow를 사용하여 추적할 때 모델을 형식으로 저장하여 이후 단계에서 모델 채점을 사용하도록 설정할 수도 있습니다.

피드백

이 페이지가 도움이 되었나요?