새 회귀 모델 검색
2단원에서는 데이터 요소에 직선을 맞추는 방법에 대해 살펴보았습니다. 그러나 회귀는 여러 요소가 있는 관계와 한 요소의 중요성이 다른 요소에 의존하는 관계를 포함하여 많은 종류의 관계에 적합할 수 있습니다.
모델 실험
회귀 모델은 작은 데이터 샘플에서 작동하고, 강력하고, 해석하기 쉬우며, 종류가 다양하기 때문에 많이 사용됩니다.
선형 회귀 는 사용되는 기능 수에 제한이 없는 가장 간단한 회귀 형태입니다. 선형 회귀는 다양한 형태로 제공되며 종종 사용된 기능의 수와 적합한 곡선의 모양에 따라 이름이 지정됩니다.
의사 결정 트리는 변수를 예측하는 단계별 방법을 사용합니다. 자전거 예를 생각해보면 의사 결정 트리는 먼저 봄/여름과 가을/겨울에 있는 예 사이에서 분할되어 요일을 기준으로 예측할 수 있습니다. 봄/여름-월요일에는 하루 100대의 자전거 대여 요금이 있고 가을/겨울-월요일에는 하루 20대의 자전거 대여 요금이 있을 수 있습니다.
앙상블 알고리즘은 하나의 결정 트리가 아니라 많은 수의 트리를 구성하여 더 복잡한 데이터에 대한 더 나은 예측을 가능하게 합니다. 임의 포리스트와 같은 앙상블 알고리즘은 강력한 예측 능력으로 인해 기계 학습 및 데이터 과학에서 널리 사용됩니다.
데이터 과학자들은 대부분 다양한 모델을 사용하여 실험합니다. 다음 연습에서는 서로 다른 형식의 모델들이 같은 데이터를 가지고 수행하는 데에 어떤 차이를 보이는지 비교해보겠습니다.