자습서: SQL 기계 학습을 사용하여 R에서 클러스터링 모델 개발

적용 대상: SQL Server 2016(13.x) 이상 Azure SQL Managed Instance

4부로 구성된 이 자습서 시리즈에서는 고객 데이터를 분류하기 위해 R을 사용하여 SQL Server Machine Learning Services 또는 빅 데이터 클러스터에서 K-평균 클러스터링 모델을 개발하고 배포합니다.

4부로 구성된 이 자습서 시리즈에서는 고객 데이터를 클러스터링하기 위해 SQL Server Machine Learning Services에서 R을 사용하여 K-평균 클러스터링 모델을 개발 및 배포합니다.

4부로 구성된 이 자습서 시리즈에서는 고객 데이터를 클러스터링하기 위해 SQL Server R Services에서 R을 사용하여 K-평균 클러스터링 모델을 개발 및 배포합니다.

4부로 구성된 이 자습서 시리즈에서는 고객 데이터를 클러스터링하기 위해 Azure SQL Managed Instance Machine Learning Services에서 R을 사용하여 K-평균 클러스터링 모델을 개발 및 배포합니다.

이 시리즈의 1부에서는 자습서의 사전 요구 사항을 설치한 다음, 샘플 데이터 세트를 데이터베이스에 복원합니다. 2부 및 3부에서는 데이터를 분석 및 준비하고 기계 학습 모델을 학습시키기 위해 Azure Data Studio Notebook에서 일부 R 스크립트를 개발합니다. 그런 다음, 4부에서는 데이터베이스 내부에서 저장 프로시저를 사용하여 R 스크립트를 실행합니다.

클러스터링은 그룹 구성원이 일정 기준에 따라 유사한 특성을 갖는 그룹으로 데이터를 정리하는 것과 같습니다. 이 자습서 시리즈에서는 사용자가 판매점을 소유하고 있다고 가정합니다. K-평균 알고리즘을 사용하여 제품 구매 및 반품 데이터 세트에서 고객에 대한 클러스터링을 수행합니다. 고객을 클러스터링하면 특정 그룹을 대상으로 보다 효과적으로 마케팅 노력을 집중할 수 있습니다. K-평균 클러스터링은 유사성을 기준으로 데이터의 패턴을 찾는 자율 학습 알고리즘입니다.

이 문서에서는 다음을 수행하는 방법을 알아봅니다.

  • 샘플 데이터베이스 복원

2부에서는 클러스터링을 수행하기 위해 데이터베이스의 데이터를 준비하는 방법을 알아봅니다.

3부에서는 R에서 K-평균 클러스터링 모델을 만들고 학습시키는 방법을 알아봅니다.

4부에서는 새 데이터를 기준으로 R에서 클러스터링을 수행할 수 있는 저장 프로시저를 데이터베이스에서 만드는 방법을 알아봅니다.

사전 요구 사항

샘플 데이터베이스 복원

이 자습서에 사용되는 샘플 데이터 세트는 .bak 데이터베이스 백업 파일로 저장되었으며, 사용자가 다운로드하여 사용할 수 있습니다. 이 데이터 세트는 Transaction Processing Performance Council(TPC)에서 제공되는 tpcx-bb 데이터 세트에서 파생됩니다.

참고

빅 데이터 클러스터에서 Machine Learning Services를 사용하는 경우 SQL Server 빅 데이터 클러스터 마스터 인스턴스에 데이터베이스 복원을 참조하세요.

  1. tpcxbb_1gb.bak 파일을 다운로드하세요.

  2. Azure Data Studio에서 다음 세부 정보를 사용하여 백업 파일에서 데이터베이스 복원의 지침을 따릅니다.

    • 다운로드한 tpcxbb_1gb.bak 파일에서 가져옵니다.
    • 대상 데이터베이스 이름을 "tpcxbb_1gb"로 지정합니다.
  3. dbo.customer 테이블을 쿼리하여 데이터베이스를 복원한 후 데이터 세트가 존재하는지 확인할 수 있습니다.

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. tpcxbb_1gb.bak 파일을 다운로드하세요.

  2. 다음 세부 정보를 사용하여 SQL Server Management Studio에서 데이터베이스를 관리되는 인스턴스로 복원의 지침을 따릅니다.

    • 다운로드한 tpcxbb_1gb.bak 파일에서 가져옵니다.
    • 대상 데이터베이스 이름을 "tpcxbb_1gb"로 지정합니다.
  3. dbo.customer 테이블을 쿼리하여 데이터베이스를 복원한 후 데이터 세트가 존재하는지 확인할 수 있습니다.

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

리소스 정리

이 자습서를 계속 진행할 생각이 없으면 tpcxbb_1gb 데이터베이스를 삭제하세요.

다음 단계

이 자습서 시리즈의 1부에서 다음 단계를 완료했습니다.

  • 필수 구성 요소 설치
  • 샘플 데이터베이스 복원

Machine Learning 모델을 위해 데이터를 준비하려면 이 자습서 시리즈의 2부를 진행합니다.