다음을 통해 공유


R 자습서: 이진 분류를 사용하여 뉴욕시 택시 요금 예측

적용 대상: SQL Server 2016(13.x) 이상 Azure SQL Managed Instance

SQL 프로그래머를 위한 5부로 구성된 이 자습서 시리즈에서는 SQL Server Machine Learning Services 또는 빅 데이터 클러스터에서의 R 통합에 대해 알아봅니다.

SQL 프로그래머를 위한 5부로 구성된 이 자습서 시리즈에서는 SQL Server Machine Learning Services에서의 R 통합에 대해 알아봅니다.

SQL 프로그래머를 위한 5부로 구성된 이 자습서 시리즈에서는 SQL Server 2016 R Services에서의 R 통합에 대해 알아봅니다.

SQL 프로그래머를 위한 이 5부 자습서 시리즈에서는 Machine Learning Services in Azure SQL Managed Instance의 R 통합에 대해 알아봅니다.

SQL Server에서 샘플 데이터베이스를 사용하여 R 기반 기계 학습 솔루션을 빌드하고 배포합니다. T-SQL, Azure Data Studio 또는 SQL Server Management Studio, SQL 기계 학습 및 R 언어를 지원하는 데이터베이스 엔진 인스턴스를 사용합니다.

이 자습서 시리즈에서는 데이터 모델링 워크플로에 사용되는 R 함수를 소개합니다. 데이터 탐색, 이진 분류 모델 빌드 및 학습, 모델 배포에 관한 부분이 포함됩니다. 뉴욕시 택시 및 리무진 위원회의 샘플 데이터를 사용합니다. 빌드할 모델은 하루의 시간, 이동 거리 및 선택 위치를 기준으로 트립이 팁을 생성할 수 있는지 여부를 예측합니다.

이 시리즈의 첫 번째 부분에서는 필수 구성 요소를 설치하고 샘플 데이터베이스를 복원합니다. 2부 및 3부에서는 데이터를 준비하고 기계 학습 모델을 학습시키기 위해 R 스크립트를 개발합니다. 그런 다음 4부 및 5부에서는 데이터베이스 내부에서 T-SQL 저장 프로시저를 사용하여 R 스크립트를 실행합니다.

이 문서에서는 다음을 수행합니다.

  • 필수 구성 요소 설치
  • 샘플 데이터베이스 복원

2부에서는 샘플 데이터를 탐색하고 몇 가지 플롯을 생성합니다.

3부에서는 Transact-SQL 함수를 사용하여 원시 데이터에서 기능을 만드는 방법을 알아봅니다. 그런 다음 저장 프로시저에서 해당 함수를 호출하여 기능 값이 포함된 테이블을 만듭니다.

4부에서는 SQL Server 저장 프로시저를 통해 모듈을 로드하고 필요한 함수를 호출하여 모델을 만들고 학습시킵니다.

5부에서는 4부에서 학습시키고 저장한 모델을 운영하는 방법을 알아봅니다.

참고 항목

이 자습서는 R과 Python 모두에서 사용할 수 있습니다. Python 버전의 경우 Python 자습서: 이진 분류를 사용하여 NYC 택시 요금 예측을 참조하세요.

필수 조건

모든 작업은 Azure Data Studio 또는 Management Studio에서 Transact-SQL 저장 프로시저를 사용하여 수행할 수 있습니다.

이 자습서는 데이터베이스 및 테이블 만들기, 데이터 가져오기, SQL 쿼리 만들기 등의 기본 데이터베이스 작업에 익숙하다고 가정합니다. R 관련 지식은 필수가 아니며 모든 R 코드가 제공됩니다.

SQL 개발자를 위한 배경

기계 학습 솔루션을 구축하는 프로세스는 여러 도구와 여러 단계에 걸쳐 주제 전문가의 조정이 포함될 수 있는 복잡한 프로세스입니다.

  • 데이터 가져오기 및 정리
  • 모델링에 유용한 데이터 탐색 및 기능 빌드
  • 모델 학습 및 튜닝
  • 프로덕션에 배포

실제 코드의 개발 및 테스트는 전용 R 개발 환경을 사용하여 수행하는 것이 가장 좋습니다. 그러나 스크립트가 완전히 테스트된 후에는 Azure Data Studio 또는 Management Studio의 친숙한 환경에서 Transact-SQL 저장 프로시저를 사용하여 SQL Server에 쉽게 배포할 수 있습니다. 저장 프로시저에서 외부 코드 래핑은 SQL Server에서 코드를 운영하기 위한 기본 메커니즘입니다.

모델을 데이터베이스에 저장한 후 저장 프로시저를 사용하여 Transact-SQL에서 예측을 위해 모델을 호출할 수 있습니다.

R을 접하는 SQL 프로그래머이든 SQL을 접하는 R 개발자이든 상관없이 이 5부로 구성된 이 자습서 시리즈에서는 R 및 SQL Server를 사용하여 데이터베이스 내 분석을 수행하는 일반적인 워크플로를 소개합니다.

다음 단계

이 문서에서는 다음 작업을 수행합니다.

  • 필수 구성 요소 설치
  • 샘플 데이터베이스 복원됨