Partilhar via


Tutorial R: Prever tarifas de táxi de Nova York com classificação binária

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada SQL do Azure

Nesta série de tutoriais de cinco partes para programadores SQL, você aprenderá sobre a integração R nos Serviços de Aprendizado de Máquina do SQL Server ou em Clusters de Big Data.

Nesta série de tutoriais de cinco partes para programadores SQL, você aprenderá sobre a integração R nos Serviços de Aprendizado de Máquina do SQL Server.

Nesta série de tutoriais de cinco partes para programadores SQL, você aprenderá sobre a integração R no SQL Server 2016 R Services.

Nesta série de tutoriais de cinco partes para programadores SQL, você aprenderá sobre a integração R nos Serviços de Aprendizado de Máquina na Instância Gerenciada SQL do Azure.

Você criará e implantará uma solução de aprendizado de máquina baseada em R usando um banco de dados de exemplo no SQL Server. Você usará T-SQL, Azure Data Studio ou SQL Server Management Studio e uma instância do mecanismo de banco de dados com aprendizado de máquina SQL e suporte à linguagem R

Esta série de tutoriais apresenta as funções R usadas em um fluxo de trabalho de modelagem de dados. As partes incluem exploração de dados, criação e treinamento de um modelo de classificação binária e implantação de modelo. Você usará dados de exemplo da New York City Taxi and Limousine Commission. O modelo que você construirá prevê se uma viagem provavelmente resultará em uma gorjeta com base na hora do dia, na distância percorrida e no local de retirada.

Na primeira parte desta série, você instalará os pré-requisitos e restaurará o banco de dados de exemplo. Nas partes dois e três, você desenvolverá alguns scripts R para preparar seus dados e treinar um modelo de aprendizado de máquina. Em seguida, nas partes quatro e cinco, você executará esses scripts R dentro do banco de dados usando procedimentos armazenados T-SQL.

Neste artigo, você:

  • Pré-requisitos de instalação
  • Restaurar o banco de dados de exemplo

Na segunda parte, você explorará os dados de exemplo e gerará alguns gráficos.

Na terceira parte, você aprenderá a criar recursos a partir de dados brutos usando uma função Transact-SQL. Em seguida, você chamará essa função a partir de um procedimento armazenado para criar uma tabela que contenha os valores do recurso.

Na quarta parte, você carregará os módulos e chamará as funções necessárias para criar e treinar o modelo usando um procedimento armazenado do SQL Server.

Na quinta parte, você aprenderá a operacionalizar os modelos que treinou e salvou na quarta parte.

Observação

Este tutorial está disponível em R e Python. Para a versão Python, consulte Tutorial do Python: Prever tarifas de táxi de Nova York com classificação binária.

Pré-requisitos

Todas as tarefas podem ser feitas usando Transact-SQL procedimentos armazenados no Azure Data Studio ou no Management Studio.

Este tutorial pressupõe familiaridade com operações básicas de banco de dados, como criar bancos de dados e tabelas, importar dados e escrever consultas SQL. Ele não pressupõe que você sabe R e todo o código R é fornecido.

Antecedentes para desenvolvedores SQL

O processo de criação de uma solução de aprendizado de máquina é complexo e pode envolver várias ferramentas e a coordenação de especialistas no assunto em várias fases:

  • obtenção e limpeza de dados
  • Explorando os dados e os recursos de construção úteis para modelagem
  • Treinamento e ajuste do modelo
  • Implantação na produção

O desenvolvimento e o teste do código real são melhor realizados usando um ambiente de desenvolvimento R dedicado. No entanto, depois que o script for totalmente testado, você poderá implantá-lo facilmente no SQL Server usando Transact-SQL procedimentos armazenados no ambiente familiar do Azure Data Studio ou do Management Studio. Encapsular código externo em procedimentos armazenados é o principal mecanismo para operacionalizar o código no SQL Server.

Depois que o modelo tiver sido salvo no banco de dados, você poderá chamá-lo para previsões de Transact-SQL usando procedimentos armazenados.

Se você é um programador SQL novo no R ou um desenvolvedor R novo no SQL, esta série de tutoriais de cinco partes apresenta um fluxo de trabalho típico para conduzir análises no banco de dados com o R e o SQL Server.

Próximos passos

Neste artigo, você:

  • Pré-requisitos instalados
  • Foi restaurado o banco de dados de exemplo