Tutorial do R: prever as tarifas de táxi de Nova York com a classificação binária
Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada de SQL do Azure
Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do R nos Serviços de Machine Learning do SQL Server ou nos Clusters de Big Data.
Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do R nos Serviços de Machine Learning do SQL Server.
Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do R no SQL Server 2016 R Services.
Nesta série de tutoriais em cinco partes para programadores do SQL, você conhecerá a integração do R nos Serviços de Machine Learning na Instância Gerenciada de SQL do Azure.
Você criará e implantará uma solução de aprendizado de máquina baseada em R usando um banco de dados de exemplo no SQL Server. Você usará o T-SQL, o Azure Data Studio ou o SQL Server Management Studio e uma instância do mecanismo de banco de dados com o aprendizado de máquina do SQL e o suporte à linguagem R
Esta série de tutoriais apresenta as funções do R usadas em um fluxo de trabalho de modelagem de dados. As partes incluem exploração de dados, criação e treinamento de um modelo de classificação binária e implantação de modelo. Você usará dados de exemplo da Comissão de Táxi e Limusines de Nova York. O modelo que você criará prevê se uma corrida provavelmente resultará em uma gorjeta com base na hora do dia, na distância percorrida e na localização de embarque.
Na primeira parte desta série, você instalará os pré-requisitos e restaurará o banco de dados de exemplo. Nas partes dois e três, você desenvolverá alguns scripts do R para preparar seus dados e treinar um modelo de machine learning. Em seguida, nas partes quatro e cinco, você executará esses scripts do R dentro no banco de dados usando procedimentos armazenados do T-SQL.
Neste artigo, você vai:
- Instalar pré-requisitos
- Restaurar o banco de dados de exemplo
Na parte dois, você explorará os dados de exemplo e gerará alguns gráficos.
Na parte três, você aprenderá a criar recursos a partir de dados brutos usando uma função do Transact-SQL. Você chamará essa função por meio de um procedimento armazenado para criar uma tabela que contém os valores do recurso.
Na parte quatro, você carregará os módulos e chamará as funções necessárias para criar e treinar o modelo usando um procedimento armazenado do SQL Server.
Na parte cinco, você aprenderá a operacionalizar os modelos treinados e salvos na parte quatro.
Observação
Este tutorial está disponível no R e no Python. Para a versão do Python, confira Tutorial do Python: prever as tarifas de táxi de Nova York com a classificação binária.
Pré-requisitos
- A partir do SQL Server 2019, o mecanismo de isolamento exige que você conceda as permissões apropriadas ao diretório em que o arquivo de gráfico está armazenado. Confira mais informações sobre como definir essas permissões na seção Permissões de arquivo em SQL Server 2019 no Windows: alterações de isolamento nos Serviços de Machine Learning.
Todas as tarefas podem ser feitas usando procedimentos armazenados do Transact-SQL no Azure Data Studio ou no Management Studio.
Este tutorial pressupõe que você tem familiaridade com as operações de banco de dados, tais como criar bancos de dados e tabelas, importar dados e escrever consultas SQL. Ela não pressupõe que você conhece o R, e todo o código R é fornecido.
Contexto para desenvolvedores de SQL
O processo de criação de uma solução de aprendizado de máquina é complexo, podendo envolver várias ferramentas e a coordenação de especialistas do assunto em várias fases:
- obtenção e limpeza de dados
- exploração de dados e criação de recursos úteis para modelagem
- treinamento e ajuste do modelo
- implantação para produção
O desenvolvimento e teste do código do R real serão mais bem executados usando um ambiente de desenvolvimento R dedicado. No entanto, depois que o script estiver totalmente testado, você poderá implantá-lo com facilidade no SQL Server usando os procedimentos armazenados do Transact-SQL no ambiente conhecido do Azure Data Studio ou do Management Studio. O encapsulamento de código externo em procedimentos armazenados é o principal mecanismo para operacionalização de código no SQL Server.
Depois que o modelo for salvo no banco de dados, você poderá usar procedimentos armazenados a fim de chamar o modelo para fazer previsões por meio do Transact-SQL.
Seja você um programador do SQL não familiarizado com o R ou um desenvolvedor do R não familiarizado com o SQL, esta série de tutoriais em cinco partes apresenta um fluxo de trabalho típico para realização de análises internas no banco de dados com R e SQL Server.
Próximas etapas
Neste artigo você:
- Instalou os pré-requisitos
- Restaurou o banco de dados de exemplo