Dados de demonstração de táxi de Nova York para tutoriais de Python e R do SQL Server

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada de SQL do Azure

Este artigo explica como configurar um banco de dados de exemplo que consiste em dados públicos da Comissão táxi e limusines da Cidade de Nova York. Esses dados são usados em vários tutoriais de R e Python para análise no banco de dados no SQL Server. Para fazer com que o código de exemplo seja executado mais rapidamente, criamos uma amostragem representativa de 1% dos dados. No seu sistema, o arquivo de backup do banco de dados terá um pouco mais de 90 MB, fornecendo 1,7 milhões de linhas na tabela de dados primária.

Para concluir este exercício, você deve ter o SQL Server Management Studio (SSMS) ou outra ferramenta que possa restaurar um arquivo de backup de banco de dados e executar consultas T-SQL.

Os tutoriais e guias de início rápido que usam esse conjunto de dados incluem o seguinte:

Baixar arquivos

O banco de dados de exemplo é um arquivo BAK do SQL Server 2016 hospedado pela Microsoft. Você pode restaurá-lo no SQL Server 2016 e posterior. O download do arquivo é iniciado imediatamente quando você abre o link.

O tamanho do arquivo é aproximadamente 90 MB.

Observação

Para restaurar o banco de dados de exemplo em Clusters de Big Data do SQL Server, baixe NYCTaxi_Sample.bak e siga as instruções em Restaurar um banco de dados para a instância mestra de cluster de Big Data do SQL Server.

Observação

Para restaurar o banco de dados de exemplo nos Serviços de Machine Learning na Instância Gerenciada de SQL do Azure, siga as instruções descritas no Guia de Início Rápido: restaurar um banco de dados na Instância Gerenciada de SQL do Azure usando o arquivo .bak do banco de dados de demonstração de táxi de Nova York: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. Baixe o arquivo de backup do banco de dados NYCTaxi_Sample.bak.

  2. Copie o arquivo para C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup ou caminho semelhante para a pasta padrão Backup da sua instância.

  3. No SSMS, clique com o botão direito do mouse em Bancos de Dados e selecione Restaurar Arquivos e Grupos de Arquivos.

  4. Insira NYCTaxi_Sample como o nome do banco de dados.

  5. Selecione Do dispositivo e abra a página seleção de arquivo para selecionar o arquivo de backup NYCTaxi_Sample.bak. Selecione Adicionar para selecionar NYCTaxi_Sample.bak.

  6. Marque a caixa de seleção Restaurar e selecione OK para restaurar o banco de dados.

Examinar objetos de banco de dados

Confirme se os objetos de banco de dados existem na instância do SQL Server usando SQL Server Management Studio. Você deverá ver banco de dados, tabelas, funções e procedimentos armazenados.

rsql_devtut_BrowseTables

Objetos no banco de dados NYCTaxi_Sample

A tabela a seguir resume os objetos criados no banco de dados de demonstração de táxi de Nova York.

Nome do objeto Tipo de objeto Descrição
NYCTaxi_Sample Banco de Dados Cria um banco de dados e duas tabelas:

Tabela dbo.nyctaxi_sample: contém o conjunto de dados principal de táxi de Nova York. Um índice columnstore clusterizado é adicionado à tabela para melhorar o desempenho de armazenamento e consulta. A amostra de 1% do conjunto de dados de Táxi de Nova York está inserida nesta tabela.

Tabela dbo.nyc_taxi_models: usada para persistir o modelo treinado de análise avançada.
fnCalculateDistance função de valor escalar Calcula a distância direta entre os locais de embarque e desembarque de passageiros. Essa função é usada em Criar recursos de dados, Treinar e salvar um modelo e Operacionalizar o modelo do R.
fnEngineerFeatures função com valor de tabela Cria novos recursos de dados para treinamento de modelo. Essa função é usada em Criar recursos de dados e Operacionalizar o modelo de R.

Os procedimentos armazenados são criados usando scripts de R e Python encontrados em vários tutoriais. A tabela a seguir resume os procedimentos armazenados que você pode adicionar opcionalmente ao banco de dados de demonstração de táxi de Nova York ao executar o script de várias lições.

Procedimento armazenado Idioma Descrição
RxPlotHistogram R Chama a função rxHistogram do RevoScaleR para plotar o histograma de uma variável e retorna a plotagem como um objeto binário. Esse procedimento armazenado é usado em Explorar e visualizar dados.
RPlotRHist R Cria um gráfico usando uma função Hist e salva a saída como um arquivo PDF local. Esse procedimento armazenado é usado em Explorar e visualizar dados.
RxTrainLogitModel R Treina um modelo de regressão logística chamando um pacote do R. O modelo prevê o valor da coluna tipped e é treinado usando uma seleção aleatória de 70% dos dados. A saída do procedimento armazenado é o modelo treinado, que é salvo na tabela dbo.nyc_taxi_models. Esse procedimento armazenado é usado em Treinar e salvar um modelo.
RxPredictBatchOutput R Chama o modelo treinado para criar previsões usando o modelo. O procedimento armazenado aceita uma consulta como seu parâmetro de entrada e retorna uma coluna de valores numéricos que contêm as pontuações para as linhas de entrada. Esse procedimento armazenado é usado em Prever resultados potenciais.
RxPredictSingleRow R Chama o modelo treinado para criar previsões usando o modelo. Esse procedimento armazenado aceita uma nova observação como entrada, com valores de recursos individuais passados como parâmetros na linha, e retorna um valor que prevê o resultado da nova observação. Esse procedimento armazenado é usado em Prever resultados potenciais.

Consultar os dados

Como uma etapa de validação, execute uma consulta para confirmar se os dados foram carregados.

  1. No Pesquisador de Objetos, em Bancos de Dados, clique com o botão direito do mouse no banco de dados NYCTaxi_Sample e inicie uma nova consulta.

  2. Execute algumas consultas simples:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

O banco de dados contém 1,7 milhões linhas.

  1. No banco de dados, há uma tabela dbo.nyctaxi_sample que contém o conjunto de dados. Esta tabela foi otimizada para cálculos baseados em conjunto com a adição de um índice columnstore. Execute esta instrução para gerar um resumo rápido na tabela.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Os resultados devem ser semelhantes aos mostrados na captura de tela a seguir.

Informações de resumo da tabela

Próximas etapas

Os dados de exemplo de táxi de Nova York já estão disponíveis para o aprendizado prático.