Partilhar via


Dados de demonstração do táxi de Nova Iorque para tutoriais do SQL Server sobre Python e R

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada SQL do Azure

Este artigo explica como configurar um banco de dados de exemplo que consiste em dados públicos da New York City Taxi and Limousine Commission. Esses dados são usados em vários tutoriais de R e Python para análise no banco de dados no SQL Server. Para tornar o código de exemplo mais rápido, criamos uma amostra representativa de 1% dos dados. Em seu sistema, o arquivo de backup do banco de dados tem pouco mais de 90 MB, fornecendo 1,7 milhão de linhas na tabela de dados primária.

Para concluir este exercício, você deve ter o SQL Server Management Studio (SSMS) ou outra ferramenta que possa restaurar um arquivo de backup de banco de dados e executar consultas T-SQL.

Tutoriais e guias de início rápido usando esse conjunto de dados incluem os seguintes artigos:

Baixar arquivos

O banco de dados de exemplo é um arquivo de backup (.bak) do SQL Server 2016 hospedado pela Microsoft. Você pode restaurá-lo no SQL Server 2016 e posterior. O download do arquivo começa imediatamente quando você abre o link.

O tamanho do ficheiro é de aproximadamente 90 MB.

Observação

Para restaurar o banco de dados de exemplo em clusters de Big Data do SQL Server, baixe NYCTaxi_Sample.bak e siga as instruções em Restaurar um banco de dados na instância mestre de cluster de big data do SQL Server.

Observação

Para restaurar o banco de dados de exemplo nos Serviços de Aprendizado de Máquina na Instância Gerenciada SQL do Azure, siga as instruções em Guia de início rápido: restaure um banco de dados para a Instância Gerenciada SQL do Azure usando o banco de dados de demonstração do NYC Taxi .bak arquivo: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. Baixe o arquivo de backup do banco de dados NYCTaxi_Sample.bak .

  2. Copie o arquivo para C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup ou caminho semelhante, para a pasta padrão Backup da sua instância.

  3. No SSMS, clique com o botão direito do mouse em Bancos de Dados e selecione Restaurar Arquivos e Grupos de Arquivos.

  4. Insira NYCTaxi_Sample como o nome do banco de dados.

  5. Selecione Do dispositivo e, em seguida, abra a página de seleção de arquivo para selecionar o NYCTaxi_Sample.bak arquivo de backup. Selecione Adicionar para selecionar NYCTaxi_Sample.bak.

  6. Marque a caixa de seleção Restaurar e selecione OK para restaurar o banco de dados.

Revisar objetos de banco de dados

Confirme se os objetos de banco de dados existem na instância do SQL Server usando o SQL Server Management Studio. Você deve ver o banco de dados, tabelas, funções e procedimentos armazenados.

rsql_devtut_BrowseTables

Objetos no banco de dados NYCTaxi_Sample

A tabela a seguir resume os objetos criados no banco de dados de demonstração do NYC Taxi.

Nome do objeto Tipo de objeto Descrição
NYCTaxi_Sample base de dados Cria um banco de dados e duas tabelas:

dbo.nyctaxi_sample tabela: Contém o principal conjunto de dados do NYC Taxi. Um índice columnstore clusterizado é adicionado à tabela para melhorar o armazenamento e o desempenho da consulta. A amostra de 1% do conjunto de dados NYC Taxi é inserida nesta tabela.

dbo.nyc_taxi_models table: Usado para persistir o modelo de análise avançada treinado.
fnCalculateDistance função de valor escalar Calcula a distância direta entre os locais de embarque e desembarque. Esta função é usada em Criar recursos de dados, Treinar e salvar um modelo e Operacionalizar o modelo R.
fnEngineerFeatures função de valor de tabela Cria novos recursos de dados para treinamento de modelos. Esta função é usada em Criar recursos de dados e Operacionalizar o modelo R.

Os procedimentos armazenados são criados usando scripts R e Python encontrados em vários tutoriais. A tabela a seguir resume os procedimentos armazenados que você pode, opcionalmente, adicionar ao banco de dados de demonstração do NYC Taxi ao executar scripts de várias lições.

Procedimento armazenado Language Descrição
RxPlotHistogram R Chama a função RevoScaleR rxHistogram para plotar o histograma de uma variável e, em seguida, retorna o gráfico como um objeto binário. Este procedimento armazenado é usado em Explorar e visualizar dados.
RPlotRHist R Cria um gráfico usando a Hist função e salva a saída como um arquivo PDF local. Este procedimento armazenado é usado em Explorar e visualizar dados.
RxTrainLogitModel R Treina um modelo de regressão logística chamando um pacote R. O modelo prevê o valor da tipped coluna e é treinado usando 70% dos dados selecionados aleatoriamente. A saída do procedimento armazenado é o modelo treinado, que é salvo na tabela dbo.nyc_taxi_models. Este procedimento armazenado é usado em Treinar e salvar um modelo.
RxPredictBatchOutput R Chama o modelo treinado para criar previsões usando o modelo. O procedimento armazenado aceita uma consulta como seu parâmetro de entrada e retorna uma coluna de valores numéricos contendo as pontuações para as linhas de entrada. Este procedimento armazenado é usado em Prever resultados potenciais.
RxPredictSingleRow R Chama o modelo treinado para criar previsões usando o modelo. Este procedimento armazenado aceita uma nova observação como entrada, com valores de feição individuais passados como parâmetros em linha, e retorna um valor que prevê o resultado para a nova observação. Este procedimento armazenado é usado em Prever resultados potenciais.

Consultar os dados

Como etapa de validação, execute uma consulta para confirmar que os dados foram carregados.

  1. No Pesquisador de Objetos, em Bancos de Dados, clique com o botão direito do mouse no banco de dados NYCTaxi_Sample e inicie uma nova consulta.

  2. Execute algumas consultas básicas:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

O banco de dados contém 1,7 milhão de linhas.

  1. Dentro do banco de dados há uma dbo.nyctaxi_sample tabela que contém o conjunto de dados. A tabela foi otimizada para cálculos baseados em conjuntos com a adição de um índice columnstore. Execute esta instrução para gerar um resumo rápido na tabela.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Os resultados devem ser semelhantes aos mostrados na captura de tela a seguir.

Informações de resumo da tabela

Próximos passos

Os dados de exemplo do NYC Taxi estão agora disponíveis para aprendizagem prática.