Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Aplica-se a: SQL Server 2016 (13.x) e versões
posteriores Instância Gerenciada SQL do Azure
Este artigo explica como configurar um banco de dados de exemplo que consiste em dados públicos da New York City Taxi and Limousine Commission. Esses dados são usados em vários tutoriais de R e Python para análise no banco de dados no SQL Server. Para tornar o código de exemplo mais rápido, criamos uma amostra representativa de 1% dos dados. Em seu sistema, o arquivo de backup do banco de dados tem pouco mais de 90 MB, fornecendo 1,7 milhão de linhas na tabela de dados primária.
Para concluir este exercício, você deve ter o SQL Server Management Studio (SSMS) ou outra ferramenta que possa restaurar um arquivo de backup de banco de dados e executar consultas T-SQL.
Tutoriais e guias de início rápido usando esse conjunto de dados incluem os seguintes artigos:
- Aprenda análise no banco de dados usando R no SQL Server
- Aprenda análise no banco de dados usando Python no SQL Server
Baixar arquivos
O banco de dados de exemplo é um arquivo de backup (.bak) do SQL Server 2016 hospedado pela Microsoft. Você pode restaurá-lo no SQL Server 2016 e posterior. O download do arquivo começa imediatamente quando você abre o link.
O tamanho do ficheiro é de aproximadamente 90 MB.
Observação
Para restaurar o banco de dados de exemplo em clusters de Big Data do SQL Server, baixe NYCTaxi_Sample.bak e siga as instruções em Restaurar um banco de dados na instância mestre de cluster de big data do SQL Server.
Observação
Para restaurar o banco de dados de exemplo nos Serviços de Aprendizado de Máquina na Instância Gerenciada SQL do Azure, siga as instruções em Guia de início rápido: restaure um banco de dados para a Instância Gerenciada SQL do Azure usando o banco de dados de demonstração do NYC Taxi .bak arquivo: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.
Baixe o arquivo de backup do banco de dados NYCTaxi_Sample.bak .
Copie o arquivo para
C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backupou caminho semelhante, para a pasta padrãoBackupda sua instância.No SSMS, clique com o botão direito do mouse em Bancos de Dados e selecione Restaurar Arquivos e Grupos de Arquivos.
Insira
NYCTaxi_Samplecomo o nome do banco de dados.Selecione Do dispositivo e, em seguida, abra a página de seleção de arquivo para selecionar o
NYCTaxi_Sample.bakarquivo de backup. Selecione Adicionar para selecionarNYCTaxi_Sample.bak.Marque a caixa de seleção Restaurar e selecione OK para restaurar o banco de dados.
Revisar objetos de banco de dados
Confirme se os objetos de banco de dados existem na instância do SQL Server usando o SQL Server Management Studio. Você deve ver o banco de dados, tabelas, funções e procedimentos armazenados.
Objetos no banco de dados NYCTaxi_Sample
A tabela a seguir resume os objetos criados no banco de dados de demonstração do NYC Taxi.
| Nome do objeto | Tipo de objeto | Descrição |
|---|---|---|
| NYCTaxi_Sample | base de dados | Cria um banco de dados e duas tabelas:dbo.nyctaxi_sample tabela: Contém o principal conjunto de dados do NYC Taxi. Um índice columnstore clusterizado é adicionado à tabela para melhorar o armazenamento e o desempenho da consulta. A amostra de 1% do conjunto de dados NYC Taxi é inserida nesta tabela.dbo.nyc_taxi_models table: Usado para persistir o modelo de análise avançada treinado. |
| fnCalculateDistance | função de valor escalar | Calcula a distância direta entre os locais de embarque e desembarque. Esta função é usada em Criar recursos de dados, Treinar e salvar um modelo e Operacionalizar o modelo R. |
| fnEngineerFeatures | função de valor de tabela | Cria novos recursos de dados para treinamento de modelos. Esta função é usada em Criar recursos de dados e Operacionalizar o modelo R. |
Os procedimentos armazenados são criados usando scripts R e Python encontrados em vários tutoriais. A tabela a seguir resume os procedimentos armazenados que você pode, opcionalmente, adicionar ao banco de dados de demonstração do NYC Taxi ao executar scripts de várias lições.
| Procedimento armazenado | Language | Descrição |
|---|---|---|
| RxPlotHistogram | R | Chama a função RevoScaleR rxHistogram para plotar o histograma de uma variável e, em seguida, retorna o gráfico como um objeto binário. Este procedimento armazenado é usado em Explorar e visualizar dados. |
| RPlotRHist | R | Cria um gráfico usando a Hist função e salva a saída como um arquivo PDF local. Este procedimento armazenado é usado em Explorar e visualizar dados. |
| RxTrainLogitModel | R | Treina um modelo de regressão logística chamando um pacote R. O modelo prevê o valor da tipped coluna e é treinado usando 70% dos dados selecionados aleatoriamente. A saída do procedimento armazenado é o modelo treinado, que é salvo na tabela dbo.nyc_taxi_models. Este procedimento armazenado é usado em Treinar e salvar um modelo. |
| RxPredictBatchOutput | R | Chama o modelo treinado para criar previsões usando o modelo. O procedimento armazenado aceita uma consulta como seu parâmetro de entrada e retorna uma coluna de valores numéricos contendo as pontuações para as linhas de entrada. Este procedimento armazenado é usado em Prever resultados potenciais. |
| RxPredictSingleRow | R | Chama o modelo treinado para criar previsões usando o modelo. Este procedimento armazenado aceita uma nova observação como entrada, com valores de feição individuais passados como parâmetros em linha, e retorna um valor que prevê o resultado para a nova observação. Este procedimento armazenado é usado em Prever resultados potenciais. |
Consultar os dados
Como etapa de validação, execute uma consulta para confirmar que os dados foram carregados.
No Pesquisador de Objetos, em Bancos de Dados, clique com o botão direito do mouse no banco de dados NYCTaxi_Sample e inicie uma nova consulta.
Execute algumas consultas básicas:
SELECT TOP(10) * FROM dbo.nyctaxi_sample; SELECT COUNT(*) FROM dbo.nyctaxi_sample;
O banco de dados contém 1,7 milhão de linhas.
Dentro do banco de dados há uma
dbo.nyctaxi_sampletabela que contém o conjunto de dados. A tabela foi otimizada para cálculos baseados em conjuntos com a adição de um índice columnstore. Execute esta instrução para gerar um resumo rápido na tabela.SELECT DISTINCT [passenger_count] , ROUND (SUM ([fare_amount]),0) as TotalFares , ROUND (AVG ([fare_amount]),0) as AvgFares FROM [dbo].[nyctaxi_sample] GROUP BY [passenger_count] ORDER BY AvgFares DESC
Os resultados devem ser semelhantes aos mostrados na captura de tela a seguir.
Próximos passos
Os dados de exemplo do NYC Taxi estão agora disponíveis para aprendizagem prática.