Datos de demostración de los taxis de Nueva York para tutoriales de Python y R en SQL Server

Se aplica a: SQL Server 2016 (13.x) y versiones posteriores Azure SQL Managed Instance

En este artículo se explica cómo configurar una base de datos de ejemplo formada por datos públicos procedentes de la Comisión de taxis y limusinas de la ciudad de Nueva York. Estos datos se usan en varios tutoriales de R y Python para el análisis de bases de datos en SQL Server. Para que el código de ejemplo se ejecute más rápidamente, hemos creado una muestra representativa del 1 % de los datos. En el sistema, el archivo de copia de seguridad de base de datos es ligeramente superior a 90 MB, lo que proporciona 1,7 millones de filas en la tabla de datos principal.

Para completar este ejercicio, debe tener SQL Server Management Studio (SSMS) u otra herramienta que pueda restaurar un archivo de copia de seguridad de la base de datos y ejecutar consultas de T-SQL.

Entre los tutoriales y las guías de inicio rápido que usan este conjunto de datos se incluyen los siguientes:

Descarga de archivos

La base de datos de ejemplo es un archivo BAK de SQL Server 2016 hospedado por Microsoft. Puede restaurarlo en SQL Server 2016 y versiones posteriores. La descarga de archivos comienza inmediatamente al abrir el vínculo.

El tamaño del archivo es de aproximadamente 90 MB.

Nota:

Para restaurar la base de datos de ejemplo en Machine Learning Services, en Azure SQL Managed Instance, siga las instrucciones de Inicio rápido: Restauración de una base de datos a Azure SQL Managed Instance mediante el archivo. bak de la base de datos de taxis de Nueva York: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. Descargue el archivo de copia de seguridad de la base de datos NYCTaxi_Sample.bak.

  2. Copie el archivo en C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup o en una ruta de acceso similar para la carpeta predeterminada Backup de la instancia.

  3. En SSMS, haga clic con el botón derecho en Bases de datos y seleccione Restaurar archivos y grupos de archivos.

  4. Escriba NYCTaxi_Sample como nombre de la base de datos.

  5. Seleccione Desde el dispositivo y después abra la página de selección de archivos para seleccionar el archivo de copia de seguridad NYCTaxi_Sample.bak. Seleccione Agregar para seleccionar NYCTaxi_Sample.bak.

  6. Active la casilla Restaurar y seleccione Aceptar para restaurar la base de datos.

Revisión de los objetos de base de datos

Confirme que los objetos de base de datos están en la instancia de SQL Server mediante SQL Server Management Studio. Tendría que ver la base de datos, las tablas, las funciones y los procedimientos almacenados.

rsql_devtut_BrowseTables

Objetos en la base de datos NYCTaxi_Sample

En la tabla siguiente se resumen los objetos creados en la base de datos de demostración de los taxis de Nueva York.

Nombre de objeto Tipo de objeto Descripción
NYCTaxi_Sample database Crea una base de datos y dos tablas:

Tabla dbo.nyctaxi_sample: contiene el conjunto de datos NYC Taxi principal. Un índice de almacén de columnas agrupado se agrega a la tabla para mejorar el rendimiento de almacenamiento y de consulta. La muestra del 1 % del conjunto de datos NYC Taxi se inserta en esta tabla.

Tabla dbo.nyc_taxi_models: se usa para conservar el modelo de análisis avanzado entrenado.
fnCalculateDistance función escalar Calcula la distancia directa entre las ubicaciones de origen y destino. Esta función se usa al crear características de datos, al entrenar y guardar un modelo y al hacer operativo el modelo R.
fnEngineerFeatures función con valores de tabla Crea nuevas características de datos para el entrenamiento del modelo. Esta función se usa al rear características de datos y al acer operativo el modelo R.

Los procedimientos almacenados se crean mediante el script de R y Python que se encuentra en varios tutoriales. En la tabla siguiente se resumen los procedimientos almacenados que se pueden agregar opcionalmente a la base de datos de demostración de los taxis de Nueva York al ejecutar un script desde varias lecciones.

Procedimiento almacenado Lenguaje Descripción
RxPlotHistogram R Llama a la función RevoScaleR rxHistogram para trazar el histograma de una variable y, después, devuelve el gráfico como un objeto binario. Este procedimiento almacenado se usa al xplorar y visualizar los datos.
RPlotRHist R Crea un gráfico mediante una función de Hist y guarda el resultado como un archivo PDF local. Este procedimiento almacenado se usa al xplorar y visualizar los datos.
RxTrainLogitModel R Entrena un modelo de regresión logística mediante una llamada a un paquete de R. El modelo predice el valor de la columna tipped y se entrena usando un 70 % de los datos seleccionados aleatoriamente. El resultado del procedimiento almacenado es el modelo entrenado, que se guarda en la tabla dbo.nyc_taxi_models. Este procedimiento almacenado se usa al ntrenar y guardar un modelo.
RxPredictBatchOutput R Llama al modelo entrenado para crear predicciones usando el modelo. El procedimiento almacenado acepta una consulta como su parámetro de entrada y devuelve una columna de valores numéricos que contiene los resultados para las filas de entrada. Este procedimiento almacenado se usa al redecir posibles resultados.
RxPredictSingleRow R Llama al modelo entrenado para crear predicciones usando el modelo. Este procedimiento almacenado acepta una observación nueva como entrada, con valores de características individuales pasados como parámetros en línea, y devuelve un valor que predice el resultado de la nueva observación. Este procedimiento almacenado se usa al redecir posibles resultados.

Consultar los datos

Como paso de validación, ejecute una consulta para confirmar que se han cargado los datos.

  1. En Explorador de objetos, debajo de Bases de datos, haga clic con el botón derecho en la base de datos NYCTaxi_Sample e inicie una nueva consulta.

  2. Ejecute algunas consultas sencillas:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

La base de datos contiene 1,7 millones de filas.

  1. Dentro de la base de datos hay la tabla dbo.nyctaxi_sample, que contiene el conjunto de datos. Esta tabla se ha optimizado para cálculos basados en conjuntos con la incorporación de un índice de almacén de columnas. Ejecute esta instrucción para generar un resumen rápido en la tabla.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Los resultados deberían ser similares a los que se muestran en la captura de pantalla siguiente.

Información de resumen de la tabla

Pasos siguientes

Ahora están disponibles los datos de ejemplo de los taxis de Nueva York para poder ponerlos en práctica para el aprendizaje.