Datos de demostración de los taxis de Nueva York para tutoriales de Python y R en SQL Server
Se aplica a: SQL Server 2016 (13.x) y versiones posteriores Azure SQL Managed Instance
En este artículo se explica cómo configurar una base de datos de ejemplo formada por datos públicos procedentes de la Comisión de taxis y limusinas de la ciudad de Nueva York. Estos datos se usan en varios tutoriales de R y Python para el análisis de bases de datos en SQL Server. Para que el código de ejemplo se ejecute más rápidamente, hemos creado una muestra representativa del 1 % de los datos. En el sistema, el archivo de copia de seguridad de base de datos es ligeramente superior a 90 MB, lo que proporciona 1,7 millones de filas en la tabla de datos principal.
Para completar este ejercicio, debe tener SQL Server Management Studio (SSMS) u otra herramienta que pueda restaurar un archivo de copia de seguridad de la base de datos y ejecutar consultas de T-SQL.
Entre los tutoriales y las guías de inicio rápido que usan este conjunto de datos se incluyen los siguientes artículos:
- Obtenga información sobre el análisis de bases de datos con R en SQL Server
- Obtenga información sobre el análisis de bases de datos con Python en SQL Server
Descarga de archivos
La base de datos de ejemplo es un archivo de copia de seguridad (.bak) de SQL Server 2016 hospedado por Microsoft. Puede restaurarlo en SQL Server 2016 y versiones posteriores. La descarga de archivos comienza inmediatamente al abrir el vínculo.
El tamaño del archivo es de aproximadamente 90 MB.
Nota:
Para restaurar la base de datos de ejemplo en clústeres de macrodatos de SQL Server, descargue NYCTaxi_Sample.bak y siga las instrucciones de Restauración de una base de datos en la instancia maestra del clúster de macrodatos de SQL Server.
Nota:
Para restaurar la base de datos de ejemplo en Machine Learning Services, en Azure SQL Managed Instance, siga las instrucciones de Inicio rápido: Restauración de una base de datos a Azure SQL Managed Instance mediante el archivo. bak de la base de datos de taxis de Nueva York: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.
Descargue el archivo de copia de seguridad de la base de datos NYCTaxi_Sample.bak.
Copie el archivo en
C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup
o en una ruta de acceso similar para la carpeta predeterminadaBackup
de la instancia.En SSMS, haga clic con el botón derecho en Bases de datos y seleccione Restaurar archivos y grupos de archivos.
Escriba
NYCTaxi_Sample
como nombre de la base de datos.Seleccione Desde el dispositivo y después abra la página de selección de archivos para seleccionar el archivo de copia de seguridad
NYCTaxi_Sample.bak
. Seleccione Agregar para seleccionarNYCTaxi_Sample.bak
.Active la casilla Restaurar y seleccione Aceptar para restaurar la base de datos.
Revisión de los objetos de base de datos
Confirme que los objetos de base de datos están en la instancia de SQL Server mediante SQL Server Management Studio. Tendría que ver la base de datos, las tablas, las funciones y los procedimientos almacenados.
Objetos en la base de datos NYCTaxi_Sample
En la tabla siguiente se resumen los objetos creados en la base de datos de demostración de los taxis de Nueva York.
Nombre de objeto | Tipo de objeto | Descripción |
---|---|---|
NYCTaxi_Sample | database | Crea una base de datos y dos tablas: Tabla dbo.nyctaxi_sample : contiene el conjunto de datos NYC Taxi principal. Un índice de almacén de columnas agrupado se agrega a la tabla para mejorar el rendimiento de almacenamiento y de consulta. La muestra del 1 % del conjunto de datos NYC Taxi se inserta en esta tabla.Tabla dbo.nyc_taxi_models : se usa para conservar el modelo de análisis avanzado entrenado. |
fnCalculateDistance | función escalar | Calcula la distancia directa entre las ubicaciones de origen y destino. Esta función se usa al crear características de datos, al entrenar y guardar un modelo y al hacer operativo el modelo R. |
fnEngineerFeatures | función con valores de tabla | Crea nuevas características de datos para el entrenamiento del modelo. Esta función se usa al rear características de datos y al acer operativo el modelo R. |
Los procedimientos almacenados se crean mediante el script de R y Python que se encuentra en varios tutoriales. En la tabla siguiente se resumen los procedimientos almacenados que se pueden agregar opcionalmente a la base de datos de demostración de los taxis de Nueva York al ejecutar un script desde varias lecciones.
Procedimiento almacenado | Lenguaje | Descripción |
---|---|---|
RxPlotHistogram | R | Llama a la función RevoScaleR rxHistogram para trazar el histograma de una variable y, después, devuelve el gráfico como un objeto binario. Este procedimiento almacenado se usa al xplorar y visualizar los datos. |
RPlotRHist | R | Crea un gráfico mediante una función de Hist y guarda el resultado como un archivo PDF local. Este procedimiento almacenado se usa al xplorar y visualizar los datos. |
RxTrainLogitModel | R | Entrena un modelo de regresión logística mediante una llamada a un paquete de R. El modelo predice el valor de la columna tipped y se entrena usando un 70 % de los datos seleccionados aleatoriamente. El resultado del procedimiento almacenado es el modelo entrenado, que se guarda en la tabla dbo.nyc_taxi_models . Este procedimiento almacenado se usa al ntrenar y guardar un modelo. |
RxPredictBatchOutput | R | Llama al modelo entrenado para crear predicciones usando el modelo. El procedimiento almacenado acepta una consulta como su parámetro de entrada y devuelve una columna de valores numéricos que contiene los resultados para las filas de entrada. Este procedimiento almacenado se usa al redecir posibles resultados. |
RxPredictSingleRow | R | Llama al modelo entrenado para crear predicciones usando el modelo. Este procedimiento almacenado acepta una observación nueva como entrada, con valores de características individuales pasados como parámetros en línea, y devuelve un valor que predice el resultado de la nueva observación. Este procedimiento almacenado se usa al redecir posibles resultados. |
Consultar los datos
Como paso de validación, ejecute una consulta para confirmar que se han cargado los datos.
En Explorador de objetos, debajo de Bases de datos, haga clic con el botón derecho en la base de datos NYCTaxi_Sample e inicie una nueva consulta.
Ejecución de algunas consultas básicas:
SELECT TOP(10) * FROM dbo.nyctaxi_sample; SELECT COUNT(*) FROM dbo.nyctaxi_sample;
La base de datos contiene 1,7 millones de filas.
Dentro de la base de datos hay la tabla
dbo.nyctaxi_sample
, que contiene el conjunto de datos. Esta tabla se ha optimizado para cálculos basados en conjuntos con la incorporación de un índice de almacén de columnas. Ejecute esta instrucción para generar un resumen rápido en la tabla.SELECT DISTINCT [passenger_count] , ROUND (SUM ([fare_amount]),0) as TotalFares , ROUND (AVG ([fare_amount]),0) as AvgFares FROM [dbo].[nyctaxi_sample] GROUP BY [passenger_count] ORDER BY AvgFares DESC
Los resultados deberían ser similares a los que se muestran en la captura de pantalla siguiente.
Pasos siguientes
Ahora están disponibles los datos de ejemplo de los taxis de Nueva York para poder ponerlos en práctica para el aprendizaje.