Tutorial de R: Predicción de tarifas de taxi de Nueva York con clasificación binaria

Se aplica a: SQL Server 2016 (13.x) y versiones posteriores Azure SQL Managed Instance

En esta serie de tutoriales de cinco partes para programadores de SQL, obtendrá información sobre la integración de R en SQL Server Machine Learning Services o en Clústeres de macrodatos.

En esta serie de tutoriales de cinco partes para programadores de SQL, obtendrá información sobre la integración de R en SQL Server Machine Learning Services.

En esta serie de tutoriales de cinco partes para programadores de SQL, obtendrá información sobre la integración de R en SQL Server 2016 R Services.

En esta serie de tutoriales de cinco partes para programadores de SQL, obtendrá información sobre la integración de R en Machine Learning Services en Azure SQL Managed Instance.

Creará e implementará una solución de aprendizaje automático basada en R mediante una base de datos de ejemplo en SQL Server. Se usará T-SQL, Azure Data Studio, o SQL Server Management Studio, y una instancia del motor de base de datos con el aprendizaje automático de SQL y la compatibilidad con el lenguaje R.

En esta serie de tutoriales se presentan las funciones de R usadas en un flujo de trabajo de modelado de datos. Algunas de las partes son la exploración de datos, la creación y el entrenamiento de un modelo de clasificación binaria, y la implementación del modelo. Usará datos de ejemplo de la Comisión de taxis y limusinas de la Ciudad de Nueva York. El modelo que se va a compilar predice si es probable que un trayecto acabe en propina en función de la hora del día, la distancia recorrida y la ubicación de origen.

En la primera parte de esta serie, instalará los requisitos previos y restaurará la base de datos de ejemplo. En las partes dos y tres, desarrollará scripts de R para preparar sus datos y entrenar un modelo de Machine Learning. Después, en las partes cuatro y cinco, ejecutará esos scripts de R en la base de datos con procedimientos almacenados en T-SQL.

En este artículo, hará lo siguiente:

  • Requisitos previos de instalación
  • Restauración de la base de datos de ejemplo

En la parte dos, explorará los datos de ejemplo y generará algunos trazados.

En la tercera, aprenderá a crear características a partir de datos sin procesar mediante una función de Transact-SQL. Después, llamaremos a esa función desde un procedimiento almacenado para crear una tabla que contiene los valores de las características.

En la parte cuatro, cargará los módulos y llamará a las funciones necesarias para crear y entrenar el modelo mediante un procedimiento almacenado de SQL Server.

En la parte cinco, aprenderá a poner en marcha los modelos entrenados y guardados en la parte cuatro.

Nota

Este tutorial está disponible tanto en R como en Python. Para obtener la versión de Python, consulte Tutorial de Python: Predicción de tarifas de taxi de Nueva York con clasificación binaria.

Prerrequisitos

Todas las tareas se pueden hacer mediante procedimientos almacenados de Transact-SQL en Azure Data Studio o Management Studio.

En este tutorial se supone que está familiarizado con las operaciones básicas de base de datos, como la creación de bases de datos y tablas, la importación de datos y la escritura de consultas SQL. No se da por sentado que conoce R; se proporciona todo el código de R.

Información general para desarrolladores de SQL

El proceso de compilación de una solución de Machine Learning es una tarea compleja para la que se necesitan varias herramientas y la coordinación de expertos en la materia en distintas fases:

  • Obtención y limpieza de datos
  • Exploración de los datos y compilación de características útiles para el modelado
  • Entrenamiento y ajuste del modelo
  • Implementación en producción

La mejor manera de desarrollar y probar el código real es usar un entorno de desarrollo dedicado de R. Pero, después de haber probado completamente el script, puede implementarlo fácilmente en SQL Server mediante procedimientos almacenados de Transact-SQL en el entorno de Azure Data Studio o Management Studio que ya conoce. El mecanismo principal para poner operativo el código en SQL Server consiste en ajustar el código externo en procedimientos almacenados.

Después de guardar el modelo en la base de datos, llame al modelo de predicción desde Transact-SQL mediante procedimientos almacenados.

Tanto si es un programador de SQL que no está familiarizado con R como si es un desarrollador de R que no está familiarizado con SQL, esta serie de cinco tutoriales presenta un flujo de trabajo típico para realizar análisis en base de datos con R y SQL Server.

Pasos siguientes

En este artículo:

  • Instaló los requisitos previos
  • Restauró la base de datos de ejemplo