Tutorial: Uso de funciones RevoScaleR R con datos de SQL Server

Se aplica a: SQL Server 2016 (13.x) y versiones posteriores

En esta serie de tutoriales de varias partes, conocerá una serie de funciones RevoScaleR para tareas asociadas a la ciencia de datos. En el proceso, aprenderá a crear un contexto de proceso remoto, trasladar datos entre contextos de proceso locales y remotos, y ejecutar código R en un servidor SQL Server remoto. También aprenderá a analizar y trazar datos tanto a nivel local como en el servidor remoto, y a crear e implementar modelos.

RevoScaleR es un paquete de Microsoft R que proporciona procesamiento paralelo y distribuido para cargas de trabajo de ciencia de datos y aprendizaje automático. Para el desarrollo de R en SQL Server, RevoScaleR es uno de los paquetes integrados principales, con funciones para crear objetos de origen de datos, establecer un contexto de proceso, administrar paquetes y, lo que es más importante, trabajar con datos de un extremo a otro, desde la importación hasta la visualización y el análisis. Los algoritmos de aprendizaje automático en SQL Server tienen una dependencia en orígenes de datos de RevoScaleR. Dada la importancia de RevoScaleR, es fundamental saber cuándo y cómo llamar a sus funciones.

Prerrequisitos

Para alternar entre los contextos de proceso locales y remotos, se necesitan dos sistemas. El contexto local suele ser una estación de trabajo de desarrollo con capacidad suficiente para cargas de trabajo de ciencia de datos. El contexto remoto, en este caso, es un servidor SQL Server con la característica R habilitada.

El cambio de los contextos de proceso se basa en tener la misma versión de RevoScaleR en los sistemas locales y remotos. En una estación de trabajo local, puede obtener los paquetes de RevoScaleR y los proveedores relacionados si instala Microsoft R Client.

Si necesita colocar el cliente y el servidor en el mismo equipo, asegúrese de instalar un segundo conjunto de bibliotecas de Microsoft R para enviar scripts de R desde un cliente "remoto". No use las bibliotecas de R que están instaladas en los archivos de programa de la instancia de SQL Server. Concretamente, si usa un equipo, necesita tener la biblioteca RevoScaleR en ambas ubicaciones para admitir las operaciones de cliente y de servidor.

  • C:\Archivos de programa\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Archivos de programa\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR

Para obtener instrucciones sobre la configuración de cliente, vea Configuración de un cliente de ciencia de datos para el desarrollo en R.

Herramientas de desarrollo en R

Los desarrolladores de R suelen usar varios IDE para escribir y depurar código de R. Estas son algunas sugerencias:

  • Herramientas de R para Visual Studio (RTVS) es un complemento gratuito que proporciona IntelliSense, depuración y compatibilidad con Microsoft R. Puede usarse con SQL Server Machine Learning Services. Para descargarlo, consulte la página sobre Herramientas de R para Visual Studio.

  • RStudio es uno de los entornos de desarrollo de R más populares. Para obtener más información, vea https://www.rstudio.com/products/RStudio/.

  • Las herramientas básicas de R (R.exe, RTerm.exe, RScripts.exe) también se instalan de forma predeterminada al instalar R en SQL Server o en el cliente de R. Si no quiere instalar un IDE, puede usar las herramientas de R integradas para ejecutar el código de este tutorial.

Recuerde que RevoScaleR es necesario en el equipo local y en el remoto. No puede completar este tutorial con una instalación genérica de RStudio u otro entorno que no tenga las bibliotecas de Microsoft R. Para obtener más información, consulte Configurar un cliente de ciencia de datos.

Resumen de tareas

  • Los datos se han obtenido inicialmente de archivos CSV o archivos XDF. Ahora tiene que importar los datos en SQL Server usando las funciones del paquete RevoScaleR.
  • El entrenamiento de modelos y la puntuación se realiza en el contexto de proceso de SQL Server.
  • Use las funciones de RevoScaleR para crear nuevas tablas de SQL Server para guardar los resultados de puntuación.
  • Cree trazados tanto en el servidor como en el contexto de proceso local.
  • Entrene un modelo con los datos de la base de datos SQL Server, ejecutando R en la instancia de SQL Server.
  • Extraiga un subconjunto de datos y guárdelos como un archivo XDF para volver a usarlos en el análisis en la estación de trabajo local.
  • Para obtener datos nuevos para la puntuación, abra una conexión ODBC con la base de datos SQL Server. La puntuación se realiza en la estación de trabajo local.
  • Cree una función personalizada de R y ejecútela en el contexto de proceso del servidor para realizar una simulación.

Pasos siguientes