Didacticiel R : Prédire les tarifs des taxis de New York avec classification binaire
S’applique à : SQL Server 2016 (13.x) et versions ultérieures Azure SQL Managed Instance
Dans ce tutoriel en cinq parties pour les programmeurs SQL, vous apprendrez à vous familiariser avec l’intégration de R dans SQL Server Machine Learning Services ou sur des clusters Big Data.
Dans ce tutoriel en cinq parties pour les programmeurs SQL, vous apprendrez à vous familiariser avec l’intégration de R dans SQL Server Machine Learning Services.
Dans ce tutoriel en cinq parties pour les programmeurs SQL, vous apprendrez à vous familiariser avec l’intégration de R dans SQL Server 2016 R Services.
Dans ce tutoriel en cinq parties destiné aux programmeurs SQL, vous allez vous familiariser avec l’intégration de R à Machine Learning Services dans Azure SQL Managed Instance.
Vous allez créer et déployer une solution Machine Learning basée sur R à l’aide d’un exemple de base de données sur SQL Server. Vous allez utiliser T-SQL, Azure Data Studio ou SQL Server Management Studio et une instance de base de données avec Machine Learning SQL et la prise en charge du langage R
Ce didacticiel en plusieurs parties vous présente les fonctions R utilisées dans un workflow de modélisation des données. Les parties incluent l’exploration des données, la création et l’apprentissage d’un modèle de classification binaire et le déploiement d’un modèle. Vous allez utiliser des exemples de données provenant de la Commission des services de taxis et de limousines de la ville de New York. Le modèle que vous allez créer prévoit si un trajet est susceptible de générer un pourboire en fonction de l’heure de la journée, de la distance parcourue et de l’emplacement de la prise en charge du passager.
Dans la première partie de cette série, vous allez installer les composants requis et restaurer l’exemple de base de données. Dans les parties 2 et 3, vous allez développer des scripts R pour préparer vos données et effectuer l’apprentissage d’un modèle Machine Learning. Ensuite, dans les parties quatre et cinq, vous exécuterez ces scripts R à l’intérieur de la base de données à l’aide de procédures stockées T-SQL.
Dans cet article, vous allez :
- Installer les prérequis
- Restaurer les exemples de base de données
Dans la partie deux, vous explorez les exemples de données et générez des tracés.
Dans la troisième partie, vous apprendrez à créer des fonctionnalités à partir de données brutes à l’aide d’une fonction Transact-SQL. Ensuite, vous appellerez cette fonction à partir d’une procédure stockée pour créer une table qui contient les valeurs des caractéristiques.
Dans la quatrième partie, vous chargez les modules et appelez les fonctions nécessaires pour créer et entraîner le modèle à l’aide d’une procédure stockée SQL Server.
Dans la cinquième partie, vous apprendrez à rendre opérationnels les modèles que vous avez formés et enregistrés dans la quatrième partie.
Notes
Ce tutoriel est disponible au format R et Python. Pour obtenir la version de Python, consultez Didacticiel Python : Prédire les tarifs des taxis de New York avec classification binaire.
Prérequis
- Installer SQL Server 2016 R Services
- À compter de SQL Server 2019, le mécanisme d’isolation vous oblige à accorder les autorisations appropriées au répertoire dans lequel le fichier de traçage est stocké. Pour savoir comment définir ces autorisations, consultez la section Autorisations de fichiers dans SQL Server 2019 sur Windows : Modifications de l’isolation dans Machine Learning Services.
- Restaurer la Base de données de démonstration Taxis de New York
Toutes les tâches peuvent être effectuées à l’aide de procédures stockées Transact-SQL dans Azure Data Studio ou Management Studio.
Vous devez être familiarisé avec les opérations de base de données, telles que la création de bases de données et de tables, l’importation de données et la rédaction de requêtes SQL. Vous n’avez pas besoin de connaître R, car tout le code R est fourni.
Arrière-plan pour les développeurs SQL
Le processus de création d’une solution de Machine Learning est complexe. Il peut impliquer plusieurs outils et la coordination de plusieurs experts durant les différentes phases :
- Extraction et nettoyage des données
- Exploration des données et création de caractéristiques utiles pour la modélisation
- Apprentissage et optimisation du modèle
- Déploiement en production
Le développement et les tests du code réel fournissent de meilleurs résultats dans un environnement de développement dédié à R. Toutefois, une fois que le script est entièrement testé, vous pouvez facilement le déployer sur SQL Server à l’aide de procédures stockées Transact-SQL dans l’environnement familier d’Azure Data Studio ou Management Studio. L’encapsulation de code externe dans les procédures stockées est le mécanisme principal permettant de rendre le code opérationnel dans SQL Server.
Une fois que le modèle a été enregistré dans la base de données, vous pouvez l’appeler pour vos prédictions dans Transact-SQL à l’aide de procédures stockées.
Que vous soyez un programmeur SQL ne connaissant pas R ou un développeur R ne connaissant pas SQL, ce tutoriel en cinq parties présente un workflow standard pour effectuer des analyses dans des bases de données avec R et SQL Server.
Étapes suivantes
Dans cet article, vous découvrirez comment :
- Installer les éléments requis
- Restaurer l’exemple de base de données