Référence sur les algorithmes et les composants pour concepteur Azure Machine Learning

S’APPLIQUE À : Kit de développement logiciel (SDK) Python azure-ai-mlv2 (préversion)

Notes

Le concepteur prend en charge deux types de composants, les composants prédéfinis classiques et les composants personnalisés. Ces deux types de composants ne sont pas compatibles.

Les composants prédéfinis classiques fournissent principalement des composants prédéfinis pour le traitement des données et les tâches de Machine Learning traditionnelles telles que la régression et la classification. Ce type de composant continue d’être pris en charge, mais aucun nouveau composant n’est ajouté.

Les composants personnalisés vous permettent de fournir votre propre code en tant que composant. Cela permet le partage entre les espaces de travail et la création transparente dans les interfaces Studio, CLI et SDK.

Cet article s’applique aux composants prédéfinis classiques.

Cette référence présente le contexte technique de chacun des algorithmes et composants préconçus classiques disponibles dans le concepteur Azure Machine Learning.

Chaque composant représente un ensemble de code qui peut s’exécuter indépendamment et effectuer une tâche d’apprentissage automatique en fonction des entrées requises. Un composant peut contenir un algorithme particulier ou effectuer une tâche d’apprentissage automatique importante comme le remplacement d’une valeur manquante ou une analyse statistique.

Pour savoir quels algorithmes choisir, consultez

Conseil

Quel que soit le pipeline dans le concepteur, vous pouvez obtenir des informations sur un composant spécifique. Sélectionnez le lien En savoir plus dans la carte de composant lorsque vous pointez sur le composant dans la liste des composants, ou dans le volet droit du composant.

Composants de préparation de données

Fonctionnalités Description component
Entrée et sortie de données Déplacez des données de sources cloud dans votre pipeline. Écrivez les résultats ou les données intermédiaires dans le Stockage Azure ou SQL Database durant l’exécution d’un pipeline, ou utilisez le stockage cloud pour échanger les données entre les pipelines. Entrer des données manuellement
Exporter les données
Importer des données
Transformation des données Opérations sur les données qui sont uniques à Machine Learning, telles que la normalisation ou le compartimentage de données, la réduction de dimensionnalité et la conversion de données entre différents formats de fichier. Ajouter des colonnes
Ajouter des lignes
Appliquer une opération mathématique
Appliquer une transformation SQL
Nettoyer les données manquantes
Détourer les valeurs
Convertir au format CSV
Convertir en jeu de données
Convertir en valeurs d’indicateur
Modifier des métadonnées
Grouper des données dans des compartiments
Joindre des données
Normaliser les données
Partition et échantillon
Supprimer les données en double
SMOTE
Sélectionner une transformation de colonnes
Sélectionner des colonnes dans le jeu de données
Fractionner les données
Sélection de caractéristiques Sélectionnez un sous-ensemble de caractéristiques pertinentes et utiles qui serviront dans la création d’un modèle analytique. Sélection de caractéristiques par filtrage
Importance de la fonctionnalité de permutation
Fonctions statistiques Fournissez un large éventail de méthodes statistiques relatives à la science des données. Résumer les données

Algorithmes de Machine Learning

Fonctionnalités Description component
régression ; Prédisez une valeur. Régression d’arbre de décision boosté
Régression de forêt d’arbres décisionnels
Régression quantile de forêt rapide
Régression linéaire
Régression de réseau neuronal
Régression de poisson
Clustering Regroupez des données. Clustering k-moyennes
classification ; Prédisez une classe. Choisissez entre des algorithmes binaires (à deux classes) ou multiclasses. Arbre de décision multiclasse optimisé
Forêt d’arbres décisionnels multiclasse
Régression logistique multiclasse
Réseau neuronal multiclasse
Une ou toutes les multiclasses
Une ou une multiclasse
Perceptron moyenné à deux classes
Arbre de décision optimisé à deux classes
Forêt d’arbres décisionnels à deux classes
Régression logistique à deux classes
Réseau neuronal à deux classes
Machine à vecteurs de support à deux classes

Composants pour la génération et l’évaluation de modèles

Fonctionnalités Description component
Apprentissage du modèle Exécutez des données au moyen de l’algorithme. Entraîner un modèle de clustering
Former le modèle
Entraîner un modèle PyTorch
Optimiser les hyperparamètres du modèle
Scoring et évaluation d’un modèle Mesurez la précision du modèle entraîné. Appliquer une transformation
Attribuer des données à des clusters
Modèle de validation croisée
Évaluer le modèle
Scorer un modèle d’image
Noter le modèle
Langage Python Écrivez du code et incorporez-le dans un composant pour intégrer Python avec votre pipeline. Créer un modèle Python
Exécuter un script Python
Langage R Écrivez du code et incorporez-le dans un composant pour intégrer R avec votre pipeline. Exécuter un script R
Analyse de texte Fournissez des outils de calcul spécialisés pour travailler avec du texte structuré et non structuré. Vectoriser du texte
Extraire les caractéristiques de n-grammes du texte
Hachage des caractéristiques
Pré-traiter le texte
Allocation de Dirichlet latente
Scorer un modèle Vowpal Wabbit
Entraîner un modèle Vowpal Wabbit
Vision par ordinateur Composants liés au prétraitement de données d’image et à la reconnaissance d’image. Appliquer une transformation d’image
Convertir en répertoire d’images
Lancer une transformation d’image
Découper un répertoire d’images
DenseNet
ResNet
Recommandation Génération de modèles de recommandation. Évaluer le générateur de recommandations
Noter le générateur de recommandations SVD
Générateur de recommandations Score Wide and Deep
Entraîner le générateur de recommandations SVD
Générateur de recommandations Train Wide and Deep
Détection des anomalies Créez des modèles de détection des anomalies. Détection des anomalies basée sur l'analyse en composantes principales (ACP)
Former le modèle de détection des anomalies

Service Web

Découvrez les composants de service web nécessaires à l’inférence en temps réel dans le concepteur Azure Machine Learning.

Messages d’erreur

Découvrez les messages d’erreur et codes d’exception que vous pourriez rencontrer en utilisant des composants dans le concepteur Azure Machine Learning.

Environnement des composants

Tous les composants intégrés du concepteur seront exécutés dans un environnement fixe fourni par Microsoft.

Auparavant, cet environnement était basé sur Python 3.6 et a maintenant été mis à niveau vers Python 3.8. Cette mise à niveau est transparente, car les composants s’exécutent automatiquement dans l’environnement Python 3.8 sans aucune action de l’utilisateur. La mise à jour de l’environnement peut avoir un impact sur les sorties des composants et le déploiement d’un point de terminaison en temps réel à partir d’une inférence en temps réel. Consultez les sections suivantes pour en savoir plus.

Les sorties des composants sont différentes des résultats précédents

Une fois la version de Python mise à niveau de 3.6 à 3.8, les dépendances des composants intégrés peuvent également être mises à niveau en conséquence. Par conséquent, vous pourriez remarquer que certaines sorties de composants sont différentes des résultats précédents.

Si vous utilisez le composant Exécuter le script Python et que vous avez déjà installé des packages liés à Python 3.6, vous pourriez rencontrer des erreurs telles que :

  • « Impossible de trouver une version qui satisfait à l’exigence. »
  • « Aucune distribution correspondante trouvée. » Vous devrez alors spécifier la version du package adaptée à Python 3.8, et exécuter à nouveau votre pipeline.

Problème de déploiement d’un point de terminaison en temps réel à partir d’un pipeline d’inférence

Si vous déployez directement un point de terminaison en temps réel à partir d’un pipeline d’inférence en temps réel terminé précédent, il peut rencontrer des erreurs.

Recommandation : clonez le pipeline d’inférence et envoyez-le à nouveau, puis déployez-le vers le point de terminaison en temps réel.

Étapes suivantes