Partager via


Compréhension des entités de niveau supérieur dans magasin de fonctionnalités géré

Ce document décrit les entités de niveau supérieur dans le magasin de fonctionnalités géré.

Diagramme représentant les principaux composants du magasin de fonctionnalités géré.

Pour plus d’informations sur le magasin de fonctionnalités géré, consultez Qu’est-ce que magasin de fonctionnalités géré ?.

Magasin de fonctionnalités

Vous pouvez créer et gérer des ensembles de fonctionnalités via un magasin de fonctionnalités. Les ensembles de fonctionnalités sont une collection de fonctionnalités. Vous pouvez éventuellement associer un magasin de matérialisation (connexion de magasin hors connexion) à un magasin de fonctionnalités afin de précalculer régulièrement les fonctionnalités et de les rendre persistantes. Cela peut rendre la récupération des fonctionnalités pendant la formation ou l’inférence plus rapide et plus fiable.

Pour plus d’informations sur la configuration, consultez le Schéma YAML du magasin de fonctionnalités CLI (v2)

Entités

Les entités encapsulent les colonnes d’index pour les entités logiques dans une entreprise. Les exemples d’entités incluent l’entité de compte, l’entité client, etc. Les entités aident à appliquer, comme meilleure pratique, l’utilisation des mêmes définitions de colonnes d’index dans ensembles de fonctionnalités qui utilisent les mêmes entités logiques.

Les entités sont généralement créées une seule fois, puis réutilisées dans les ensembles de fonctionnalités. Les entités sont avec version.

Pour plus d’informations sur la configuration, consultez le Schéma YAML de l’entité de fonctionnalité CLI (v2)

Spécification et ressource de l’ensemble de fonctionnalités

Les ensembles de fonctionnalités sont une collection de fonctionnalités générées par l’application de transformations sur les données système sources. Les ensembles de fonctionnalités encapsulent une source, la fonction de transformation et les paramètres de matérialisation. Actuellement, nous prenons en charge le code de transformation des fonctionnalités PySpark.

Vous commencez par créer une spécification d’ensemble de fonctionnalités. Une spécification d’ensemble de fonctionnalités est une définition autonome d’un ensemble de fonctionnalités que vous pouvez développer et tester localement.

Une spécification d’ensemble de fonctionnalités se compose généralement des paramètres suivants :

  • source : à quelle(s) source(s) cette fonctionnalité est mappée
  • transformation (facultatif) : logique de transformation qui doit être appliquée aux données sources pour créer des fonctionnalités. Dans notre cas, nous utilisons Spark comme calcul pris en charge.
  • Les noms des colonnes représentent le index_columns et le timestamp_column : ceci est requis lorsque les utilisateurs essaient de joindre des données de fonctionnalité avec des données d’observation (plus d’informations à ce sujet plus loin)
  • materialization_settings(facultatif) : obligatoire si vous souhaitez mettre en cache les valeurs des fonctionnalités dans un magasin de matérialisation pour une récupération efficace.

Après le développement et le test de la spécification de l’ensemble de fonctionnalités dans votre environnement local/dev, vous pouvez inscrire la spécification en tant que ressource d’ensemble de fonctionnalités auprès du magasin de fonctionnalités. La ressource d’ensemble de fonctionnalités fournit des fonctionnalités managées, telles que le contrôle de version et la matérialisation.

Pour plus d’informations sur la spécification YAML de l’ensemble de fonctionnalités, consultez Schéma YAML de la spécification de l’ensemble de fonctionnalités CLI (v2)

Spécification de récupération des fonctionnalités

Une spécification de récupération de caractéristiques est une définition portable de la liste de caractéristiques associée à un modèle. Cela peut aider à simplifier le développement et l’opérationnalisation de modèles Machine Learning. Une spécification de récupération de fonctionnalité est généralement une entrée dans le pipeline de formation. Il permet de générer les données de formation. Elle est ensuite empaquetée avec le modèle. En outre, la phase d’inférence l’utilise pour rechercher les fonctionnalités. Elle intègre toutes les phases du cycle de vie du Machine Learning. Les modifications apportées à votre pipeline de formation et d’inférence peuvent être réduites au minimum à mesure que vous expérimentez et déployez.

L’utilisation de la spécification de récupération de caractéristiques et du composant de récupération de caractéristiques intégré est facultative. Vous pouvez utiliser directement l’API get_offline_features() si vous le souhaitez.

Pour plus d’informations sur la spécification YAML de récupération de fonctionnalités, consultez Schéma YAML de la spécification de récupération de fonctionnalités CLI (v2).

Étapes suivantes