Configurer le modèle Fréquemment achetés ensemble (version préliminaire)

Article
07/29/2024

Important

Tout ou partie de cette fonctionnalité est accessible dans le cadre d’une version préliminaire. Le contenu et la fonctionnalité sont susceptibles d’être modifiés.

Après avoir déployé avec succès le modèle Fréquemment achetés ensemble, vous devrez configurer le modèle pour générer des informations sur les données disponibles dans la lakehouse.

Conditions préalables

Vous avez besoin de l’autorisation de l’administrateur Fabric (contributeur de l’espace de travail) pour configurer le modèle Fréquemment achetés ensemble.

Configurer le modèle pour générer des informations

Le bloc-notes se compose des cellules suivantes qui racontent la manière dont les données sont traitées pour fournir le résultat requis.

Avertissement

Les cellules suivantes sont utilisées dans l’ordre spécifique recommandé. S’ils sont utilisés dans un ordre différent, le bloc-notes échoue.

Étape 1. Importer les bibliothèques

Cette étape importe les bibliothèques nécessaires pour le notebook. Vous n’avez aucune modifier à faire à cette étape.

Étape 2. Initialiser les configurations Spark, l’enregistreur et le pointeur de contrôle

Cette étape initialise les configurations Spark, l’enregistreur et les objets du pointeur de contrôle qui sont utilisés pour l’exécution du notebook.

Vous pouvez initialiser l’enregistreur de deux manières différentes :

Configurer pour écrire des journaux sur les sorties des cellules du bloc-notes. C’est le comportement par défaut.
Configurer pour écrire des journaux dans un espace de travail Microsoft Azure Application Insights. Pour cette approche, vous avez besoin de la chaîne de connexion de l’espace de travail Application Insights. Le système génère un ID d’exécution, puis l’affiche dans la sortie de la cellule. Vous pouvez utiliser l’ID d’exécution pour interroger les journaux dans l’espace de travail Application Insights.

Vous pouvez utiliser le pointeur de contrôle pour synchroniser l’implémentation de Spark et éviter la génération potentielle de clés dupliquées. Vous devez fournir un chemin que vous prévoyez d’utiliser comme répertoire de travail. Le nom de la variable est checkpoint_dir. Le répertoire doit se trouver dans la section des fichiers du lakehouse, c’est-à-dire qu’il doit commencer par « Files/ ».

Étape 3. Se connecter à Lakehouse et lire les tables d’entrée

Cette étape se connecte à Lakehouse et lit les tables d’entrée requises pour le modèle. Vous pouvez lire les tables d’entrée à partir de l’une des trois options suivantes :

Le Lakehouse épinglé du bloc-notes, qui contient les exemples de données. Il s’agit de l’option par défaut.
Lakehouses connectés au notebook. Vous pouvez sélectionner le Lakehouse à partir d’un menu déroulant.
Un autre Lakehouse non connecté au portable. Vous devez fournir le chemin complet vers Lakehouse.

Pour plus de détails sur les tableaux d’entrée, consultez Données d’entrée pour Fréquemment achetés ensemble.

Étape 4. Définir les périodes d’analyse pour le modèle

Le bloc-notes vous permet d’exécuter le modèle sur plusieurs périodes, ce qui peut vous aider à capturer la saisonnalité et les changements de comportement des clients, de portefeuille de produits et de positionnement des produits au fil du temps. Vous pouvez également comparer les résultats de différentes périodes à l’aide du tableau de bord prêt à l’emploi.

Pour définir une période de temps, utilisez la fonction add_analysis_period . Assurez-vous de définir les périodes d’analyse dans la durée des données d’entrée. La durée des données d’entrée (horodatage des transactions max et min) est enregistrée dans la sortie de la cellule. Vous pouvez définir jusqu’à cinq périodes. Les clés de référence des périodes sont stockées dans la table TimePeriods .

Étape 5. Prétraiter les données d’entrée

Cette étape rejoint les trames de données d’entrée pour créer un jeu de données POS, qui est utilisé par le modèle pour générer les informations. Vous n’avez aucune modifier à faire à cette étape.

Le résultat de cette étape inclut les trames de données suivantes :

purchases : la trame de données POS purchases contient des informations sur les achats effectués par les clients, telles que l’ID de l’entité de vente au détail, l’ID du produit, le montant du prix catalogue du produit, la quantité et l’horodatage de la visite. Vous pouvez créer cette trame de données en joignant les tables Visit, ShopperSession, ShopperSessionTransaction et TransactionLineItem.
time_periods : cette trame de données contient les périodes d’analyse que vous définissez à l’étape précédente. Vous pouvez utiliser ces périodes pour diviser les données et exécuter le modèle sur chaque période.
retail_entities : cette trame de données contient les identifiants des entités de vente au détail et leurs informations. Une entité de vente au détail peut être un magasin individuel ou un détaillant. Vous pouvez utiliser ces entités pour exécuter le modèle au niveau du magasin ou du détaillant.

Étape 6. Définir les paramètres du modèle et exécuter le modèle

Les paramètres de modèle suivants peuvent être définis pour affiner les résultats du modèle :

Nom du paramètre : min_itemset_frequency
- Description : Nombre minimal d’achats d’ensembles d’articles (collection de deux produits achetés ensemble) à prendre en compte dans l’analyse du modèle.
- Type de Valeur : entier
- Valeur par défaut : 3
- Obligatoire : vrai.
- Valeurs autorisées: >=1
Le nom du paramètre: max_basket_size
- Description : Nombre maximum d’articles dans un panier. Si le nombre d’articles dans le panier dépasse la valeur par défaut, le panier est tronqué. Le produit avec les ventes les plus faibles dans le jeu de données est coupé en premier.
- Type de Valeur : entier
- Valeur par défaut : 20
- Obligatoire : vrai.
- Valeurs autorisées: >=1
Nom du paramètre : chi_2_alpha
- Description: Paramètre de signification statistique. Utilisé pour déterminer si une paire de produits associés est significatif et statistiquement significatif. Si une paire de produits obtient un score inférieur à la valeur du paramètre, ils sont signalés dans le champ Chi2IsSignificant de la table RuleAttributes.
- Type de valeur : flottant
- Obligatoire: FAUX
- Valeur par défaut : 0,05 centile
- Plage de valeurs autorisées : 0-1

Lors de l’exécution, les données sont écrites dans les tables de sortie. Vous disposez de trois options pour définir à quel Lakehouse écrire.

Étape 7 : Créer des tables de tableau de bord Power BI

Dans cette étape, vous créez des tables de tableau de bord Power BI. Semblable à la Connectez-vous à Lakehouse et lisez la section des tableaux d’entrée, il existe trois méthodes d’écriture des sorties dans Fabric.

Une fois la création des tables de tableau de bord Power BI terminée, le système écrit les données dans le Lakehouse. Pour plus d’informations, consultez Tables de données de sortie

Étape 8 : Créer une vue avec « Association excellente » uniquement

« Association excellente » est une classification qui suggère une relation forte et statistiquement significative entre les produits sur la base des critères définis dans le code SQL. « Association excellente » est dérivée de la colonne StrengthOfAssociation qui est renseignée en fonction des instructions conditionnelles du code SQL. Cette logique catégorise la force de l’association entre les produits en fonction des valeurs des colonnes RuleQualityCategoryId et IsSignificant de la table FBT.

« Association excellente » fait référence aux cas où RuleQualityCategoryId a la valeur 2 (ce qui pourrait signifier une règle d’association de haute qualité) et IsSignificant a la valeur 1 (ce qui pourrait indiquer que l’association est statistiquement significative).

Si IsSignificant a la valeur 0, cela signifie que même si la catégorie de règle pourrait être considérée comme excellente, la signification pourrait être limitée en raison de données insuffisantes.

Dans cette étape, vous créez une vue avec « Association excellente » uniquement. Cette étape rend les produits symétriques. En substance, si Produit1=A et Produit2=B, alors vous devez créer un enregistrement symétrique sous la forme Produit1=B et Produit2=A. Vous devez interroger A et B séparément.

Étape 9 : Paramètres des tables de tableau de bord Power BI

Vous pouvez utiliser le paramètre num_top_associated_products pour configurer le nombre de produits associés principaux à afficher dans le tableau de bord Power BI pour chaque produit.

Description : nombre maximum de produits associés pour chaque produit à afficher dans le tableau de bord Power BI. Renvoie les produits principaux triés par le champ Rang de combinaison.
Type de valeur : entier
Obligatoire : faux
Valeur par défaut : 5
Plage de valeurs autorisées : 1-10

Étape 10 : Créer des vues

Vous pouvez créer des vues à partir des informations précédentes, où vous calculez les montants et les quantités d’achat sous forme de moyennes hebdomadaires.

Cette étape réplique les données pour chaque critère/groupe de produits que vous souhaitez afficher séparément. Vous pouvez terminer cette étape en classant chaque magasin/détaillant, période et devise.

Tous les articles (si Fréquemment achetés ensemble est associé à un autre article)
10 revenus les plus élevés pour Fréquemment achetés ensemble (principal + fréquemment achetés ensemble)
10 revenus les plus faibles pour Fréquemment achetés ensemble (principal + fréquemment achetés ensemble)
Meilleur vendeur en termes de revenus pour l’article principal
Vendeur le plus faible en termes de revenus pour l’article principal

La vue représente les articles principaux (Produit1) pour chaque magasin/détaillant, période de temps, devise et critères de produit avec son revenu hebdomadaire, la quantité et la somme des revenus de tous les produits fréquemment achetés ensemble.

Étape 11 : Créer une table que le tableau de bord Power BI consomme

La table que vous créez dans cette dernière étape est directement consommable sans qu’il soit nécessaire de créer d’autres mesures ou colonnes calculées Power BI.

Il existe trois types d’enregistrements selon TableColProductGroupType :

Type=1 : TableColProductGroup="Groupe N" : cet enregistrement représente l’article principal qui fait partie de la table du tableau de bord Fréquemment achetés ensemble.
Type=2 : TableColProductGroup="Produit principal" : cet enregistrement représente également l’article principal qui fait partie de la table du tableau de bord Fréquemment achetés ensemble en tant qu’autre enregistrement.
Type=3 : TableColProductGroup="Produit FBT" : cet enregistrement représente l’article associé au produit principal.

Maintenant vous avez terminé le nettoyage des données et créé le rapport Power BI avec les filtres appropriés à l’aide du notebook. Vous pouvez utiliser ce rapport pour obtenir des informations exploitables.

Partager via