Entraîner et évaluer un modèle de prévision de série chronologique

Dans ce notebook, vous créez un programme pour prévoir les données de série chronologique qui ont des cycles saisonniers. Utilisez le jeu de données NYC Property Sales avec des dates allant de 2003 à 2015 publiées par nyC Department of Finance sur le portail NYC Open Data Portal.

Prérequis

Obtenez un abonnement Microsoft Fabric. Vous pouvez également vous inscrire à un essai gratuit Microsoft Fabric.
Connectez-vous à Microsoft Fabric.
Basculez vers Fabric à l’aide du sélecteur d’expérience situé en bas à gauche de votre page d’accueil.

Connaissance des cahiers Microsoft Fabric.
Un lakehouse pour stocker des données pour cet exemple. Pour plus d'informations, consultez Ajouter un lakehouse à votre carnet.

Suivez sur un ordinateur portable

Vous pouvez suivre dans un notebook l’une des deux façons suivantes :

Ouvrez et exécutez le notebook intégré.
Chargez votre bloc-notes à partir de GitHub.

Ouvrir le notebook intégré

Le notebook d'exemple Série chronologique est fourni avec ce tutoriel.

Pour ouvrir le notebook d'exemple de ce didacticiel, suivez les instructions de Préparer votre système pour les didacticiels de science des données.
Assurez-vous d’attacher un lakehouse au notebook avant de commencer à exécuter du code.

Importer le bloc-notes à partir de GitHub

AIsample - Time Series Forecasting.ipynb est le notebook qui accompagne ce didacticiel.

Pour ouvrir le bloc-notes associé pour ce didacticiel, suivez les instructions de Préparer votre système pour les didacticiels de science des données pour importer le bloc-notes dans votre espace de travail.
Si vous préférez copier et coller le code de cette page, vous pouvez créer un nouveau notebook.
Assurez-vous d’attacher un « lakehouse » au notebook avant de commencer à exécuter du code.

Étape 1 : Installer des bibliothèques personnalisées

Lorsque vous développez un modèle machine learning ou gérez l’analyse des données ad hoc, vous devrez peut-être installer rapidement une bibliothèque personnalisée (par exemple, prophet dans ce notebook) pour la session Apache Spark. Pour effectuer cette tâche, vous avez deux choix.

Utilisez les fonctionnalités d’installation en ligne (par exemple, %pip, %conda, et ainsi de suite) pour démarrer rapidement avec de nouvelles bibliothèques. Cette méthode installe les bibliothèques personnalisées uniquement dans le notebook actuel, et non dans l’espace de travail.

# Use pip to install libraries
%pip install <library name>

# Use conda to install libraries
%conda install <library name>

Vous pouvez également créer un environnement Fabric, installer des bibliothèques à partir de sources publiques ou charger des bibliothèques personnalisées. Votre administrateur d’espace de travail peut attacher l’environnement comme valeur par défaut pour l’espace de travail. Toutes les bibliothèques de l’environnement deviennent disponibles pour une utilisation dans tous les blocs-notes et définitions de travaux Spark dans l’espace de travail. Pour plus d’informations sur les environnements, consultez créer, configurer et utiliser un environnement dans Microsoft Fabric.

Pour ce notebook, utilisez %pip install pour installer la librairie prophet. Le noyau PySpark redémarre après %pip install. Cette action signifie que vous devez installer la bibliothèque avant d’exécuter d’autres cellules.

# Use pip to install Prophet
%pip install prophet

Étape 2 : Chargement des données

jeu de données

Ce notebook utilise le jeu de données sur les ventes immobilières à NYC. Il couvre les données de 2003 à 2015, publiées par le Département de Finance nyC sur le portail NYC Open Data Portal.

Le jeu de données contient un enregistrement de chaque immeuble vendu sur le marché immobilier new-yorkais sur une période de 13 ans. Reportez-vous à la Glossary of Terms for Property Sales Files pour obtenir une définition des colonnes du jeu de données.

arrondissement	quartier	catégorie_de_classe_de_bâtiment	classe_fiscale	bloc	bâtiment	eastment	classe_de_bâtiment_actuelle	adresse	numéro_appartement	zip_code	unités résidentielles	unités commerciales	unités_totales	surface_terre_pieds_carrés	pieds carrés bruts	année de construction	classe_de_taxe_au_moment_de_la_vente	classe_de_bâtiment_au_moment_de_la_vente	prix_de_vente	date_de_vente
Manhattan	VILLE ALPHABET	07 LOCATIONS À LOUER - APPARTEMENTS SANS ASCENSEUR	0.0	384,0	17,0		C4	225 EAST 2ND STREET		10009.0	10.0	0.0	10.0	2145.0	6670.0	1900.0	2.0	C4	275000.0	2007-06-19
Manhattan	VILLE ALPHABET	07 LOCATIONS À LOUER - APPARTEMENTS SANS ASCENSEUR	2.0	405.0	12.0		C7	508 EAST 12TH STREET		10009.0	28.0	2.0	30,0	3872.0	15428.0	1930.0	2.0	C7	7794005.0	2007-05-21

L’objectif est de créer un modèle qui prévoit les ventes totales mensuelles, en fonction des données historiques. Pour cela, vous utilisez Prophet, une bibliothèque de prévision open source développée par Facebook. Prophet est basé sur un modèle additif, où les tendances non linéaires sont adaptées à la saisonnalité quotidienne, hebdomadaire et annuelle, et le nombre de jours fériés. Prophet fonctionne mieux sur les séries chronologiques ayant des effets saisonniers forts et plusieurs saisons de données historiques. En outre, Prophet gère de manière robuste les données manquantes et les valeurs hors norme des données.

Prophet utilise un modèle de série chronologique décomposable, composé de trois composants :

tendance : Prophet suppose un taux de croissance constant par segments, avec sélection automatique du point de changement
saisonnalité : Par défaut, Prophet utilise les séries de Fourier pour adapter une saisonnalité hebdomadaire et annuelle.
jours fériés : Prophet exige tous les jours fériés passés et futurs. Si un jour férié ne se répète pas à l’avenir, Prophet ne l’inclura pas dans la prévision.

Ce notebook agrège les données mensuellement, de sorte qu’il ignore les jours fériés.

Lisez le document officiel pour plus d’informations sur les techniques de modélisation de Prophet.

Télécharger le jeu de données et le charger dans un lakehouse

La source de données se compose de 15 fichiers .csv. Ces fichiers contiennent des enregistrements de vente de propriétés de cinq arrondissements de New York entre 2003 et 2015. Par souci de commodité, le fichier nyc_property_sales.tar contient tous ces fichiers .csv, en les compressant dans un seul fichier. Un blob storage disponible publiquement héberge ce fichier .tar.

Conseil

En utilisant les paramètres affichés dans cette cellule de code, vous pouvez facilement appliquer ce notebook à différents jeux de données.

URL = "https://synapseaisolutionsa.z13.web.core.windows.net/data/NYC_Property_Sales_Dataset/"
TAR_FILE_NAME = "nyc_property_sales.tar"
DATA_FOLDER = "Files/NYC_Property_Sales_Dataset"
TAR_FILE_PATH = f"/lakehouse/default/{DATA_FOLDER}/tar/"
CSV_FILE_PATH = f"/lakehouse/default/{DATA_FOLDER}/csv/"

EXPERIMENT_NAME = "aisample-timeseries" # MLflow experiment name

Ce code télécharge une version du jeu de données accessible au public, puis stocke ce jeu de données dans un Lakehouse Fabric.

Important

Assurez-vous d’ajouter un lakehouse à votre carnet avant de l’exécuter. Si ce n’est pas le cas, une erreur se produit.

import os

if not os.path.exists("/lakehouse/default"):
    # Add a lakehouse if the notebook has no default lakehouse
    # A new notebook will not link to any lakehouse by default
    raise FileNotFoundError(
        "Default lakehouse not found, please add a lakehouse for the notebook."
    )
else:
    # Verify whether or not the required files are already in the lakehouse, and if not, download and unzip
    if not os.path.exists(f"{TAR_FILE_PATH}{TAR_FILE_NAME}"):
        os.makedirs(TAR_FILE_PATH, exist_ok=True)
        os.system(f"wget {URL}{TAR_FILE_NAME} -O {TAR_FILE_PATH}{TAR_FILE_NAME}")

    os.makedirs(CSV_FILE_PATH, exist_ok=True)
    os.system(f"tar -zxvf {TAR_FILE_PATH}{TAR_FILE_NAME} -C {CSV_FILE_PATH}")

Commencez à enregistrer le temps d'exécution de ce carnet.

# Record the notebook running time
import time

ts = time.time()

Configurer le suivi des expériences MLflow

Pour étendre les fonctionnalités de journalisation MLflow, l'autojournalisation capture automatiquement les valeurs des paramètres d’entrée et des métriques de sortie d’un modèle d'apprentissage automatique pendant son entraînement. Ces informations sont ensuite consignées dans l’espace de travail, où les API MLflow ou l’expérience correspondante dans l’espace de travail peuvent access et les visualiser. Pour plus d’informations sur l’autologging, consultez Autologging dans Microsoft Fabric.

# Set up the MLflow experiment
import mlflow

mlflow.set_experiment(EXPERIMENT_NAME)
mlflow.autolog(disable=True)  # Disable MLflow autologging

Remarque

Pour désactiver l’autologging Microsoft Fabric dans une session de notebook, appelez mlflow.autolog() et définissez disable=True.

Lire les données de date brutes de la lakehouse

df = (
    spark.read.format("csv")
    .option("header", "true")
    .load("Files/NYC_Property_Sales_Dataset/csv")
)

Étape 3 : Commencer l’analyse exploratoire des données

Pour passer en revue le jeu de données, examinez manuellement un sous-ensemble de données pour mieux le comprendre. Utilisez la display fonction pour imprimer le DataFrame. Vous pouvez également afficher les vues de diagramme pour visualiser facilement des sous-ensembles du jeu de données.

display(df)

Un examen manuel du jeu de données conduit à quelques observations précoces :

Instances de prix de vente à 0,00 $. Selon la Glossary of Terms, cette valeur implique un transfert de propriété sans considération en espèces. En d’autres termes, aucune trésorerie n’a été acheminée dans la transaction. Supprimez les ventes avec des valeurs de 0,00 sales_price $ du jeu de données.
Le jeu de données couvre différentes classes de construction. Toutefois, ce bloc-notes se concentre sur les bâtiments résidentiels qui, selon les Glossary of Terms, sont marqués comme étant de type « A ». Filtrez le jeu de données pour inclure uniquement les bâtiments résidentiels. Pour cela, incluez les colonnes building_class_at_time_of_sale ou building_class_at_present. Incluez uniquement les données building_class_at_time_of_sale.
Le jeu de données inclut des instances où les valeurs total_units sont égales à 0 ou où les valeurs gross_square_feet sont égales à 0. Supprimez toutes les instances où total_units ou gross_square_units les valeurs sont égales à 0.
Certaines colonnes ( par exemple, apartment_number, , tax_classbuild_class_at_presentet d’autres) ont des valeurs null ou manquantes. Supposons que les données manquantes impliquent des erreurs matérielles ou des données inexistantes. L’analyse ne dépend pas de ces valeurs manquantes. Vous pouvez donc les ignorer.
La colonne sale_price est stockée sous forme de chaîne, avec un caractère « $ » prédéfini. Pour poursuivre l’analyse, représentez cette colonne sous forme de nombre. Convertissez la colonne sale_price en entier.

Conversion et filtrage de type

Pour résoudre certains des problèmes identifiés, importez les bibliothèques requises.

# Import libraries
import pyspark.sql.functions as F
from pyspark.sql.types import *

Convertir les données de ventes de la chaîne de caractères en un nombre entier

Utilisez des expressions régulières pour séparer la partie numérique de la chaîne du symbole dollar (par exemple, dans la chaîne $300,000, fractionnez $ et 300,000), puis convertissez la partie numérique en tant qu’entier.

Ensuite, filtrez les données pour inclure uniquement les instances qui répondent à toutes ces conditions :

La sales_price valeur est supérieure à 0.
La total_units valeur est supérieure à 0.
La gross_square_feet valeur est supérieure à 0.
Le building_class_at_time_of_sale est de type A.

df = df.withColumn(
    "sale_price", F.regexp_replace("sale_price", "[$,]", "").cast(IntegerType())
)
df = df.select("*").where(
    'sale_price > 0 and total_units > 0 and gross_square_feet > 0 and building_class_at_time_of_sale like "A%"'
)

Agrégation mensuelle

La ressource de données suit les ventes immobilières quotidiennes, mais cette approche est trop détaillée pour ce bloc-notes. Au lieu de cela, agrégez les données tous les mois.

Tout d’abord, modifiez les valeurs de date pour afficher uniquement les données de mois et d’année. Les valeurs de date incluent toujours les données d’année. Vous pouvez toujours faire la distinction entre, par exemple, décembre 2005 et décembre 2006.

En outre, conservez uniquement les colonnes pertinentes pour l’analyse. Ces colonnes incluent sales_price, , total_unitsgross_square_feetet sales_date. Vous devez également renommer sales_date en month.

monthly_sale_df = df.select(
    "sale_price",
    "total_units",
    "gross_square_feet",
    F.date_format("sale_date", "yyyy-MM").alias("month"),
)
display(monthly_sale_df)

Agréger les valeurs sale_price, total_units et gross_square_feet par mois. Ensuite, regroupez les données par month, puis additionnez toutes les valeurs au sein de chaque groupe.

summary_df = (
    monthly_sale_df.groupBy("month")
    .agg(
        F.sum("sale_price").alias("total_sales"),
        F.sum("total_units").alias("units"),
        F.sum("gross_square_feet").alias("square_feet"),
    )
    .orderBy("month")
)

display(summary_df)

Conversion Pyspark vers Pandas

Les DataFrames Pyspark gèrent bien les jeux de données volumineux. Toutefois, en raison de l’agrégation de données, la taille du DataFrame est plus petite. Cette modification suggère que vous pouvez désormais utiliser des DataFrames pandas.

Ce code convertit le jeu de données d’un DataFrame Pyspark en un DataFrame Pandas.

import pandas as pd

df_pandas = summary_df.toPandas()
display(df_pandas)

Visualisation

Vous pouvez examiner la tendance du commerce des propriétés de New York pour mieux comprendre les données. Cet examen conduit à des insights sur les tendances potentielles et les tendances saisonnières. Pour plus d’informations sur la visualisation des données Microsoft Fabric, consultez la ressource Notebook visualisation.

import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

f, (ax1, ax2) = plt.subplots(2, 1, figsize=(35, 10))
plt.sca(ax1)
plt.xticks(np.arange(0, 15 * 12, step=12))
plt.ticklabel_format(style="plain", axis="y")
sns.lineplot(x="month", y="total_sales", data=df_pandas)
plt.ylabel("Total Sales")
plt.xlabel("Time")
plt.title("Total Property Sales by Month")

plt.sca(ax2)
plt.xticks(np.arange(0, 15 * 12, step=12))
plt.ticklabel_format(style="plain", axis="y")
sns.lineplot(x="month", y="square_feet", data=df_pandas)
plt.ylabel("Total Square Feet")
plt.xlabel("Time")
plt.title("Total Property Square Feet Sold by Month")
plt.show()

Résumé des observations de l’analyse exploratoire des données

Les données présentent un modèle récurrent clair sur une cadence annuelle, ce qui signifie que les données ont une saisonnalité annuelle.
Les mois d’été semblent avoir des volumes de ventes plus élevés par rapport aux mois d’hiver.
Lorsque vous comparez des années avec des ventes élevées et des années avec des ventes faibles, vous constatez que la différence de chiffre d’affaires entre les mois de ventes élevés et les mois de ventes faibles dans les années de ventes élevées dépasse - en termes absolus - la différence de chiffre d’affaires entre les mois de ventes élevés et les mois de faible ventes dans les années de vente faible.

Par exemple, en 2004, la différence de chiffre d’affaires entre le mois de ventes le plus élevé et le mois de ventes le plus bas est d’environ :

$900,000,000 - $500,000,000 = $400,000,000

Pour 2011, ce calcul des différences de revenus est d’environ :

$400,000,000 - $300,000,000 = $100,000,000

Cette observation devient importante plus tard, quand vous devez décider entre les effets saisonniers multiplicatifs et additifs .

Étape 4 : formation et suivi du modèle

Ajustement de modèle

Prophet prend toujours un DataFrame à deux colonnes comme entrée. Une colonne d’entrée est une colonne de temps nommée ds, et l’autre colonne d’entrée est une colonne de valeur nommée y. La colonne de temps doit avoir un format de données date, heure ou datetime (par exemple, YYYY_MM). Le jeu de données présent ici répond à cette condition. La colonne de valeur doit être un format de données numériques.

Pour l’ajustement du modèle, renommez la colonne de temps en ds et la colonne de valeur en y. Ensuite, transmettez les données au Prophète. Pour plus d’informations, consultez la documentation de l’API Python Prophet Python.

df_pandas["ds"] = pd.to_datetime(df_pandas["month"])
df_pandas["y"] = df_pandas["total_sales"]

Prophet suit la convention scikit-learn . Tout d’abord, créez une instance de Prophet, définissez certains paramètres (par exemple, seasonality_mode), puis ajustez cette instance au jeu de données.

Bien qu’un facteur additif constant soit l’effet saisonnier par défaut pour Le Prophète, utilisez la saisonnalité « multiplicative » pour le paramètre d’effet de saisonnalité. L’analyse de la section précédente a montré qu’en raison de changements dans l’amplitude de la saisonnalité, une saisonnalité additive simple ne correspond pas bien aux données du tout.
Définissez le paramètre weekly_seasonalitysur désactivé, car les données sont agrégées par mois. Par conséquent, les données hebdomadaires ne sont pas disponibles.
Utilisez les méthodes Markov Chain Monte Carlo (MCMC) pour capturer les estimations d’incertitude de saisonnalité. Par défaut, Prophet peut fournir des estimations d’incertitude sur la tendance et le bruit d’observation, mais pas pour la saisonnalité. MCMC nécessitent plus de temps de traitement, mais ils permettent à l’algorithme de fournir des estimations d’incertitude sur la saisonnalité, ainsi que sur la tendance et le bruit d’observation. Pour plus d’informations, consultez la documentation Prophet Uncertainty Intervals.
Paramétrez la sensibilité de détection automatique des points de modification via le paramètre changepoint_prior_scale. L’algorithme Prophet tente automatiquement de trouver des instances dans les données où les trajectoires changent brusquement. Il peut devenir difficile de trouver la valeur correcte. Pour résoudre ce problème, essayez différentes valeurs, puis sélectionnez le modèle avec les meilleures performances. Pour plus d’informations, consultez la documentation Prophet Trend Changepoints.

from prophet import Prophet

def fit_model(dataframe, seasonality_mode, weekly_seasonality, chpt_prior, mcmc_samples):
    m = Prophet(
        seasonality_mode=seasonality_mode,
        weekly_seasonality=weekly_seasonality,
        changepoint_prior_scale=chpt_prior,
        mcmc_samples=mcmc_samples,
    )
    m.fit(dataframe)
    return m

Validation croisée

Prophet dispose d’un outil de validation croisée intégré. Cet outil peut estimer l’erreur de prévision et trouver le modèle avec les meilleures performances.

La technique de validation croisée peut valider l’efficacité du modèle. Cette technique entraîne le modèle sur un sous-ensemble du jeu de données et exécute des tests sur un sous-ensemble précédemment invisible du jeu de données. Cette technique peut vérifier la généralisation d’un modèle statistique pour un jeu de données indépendant.

Pour la validation croisée, réservez un échantillon particulier du jeu de données qui ne fait pas partie du jeu de données d’entraînement. Ensuite, testez le modèle entraîné sur cet exemple avant le déploiement. Toutefois, cette approche ne fonctionne pas pour les données de série chronologique. Si le modèle voit les données des mois de janvier 2005 et mars 2005 et que vous essayez de prédire le mois de février 2005, le modèle peut essentiellement tricher , car il voit où la tendance des données mène. Dans les applications réelles, l’objectif est de prévoir l’avenir, comme des régions invisibles.

Pour gérer ce problème et rendre le test fiable, fractionnez le jeu de données en fonction des dates. Utilisez le jeu de données jusqu’à une certaine date (par exemple, les 11 premières années de données) pour l’entraînement, puis utilisez les données invisibles restantes pour la prédiction.

Dans ce scénario, commencez par 11 ans de données d’entraînement, puis effectuez des prédictions mensuelles à l’aide d’un horizon d’un an. Plus précisément, les données d’entraînement contiennent tous les éléments de 2003 à 2013. Ensuite, la première exécution du programme gère les prédictions de janvier 2014 à janvier 2015. L’exécution suivante gère les prédictions de février 2014 à février 2015, et ainsi de suite.

Répétez ce processus pour chacun des trois modèles entraînés pour voir quel modèle fonctionne le mieux. Ensuite, comparez ces prédictions avec des valeurs réelles pour établir la qualité de prédiction du meilleur modèle.

from prophet.diagnostics import cross_validation
from prophet.diagnostics import performance_metrics

def evaluation(m):
    df_cv = cross_validation(m, initial="4017 days", period="30 days", horizon="365 days")
    df_p = performance_metrics(df_cv, monthly=True)
    future = m.make_future_dataframe(periods=12, freq="M")
    forecast = m.predict(future)
    return df_p, future, forecast

Modèle de journal avec MLflow

Journalisez les modèles pour suivre leurs paramètres et enregistrer les modèles pour une utilisation ultérieure. Toutes les informations pertinentes de modèles sont consignées dans l’espace de travail sous le nom de l’expérience. Le modèle, les paramètres et les métriques, ainsi que les éléments de mise en route automatique MLflow, sont enregistrés dans une exécution MLflow.

# Setup MLflow
from mlflow.models.signature import infer_signature

Effectuer des expériences

Une expérience machine learning sert d’unité principale d’organisation et de contrôle pour toutes les exécutions de machine learning associées. Une exécution correspond à une seule exécution de code de modèle. Le suivi des expériences d'apprentissage automatique désigne la gestion de toutes les expériences et de leurs composants. Cette gestion comprend des paramètres, des métriques, des modèles et d’autres artifacts. Il permet d’organiser les composants requis d’une expérience de machine learning spécifique. Le suivi des expériences de machine learning permet également de dupliquer facilement les résultats passés avec des expériences sauvegardées. Pour plus d’informations, consultez machine learning expériences dans Microsoft Fabric. Une fois que vous avez déterminé les étapes que vous envisagez d’inclure (par exemple, l’ajustement et l’évaluation du modèle Prophet dans ce notebook), vous pouvez exécuter l’expérience.

model_name = f"{EXPERIMENT_NAME}-prophet"

models = []
df_metrics = []
forecasts = []
seasonality_mode = "multiplicative"
weekly_seasonality = False
changepoint_priors = [0.01, 0.05, 0.1]
mcmc_samples = 100

for chpt_prior in changepoint_priors:
    with mlflow.start_run(run_name=f"prophet_changepoint_{chpt_prior}"):
        # init model and fit
        m = fit_model(df_pandas, seasonality_mode, weekly_seasonality, chpt_prior, mcmc_samples)
        models.append(m)
        # Validation
        df_p, future, forecast = evaluation(m)
        df_metrics.append(df_p)
        forecasts.append(forecast)
        # Log model and parameters with MLflow
        mlflow.prophet.log_model(
            m,
            model_name,
            registered_model_name=model_name,
            signature=infer_signature(future, forecast),
        )
        mlflow.log_params(
            {
                "seasonality_mode": seasonality_mode,
                "mcmc_samples": mcmc_samples,
                "weekly_seasonality": weekly_seasonality,
                "changepoint_prior": chpt_prior,
            }
        )
        metrics = df_p.mean().to_dict()
        metrics.pop("horizon")
        mlflow.log_metrics(metrics)

Visualiser un modèle avec Prophet

Prophet a des fonctions de visualisation intégrées qui montrent les résultats de l’ajustement du modèle.

Les points noirs représentent les points de données qui entraînent le modèle. La ligne bleue est la prévision et la zone bleu clair montre des intervalles d’incertitude. Vous avez créé trois modèles avec des valeurs différentes changepoint_prior_scale . Les prédictions de ces trois modèles apparaissent dans les résultats de ce bloc de code.

for idx, pack in enumerate(zip(models, forecasts)):
    m, forecast = pack
    fig = m.plot(forecast)
    fig.suptitle(f"changepoint = {changepoint_priors[idx]}")

La plus changepoint_prior_scale petite valeur du premier graphique entraîne un sous-ajustement des changements de tendance. Le plus grand changepoint_prior_scale dans le troisième graphique peut entraîner un surajustement. Par conséquent, le deuxième graphique est le meilleur choix. Ce résultat signifie que le deuxième modèle est le plus approprié.

Visualiser les tendances et la saisonnalité avec Prophet

En outre, Prophet peut facilement visualiser les tendances et les saisons sous-jacentes. Les visualisations du deuxième modèle sont affichées dans les résultats de ce bloc de code.

BEST_MODEL_INDEX = 1  # Set the best model index according to the previous results
fig2 = models[BEST_MODEL_INDEX].plot_components(forecast)

Dans ces graphiques, l’ombrage bleu clair reflète l’incertitude. Le graphique du haut montre une tendance oscillante forte et longue. Les volumes de ventes augmentent et chutent sur quelques années. Le graphique du bas montre que les ventes ont tendance à atteindre un pic en février et en septembre, atteignant leurs valeurs maximales pour l’année dans ces mois. Peu après ces mois, en mars et en octobre, ils tombent aux valeurs minimales de l’année.

Évaluez les performances des modèles à l’aide de différentes métriques, par exemple :

erreur carrée moyenne (MSE)
erreur quadratique moyenne (RMSE)
erreur absolue moyenne (MAE)
erreur de pourcentage absolue moyenne (MAPE)
erreur de pourcentage absolue médiane (MDAPE)
erreur de pourcentage absolue moyenne symétrique (SMAPE)

Évaluez la couverture à l'aide des estimations yhat_lower et yhat_upper. Notez les horizons variés dans lesquels vous prévoyez une année à l’avenir, 12 fois.

display(df_metrics[BEST_MODEL_INDEX])

En utilisant la métrique MAPE pour ce modèle de prévision, les prédictions qui s’étendent un mois à l’avenir impliquent généralement des erreurs d’environ 8%. Toutefois, pour les prédictions sur un an, l’erreur augmente d’environ 10 %.

Étape 5 : Noter le modèle et enregistrer les résultats de prédiction

Évaluez le modèle et enregistrez les résultats de prédiction.

Effectuer des prédictions avec Predict Transformer

Chargez le modèle et utilisez-le pour effectuer des prédictions. Pour opérationnaliser des modèles machine learning, utilisez PREDICT, une fonction de Microsoft Fabric évolutive qui prend en charge le scoring par lots dans n’importe quel moteur de calcul. Pour plus d’informations sur PREDICT et comment l’utiliser dans Microsoft Fabric, consultez cette ressource.

from synapse.ml.predict import MLFlowTransformer

spark.conf.set("spark.synapse.ml.predict.enabled", "true")

model = MLFlowTransformer(
    inputCols=future.columns.values,
    outputCol="prediction",
    modelName=f"{EXPERIMENT_NAME}-prophet",
    modelVersion=BEST_MODEL_INDEX,
)

test_spark = spark.createDataFrame(data=future, schema=future.columns.to_list())

batch_predictions = model.transform(test_spark)

display(batch_predictions)

# Code for saving predictions into lakehouse
batch_predictions.write.format("delta").mode("overwrite").save(
    f"{DATA_FOLDER}/predictions/batch_predictions"
)

# Determine the entire runtime
print(f"Full run cost {int(time.time() - ts)} seconds.")

modèle d'apprentissage automatique dans Microsoft Fabric
Entraîner des modèles d'apprentissage automatique
Expériences d'apprentissage automatique dans Microsoft Fabric

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-01