Tulkittavuus – taulukkomuotoinen SHAP-selitys

Tässä esimerkissä käytetään Kernel SHAP -funktiota, joka selittää aikuisten väestönlaskennan tietojoukosta rakennetun taulukkomuotoisen luokitusmallin.

Tuo tarvittavat paketit ja määritä myöhemmin tarvitsemamme UDF:t:

import pyspark
from synapse.ml.explainers import *
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler
from pyspark.sql.types import *
from pyspark.sql.functions import *
import pandas as pd
from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

vec_access = udf(lambda v, i: float(v[i]), FloatType())
vec2array = udf(lambda vec: vec.toArray().tolist(), ArrayType(FloatType()))

Lue tiedot ja harjoita binaariluokitusmalli:

df = spark.read.parquet(
    "wasbs://publicwasb@mmlspark.blob.core.windows.net/AdultCensusIncome.parquet"
)

labelIndexer = StringIndexer(
    inputCol="income", outputCol="label", stringOrderType="alphabetAsc"
).fit(df)
print("Label index assigment: " + str(set(zip(labelIndexer.labels, [0, 1]))))

training = labelIndexer.transform(df).cache()
display(training)
categorical_features = [
    "workclass",
    "education",
    "marital-status",
    "occupation",
    "relationship",
    "race",
    "sex",
    "native-country",
]
categorical_features_idx = [col + "_idx" for col in categorical_features]
categorical_features_enc = [col + "_enc" for col in categorical_features]
numeric_features = [
    "age",
    "education-num",
    "capital-gain",
    "capital-loss",
    "hours-per-week",
]

strIndexer = StringIndexer(
    inputCols=categorical_features, outputCols=categorical_features_idx
)
onehotEnc = OneHotEncoder(
    inputCols=categorical_features_idx, outputCols=categorical_features_enc
)
vectAssem = VectorAssembler(
    inputCols=categorical_features_enc + numeric_features, outputCol="features"
)
lr = LogisticRegression(featuresCol="features", labelCol="label", weightCol="fnlwgt")
pipeline = Pipeline(stages=[strIndexer, onehotEnc, vectAssem, lr])
model = pipeline.fit(training)

Kun malli on harjoitettu, valitse satunnaisesti joitakin havaintoja selittääksesi:

explain_instances = (
    model.transform(training).orderBy(rand()).limit(5).repartition(200).cache()
)
display(explain_instances)

Luo TabularSHAP-selitys ja määritä syötesarakkeet kaikkiin mallin ominaisuuksiin. Määritä seuraavaksi malli ja kohdetulostesarake, jotka haluamme selittää. Tässä haluamme selittää todennäköisyyden tulosteen, joka on vektori, jonka pituus on 2, ja tarkastelemme vain luokan 1 todennäköisyyttä. Määritä kohteen targetClasses [0, 1] selittämään luokan 0 ja 1 todennäköisyys samanaikaisesti. Ota lopuksi 100 riviä mallina taustatietojen harjoitustiedoista, joita käytetään kernel SHAP -ominaisuuksien integroinnissa:

shap = TabularSHAP(
    inputCols=categorical_features + numeric_features,
    outputCol="shapValues",
    numSamples=5000,
    model=model,
    targetCol="probability",
    targetClasses=[1],
    backgroundData=broadcast(training.orderBy(rand()).limit(100).cache()),
)

shap_df = shap.transform(explain_instances)

Poimi tulokseksi saatavan tietokehyksen avulla

luokka 1 mallin tulosteen todennäköisyys
kohdeluokan SHAP-arvot
alkuperäiset ominaisuudet
true-otsikko

Muunna sitten tietokehys pandas-tietokehykseksi visualisointia varten.

Jokaisen havainnon shap-arvojen vektorin ensimmäinen elementti on perusarvo (taustatietojoukon keskimääräinen tulos). Seuraavat elementit ovat kunkin ominaisuuden SHAP-arvot:

shaps = (
    shap_df.withColumn("probability", vec_access(col("probability"), lit(1)))
    .withColumn("shapValues", vec2array(col("shapValues").getItem(0)))
    .select(
        ["shapValues", "probability", "label"] + categorical_features + numeric_features
    )
)

shaps_local = shaps.toPandas()
shaps_local.sort_values("probability", ascending=False, inplace=True, ignore_index=True)
pd.set_option("display.max_colwidth", None)
shaps_local

Visualisoi SHAP-arvot plotly subplotilla:

from plotly.subplots import make_subplots
import plotly.graph_objects as go
import pandas as pd

features = categorical_features + numeric_features
features_with_base = ["Base"] + features

rows = shaps_local.shape[0]

fig = make_subplots(
    rows=rows,
    cols=1,
    subplot_titles="Probability: "
    + shaps_local["probability"].apply("{:.2%}".format)
    + "; Label: "
    + shaps_local["label"].astype(str),
)

for index, row in shaps_local.iterrows():
    feature_values = [0] + [row[feature] for feature in features]
    shap_values = row["shapValues"]
    list_of_tuples = list(zip(features_with_base, feature_values, shap_values))
    shap_pdf = pd.DataFrame(list_of_tuples, columns=["name", "value", "shap"])
    fig.add_trace(
        go.Bar(
            x=shap_pdf["name"],
            y=shap_pdf["shap"],
            hovertext="value: " + shap_pdf["value"].astype(str),
        ),
        row=index + 1,
        col=1,
    )

fig.update_yaxes(range=[-1, 1], fixedrange=True, zerolinecolor="black")
fig.update_xaxes(type="category", tickangle=45, fixedrange=True)
fig.update_layout(height=400 * rows, title_text="SHAP explanations")
fig.show()

Palaute

Onko tästä sivusta apua?

Last updated on 2025-04-05

Jaa

Tulkittavuus – taulukkomuotoinen SHAP-selitys

Aiheeseen liittyvä sisältö

Palaute

Lisäresursseja