Freigeben über


Datenherkunft des Featurespeichers anzeigen

Wenn Sie ein Modell mithilfe von FeatureEngineeringClient.log_model protokollieren, werden die im Modell verwendeten Features automatisch nachverfolgt; diese können auf der Registerkarte Datenherkunft des Katalog-Explorers angezeigt werden. Zusätzlich zu Featuretabellen werden Python-UDFs, die zum Berechnen von On-Demand-Features verwendet werden, ebenfalls nachverfolgt.

So erfassen Sie die Datenherkunft einer Featuretabelle, einer Funktion oder eines Modells

Datenherkunftsinformationen zur Nachverfolgung von Featuretabellen und in Modellen verwendeten Funkionen werden automatisch erfasst, wenn Sie log_model aufrufen. Sehen Sie sich den folgenden Beispielcode an.

from databricks.feature_engineering import FeatureEngineeringClient, FeatureLookup, FeatureFunction
fe = FeatureEngineeringClient()

features = [
    FeatureLookup(
        table_name = "main.on_demand_demo.restaurant_features",
        feature_names = ["latitude", "longitude"],
        rename_outputs={"latitude": "restaurant_latitude", "longitude": "restaurant_longitude"},
        lookup_key = "restaurant_id",
        timestamp_lookup_key = "ts"
    ),
    FeatureFunction(
        udf_name="main.on_demand_demo.extract_user_latitude",
        output_name="user_latitude",
        input_bindings={"blob": "json_blob"},
    ),
    FeatureFunction(
        udf_name="main.on_demand_demo.extract_user_longitude",
        output_name="user_longitude",
        input_bindings={"blob": "json_blob"},
    ),
    FeatureFunction(
        udf_name="main.on_demand_demo.haversine_distance",
        output_name="distance",
        input_bindings={"x1": "restaurant_longitude", "y1": "restaurant_latitude", "x2": "user_longitude", "y2": "user_latitude"},
    )
]

training_set = fe.create_training_set(
    label_df, feature_lookups=features, label="label", exclude_columns=["restaurant_id", "json_blob", "restaurant_latitude", "restaurant_longitude", "user_latitude", "user_longitude", "ts"]
)

class IsClose(mlflow.pyfunc.PythonModel):
    def predict(self, ctx, inp):
        return (inp['distance'] < 2.5).values

model_name = "fe_packaged_model"
mlflow.set_registry_uri("databricks-uc")

fe.log_model(
    IsClose(),
    model_name,
    flavor=mlflow.pyfunc,
    training_set=training_set,
    registered_model_name=registered_model_name
)

Datenherkunft einer Featuretabelle, eines Modells oder einer Funktion anzeigen

Führen Sie die folgenden Schritte aus, um die Datenherkunft einer Featuretabelle, eines Modells oder einer Funktion anzuzeigen:

  1. Navigieren Sie im Katalog-Explorer zur Tabelle, Modellversion oder Funktionsseite.

  2. Wählen Sie die Registerkarte Datenherkunft aus. Die linke Seitenleiste zeigt Unity Catalog-Komponenten an, die mit dieser Tabelle, Modellversion oder Funktion protokolliert wurden.

    Lineage tab on model page in Catalog Explorer

  3. Klicken Sie auf Datenherkunftsdiagramm anzeigen. Das Datenherkunftsdiagramm wird angezeigt. Ausführliche Informationen zur Erkundung des Datenherkunftsdiagramms finden Sie unter Erfassen und Erkunden der Datenherkunft.

    lineage screen

  4. Klicken Sie zum Schließen des Datenherkunftsdiagramms in der oberen rechten Ecke auf close button for lineage graph.