Anreichern von Delta Lake-Tabellen mit benutzerdefinierten Metadaten

Databricks empfiehlt, immer Kommentare für Tabellen und Spalten in Tabellen bereitzustellen. Sie können diese Kommentare mithilfe von KI generieren. Weitere Informationen dazu finden Sie unter Hinzufügen von KI-generierten Kommentaren zu einer Tabelle.

Unity Catalog bietet auch die Möglichkeit, Daten zu kategorisieren. Weitere Informationen finden Sie unter Anwenden von Tags.

Sie können auch Nachrichten für einzelne Commits in Tabellen in einem Feld im Delta Lake-Transaktionsprotokoll protokollieren.

Festlegen benutzerdefinierter Commitmetadaten

Sie können benutzerdefinierte Zeichenfolgen als Metadaten in Commits angeben, indem Sie entweder die DataFrameWriter-Option userMetadata oder die SparkSession-Konfiguration spark.databricks.delta.commitInfo.userMetadata verwenden. Wenn beide angegeben werden, erhält die Option Vorrang. Diese benutzerdefinierten Metadaten sind im Vorgang DESCRIBE HISTORY lesbar. Weitere Informationen finden Sie unter Arbeiten mit dem Delta Lake-Tabellenverlauf.

SQL


SET spark.databricks.delta.commitInfo.userMetadata=overwritten-for-fixing-incorrect-data
INSERT OVERWRITE default.people10m SELECT * FROM morePeople

Python

df.write.format("delta") \
  .mode("overwrite") \
  .option("userMetadata", "overwritten-for-fixing-incorrect-data") \
  .save("/tmp/delta/people10m")

Scala

df.write.format("delta")
  .mode("overwrite")
  .option("userMetadata", "overwritten-for-fixing-incorrect-data")
  .save("/tmp/delta/people10m")