Freigeben über


ai_similarity-Funktion

Gilt für: Häkchen Databricks SQL

Wichtig

Dieses Feature befindet sich in der Public Preview.

In der Preview ist Folgendes enthalten:

  • Das zugrunde liegende Sprachmodell kann mehrere Sprachen verarbeiten. Diese Funktionen sind jedoch für Englisch optimiert.
  • Für die zugrunde liegenden Foundation-Modell-APIs gibt es Ratenbegrenzung. Weitere Informationen finden Sie unter Foundation Model-APIs, um diese Grenzwerte zu aktualisieren.

Die ai_similarity()-Funktion ruft ein hochmodernes Modell für generative KI aus den Basismodell-APIs von Databricks auf, um mithilfe von SQL zwei Zeichenfolgen zu vergleichen und den Score der semantischen Ähnlichkeit zu berechnen.

Anforderungen

Wichtig

Die zugrunde liegenden Modelle, die derzeit möglicherweise verwendet werden, sind unter der MIT-Lizenz oder der Llama 2-Communitylizenz lizenziert. Databricks empfiehlt, diese Lizenzen zu überprüfen, um die Einhaltung der geltenden Bedingungen zu gewährleisten. Sollten künftig Modelle den internen Benchmarks von Databricks zufolge besser funktionieren, ändert Databricks möglicherweise das Modell (sowie die Liste der anwendbaren Lizenzen auf dieser Seite).

Derzeit ist bge-large-en-v1.5 das zugrunde liegende Modell, das als Basis für die KI-Funktionen fungiert.

Syntax

ai_similarity(expr1, expr2)

Argumente

  • expr1: Ein STRING-Ausdruck.
  • expr2: Ein STRING-Ausdruck.

Gibt zurück

Ein FLOAT-Wert, der die semantische Ähnlichkeit zwischen den beiden Eingabezeichenfolgen darstellt. Der Ausgabescore steht im Verhältnis zur Eingabe und sollte lediglich für die Rangfolge verwendet werden. Bei einem Score von 1 sind die beiden Texte gleich.

Beispiele

> SELECT ai_similarity('Apache Spark', 'Apache Spark');
  1.0

> SELECT
   company_name
  FROM
   customers
  ORDER BY ai_similarity(company_name, 'Databricks') DESC
  LIMIT 1

  Databricks Inc.