該 ai.similarity 函數使用生成式 AI 來比較兩個字串表達式,然後計算語義相似度分數。 它只使用一行代碼。 您可以比較 DataFrame 中一列的文本值,與單一共同的文本值進行比較,或與另一列的成對文本值進行比較。
備註
概觀
此 ai.similarity 函式適用於 Spark DataFrames。 您必須將現有輸入資料行的名稱指定為參數。 您也必須為比較指定單一通用文字值,或指定另一個數據行的名稱來進行成對比較。
函式會傳回新的 DataFrame,其中包含輸出資料行中每一列輸入文字的相似性分數。
語法
參數
| 名稱 | Description |
|---|---|
input_col 為必填項目 |
包含現有資料行名稱的 字串 ,其中包含用於計算相似性分數的輸入文字值。 |
other 或 other_col 為必填項目 |
只需要其中一個參數。 參數 other 是一個 字串 ,其中包含一個通用文字值,用於計算每列輸入的相似性分數。 參數 other_col 是指定第二個現有直欄名稱的 字串 ,其文字值用來計算成對相似性分數。 |
output_col 可選 |
包含新資料行名稱的 字串 ,用於儲存每個輸入文字列的計算相似性分數。 如果您未設定此參數,則會為輸出資料行產生預設名稱。 |
error_col 可選 |
字串,其中包含一個新欄位的名稱,該欄位用於儲存處理每個輸入文字列時產生的任何 OpenAI 錯誤。 如果您未設定此參數,則會為錯誤資料行產生預設名稱。 如果輸入數據列沒有錯誤,則此數據行具有 null 值。 |
退貨
此函式會傳回 Spark DataFrame ,其中包含新資料行,其中包含每個輸入文字資料列產生的相似性分數。 輸出相似度分數是相對的,而且最適合用於排名。 分數值的範圍可以從 -1* (相反) 到 1 (相同)。 分數 表示 0 值在意義上不相關。
Example
# This code uses AI. Always review output for mistakes.
df = spark.createDataFrame([
("Bill Gates",),
("Sayta Nadella",),
("Joan of Arc",)
], ["names"])
similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)
此範例程式碼儲存格提供下列輸出:
相關內容
用 ai.analyze_sentiment檢測情緒。
使用 ai.classify 對文本進行分類。
用 ai.embed 產生向量嵌入。
使用 ai_extract 擷取實體。
用 ai.fix_grammar修復語法。
用ai.generate_response回答自訂使用者提示
使用 ai.summarize 總結文本。
使用 ai.translate 翻譯文本。
進一步了解 全套 AI 功能。
自訂 AI功能的配置。
我們錯過了您需要的功能嗎? 請在 Fabric Ideas 論壇上提出建議。