Použití ai.similarity s knihovnou pandas

Funkce ai.similarity používá generující AI k porovnání dvou řetězcových výrazů a následnému výpočtu sémantického skóre podobnosti. Používá pouze jeden řádek kódu. Textové hodnoty z jednoho sloupce datového rámce můžete porovnat s jednou běžnou textovou hodnotou nebo s párovými textovými hodnotami v jiném sloupci.

Poznámka:

Tento článek popisuje použití ai.similarity s pandas. Pokud chcete použít ai.similarity s PySparkem, přečtěte si tento článek.
Další funkce AI najdete v tomto článku s přehledem.
Zjistěte, jak přizpůsobit konfiguraci funkcí AI.

Přehled

Funkce ai.similarity rozšiřuje třídu pandas Series.

Pokud chcete vypočítat sémantickou podobnost každého vstupního řádku pro jednu společnou textovou hodnotu, zavolejte funkci v textovém sloupci datového rámce pandas . Funkce může také vypočítat sémantickou podobnost každého řádku pro odpovídající párové hodnoty v jiném sloupci, který má stejné dimenze jako vstupní sloupec.

Funkce vrátí řadu pandas, která obsahuje skóre podobnosti, která se dají uložit do nového sloupce datového rámce.

df["similarity"] = df["col1"].ai.similarity("value")

df["similarity"] = df["col1"].ai.similarity(df["col2"])

Parametry

Název	Description
`other` Povinné	Řetězec, který obsahuje: – Jedna společná textová hodnota, která se používá k výpočtu skóre podobnosti pro každý vstupní řádek. - Další řada pandas se stejnými rozměry jako vstup. Obsahuje textové hodnoty, které se mají použít k výpočtu skóre párové podobnosti pro každý vstupní řádek.

Návraty

Funkce vrátí řadu pandas , která obsahuje skóre podobnosti pro každý vstupní textový řádek. Skóre podobnosti výstupu jsou relativní a nejlépe se používají pro hodnocení. Hodnoty skóre můžou být v rozsahu od -1 (protilehlých) až 1* po (identické). Hodnota 0 skóre značí, že hodnoty nesouvisejí ve významu.

Example

Porovnání s jednou hodnotou
Porovnání s párovými hodnotami

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Tato ukázková buňka kódu poskytuje následující výstup:

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Tato ukázková buňka kódu poskytuje následující výstup:

Použijte ai.similarity s PySpark.
Zjištění mínění pomocí ai.analyze_sentiment
Kategorizace textu pomocí ai.classify
Generování vektorových vkládání pomocí ai.embed
Extrahujte entity pomocí ai_extract.
Oprava gramatiky pomocí ai.fix_grammar
Odpovězte na vlastní výzvy uživatelů pomocí ai.generate_response.
Shrnout text pomocí ai.summarize
Přeloží text pomocí ai.translate.
Přečtěte si další informace o úplné sadě funkcí AI.
Přizpůsobte konfiguraci funkcí umělé inteligence.
Chybí nám funkce, kterou potřebujete? Navrhněte to na fóru Fabric Ideas.

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-21