Aracılığıyla paylaş


Pandas ile ai.similarity kullanma

İşlev, ai.similarity iki dize ifadesini karşılaştırmak ve ardından bir anlamsal benzerlik puanı hesaplamak için üretken yapay zeka kullanır. Yalnızca tek bir kod satırı kullanır. DataFrame'in bir sütunundaki metin değerlerini tek bir ortak metin değeriyle veya başka bir sütundaki çift yönlü metin değerleriyle karşılaştırabilirsiniz.

Uyarı

Genel Bakış

ai.similarity işlevi, pandas Series sınıfını genişletir.

Tek bir ortak metin değeri için her giriş satırının anlamsal benzerliğini hesaplamak için, pandas DataFrame metin sütununda işlevini çağırın. İşlev, giriş sütunuyla aynı boyutlara sahip başka bir sütundaki karşılık gelen çift tabanlı değerler için her satırın semantik benzerliğini de hesaplayabilir.

İşlev, benzerlik puanları içeren ve yeni bir DataFrame sütununda depolanabilen bir pandas Serisi döndürür.

Sözdizimi

df["similarity"] = df["col1"].ai.similarity("value")

Parametreler

İsim Description
other
Gerekli
Aşağıdakilerden birini içeren bir dize :
- Her giriş satırı için benzerlik puanlarını hesaplamak için kullanılan tek bir ortak metin değeri.
- Girişle aynı boyutlara sahip başka bir pandas Serisi . Her giriş satırının çift benzerlik puanlarını hesaplamak için kullanılacak metin değerlerini içerir.

İade

İşlev, her giriş metin satırı için benzerlik puanları içeren bir pandas Serisi döndürür. Çıkış benzerliği puanları görelidir ve derecelendirme için en iyi şekilde kullanılır. Puan değerleri (karşıtlar) ile -1 (aynı) 1* arasında değişebilir. puan değeri 0 , değerlerin anlamlı olarak ilişkisiz olduğunu gösterir.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Bu örnek kod hücresi aşağıdaki çıkışı sağlar:

'name' ve 'similarity' sütunlarını içeren bir veri çerçevesinin ekran görüntüsü. 'Benzerlik' sütunu, adlar ve giriş sözcüğü için benzerlik puanları içerir.