Aracılığıyla paylaş


PySpark ile ai.similarity kullanma

İşlev, ai.similarity iki dize ifadesini karşılaştırmak ve ardından bir anlamsal benzerlik puanı hesaplamak için üretken yapay zeka kullanır. Yalnızca tek bir kod satırı kullanır. DataFrame'in bir sütunundaki metin değerlerini tek bir ortak metin değeriyle veya başka bir sütundaki çift yönlü metin değerleriyle karşılaştırabilirsiniz.

Uyarı

Genel Bakış

ai.similarity İşlev, Spark DataFrames için kullanılabilir. Var olan bir giriş sütununun adını parametre olarak belirtmeniz gerekir. Ayrıca, karşılaştırmalar için tek bir ortak metin değeri veya çift tabanlı karşılaştırmalar için başka bir sütunun adını belirtmeniz gerekir.

İşlev, çıkış sütunundaki her giriş metni satırı için benzerlik puanları içeren yeni bir DataFrame döndürür.

Sözdizimi

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

Parametreler

İsim Description
input_col
Gerekli
Benzerlik puanlarını hesaplamada kullanılacak giriş metin değerlerine sahip mevcut bir sütunun adını içeren dize .
other veya other_col
Gerekli
Bu parametrelerden yalnızca biri gereklidir. other parametresi, her giriş satırı için benzerlik puanlarını hesaplamak için kullanılan tek bir ortak metin değeri içeren bir dizedir. other_col parametresi, çift tabanlı benzerlik puanlarını hesaplamak için kullanılan metin değerleriyle birlikte ikinci bir mevcut sütunun adını belirten bir dizedir.
output_col
Opsiyonel
Her giriş metin satırı için hesaplanan benzerlik puanlarını depolamak için yeni bir sütunun adını içeren dize. Bu parametreyi ayarlamazsanız, çıkış sütunu için varsayılan bir ad oluşturur.
error_col
Opsiyonel
Her giriş metin satırının işlenmesinden kaynaklanan OpenAI hatalarını depolayan yeni bir sütunun adını içeren bir dizesi. Bu parametreyi ayarlamazsanız hata sütunu için varsayılan bir ad oluşturur. Giriş satırında hata yoksa, bu sütunda null değeri vardır.

İade

İşlev, her giriş metin satırı için oluşturulan benzerlik puanlarını içeren yeni bir sütun içeren bir Spark DataFrame döndürür. Çıkış benzerliği puanları görelidir ve derecelendirme için en iyi şekilde kullanılır. Puan değerleri (karşıtlar) ile -1* (aynı) 1 arasında değişebilir. puanı 0 , değerlerin anlamlı olarak ilişkisiz olduğunu gösterir.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

Bu örnek kod hücresi aşağıdaki çıkışı sağlar:

'name' ve 'similarity' sütunlarını içeren bir veri çerçevesinin ekran görüntüsü. 'Benzerlik' sütunu, adlar ve giriş sözcüğü için benzerlik puanları içerir.