PySpark ile ai.similarity kullanma

İşlev, ai.similarity iki dize ifadesini karşılaştırmak ve ardından bir anlamsal benzerlik puanı hesaplamak için üretken yapay zeka kullanır. Yalnızca tek bir kod satırı kullanır. DataFrame'in bir sütunundaki metin değerlerini tek bir ortak metin değeriyle veya başka bir sütundaki çift yönlü metin değerleriyle karşılaştırabilirsiniz.

Uyarı

Bu makale, PySpark ile ai.similarity kullanmayı kapsar. pandas ile ai.similarity kullanmak için bu makaleye bakın.
Bu genel bakış makalesinde diğer yapay zeka işlevlerine bakın.
Yapay zeka işlevlerinin yapılandırmasını özelleştirmeyi öğrenin.

Genel Bakış

ai.similarity İşlev, Spark DataFrames için kullanılabilir. Var olan bir giriş sütununun adını parametre olarak belirtmeniz gerekir. Ayrıca, karşılaştırmalar için tek bir ortak metin değeri veya çift tabanlı karşılaştırmalar için başka bir sütunun adını belirtmeniz gerekir.

İşlev, çıkış sütunundaki her giriş metni satırı için benzerlik puanları içeren yeni bir DataFrame döndürür.

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

df.ai.similarity(input_col="col1", other_col="col2", output_col="similarity")

Parametreler

İsim	Description
`input_col` Gerekli	Benzerlik puanlarını hesaplamada kullanılacak giriş metin değerlerine sahip mevcut bir sütunun adını içeren dize .
`other` veya `other_col` Gerekli	Bu parametrelerden yalnızca biri gereklidir. `other` parametresi, her giriş satırı için benzerlik puanlarını hesaplamak için kullanılan tek bir ortak metin değeri içeren bir dizedir. `other_col` parametresi, çift tabanlı benzerlik puanlarını hesaplamak için kullanılan metin değerleriyle birlikte ikinci bir mevcut sütunun adını belirten bir dizedir.
`output_col` Opsiyonel	Her giriş metin satırı için hesaplanan benzerlik puanlarını depolamak için yeni bir sütunun adını içeren dize. Bu parametreyi ayarlamazsanız, çıkış sütunu için varsayılan bir ad oluşturur.
`error_col` Opsiyonel	Her giriş metin satırının işlenmesinden kaynaklanan OpenAI hatalarını depolayan yeni bir sütunun adını içeren bir dizesi. Bu parametreyi ayarlamazsanız hata sütunu için varsayılan bir ad oluşturur. Giriş satırında hata yoksa, bu sütunda `null` değeri vardır.

İade

İşlev, her giriş metin satırı için oluşturulan benzerlik puanlarını içeren yeni bir sütun içeren bir Spark DataFrame döndürür. Çıkış benzerliği puanları görelidir ve derecelendirme için en iyi şekilde kullanılır. Puan değerleri (karşıtlar) ile -1* (aynı) 1 arasında değişebilir. puanı 0 , değerlerin anlamlı olarak ilişkisiz olduğunu gösterir.

Example

Tek bir değerle karşılaştırma
çift tabanlı değerlerle karşılaştırma

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

Bu örnek kod hücresi aşağıdaki çıkışı sağlar:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

Bu örnek kod hücresi aşağıdaki çıkışı sağlar:

pandas ile ai.similarity kullanın.
ai.analyze_sentiment ile duygu tespit etme.
Metni ai.classify ile kategorilere ayırın.
ai.embed ile vektör eklemeleri oluşturun.
ai_extract ile varlıkları ayıklayın.
dil bilgisini ai.fix_grammar ile düzeltin.
ai.generate_response ile özel kullanıcı istemlerini yanıtlama
Metni ai.summarize ile özetleme.
Metni ai.translate ile çevirin.
Yapay zeka işlevlerinin tamamı hakkında daha fazla bilgi edinin.
Yapay zeka işlevlerinin yapılandırmasını özelleştirin.
İhtiyacınız olan bir özelliği kaçırdık mı? Fabric Fikirleri forumu'nda önerin.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2025-11-13