ใช้ ai.similarity กับ PySpark

ฟังก์ชันนี้ ai.similarity ใช้ Generative AI เพื่อเปรียบเทียบนิพจน์สตริงสองนิพจน์ จากนั้นคํานวณคะแนนความคล้ายคลึงกันทางความหมาย ใช้โค้ดเพียงบรรทัดเดียว คุณสามารถเปรียบเทียบค่าข้อความจากคอลัมน์หนึ่งของ DataFrame ที่มีค่าข้อความทั่วไปเพียงค่าเดียว หรือเปรียบเทียบค่าข้อความเป็นคู่ในอีกคอลัมน์ได้

Note

บทความนี้ครอบคลุมการใช้ ai.similarity กับ PySpark หากต้องการใช้ ai.similarity กับแพนด้า โปรดดูบทความนี้
ดูฟังก์ชัน AI อื่นๆ ในบทความภาพรวมนี้
เรียนรู้วิธีปรับแต่งการกําหนดค่าของฟังก์ชัน AI

Overview

ฟังก์ชันนี้ai.similarityพร้อมใช้งานสําหรับ Spark DataFrames คุณต้องระบุชื่อของคอลัมน์อินพุตที่มีอยู่เป็นพารามิเตอร์ คุณต้องระบุค่าข้อความทั่วไปค่าเดียวสําหรับการเปรียบเทียบ หรือชื่อของคอลัมน์อื่นสําหรับการเปรียบเทียบเป็นคู่

ฟังก์ชันจะส่งคืน DataFrame ใหม่ที่มีคะแนนความคล้ายคลึงกันสําหรับแต่ละแถวของข้อความอินพุตที่อยู่ในคอลัมน์เอาต์พุต

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

df.ai.similarity(input_col="col1", other_col="col2", output_col="similarity")

พารามิเตอร์

ชื่อ	คำอธิบาย
`input_col` จำเป็น	สตริงที่มีชื่อของคอลัมน์ที่มีอยู่พร้อมค่าข้อความที่ป้อนเพื่อใช้สําหรับการคํานวณคะแนนความคล้ายคลึงกัน
`other` หรือ `other_col` จำเป็น	จําเป็นต้องมีพารามิเตอร์เหล่านี้เพียงตัวเดียว พารามิเตอร์เป็น`other`สตริงที่มีค่าข้อความทั่วไปเดียวที่ใช้ในการคํานวณคะแนนความคล้ายคลึงกันสําหรับอินพุตแต่ละแถว พารามิเตอร์เป็น`other_col`สตริงที่กําหนดชื่อของคอลัมน์ที่สองที่มีอยู่ โดยมีค่าข้อความที่ใช้ในการคํานวณคะแนนความคล้ายคลึงกันแบบคู่
`output_col` เลือกได้	สตริงที่มีชื่อของคอลัมน์ใหม่เพื่อจัดเก็บคะแนนความคล้ายคลึงกันที่คํานวณได้สําหรับแต่ละแถวข้อความที่ป้อนเข้า ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ผลลัพธ์
`error_col` เลือกได้	สตริงที่มีชื่อของคอลัมน์ใหม่ที่เก็บข้อผิดพลาด OpenAI ที่เป็นผลมาจากการประมวลผลแถวข้อความที่ป้อนเข้าแต่ละแถว ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ข้อผิดพลาด ถ้าแถวอินพุตไม่มีข้อผิดพลาด คอลัมน์นี้จะมีค่า `null`

การส่งคืน

ฟังก์ชันส่งคืน Spark DataFrame ที่มีคอลัมน์ใหม่ที่มีคะแนนความคล้ายคลึงกันที่สร้างขึ้นสําหรับแต่ละแถวข้อความที่ป้อนเข้า คะแนนความคล้ายคลึงกันของผลลัพธ์นั้นสัมพันธ์กันและใช้ได้ดีที่สุดสําหรับการจัดอันดับ ค่าคะแนนสามารถอยู่ในช่วงตั้งแต่ -1* (ตรงกันข้าม) ถึง 1 (เหมือนกัน) คะแนน ของ บ่งชี้ 0 ว่าค่าไม่เกี่ยวข้องกันในความหมาย

ตัวอย่าง

เปรียบเทียบกับค่าเดียว
เปรียบเทียบกับค่าแบบคู่

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

เซลล์โค้ดตัวอย่างนี้ให้ผลลัพธ์ต่อไปนี้:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

เซลล์โค้ดตัวอย่างนี้ให้ผลลัพธ์ต่อไปนี้:

ใช้ ai.similarity กับแพนด้า
ตรวจจับความรู้สึกด้วย ai.analyze_sentiment
จัดหมวดหมู่ข้อความด้วย ai.classify
สร้างการฝังเวกเตอร์ด้วย ai.embed
แยกเอนทิตีด้วย ai_extract
แก้ไขไวยากรณ์ด้วย ai.fix_grammar
ตอบข้อความแจ้งของผู้ใช้ที่กําหนดเองด้วย ai.generate_response
สรุปข้อความด้วย ai.summarize
แปลข้อความด้วย ai.translate
เรียนรู้เพิ่มเติมเกี่ยวกับฟังก์ชัน AI ครบชุด
ปรับแต่งการกําหนดค่าของฟังก์ชัน AI
เราพลาดคุณลักษณะที่คุณต้องการหรือไม่ แนะนําได้ที่ ฟอรั่ม Fabric Ideas

คำติชม

หน้านี้มีประโยชน์หรือไม่

Last updated on 2025-11-13