แชร์ผ่าน


ใช้ ai.similarity กับ PySpark

ฟังก์ชันนี้ ai.similarity ใช้ Generative AI เพื่อเปรียบเทียบนิพจน์สตริงสองนิพจน์ จากนั้นคํานวณคะแนนความคล้ายคลึงกันทางความหมาย ใช้โค้ดเพียงบรรทัดเดียว คุณสามารถเปรียบเทียบค่าข้อความจากคอลัมน์หนึ่งของ DataFrame ที่มีค่าข้อความทั่วไปเพียงค่าเดียว หรือเปรียบเทียบค่าข้อความเป็นคู่ในอีกคอลัมน์ได้

Note

Overview

ฟังก์ชันนี้ai.similarityพร้อมใช้งานสําหรับ Spark DataFrames คุณต้องระบุชื่อของคอลัมน์อินพุตที่มีอยู่เป็นพารามิเตอร์ คุณต้องระบุค่าข้อความทั่วไปค่าเดียวสําหรับการเปรียบเทียบ หรือชื่อของคอลัมน์อื่นสําหรับการเปรียบเทียบเป็นคู่

ฟังก์ชันจะส่งคืน DataFrame ใหม่ที่มีคะแนนความคล้ายคลึงกันสําหรับแต่ละแถวของข้อความอินพุตที่อยู่ในคอลัมน์เอาต์พุต

วากยสัมพันธ์

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

พารามิเตอร์

ชื่อ คำอธิบาย
input_col
จำเป็น
สตริงที่มีชื่อของคอลัมน์ที่มีอยู่พร้อมค่าข้อความที่ป้อนเพื่อใช้สําหรับการคํานวณคะแนนความคล้ายคลึงกัน
other หรือ other_col
จำเป็น
จําเป็นต้องมีพารามิเตอร์เหล่านี้เพียงตัวเดียว พารามิเตอร์เป็นotherสตริงที่มีค่าข้อความทั่วไปเดียวที่ใช้ในการคํานวณคะแนนความคล้ายคลึงกันสําหรับอินพุตแต่ละแถว พารามิเตอร์เป็นother_colสตริงที่กําหนดชื่อของคอลัมน์ที่สองที่มีอยู่ โดยมีค่าข้อความที่ใช้ในการคํานวณคะแนนความคล้ายคลึงกันแบบคู่
output_col
เลือกได้
สตริงที่มีชื่อของคอลัมน์ใหม่เพื่อจัดเก็บคะแนนความคล้ายคลึงกันที่คํานวณได้สําหรับแต่ละแถวข้อความที่ป้อนเข้า ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ผลลัพธ์
error_col
เลือกได้
สตริงที่มีชื่อของคอลัมน์ใหม่ที่เก็บข้อผิดพลาด OpenAI ที่เป็นผลมาจากการประมวลผลแถวข้อความที่ป้อนเข้าแต่ละแถว ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ข้อผิดพลาด ถ้าแถวอินพุตไม่มีข้อผิดพลาด คอลัมน์นี้จะมีค่า null

การส่งคืน

ฟังก์ชันส่งคืน Spark DataFrame ที่มีคอลัมน์ใหม่ที่มีคะแนนความคล้ายคลึงกันที่สร้างขึ้นสําหรับแต่ละแถวข้อความที่ป้อนเข้า คะแนนความคล้ายคลึงกันของผลลัพธ์นั้นสัมพันธ์กันและใช้ได้ดีที่สุดสําหรับการจัดอันดับ ค่าคะแนนสามารถอยู่ในช่วงตั้งแต่ -1* (ตรงกันข้าม) ถึง 1 (เหมือนกัน) คะแนน ของ บ่งชี้ 0 ว่าค่าไม่เกี่ยวข้องกันในความหมาย

ตัวอย่าง

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

เซลล์โค้ดตัวอย่างนี้ให้ผลลัพธ์ต่อไปนี้:

สกรีนช็อตของกรอบข้อมูลที่มีคอลัมน์ 'ชื่อ' และ 'ความคล้ายคลึงกัน' คอลัมน์ 'ความคล้ายคลึงกัน' ประกอบด้วยคะแนนความคล้ายคลึงกันสําหรับชื่อและคําที่ป้อน