หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
ฟังก์ชันนี้ ai.similarity ใช้ Generative AI เพื่อเปรียบเทียบนิพจน์สตริงสองนิพจน์ จากนั้นคํานวณคะแนนความคล้ายคลึงกันทางความหมาย ใช้โค้ดเพียงบรรทัดเดียว คุณสามารถเปรียบเทียบค่าข้อความจากคอลัมน์หนึ่งของ DataFrame ที่มีค่าข้อความทั่วไปเพียงค่าเดียว หรือเปรียบเทียบค่าข้อความเป็นคู่ในอีกคอลัมน์ได้
Note
- บทความนี้ครอบคลุมการใช้ ai.similarity กับ PySpark หากต้องการใช้ ai.similarity กับแพนด้า โปรดดูบทความนี้
- ดูฟังก์ชัน AI อื่นๆ ในบทความภาพรวมนี้
- เรียนรู้วิธีปรับแต่งการกําหนดค่าของฟังก์ชัน AI
Overview
ฟังก์ชันนี้ai.similarityพร้อมใช้งานสําหรับ Spark DataFrames คุณต้องระบุชื่อของคอลัมน์อินพุตที่มีอยู่เป็นพารามิเตอร์ คุณต้องระบุค่าข้อความทั่วไปค่าเดียวสําหรับการเปรียบเทียบ หรือชื่อของคอลัมน์อื่นสําหรับการเปรียบเทียบเป็นคู่
ฟังก์ชันจะส่งคืน DataFrame ใหม่ที่มีคะแนนความคล้ายคลึงกันสําหรับแต่ละแถวของข้อความอินพุตที่อยู่ในคอลัมน์เอาต์พุต
วากยสัมพันธ์
df.ai.similarity(input_col="col1", other="value", output_col="similarity")
พารามิเตอร์
| ชื่อ | คำอธิบาย |
|---|---|
input_col จำเป็น |
สตริงที่มีชื่อของคอลัมน์ที่มีอยู่พร้อมค่าข้อความที่ป้อนเพื่อใช้สําหรับการคํานวณคะแนนความคล้ายคลึงกัน |
other หรือ other_col จำเป็น |
จําเป็นต้องมีพารามิเตอร์เหล่านี้เพียงตัวเดียว พารามิเตอร์เป็นotherสตริงที่มีค่าข้อความทั่วไปเดียวที่ใช้ในการคํานวณคะแนนความคล้ายคลึงกันสําหรับอินพุตแต่ละแถว พารามิเตอร์เป็นother_colสตริงที่กําหนดชื่อของคอลัมน์ที่สองที่มีอยู่ โดยมีค่าข้อความที่ใช้ในการคํานวณคะแนนความคล้ายคลึงกันแบบคู่ |
output_col เลือกได้ |
สตริงที่มีชื่อของคอลัมน์ใหม่เพื่อจัดเก็บคะแนนความคล้ายคลึงกันที่คํานวณได้สําหรับแต่ละแถวข้อความที่ป้อนเข้า ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ผลลัพธ์ |
error_col เลือกได้ |
สตริงที่มีชื่อของคอลัมน์ใหม่ที่เก็บข้อผิดพลาด OpenAI ที่เป็นผลมาจากการประมวลผลแถวข้อความที่ป้อนเข้าแต่ละแถว ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ข้อผิดพลาด ถ้าแถวอินพุตไม่มีข้อผิดพลาด คอลัมน์นี้จะมีค่า null |
การส่งคืน
ฟังก์ชันส่งคืน Spark DataFrame ที่มีคอลัมน์ใหม่ที่มีคะแนนความคล้ายคลึงกันที่สร้างขึ้นสําหรับแต่ละแถวข้อความที่ป้อนเข้า คะแนนความคล้ายคลึงกันของผลลัพธ์นั้นสัมพันธ์กันและใช้ได้ดีที่สุดสําหรับการจัดอันดับ ค่าคะแนนสามารถอยู่ในช่วงตั้งแต่ -1* (ตรงกันข้าม) ถึง 1 (เหมือนกัน) คะแนน ของ บ่งชี้ 0 ว่าค่าไม่เกี่ยวข้องกันในความหมาย
ตัวอย่าง
# This code uses AI. Always review output for mistakes.
df = spark.createDataFrame([
("Bill Gates",),
("Sayta Nadella",),
("Joan of Arc",)
], ["names"])
similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)
เซลล์โค้ดตัวอย่างนี้ให้ผลลัพธ์ต่อไปนี้:
เนื้อหาที่เกี่ยวข้อง
ตรวจจับความรู้สึกด้วย ai.analyze_sentiment
จัดหมวดหมู่ข้อความด้วย ai.classify
สร้างการฝังเวกเตอร์ด้วย ai.embed
แยกเอนทิตีด้วย ai_extract
แก้ไขไวยากรณ์ด้วย ai.fix_grammar
ตอบข้อความแจ้งของผู้ใช้ที่กําหนดเองด้วย ai.generate_response
สรุปข้อความด้วย ai.summarize
แปลข้อความด้วย ai.translate
เรียนรู้เพิ่มเติมเกี่ยวกับฟังก์ชัน AI ครบชุด
ปรับแต่งการกําหนดค่าของฟังก์ชัน AI
เราพลาดคุณลักษณะที่คุณต้องการหรือไม่ แนะนําได้ที่ ฟอรั่ม Fabric Ideas