แชร์ผ่าน


ใช้ ai.embed กับ PySpark

ฟังก์ชันนี้ ai.embed ใช้ Generative AI เพื่อแปลงข้อความเป็นการฝังเวกเตอร์ เวกเตอร์เหล่านี้ช่วยให้ AI เข้าใจความสัมพันธ์ระหว่างข้อความ คุณจึงสามารถค้นหา จัดกลุ่ม และเปรียบเทียบเนื้อหาตามความหมายมากกว่าการใช้ถ้อยคําที่แน่นอน ด้วยโค้ดบรรทัดเดียว คุณสามารถสร้างการฝังเวกเตอร์จากคอลัมน์ใน DataFrame ได้

Note

Overview

ฟังก์ชันนี้ai.embedพร้อมใช้งานสําหรับ Spark DataFrames คุณต้องระบุชื่อของคอลัมน์อินพุตที่มีอยู่เป็นพารามิเตอร์

ฟังก์ชันจะส่งกลับ DataFrame ใหม่ที่มีการฝังตัวสําหรับแต่ละแถวของข้อความที่ป้อนเข้าในคอลัมน์เอาต์พุต

วากยสัมพันธ์

df.ai.embed(input_col="col1", output_col="embed")

พารามิเตอร์

ชื่อ คำอธิบาย
input_col
ต้องมี
สตริงที่มีชื่อของคอลัมน์ที่มีอยู่พร้อมค่าข้อความอินพุตเพื่อใช้สําหรับการคํานวณการฝัง
output_col
ระบุหรือไม่ก็ได้
สตริงที่มีชื่อของคอลัมน์ใหม่เพื่อจัดเก็บการฝังจากการคํานวณสําหรับแต่ละแถวข้อความที่ป้อนเข้า ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ผลลัพธ์
error_col
ระบุหรือไม่ก็ได้
สตริงที่มีชื่อของคอลัมน์ใหม่ที่เก็บข้อผิดพลาด OpenAI ที่เป็นผลมาจากการประมวลผลแถวข้อความที่ป้อนเข้าแต่ละแถว ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ข้อผิดพลาด ถ้าแถวอินพุตไม่มีข้อผิดพลาด คอลัมน์นี้จะมีค่า null

การส่งคืน

ฟังก์ชันจะส่งกลับ Spark DataFrame ที่มีคอลัมน์ใหม่ที่มีการฝังที่สร้างขึ้นสําหรับแต่ละแถวข้อความอินพุต การฝังเป็นประเภท [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). จํานวนองค์ประกอบใน DenseVector ขึ้นอยู่กับขนาดของโมเดลการฝัง ซึ่งสามารถ กําหนดค่าได้ในฟังก์ชัน AI

ตัวอย่าง

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

เซลล์โค้ดตัวอย่างนี้ให้ผลลัพธ์ต่อไปนี้:

สกรีนช็อตของกรอบข้อมูลที่มีคอลัมน์ 'descriptions' และ 'embed' คอลัมน์ 'ฝัง' ประกอบด้วยการฝังสําหรับคําอธิบาย