แชร์ผ่าน


ใช้ ai.classify กับ PySpark

ฟังก์ชันนี้ ai.classify ใช้ Generative AI เพื่อจัดหมวดหมู่ข้อความที่ป้อนตามป้ายกํากับที่กําหนดเองที่คุณเลือก ด้วยโค้ดบรรทัดเดียว

Note

Overview

ฟังก์ชันนี้ai.classifyพร้อมใช้งานสําหรับ Spark DataFrames คุณต้องระบุชื่อของคอลัมน์อินพุตที่มีอยู่เป็นพารามิเตอร์ พร้อมกับรายการป้ายชื่อการจัดประเภท

ฟังก์ชันจะส่งคืน DataFrame ใหม่ที่มีป้ายกํากับที่ตรงกับแต่ละแถวของข้อความอินพุต ซึ่งจัดเก็บไว้ในคอลัมน์เอาต์พุต

วากยสัมพันธ์

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

พารามิเตอร์

ชื่อ คำอธิบาย
labels
จำเป็น
อาร์เรย์ของสตริงที่แสดงชุดของป้ายชื่อการจัดประเภทเพื่อให้ตรงกับค่าข้อความในคอลัมน์อินพุต
input_col
จำเป็น
สตริงที่มีชื่อของคอลัมน์ที่มีอยู่พร้อมค่าข้อความที่ป้อนเพื่อจําแนกตามป้ายชื่อแบบกําหนดเอง
output_col
เลือกได้
สตริงที่มีชื่อของคอลัมน์ใหม่ที่คุณต้องการเก็บป้ายชื่อการจัดประเภทสําหรับแต่ละแถวข้อความที่ป้อนเข้า ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ ชื่อเริ่มต้นจะถูกสร้างขึ้นสําหรับคอลัมน์ผลลัพธ์
error_col
เลือกได้
สตริง ที่ประกอบด้วยชื่อของคอลัมน์ใหม่ คอลัมน์ใหม่จัดเก็บข้อผิดพลาด OpenAI ใด ๆ ที่เป็นผลมาจากการประมวลผลแต่ละแถวของข้อความที่ป้อนเข้า ถ้าคุณไม่ได้ตั้งค่าพารามิเตอร์นี้ จะมีการสร้างชื่อเริ่มต้นสําหรับคอลัมน์ข้อผิดพลาด ถ้าไม่มีข้อผิดพลาดสําหรับแถวของการป้อนข้อมูล ค่าในคอลัมน์นี้จะ null

การส่งคืน

ฟังก์ชันส่งคืน Spark DataFrame ที่มีคอลัมน์ใหม่ที่มีป้ายชื่อการจัดประเภทที่ตรงกับแถวข้อความอินพุตแต่ละแถว ถ้าไม่สามารถจัดประเภทค่าข้อความ ได้ ป้ายชื่อที่สอดคล้องกันจะถูก null

ตัวอย่าง

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

เซลล์โค้ดตัวอย่างนี้ให้ผลลัพธ์ต่อไปนี้:

สกรีนช็อตของกรอบข้อมูลที่มีคอลัมน์