หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
ฟังก์ชันนี้ ai.extract ใช้ Generative AI เพื่อสแกนข้อความที่ป้อนและดึงข้อมูลประเภทเฉพาะที่กําหนดโดยป้ายกํากับที่คุณเลือก (เช่น สถานที่หรือชื่อ) ใช้โค้ดเพียงบรรทัดเดียว
Note
- บทความนี้กล่าวถึงการใช้ ai.extract กับแพนด้า หากต้องการใช้ ai.extract กับ PySpark โปรดดูบทความนี้
- ดูฟังก์ชัน AI อื่นๆ ในบทความภาพรวมนี้
- เรียนรู้วิธีปรับแต่งการกําหนดค่าของฟังก์ชัน AI
Overview
ฟังก์ชันนี้ai.extractขยายคลาส pandas Series เมื่อต้องการแยกชนิดเอนทิตีแบบกําหนดเองจากแต่ละแถวของอินพุต ให้เรียกใช้ฟังก์ชันบนคอลัมน์ข้อความ Pandass DataFrame
ไม่เหมือนกับฟังก์ชัน AI อื่น ๆ ai.extract จะส่งกลับ DataFrame ของ pandas แทนที่จะเป็น Series โดยมีคอลัมน์แยกต่างหากสําหรับแต่ละชนิดเอนทิตี้ที่ระบุที่มีค่าที่แยกออกมาสําหรับแต่ละแถวอินพุต
วากยสัมพันธ์
df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")
พารามิเตอร์
| ชื่อ | คำอธิบาย |
|---|---|
labels จำเป็น |
สตริงอย่างน้อยหนึ่งส ตริง ที่แสดงชุดของชนิดเอนทิตีเพื่อแยกจากค่าข้อความที่ป้อนเข้า |
aifunc.ExtractLabel ระบุหรือไม่ก็ได้ |
คําจํากัดความป้ายชื่ออย่างน้อยหนึ่งรายการที่อธิบายฟิลด์ที่จะแยก สําหรับข้อมูลเพิ่มเติม โปรดดูตารางพารามิเตอร์ ExtractLabel |
พารามิเตอร์ ExtractLabel
| ชื่อ | คำอธิบาย |
|---|---|
label จำเป็น |
สตริงที่แสดงถึงเอนทิตีที่จะแยกจากค่าข้อความที่ป้อนเข้า |
description ระบุหรือไม่ก็ได้ |
สตริงที่เพิ่มบริบทพิเศษสําหรับโมเดล AI อาจรวมถึงข้อกําหนด บริบท หรือคําแนะนําสําหรับ AI ในการพิจารณาขณะทําการแยกข้อมูล |
max_items ระบุหรือไม่ก็ได้ |
int ที่ระบุจํานวนสูงสุดของรายการที่จะแยกสําหรับป้ายชื่อนี้ |
type ระบุหรือไม่ก็ได้ |
ชนิด Schema JSON สําหรับค่าที่แยกออกมา ชนิดที่รองรับสําหรับคลาสนี้ ได้แก่ string, , , booleaninteger, , และ objectarraynumber |
properties ระบุหรือไม่ก็ได้ |
คุณสมบัติ Schema JSON เพิ่มเติมสําหรับชนิดเป็นพจนานุกรม สามารถรวมคุณสมบัติที่รองรับ เช่น "รายการ" สําหรับอาร์เรย์ "คุณสมบัติ" สําหรับวัตถุ "enum" สําหรับประเภท enum และอื่นๆ ดูตัวอย่างการใช้งานในบทความนี้ |
raw_col ระบุหรือไม่ก็ได้ |
สตริงที่ตั้งค่าชื่อคอลัมน์สําหรับการตอบสนอง LLM ดิบ การตอบกลับแบบดิบจะแสดงรายการคู่พจนานุกรมสําหรับป้ายชื่อเอนทิตีทุกป้าย รวมถึง "เหตุผล" และ "extraction_text" |
การส่งคืน
ฟังก์ชันจะส่งคืน DataFrame ของแพนด้า พร้อมคอลัมน์สําหรับแต่ละชนิดเอนทิตีที่ระบุ คอลัมน์หรือคอลัมน์มีเอนทิตีที่แยกออกมาสําหรับแต่ละแถวของข้อความที่ป้อนเข้า ถ้าฟังก์ชันระบุการจับคู่มากกว่าหนึ่งรายการสําหรับเอนทิตี ฟังก์ชันจะส่งคืนรายการที่ตรงกันเพียงรายการเดียว ถ้าไม่พบคู่ที่ตรงกัน ผลลัพธ์จะเป็น null
ชนิดการส่งคืนเริ่มต้นคือรายการของสตริงสําหรับแต่ละป้ายชื่อ หากผู้ใช้เลือกที่จะระบุประเภทอื่นใน aifunc.ExtractLabel การกําหนดค่า เช่น "type=integer" ผลลัพธ์จะเป็นรายการของ python int หากผู้ใช้ระบุ "max_items=1" ใน aifunc.ExtractLabel การกําหนดค่า จะมีการส่งคืนองค์ประกอบของชนิดเพียงรายการเดียวสําหรับป้ายชื่อนั้น
ตัวอย่าง
# This code uses AI. Always review output for mistakes.
df = pd.DataFrame([
"MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",
"Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
], columns=["descriptions"])
df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)
เซลล์โค้ดตัวอย่างนี้ให้ผลลัพธ์ต่อไปนี้:
เนื้อหาที่เกี่ยวข้อง
ตรวจจับความรู้สึกด้วย ai.analyze_sentiment
จัดหมวดหมู่ข้อความด้วย ai.classify
สร้างการฝังเวกเตอร์ด้วย ai.embed
แก้ไขไวยากรณ์ด้วย ai.fix_grammar
ตอบข้อความแจ้งของผู้ใช้ที่กําหนดเองด้วย ai.generate_response
คํานวณความคล้ายคลึงกันกับ ai.similarity
สรุปข้อความด้วย ai.summarize
แปลข้อความด้วย ai.translate
เรียนรู้เพิ่มเติมเกี่ยวกับฟังก์ชัน AI ครบชุด
ปรับแต่งการกําหนดค่าของฟังก์ชัน AI
เราพลาดคุณลักษณะที่คุณต้องการหรือไม่ แนะนําได้ที่ ฟอรั่ม Fabric Ideas