ดึงข้อมูลจากเสียงและวิดีโอ
Tip
ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!
ข้อมูลทางธุรกิจพบได้มากขึ้นในรูปแบบมัลติมีเดีย เช่น ไฟล์เสียงและวิดีโอ ตัวอย่างเช่น ธุรกิจมักจะบันทึกการโทรเพื่อวิเคราะห์ในภายหลัง การเติบโตของการประชุมทางวิดีโอหมายความว่าข้อมูลที่เป็นประโยชน์มักจะถูกบันทึกไว้ในการประชุมที่บันทึกไว้ Azure Content Understanding รองรับการแยกและวิเคราะห์ข้อมูลทั้งเสียงและวิดีโอ
การแยกข้อมูลที่มีโครงสร้างจากเสียง
คุณสามารถใช้ Azure Content Understanding เพื่อให้การถอดเสียง สรุป และข้อมูลเชิงลึกที่สําคัญอื่นๆ จากไฟล์เสียง
สมมติว่าคุณต้องการให้ AI สรุปข้อความเสียงของคุณ คุณอาจกําหนดสคีมาของข้อมูลเชิงลึกหลักเพื่อแยกจากแต่ละการเรียกใช้ที่บันทึกไว้ เช่นนี้:
- แขก
- ข้อมูลสรุปข้อความ
- การดําเนินการที่ร้องขอ
- หมายเลขเรียกกลับ
- รายละเอียดการติดต่ออื่น
ตอนนี้สมมติว่า ผู้โทรออกจากข้อความเสียงต่อไปนี้ให้คุณ:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
การใช้ Azure Content Understanding เพื่อวิเคราะห์การบันทึกเสียงและใช้ Schema ของคุณจะให้ผลลัพธ์ต่อไปนี้:
- ผู้โทร: Ava จาก Contoso
- สรุปข้อความ: Ava จาก Contoso เรียกให้ติดตามการประชุม และกล่าวถึงว่าพวกเขาสามารถตอบสนองความคาดหวังด้านราคาได้ พวกเขาขอโทรกลับหรืออีเมลเพื่อหารือเกี่ยวกับขั้นตอนต่อไป
- การดําเนินการที่ร้องขอ: โทรกลับหรือส่งอีเมลเพื่อพูดคุยเกี่ยวกับขั้นตอนถัดไป
- หมายเลขโทรกลับ: 555-12345
- รายละเอียดการติดต่ออื่น: Ava@contoso.com
การวิเคราะห์เสียงในพอร์ทัล Foundry
เช่นเดียวกับการวิเคราะห์เอกสาร การใช้ Content Understanding ในพอร์ทัล Foundry ใหม่ เป็นวิธีที่รวดเร็วในการตรวจสอบความถูกต้องว่าตัววิเคราะห์ของคุณส่งคืนฟิลด์ที่คุณคาดหวังก่อนที่คุณจะทําให้เวิร์กโฟลว์เป็นแบบอัตโนมัติในโค้ด
ในพอร์ทัล คุณสามารถ:
- เลือกตัววิเคราะห์เสียงหรือวิดีโอและเรียกใช้บนไฟล์มีเดีย
- ตรวจสอบผลลัพธ์ เช่น การถอดเสียง (สําหรับเสียง) และข้อมูลเชิงลึกที่แยกออกมาตามสคีมาของคุณ
- ดู ผลลัพธ์ JSON ที่ส่งคืนเพื่อการประมวลผลเพิ่มเติมในระบบดาวน์สตรีม
มาดูกันว่าเราจะใช้ความเข้าใจเนื้อหาเพื่อวิเคราะห์การบันทึกการโทรได้อย่างไร แทนที่จะฟังการโทรทั้งหมด คุณสามารถเรียกใช้ตัววิเคราะห์เสียงที่สร้างไว้ล่วงหน้าเพื่อดึงข้อมูลจากเสียงได้ เมื่อการวิเคราะห์เสร็จสิ้น คุณจะเห็นการถอดเสียงการโทรเป็นลายลักษณ์อักษร
ในผลลัพธ์ที่ส่งคืน คุณจะเห็นข้อมูลเฉพาะจากการโทร เช่นเดียวกับเครื่องวิเคราะห์อื่นๆ ในการทําความเข้าใจเนื้อหา ผลลัพธ์จะอยู่ในรูปแบบ JSON สําหรับการประมวลผลต่อไป
การดึงข้อมูลที่มีโครงสร้างจากวิดีโอ
Azure Content Understanding ยังสนับสนุนการวิเคราะห์วิดีโออีกด้วย ตัวอย่างเช่น คุณสามารถวิเคราะห์การประชุมทางวิดีโอที่บันทึกไว้เพื่อดึงรายละเอียดของการเข้าร่วม สถานที่ และข้อมูลอื่นๆ
ก่อนอื่นเรามาดูภาพหนึ่งจากกล้องในห้องประชุมกัน สมมติว่าคุณได้กําหนด Schema ต่อไปนี้:
- สถานที่
- ผู้เข้าร่วมประชุมด้วยตนเอง
- ผู้เข้าร่วมประชุมระยะไกล
- ผู้เข้าร่วมทั้งหมด
คุณสามารถใช้ Azure Content Understanding เพื่อวิเคราะห์รูปภาพจากกล้องในห้องประชุม:
หลังจากใช้สคีมากับอิมเมจแล้ว Azure Content Understanding จะส่งคืนข้อมูลที่มีโครงสร้าง:
- สถานที่: ห้องประชุม
- ผู้เข้าร่วมประชุมด้วยตนเอง: 1
- ผู้เข้าร่วมประชุมระยะไกล: 3
- ผู้เข้าร่วมทั้งหมด: 4
พิจารณาสิ่งที่คุณอาจเพิ่มลงใน Schema สําหรับการบันทึกวิดีโอการประชุม คุณสามารถรวมจํานวนการเข้าร่วมในช่วงเวลาต่างๆ รายละเอียดว่าใครพูดระหว่างการโทรและสิ่งที่พวกเขาพูด สรุปการสนทนา และรายการการดําเนินการที่ได้รับมอบหมายจากการประชุม
การสร้างแอปพลิเคชันไคลเอ็นต์ด้วยตัววิเคราะห์เสียงหรือวิดีโอ
หากต้องการวิเคราะห์เสียงหรือวิดีโอโดยทางโปรแกรม คุณสามารถสร้างแอปพลิเคชันไคลเอ็นต์ที่มีน้ําหนักเบาโดยใช้ API การทําความเข้าใจเนื้อหา
ลองมาดูตัวอย่างโดยใช้ Python SDK เมื่อคุณเรียกใช้โค้ดต่อไปนี้ จะวิเคราะห์ไฟล์เสียงโดยใช้ตัววิเคราะห์ที่สร้างไว้ล่วงหน้า เครื่องวิเคราะห์ที่สร้างไว้ล่วงหน้าถูกระบุเป็นprebuilt-audioSearch
import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential
# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"] # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]
client = ContentUnderstandingClient(
endpoint=endpoint,
credential=AzureKeyCredential(key)
)
# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"
# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
{"url": "https://<your-host>/samples/voicemail.wav"}
]
# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)
# Wait for completion (SDK polls under the hood)
result = poller.result()
# Inspect the structured output (JSON-like objects)
for content in result.contents:
# Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
print(getattr(content, "markdown", None))
print("\n=== EXTRACTED FIELDS ===")
print(getattr(content, "fields", None))
การวิเคราะห์เสียงและวิดีโอพร้อมความเข้าใจเนื้อหาใน Microsoft Foundry เปิดโอกาสมากมายในการปลดล็อกศักยภาพของข้อมูลทางธุรกิจในทุกรูปแบบ จากนั้นลองทําความเข้าใจเนื้อหาด้วยตัวคุณเอง