ดึงข้อมูลจากเสียงและวิดีโอ

4 นาที

Tip

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

ข้อมูลทางธุรกิจพบได้มากขึ้นในรูปแบบมัลติมีเดีย เช่น ไฟล์เสียงและวิดีโอ ตัวอย่างเช่น ธุรกิจมักจะบันทึกการโทรเพื่อวิเคราะห์ในภายหลัง การเติบโตของการประชุมทางวิดีโอหมายความว่าข้อมูลที่เป็นประโยชน์มักจะถูกบันทึกไว้ในการประชุมที่บันทึกไว้ Azure Content Understanding รองรับการแยกและวิเคราะห์ข้อมูลทั้งเสียงและวิดีโอ

การแยกข้อมูลที่มีโครงสร้างจากเสียง

คุณสามารถใช้ Azure Content Understanding เพื่อให้การถอดเสียง สรุป และข้อมูลเชิงลึกที่สําคัญอื่นๆ จากไฟล์เสียง

สมมติว่าคุณต้องการให้ AI สรุปข้อความเสียงของคุณ คุณอาจกําหนดสคีมาของข้อมูลเชิงลึกหลักเพื่อแยกจากแต่ละการเรียกใช้ที่บันทึกไว้ เช่นนี้:

แขก
ข้อมูลสรุปข้อความ
การดําเนินการที่ร้องขอ
หมายเลขเรียกกลับ
รายละเอียดการติดต่ออื่น

ตอนนี้สมมติว่า ผู้โทรออกจากข้อความเสียงต่อไปนี้ให้คุณ:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

การใช้ Azure Content Understanding เพื่อวิเคราะห์การบันทึกเสียงและใช้ Schema ของคุณจะให้ผลลัพธ์ต่อไปนี้:

ผู้โทร: Ava จาก Contoso
สรุปข้อความ: Ava จาก Contoso เรียกให้ติดตามการประชุม และกล่าวถึงว่าพวกเขาสามารถตอบสนองความคาดหวังด้านราคาได้ พวกเขาขอโทรกลับหรืออีเมลเพื่อหารือเกี่ยวกับขั้นตอนต่อไป
การดําเนินการที่ร้องขอ: โทรกลับหรือส่งอีเมลเพื่อพูดคุยเกี่ยวกับขั้นตอนถัดไป
หมายเลขโทรกลับ: 555-12345
รายละเอียดการติดต่ออื่น: Ava@contoso.com

การวิเคราะห์เสียงในพอร์ทัล Foundry

เช่นเดียวกับการวิเคราะห์เอกสาร การใช้ Content Understanding ในพอร์ทัล Foundry ใหม่ เป็นวิธีที่รวดเร็วในการตรวจสอบความถูกต้องว่าตัววิเคราะห์ของคุณส่งคืนฟิลด์ที่คุณคาดหวังก่อนที่คุณจะทําให้เวิร์กโฟลว์เป็นแบบอัตโนมัติในโค้ด

ในพอร์ทัล คุณสามารถ:

เลือกตัววิเคราะห์เสียงหรือวิดีโอและเรียกใช้บนไฟล์มีเดีย
ตรวจสอบผลลัพธ์ เช่น การถอดเสียง (สําหรับเสียง) และข้อมูลเชิงลึกที่แยกออกมาตามสคีมาของคุณ
ดู ผลลัพธ์ JSON ที่ส่งคืนเพื่อการประมวลผลเพิ่มเติมในระบบดาวน์สตรีม

มาดูกันว่าเราจะใช้ความเข้าใจเนื้อหาเพื่อวิเคราะห์การบันทึกการโทรได้อย่างไร แทนที่จะฟังการโทรทั้งหมด คุณสามารถเรียกใช้ตัววิเคราะห์เสียงที่สร้างไว้ล่วงหน้าเพื่อดึงข้อมูลจากเสียงได้ เมื่อการวิเคราะห์เสร็จสิ้น คุณจะเห็นการถอดเสียงการโทรเป็นลายลักษณ์อักษร

ในผลลัพธ์ที่ส่งคืน คุณจะเห็นข้อมูลเฉพาะจากการโทร เช่นเดียวกับเครื่องวิเคราะห์อื่นๆ ในการทําความเข้าใจเนื้อหา ผลลัพธ์จะอยู่ในรูปแบบ JSON สําหรับการประมวลผลต่อไป

การดึงข้อมูลที่มีโครงสร้างจากวิดีโอ

Azure Content Understanding ยังสนับสนุนการวิเคราะห์วิดีโออีกด้วย ตัวอย่างเช่น คุณสามารถวิเคราะห์การประชุมทางวิดีโอที่บันทึกไว้เพื่อดึงรายละเอียดของการเข้าร่วม สถานที่ และข้อมูลอื่นๆ

ก่อนอื่นเรามาดูภาพหนึ่งจากกล้องในห้องประชุมกัน สมมติว่าคุณได้กําหนด Schema ต่อไปนี้:

สถานที่
ผู้เข้าร่วมประชุมด้วยตนเอง
ผู้เข้าร่วมประชุมระยะไกล
ผู้เข้าร่วมทั้งหมด

คุณสามารถใช้ Azure Content Understanding เพื่อวิเคราะห์รูปภาพจากกล้องในห้องประชุม:

ภาพถ่ายของบุคคลในห้องประชุมในการโทรที่มีผู้เข้าร่วมประชุมระยะไกลสามคน

หลังจากใช้สคีมากับอิมเมจแล้ว Azure Content Understanding จะส่งคืนข้อมูลที่มีโครงสร้าง:

สถานที่: ห้องประชุม
ผู้เข้าร่วมประชุมด้วยตนเอง: 1
ผู้เข้าร่วมประชุมระยะไกล: 3
ผู้เข้าร่วมทั้งหมด: 4

พิจารณาสิ่งที่คุณอาจเพิ่มลงใน Schema สําหรับการบันทึกวิดีโอการประชุม คุณสามารถรวมจํานวนการเข้าร่วมในช่วงเวลาต่างๆ รายละเอียดว่าใครพูดระหว่างการโทรและสิ่งที่พวกเขาพูด สรุปการสนทนา และรายการการดําเนินการที่ได้รับมอบหมายจากการประชุม

การสร้างแอปพลิเคชันไคลเอ็นต์ด้วยตัววิเคราะห์เสียงหรือวิดีโอ

หากต้องการวิเคราะห์เสียงหรือวิดีโอโดยทางโปรแกรม คุณสามารถสร้างแอปพลิเคชันไคลเอ็นต์ที่มีน้ําหนักเบาโดยใช้ API การทําความเข้าใจเนื้อหา

ลองมาดูตัวอย่างโดยใช้ Python SDK เมื่อคุณเรียกใช้โค้ดต่อไปนี้ จะวิเคราะห์ไฟล์เสียงโดยใช้ตัววิเคราะห์ที่สร้างไว้ล่วงหน้า เครื่องวิเคราะห์ที่สร้างไว้ล่วงหน้าถูกระบุเป็นprebuilt-audioSearch

import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"]  # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]

client = ContentUnderstandingClient(
    endpoint=endpoint,
    credential=AzureKeyCredential(key)
)

# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"

# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
    {"url": "https://<your-host>/samples/voicemail.wav"}
]

# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)

# Wait for completion (SDK polls under the hood)
result = poller.result()

# Inspect the structured output (JSON-like objects)
for content in result.contents:
    # Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
    print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
    print(getattr(content, "markdown", None))

    print("\n=== EXTRACTED FIELDS ===")
    print(getattr(content, "fields", None))

การวิเคราะห์เสียงและวิดีโอพร้อมความเข้าใจเนื้อหาใน Microsoft Foundry เปิดโอกาสมากมายในการปลดล็อกศักยภาพของข้อมูลทางธุรกิจในทุกรูปแบบ จากนั้นลองทําความเข้าใจเนื้อหาด้วยตัวคุณเอง

คำติชม

หน้านี้มีประโยชน์หรือไม่