ทําความเข้าใจความสามารถในการวิเคราะห์อิมเมจ Azure Vision

4 นาที

ความสามารถในการวิเคราะห์รูปภาพของ Azure Vision สามารถใช้ได้โดยมีหรือไม่มีการปรับแต่ง ความสามารถบางอย่างที่ไม่จําเป็นต้องกําหนดค่าได้แก่:

การอธิบายรูปภาพพร้อมคําอธิบายภาพ
การตรวจหาวัตถุทั่วไปในรูปภาพ
การแท็กคุณลักษณะภาพ
การรู้จำอักขระด้วยแสง

การอธิบายรูปภาพพร้อมคําอธิบายภาพ

Azure Vision มีความสามารถในการวิเคราะห์รูปภาพ ประเมินวัตถุในนั้น และสร้างคําอธิบายของรูปภาพที่มนุษย์อ่านได้ ตัวอย่างเช่น พิจารณารูปภาพต่อไปนี้:

แผนผังของบุคคลบนสเก็ตบอร์ด

Azure Vision ส่งคืนคําบรรยายต่อไปนี้สําหรับรูปภาพนี้:

คนกระโดดบนสเก็ตบอร์ด

การตรวจหาวัตถุทั่วไปในรูปภาพ

Azure Vision สามารถระบุวัตถุทั่วไปหลายพันรายการในรูปภาพ ตัวอย่างเช่น เมื่อใช้เพื่อตรวจหาวัตถุในอิมเมจนักสเก็ตบอร์ดที่กล่าวถึงก่อนหน้านี้ Azure Vision จะส่งกลับการคาดคะเนต่อไปนี้:

สเก็ตบอร์ด (90.40%)
บุคคล (95.5%)

การคาดการณ์รวมถึง คะแนนความเชื่อมั่น ที่ระบุวิธีการที่แบบจําลองมีความมั่นใจว่าสิ่งที่อธิบายคือสิ่งที่อยู่ในรูปภาพ

นอกเหนือจากป้ายชื่อวัตถุที่ตรวจพบและความน่าจะเป็นแล้ว Azure Vision ยังส่งกลับพิกัด กล่องขอบเขต ที่ระบุด้านบน ซ้าย ความกว้าง และความสูงของวัตถุที่ตรวจพบ คุณสามารถใช้พิกัดเหล่านี้เพื่อกําหนดตําแหน่งที่ตรวจพบวัตถุแต่ละรายการในรูป ดังนี้:

ไดอะแกรมของนักสเก็ตบอร์ดที่มีกล่องแสดงขอบเขตรอบๆ วัตถุที่ตรวจพบ

การแท็กคุณลักษณะภาพ

Azure Vision สามารถแนะนํา แท็ก สําหรับรูปภาพตามเนื้อหาได้ แท็กเกี่ยวข้องกับรูปภาพเป็นเมตาดาต้า แท็กสรุปแอตทริบิวต์ของรูปภาพ คุณสามารถใช้แท็กเพื่อทําดัชนีรูปภาพพร้อมกับชุดคําสําคัญสําหรับโซลูชันการค้นหา

ตัวอย่างเช่น แท็กที่ส่งกลับสําหรับรูปภาพนักสเก็ตบอร์ด (ที่มีคะแนนความเชื่อมั่นที่เกี่ยวข้อง) ประกอบด้วย:

กีฬา (99.60%)
บุคคล (99.56%)
รองเท้า (98.05%)
การเล่นสเก็ต (96.27%)
กีฬากระดาน (95.58%)
อุปกรณ์สเก็ตบอร์ด (94.43%)
เสื้อผ้า (94.02%)
กำแพง (93.81%)
การเล่นสเก็ตบอร์ด (93.78%)
นักสเก็ตบอร์ด (93.25%)
กีฬาบุคคล (92.80%)
การเล่นโลดโผนตามถนน (90.81%)
ความสมดุล (90.81%)
การกระโดด (89.87%)
อุปกรณ์กีฬา (88.61%)
กีฬาผาดโผน (88.35%)
คิกฟลิป (88.18%)
การเล่นโลดโผน (87.27%)
สเก็ตบอร์ด (86.87%)
ผู้เล่นโลดโผน (85.83%)
เข่า (85.30%)
กีฬา (85.24%)
ลองบอร์ด (84.61%)
การเล่นลองบอร์ด (84.45%)
การขี่ (73.37%)
สเก็ต (67.27%)
อากาศ (64.83%)
หนุ่มสาว (63.29%)
กลางแจ้ง (61.39%)

การรู้จำอักขระด้วยแสง

บริการ Azure Vision สามารถใช้ความสามารถการรู้จําอักขระด้วยแสง (OCR) เพื่อตรวจหาข้อความในรูปภาพ ตัวอย่างเช่น พิจารณารูปภาพฉลากโภชนาการบนผลิตภัณฑ์ในร้านขายของชํา:

ไดอะแกรมของฉลากโภชนาการ

บริการ Azure Vision สามารถวิเคราะห์รูปภาพนี้และแยกข้อความต่อไปนี้:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

โมเดลแบบกําหนดเองสําหรับการฝึก

หากแบบจําลองที่มีอยู่แล้วภายในที่จัดทําโดย Azure Vision ไม่ตรงกับความต้องการของคุณ คุณสามารถใช้บริการเพื่อฝึกแบบจําลองแบบกําหนดเองสําหรับการจําแนกรูปภาพหรือการตรวจหาวัตถุ Azure Vision สร้างแบบจําลองแบบกําหนดเองบนแบบจําลองพื้นฐานที่ได้รับการฝึกอบรมล่วงหน้า ซึ่งหมายความว่าคุณสามารถฝึกแบบจําลองที่ซับซ้อนได้โดยใช้อิมเมจการฝึกอบรมที่ค่อนข้างน้อย

การจัดประเภทรูปภาพ

โมเดลการจัดประเภทรูปภาพจะใช้เพื่อคาดการณ์ประเภทหรือคลาสของรูปภาพ ตัวอย่างเช่น คุณสามารถฝึกโมเดลเพื่อกําหนดชนิดของผลไม้ที่แสดงในรูปภาพ ดังนี้:

แอปเปิล	กล้วย	สีส้ม

การตรวจหาวัตถุ

โมเดลการตรวจหาวัตถุจะตรวจหาและจัดประเภทวัตถุในรูปภาพ โดยส่งคืนพิกัดกล่องแสดงขอบเขตเพื่อค้นหาวัตถุแต่ละชิ้น นอกเหนือจากความสามารถในการตรวจหาวัตถุในตัวใน Azure Vision แล้ว คุณยังสามารถฝึกโมเดลการตรวจหาวัตถุแบบกําหนดเองด้วยรูปภาพของคุณเองได้ ตัวอย่างเช่น คุณสามารถใช้รูปถ่ายผลไม้เพื่อฝึกโมเดลที่จะตรวจหาผลไม้หลายชนิดในรูปภาพได้ ดังนี้:

ไดอะแกรมของผลไม้ที่ตรวจพบหลายรายการในรูปภาพ

หมายเหตุ

รายละเอียดของวิธีการใช้ Azure Vision เพื่อฝึกแบบจําลองแบบกําหนดเองอยู่นอกเหนือขอบเขตของโมดูลนี้ คุณสามารถค้นหาข้อมูลเกี่ยวกับการฝึกอบรมแบบจําลองแบบกําหนดเองได้ใน เอกสารประกอบ Azure Vision

ต่อไป มาดูความสามารถเฉพาะสําหรับบริการใบหน้าของ Azure Vision กัน

คำติชม

หน้านี้มีประโยชน์หรือไม่