ทําความเข้าใจความสามารถในการวิเคราะห์อิมเมจ Azure Vision

เสร็จสมบูรณ์เมื่อ

ความสามารถในการวิเคราะห์รูปภาพของ Azure Vision สามารถใช้ได้โดยมีหรือไม่มีการปรับแต่ง ความสามารถบางอย่างที่ไม่จําเป็นต้องกําหนดค่าได้แก่:

  • การอธิบายรูปภาพพร้อมคําอธิบายภาพ
  • การตรวจหาวัตถุทั่วไปในรูปภาพ
  • การแท็กคุณลักษณะภาพ
  • การรู้จำอักขระด้วยแสง

การอธิบายรูปภาพพร้อมคําอธิบายภาพ

Azure Vision มีความสามารถในการวิเคราะห์รูปภาพ ประเมินวัตถุในนั้น และสร้างคําอธิบายของรูปภาพที่มนุษย์อ่านได้ ตัวอย่างเช่น พิจารณารูปภาพต่อไปนี้:

แผนผังของบุคคลบนสเก็ตบอร์ด

Azure Vision ส่งคืนคําบรรยายต่อไปนี้สําหรับรูปภาพนี้:

คนกระโดดบนสเก็ตบอร์ด

การตรวจหาวัตถุทั่วไปในรูปภาพ

Azure Vision สามารถระบุวัตถุทั่วไปหลายพันรายการในรูปภาพ ตัวอย่างเช่น เมื่อใช้เพื่อตรวจหาวัตถุในอิมเมจนักสเก็ตบอร์ดที่กล่าวถึงก่อนหน้านี้ Azure Vision จะส่งกลับการคาดคะเนต่อไปนี้:

  • สเก็ตบอร์ด (90.40%)
  • บุคคล (95.5%)

การคาดการณ์รวมถึง คะแนนความเชื่อมั่น ที่ระบุวิธีการที่แบบจําลองมีความมั่นใจว่าสิ่งที่อธิบายคือสิ่งที่อยู่ในรูปภาพ

นอกเหนือจากป้ายชื่อวัตถุที่ตรวจพบและความน่าจะเป็นแล้ว Azure Vision ยังส่งกลับพิกัด กล่องขอบเขต ที่ระบุด้านบน ซ้าย ความกว้าง และความสูงของวัตถุที่ตรวจพบ คุณสามารถใช้พิกัดเหล่านี้เพื่อกําหนดตําแหน่งที่ตรวจพบวัตถุแต่ละรายการในรูป ดังนี้:

ไดอะแกรมของนักสเก็ตบอร์ดที่มีกล่องแสดงขอบเขตรอบๆ วัตถุที่ตรวจพบ

การแท็กคุณลักษณะภาพ

Azure Vision สามารถแนะนํา แท็ก สําหรับรูปภาพตามเนื้อหาได้ แท็กเกี่ยวข้องกับรูปภาพเป็นเมตาดาต้า แท็กสรุปแอตทริบิวต์ของรูปภาพ คุณสามารถใช้แท็กเพื่อทําดัชนีรูปภาพพร้อมกับชุดคําสําคัญสําหรับโซลูชันการค้นหา

ตัวอย่างเช่น แท็กที่ส่งกลับสําหรับรูปภาพนักสเก็ตบอร์ด (ที่มีคะแนนความเชื่อมั่นที่เกี่ยวข้อง) ประกอบด้วย:

  • กีฬา (99.60%)
  • บุคคล (99.56%)
  • รองเท้า (98.05%)
  • การเล่นสเก็ต (96.27%)
  • กีฬากระดาน (95.58%)
  • อุปกรณ์สเก็ตบอร์ด (94.43%)
  • เสื้อผ้า (94.02%)
  • กำแพง (93.81%)
  • การเล่นสเก็ตบอร์ด (93.78%)
  • นักสเก็ตบอร์ด (93.25%)
  • กีฬาบุคคล (92.80%)
  • การเล่นโลดโผนตามถนน (90.81%)
  • ความสมดุล (90.81%)
  • การกระโดด (89.87%)
  • อุปกรณ์กีฬา (88.61%)
  • กีฬาผาดโผน (88.35%)
  • คิกฟลิป (88.18%)
  • การเล่นโลดโผน (87.27%)
  • สเก็ตบอร์ด (86.87%)
  • ผู้เล่นโลดโผน (85.83%)
  • เข่า (85.30%)
  • กีฬา (85.24%)
  • ลองบอร์ด (84.61%)
  • การเล่นลองบอร์ด (84.45%)
  • การขี่ (73.37%)
  • สเก็ต (67.27%)
  • อากาศ (64.83%)
  • หนุ่มสาว (63.29%)
  • กลางแจ้ง (61.39%)

การรู้จำอักขระด้วยแสง

บริการ Azure Vision สามารถใช้ความสามารถการรู้จําอักขระด้วยแสง (OCR) เพื่อตรวจหาข้อความในรูปภาพ ตัวอย่างเช่น พิจารณารูปภาพฉลากโภชนาการบนผลิตภัณฑ์ในร้านขายของชํา:

ไดอะแกรมของฉลากโภชนาการ

บริการ Azure Vision สามารถวิเคราะห์รูปภาพนี้และแยกข้อความต่อไปนี้:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

โมเดลแบบกําหนดเองสําหรับการฝึก

หากแบบจําลองที่มีอยู่แล้วภายในที่จัดทําโดย Azure Vision ไม่ตรงกับความต้องการของคุณ คุณสามารถใช้บริการเพื่อฝึกแบบจําลองแบบกําหนดเองสําหรับการจําแนกรูปภาพหรือการตรวจหาวัตถุ Azure Vision สร้างแบบจําลองแบบกําหนดเองบนแบบจําลองพื้นฐานที่ได้รับการฝึกอบรมล่วงหน้า ซึ่งหมายความว่าคุณสามารถฝึกแบบจําลองที่ซับซ้อนได้โดยใช้อิมเมจการฝึกอบรมที่ค่อนข้างน้อย

การจัดประเภทรูปภาพ

โมเดลการจัดประเภทรูปภาพจะใช้เพื่อคาดการณ์ประเภทหรือคลาสของรูปภาพ ตัวอย่างเช่น คุณสามารถฝึกโมเดลเพื่อกําหนดชนิดของผลไม้ที่แสดงในรูปภาพ ดังนี้:

แอปเปิล กล้วย สีส้ม
ไดอะแกรมของแอปเปิ้ล ไดอะแกรมของกล้วย ไดอะแกรมของส้ม

การตรวจหาวัตถุ

โมเดลการตรวจหาวัตถุจะตรวจหาและจัดประเภทวัตถุในรูปภาพ โดยส่งคืนพิกัดกล่องแสดงขอบเขตเพื่อค้นหาวัตถุแต่ละชิ้น นอกเหนือจากความสามารถในการตรวจหาวัตถุในตัวใน Azure Vision แล้ว คุณยังสามารถฝึกโมเดลการตรวจหาวัตถุแบบกําหนดเองด้วยรูปภาพของคุณเองได้ ตัวอย่างเช่น คุณสามารถใช้รูปถ่ายผลไม้เพื่อฝึกโมเดลที่จะตรวจหาผลไม้หลายชนิดในรูปภาพได้ ดังนี้:

ไดอะแกรมของผลไม้ที่ตรวจพบหลายรายการในรูปภาพ

หมายเหตุ

รายละเอียดของวิธีการใช้ Azure Vision เพื่อฝึกแบบจําลองแบบกําหนดเองอยู่นอกเหนือขอบเขตของโมดูลนี้ คุณสามารถค้นหาข้อมูลเกี่ยวกับการฝึกอบรมแบบจําลองแบบกําหนดเองได้ใน เอกสารประกอบ Azure Vision

ต่อไป มาดูความสามารถเฉพาะสําหรับบริการใบหน้าของ Azure Vision กัน