ทําความเข้าใจความสามารถในการวิเคราะห์อิมเมจ Azure Vision
ความสามารถในการวิเคราะห์รูปภาพของ Azure Vision สามารถใช้ได้โดยมีหรือไม่มีการปรับแต่ง ความสามารถบางอย่างที่ไม่จําเป็นต้องกําหนดค่าได้แก่:
- การอธิบายรูปภาพพร้อมคําอธิบายภาพ
- การตรวจหาวัตถุทั่วไปในรูปภาพ
- การแท็กคุณลักษณะภาพ
- การรู้จำอักขระด้วยแสง
การอธิบายรูปภาพพร้อมคําอธิบายภาพ
Azure Vision มีความสามารถในการวิเคราะห์รูปภาพ ประเมินวัตถุในนั้น และสร้างคําอธิบายของรูปภาพที่มนุษย์อ่านได้ ตัวอย่างเช่น พิจารณารูปภาพต่อไปนี้:
Azure Vision ส่งคืนคําบรรยายต่อไปนี้สําหรับรูปภาพนี้:
คนกระโดดบนสเก็ตบอร์ด
การตรวจหาวัตถุทั่วไปในรูปภาพ
Azure Vision สามารถระบุวัตถุทั่วไปหลายพันรายการในรูปภาพ ตัวอย่างเช่น เมื่อใช้เพื่อตรวจหาวัตถุในอิมเมจนักสเก็ตบอร์ดที่กล่าวถึงก่อนหน้านี้ Azure Vision จะส่งกลับการคาดคะเนต่อไปนี้:
- สเก็ตบอร์ด (90.40%)
- บุคคล (95.5%)
การคาดการณ์รวมถึง คะแนนความเชื่อมั่น ที่ระบุวิธีการที่แบบจําลองมีความมั่นใจว่าสิ่งที่อธิบายคือสิ่งที่อยู่ในรูปภาพ
นอกเหนือจากป้ายชื่อวัตถุที่ตรวจพบและความน่าจะเป็นแล้ว Azure Vision ยังส่งกลับพิกัด กล่องขอบเขต ที่ระบุด้านบน ซ้าย ความกว้าง และความสูงของวัตถุที่ตรวจพบ คุณสามารถใช้พิกัดเหล่านี้เพื่อกําหนดตําแหน่งที่ตรวจพบวัตถุแต่ละรายการในรูป ดังนี้:
การแท็กคุณลักษณะภาพ
Azure Vision สามารถแนะนํา แท็ก สําหรับรูปภาพตามเนื้อหาได้ แท็กเกี่ยวข้องกับรูปภาพเป็นเมตาดาต้า แท็กสรุปแอตทริบิวต์ของรูปภาพ คุณสามารถใช้แท็กเพื่อทําดัชนีรูปภาพพร้อมกับชุดคําสําคัญสําหรับโซลูชันการค้นหา
ตัวอย่างเช่น แท็กที่ส่งกลับสําหรับรูปภาพนักสเก็ตบอร์ด (ที่มีคะแนนความเชื่อมั่นที่เกี่ยวข้อง) ประกอบด้วย:
- กีฬา (99.60%)
- บุคคล (99.56%)
- รองเท้า (98.05%)
- การเล่นสเก็ต (96.27%)
- กีฬากระดาน (95.58%)
- อุปกรณ์สเก็ตบอร์ด (94.43%)
- เสื้อผ้า (94.02%)
- กำแพง (93.81%)
- การเล่นสเก็ตบอร์ด (93.78%)
- นักสเก็ตบอร์ด (93.25%)
- กีฬาบุคคล (92.80%)
- การเล่นโลดโผนตามถนน (90.81%)
- ความสมดุล (90.81%)
- การกระโดด (89.87%)
- อุปกรณ์กีฬา (88.61%)
- กีฬาผาดโผน (88.35%)
- คิกฟลิป (88.18%)
- การเล่นโลดโผน (87.27%)
- สเก็ตบอร์ด (86.87%)
- ผู้เล่นโลดโผน (85.83%)
- เข่า (85.30%)
- กีฬา (85.24%)
- ลองบอร์ด (84.61%)
- การเล่นลองบอร์ด (84.45%)
- การขี่ (73.37%)
- สเก็ต (67.27%)
- อากาศ (64.83%)
- หนุ่มสาว (63.29%)
- กลางแจ้ง (61.39%)
การรู้จำอักขระด้วยแสง
บริการ Azure Vision สามารถใช้ความสามารถการรู้จําอักขระด้วยแสง (OCR) เพื่อตรวจหาข้อความในรูปภาพ ตัวอย่างเช่น พิจารณารูปภาพฉลากโภชนาการบนผลิตภัณฑ์ในร้านขายของชํา:
บริการ Azure Vision สามารถวิเคราะห์รูปภาพนี้และแยกข้อความต่อไปนี้:
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
โมเดลแบบกําหนดเองสําหรับการฝึก
หากแบบจําลองที่มีอยู่แล้วภายในที่จัดทําโดย Azure Vision ไม่ตรงกับความต้องการของคุณ คุณสามารถใช้บริการเพื่อฝึกแบบจําลองแบบกําหนดเองสําหรับการจําแนกรูปภาพหรือการตรวจหาวัตถุ Azure Vision สร้างแบบจําลองแบบกําหนดเองบนแบบจําลองพื้นฐานที่ได้รับการฝึกอบรมล่วงหน้า ซึ่งหมายความว่าคุณสามารถฝึกแบบจําลองที่ซับซ้อนได้โดยใช้อิมเมจการฝึกอบรมที่ค่อนข้างน้อย
การจัดประเภทรูปภาพ
โมเดลการจัดประเภทรูปภาพจะใช้เพื่อคาดการณ์ประเภทหรือคลาสของรูปภาพ ตัวอย่างเช่น คุณสามารถฝึกโมเดลเพื่อกําหนดชนิดของผลไม้ที่แสดงในรูปภาพ ดังนี้:
| แอปเปิล | กล้วย | สีส้ม |
|---|---|---|
|
|
|
การตรวจหาวัตถุ
โมเดลการตรวจหาวัตถุจะตรวจหาและจัดประเภทวัตถุในรูปภาพ โดยส่งคืนพิกัดกล่องแสดงขอบเขตเพื่อค้นหาวัตถุแต่ละชิ้น นอกเหนือจากความสามารถในการตรวจหาวัตถุในตัวใน Azure Vision แล้ว คุณยังสามารถฝึกโมเดลการตรวจหาวัตถุแบบกําหนดเองด้วยรูปภาพของคุณเองได้ ตัวอย่างเช่น คุณสามารถใช้รูปถ่ายผลไม้เพื่อฝึกโมเดลที่จะตรวจหาผลไม้หลายชนิดในรูปภาพได้ ดังนี้:
หมายเหตุ
รายละเอียดของวิธีการใช้ Azure Vision เพื่อฝึกแบบจําลองแบบกําหนดเองอยู่นอกเหนือขอบเขตของโมดูลนี้ คุณสามารถค้นหาข้อมูลเกี่ยวกับการฝึกอบรมแบบจําลองแบบกําหนดเองได้ใน เอกสารประกอบ Azure Vision
ต่อไป มาดูความสามารถเฉพาะสําหรับบริการใบหน้าของ Azure Vision กัน