コンピューター ビジョンを理解する

完了

コンピューター ビジョンは、視覚処理を扱う AI の分野です。 では、コンピューター ビジョンによってもたらされる可能性をいくつか見てみることにしましょう。

Seeing AI アプリは、コンピューター ビジョンの能力を示す素晴らしい例です。 視覚障碍者や低視力者向けに設計された Seeing AI アプリは、AI の能力を活用して、視覚世界を広げ、身の回りの人物、テキスト、物について説明します。

Seeing AI の詳細については、次のビデオをご覧ください。

さらに詳細な情報については、Seeing AI の Web ページを参照してください。

コンピューター ビジョン モデルと機能

コンピューター ビジョン ソリューションの多くが、カメラ、ビデオ、またはイメージからの視覚入力に適用できる機械学習モデルに基づいています。 次の表では、一般的なコンピューター ビジョン タスクについて説明します。

タスク 説明
画像分類 An image of a taxi with the label
画像分類では、機械学習モデルをトレーニングして、その内容に基づいて画像を分類します。 たとえば、交通監視ソリューションでは、画像分類モデルを使用して、タクシー、バス、自転車など、画像に含まれる車両の種類に基づいて画像を分類できます。
物体検出 An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
物体検出機械学習モデルは、画像内の個々の物体を分類し、その位置を境界ボックスで識別するようにトレーニングされます。 たとえば、交通監視ソリューションでは、物体検出を使用して、さまざまなクラスの車両の位置を特定します。
セマンティック セグメンテーション An image of a street with the pixels belonging to buses, cars, and cyclists identified.
セマンティック セグメンテーションは、ピクセルが属するオブジェクトに従って画像内の個々のピクセルを分類する高度な機械学習手法です。 たとえば、交通監視ソリューションでは、交通の画像に "マスク" レイヤーを重ねて、特定の色を使用してさまざまな車両を強調表示します。
画像解析 An image of a person with a dog on a street and the caption
機械学習モデルと高度な画像分析手法を組み合わせたソリューションを作成し、画像のカタログ化に役立つ "タグ" や、画像に示されているシーンを要約する説明的な字幕などの情報を画像から抽出することができます。
顔検出、分析、認識 An image of multiple people on a city street with their faces highlighted.
顔検出は、物体検出の特殊な形式で、画像内の人間の顔の位置を特定します。 これは、分類および顔のジオメトリ解析手法と組み合わせることができ、顔の特徴に基づいて個人を認識することもできます。
光学式文字認識 (OCR) An image of a building with the sign
光学式文字認識は、画像内のテキストを検出して読み取るために使用される手法です。 OCR を使用して、写真のテキスト (道路標識や店頭など) を読み取ったり、スキャンした文書 (手紙、請求書、フォームなど) から情報を抽出したりできます。

Microsoft Azure のコンピューター ビジョン サービス

Microsoft の Azure AI Vision を使用して、コンピューター ビジョン ソリューションを開発できます。 このサービス機能は、Azure Vision Studio やその他のプログラミング言語で使用およびテストできます。 Azure AI Vision の機能には次のようなものがあります。

  • 画像分析: 画像とビデオを分析し、説明、タグ、オブジェクト、テキストを抽出する機能。
  • Face: 顔検出および顔認識ソリューションをビルドできる機能。
  • 光学式文字認識 (OCR): 画像から印刷または手書きのテキストを抽出し、スキャンされたテキストのデジタル バージョンへのアクセスを可能にする機能。