Azure AI画像およびビデオ処理テクノロジを選択する

[アーティクル]
10/07/2024

Azure AI サービスは、開発者や組織が、すぐに使用できる、構築済みでカスタマイズ可能な API とモデルを使用して、インテリジェントで最先端の、市場対応型の責任あるアプリケーションを作成するのに役立ちます。

この記事では、視覚分析や画像の生成、オブジェクト検出、画像分類、顔認識などのビデオおよび画像処理機能を提供する Azure AI サービスについて説明します。

サービス

次のサービスは、Azure AI サービスにビデオおよび画像処理機能を提供します。

Azure OpenAI
- 事前トレーニング済みの生成画像モデルを使用して自然言語から画像を生成するには、 Azure OpenAI を使用します。たとえば、カスタムアートのオンデマンド生成などです。
- 画像に対して非特異的で広範な分析を実行する必要がある場合は、Azure OpenAI を使用します。たとえば、アクセシビリティの説明を生成します。
- Azure Machine Learning で利用可能なオープンソースのイメージ生成モデルを使用する場合は、Azure OpenAI を使用しない でください。
- フォーム抽出、顔認識、ドメイン特化の画像特性検出など、特定の種類の画像処理を実行する必要がある場合は、 Azure OpenAI を使用しない でください。これらのシナリオでは、代わりにそれらの目的のために特別にトレーニングされた AI ソリューションを使用または構築します。
Azure AI Vision
- モーションやその他のイベントを検出するために基本的な光学式文字認識 (OCR)、画像分析、または基本的なビデオ分析が必要な場合は Vision サービスを使用します。
- 大規模でマルチモーダルな基盤モデルが既にサポートしている分析には、Vision サービスを使用しない でください。
- コンテンツをモデレートするために Vision サービスを使用しない でください。代わりにコンテンツセーフティサービスを使用してください。
Azure AI Custom Vision
- 基本的な Vision サービスの画像分析では対応できない特定の要件がある場合に、このサービスを使用します。たとえば、異常なオブジェクトや製造上の欠陥を認識したり、詳細なカスタム分類を提供したりするのに適しています。
- 基本的な物体検出や顔検出が必要な場合は、このサービスを使用しない でください。代わりに Face または Vision サービスを使用してください。
- 基本的な視覚分析にはこのサービスを使用しない でください。代わりに、Azure OpenAI のビジョン対応モデルまたは Azure Machine Learning のオープンソースモデルを使用してください。
Azure AI Face
- 顔が本物か偽物かを確認する必要がある場合、または類似の顔を識別、グループ化、または検索する必要がある場合は、Face サービスを使用します。
- 顔の感情を検出したり、顔に関するその他の高度な推論を実行したりするために Face サービスを使用しない でください。代わりに、これらのタスクにはマルチモーダル言語モデルを使用します。
Azure AI Video Indexer
- Vision サービスの基本的なビデオ分析では提供できない、より高度なビデオ分析関連のタスクには、Azure Video Indexer サービスを使用します。
- 人数カウントやモーションおよびイベント検出などの基本的なビデオ分析タスクには、Azure Video Indexer サービスを使用しない でください。 Vision サービスの基本的なビデオ分析は、これらのタスクに対してよりコスト効率に優れています。

Azure OpenAI

Azure OpenAI は、最新世代の GPT モデルを含む OpenAI の強力な言語モデルへのアクセスを提供します。これらは視覚的な分析と画像の生成をサポートし、 DALL-E は画像生成をサポートします。

Azure AI Vision

Azure AI Vision は、画像を処理し、興味のある視覚的特徴に基づいて情報を返す高度なアルゴリズムを提供します。 OCR、Face サービス、画像および空間分析の 4 つのサービスを提供します。

機能

次の表は、Azure AI Vision サービスで利用できる機能の一覧を示しています。

機能	説明
光学式文字認識 (OCR)	光学式文字認識 (OCR) サービスは、画像からテキストを抽出します。 Read API を使って、写真やドキュメントから印刷と手書きのテキストを抽出できます。ディープラーニングベースのモデルを使用して、さまざまなサーフェスや背景のテキストを操作します。たとえば、ビジネスドキュメント、請求書、レシート、ポスター、名刺、レター、ホワイトボードが対象となります。 OCR API では、印刷されたテキストを Several 言語で抽出。
画像分析	画像分析サービスは、オブジェクト、顔、自動生成されたテキストの説明など、画像から多くの視覚的特徴を抽出します。 Florence 基本モデルに基づく Image Analysis 4.0 を使用すると、カスタム画像識別子モデルを作成することもできます。
ビデオ分析	ビデオ分析には、空間分析やビデオ検索のようなビデオ関連の機能が含まれています。空間分析では、ビデオフィードでの人々の存在と移動を分析し、他のシステムで応答できるイベントを生成します。

Azure AI Custom Vision

Azure AI Custom Vision サービスは、独自の画像識別モデルを構築、展開、改善できる画像認識サービスです。画像識別子は、視覚特性に従って、画像にラベルを適用します。各ラベルは、分類または物体を表します。 Custom Vision を使用すると、独自のラベルを指定し、それらを検出するためのカスタムモデルをトレーニングできます。

Custom Vision サービスでは、カスタム機能の画像の分析に機械学習アルゴリズムを使用します。求めているビジュアル特性を備えた画像セットと、それを欠いたものを送信します。送信時に、独自のラベル (タグ) を使用して画像にラベルを付けます。次に、アルゴリズムをこのデータでトレーニングし、同じ画像に対するテストを行って、自身の精度を計算します。モデルをトレーニングした後、テスト、再トレーニングを行い、最終的に画像認識アプリ内で使用して、画像を分類したりオブジェクトを検出したりします。オフラインで使用するために、モデルをエクスポートすることもできます。

機能

次の表は、Azure AI Custom Vision サービスで利用できる機能の一覧を示しています。

機能	説明
画像分類	"特徴量" と呼ばれる一連の入力に基づいて、カテゴリや "クラス" を予測します。考えられる各クラスの確率スコアを計算し、オブジェクトが属している可能性が最も高いクラスを示すラベルを返します。このモデルを使用するには、特徴とそのラベルで構成されるデータが必要です。
物体検出	画像内のオブジェクトの座標を取得します。このモデルを使用するには、特徴とそのラベルで構成されるデータが必要です。

ユースケース

次の表は、Azure AI Custom Vision サービスの考えられるユースケースの一覧を示しています。

ユースケース	説明
IoT デバイスで Custom Vision を使用して視覚的な状態を報告する	Custom Vision を使用して、カメラを搭載したデバイスをトレーニングし、視覚状態を検出します。この検出シナリオは、エクスポートされた ONNX モデルを使用して、IoT デバイスで実行できます。視覚的な状態は、誰もいない部屋あるいは人がいる部屋、または空の私道やトラックが通っている私道などの画像の内容を表します。
カメラ写真内のロゴを認識する	写真を分析して特定のロゴを探します。

ユースケース

説明

IoT デバイスで Custom Vision を使用して視覚的な状態を報告する

Custom Vision を使用して、カメラを搭載したデバイスをトレーニングし、視覚状態を検出します。この検出シナリオは、エクスポートされた ONNX モデルを使用して、IoT デバイスで実行できます。視覚的な状態は、誰もいない部屋あるいは人がいる部屋、または空の私道やトラックが通っている私道などの画像の内容を表します。

カメラ写真内のロゴを認識する

写真を分析して特定のロゴを探します。

Azure AI Face

Azure AI Face サービスは、画像内の人間の顔を検出、認識、分析する AI アルゴリズムを提供します。顔認識ソフトウェアは、本人識別、タッチレスアクセス制御、プライバシーのための自動顔ぼかしなど、さまざまなシナリオで重要となります。

機能

次の表は、Azure AI Face サービスで利用できる機能の一覧を示しています。

機能	説明
顔検出と分析	一般的には顔周りに長方形を形づくる境界ボックスを返すことで、人間の顔を含む画像の領域を識別します。
似た顔を探す	Find Similar 操作では、ターゲットの顔と候補となる一連の顔との間で顔照合を行い、ターゲットの顔によく似ている一連の顔が検索されます。これは、画像による顔検索を行う場合に便利です。
顔をグループ化する	Group 操作では、未知の顔の集合が、類似性に基づいて複数のグループに分けられます。それぞれのグループは、元の顔の集合から得られる、互いに素な真部分集合です。また、類似点が見つからなかった顔の ID を含む、単一の "messyGroup" 配列も返されます。
[識別]	顔識別では、画像内の 1 つの顔を、安全なリポジトリ内の一連の顔と "一対多" で照合できます。一致候補は、顔データがクエリの顔とどれだけ一致しているかに基づいて返されます。
顔認識操作	最新の企業やアプリでは、Face Verification ("1 対 1" 照合) や Face Identification ("1 対多" 照合) などの顔認識テクノロジを使用して、ユーザーが主張する本人であることを確認できます。
生体検知	生体検出は、ユーザーが物理的にカメラの前にいるかどうかを確認するなりすまし防止機能です。これは、印刷写真、録画ビデオ、またはユーザーの顔の 3D マスクを使用するスプーフィング攻撃を防ぐために使用されます。

ユースケース

次の表は、Azure AI Face サービスの考えられるユースケースの一覧を示しています。

ユースケース	説明
ユーザー ID を確認します。	信頼できる顔画像と照合して人物を検証します。この検証は、デジタルまたは物理的な資産へのアクセスを許可するために使用できます。ほとんどの場合、信頼できる顔の画像は、パスポートや運転免許証などの政府発行の ID から取得される場合や、本人が撮影した登録写真から取得される場合があります。検証中、ライブネス検出は、画像が印刷された写真やマスクではなく、実際の人物の画像であることを確認する上で重要な役割を果たすことができます。
顔編集	ビデオに記録された人物の顔を検出し、編集またはぼかしてプライバシーを保護します。
タッチレスアクセスコントロール。	カードやチケットなどの方法と比較して、オプトインの顔認証により、物理的なメディアの共有、紛失、盗難による衛生およびセキュリティ上のリスクを軽減しながら、アクセス制御エクスペリエンスが強化されます。顔認識は、空港、スタジアム、テーマパーク、建物へのチェックイン時や、オフィス、病院、ジム、クラブ、学校の受付キオスクで、人間のチェックインプロセスに役立ちます。

Azure AI Video Indexer

Azure AI Video Indexer は、Azure AI サービス (Face、Translator、Azure AI Vision、音声など) 上に構築された、Azure AI サービスの一部であるクラウドアプリケーションです。 Azure AI Video Indexer のビデオとオーディオのモデルを使用して、ビデオから分析情報を抽出することができます。

機能

次の表は、Azure AI Video Indexer サービスで利用できる機能の一部を示しています。

機能	説明
多言語音声認識と文字起こし	オーディオからさまざまなセグメントの話し言葉を識別します。書き起こされるようにメディアファイルの各セグメントを送信した後、文字起こしが 1 つの統合された文字起こしに結合されます。
顔検出	ビデオに表示される顔を検出し、グループ化します。
著名人の識別	世界中の世界の指導者、俳優、芸術家、アスリート、研究者、ビジネスリーダー、テクノロジーリーダーなど、100 万人を超える著名人を特定します。これらの有名人に関するデータは、さまざまな Web サイト (IMDB、Wikipedia など) でも見つかります。
アカウントベースの顔認証	特定のアカウントのモデルをトレーニングします。その後、トレーニングされたモデルに基づいてビデオ内の顔を認識します。
観察対象者の追跡（プレビュー）	ビデオ内で観察された人物を検出し、ビデオフレーム内の人物の位置 (境界ボックスを使用)、人物が登場したときの正確なタイムスタンプ (開始、終了)、信頼性などの情報を提供します。
音声文字起こし	50 以上の言語で音声をテキストに変換し、拡張も可能。
言語検出	主な話し言葉を特定します。
ノイズ低減	(Skype フィルターに基づいて) テレフォニー音声やノイズの多い録音を明瞭にします。
翻訳	オーディオトランスクリプトの翻訳をさまざまな言語に作成します。

Azure AI Video Indexer サービスのその他の機能を確認するには、 Azure AI Video Indexer のドキュメントを参照してください。

ユースケース

次の表は、Azure AI Video Indexer サービスの考えられるユースケースの一覧を示しています。

ユースケース	説明
ディープ検索	ビデオから抽出された分析情報を使用して、ビデオライブラリ全体での検索エクスペリエンスを強化します。たとえば、話されている語句と顔にインデックスを作成すると、人物が特定の単語をいつ話したかや、2 人の人物がいつ会っていたかを検索できるようになります。ビデオからのこのような分析情報に基づいた検索は、通信社、教育機関、放送局、エンターテイメントコンテンツの所有者、エンタープライズ LOB アプリにとって利用価値があり、一般には、ユーザーが検索の対象にするビデオライブラリを保有するすべての業界が対象になります。
コンテンツの作成	Azure AI Video Indexer がコンテンツから抽出した分析情報に基づいて、予告編、ハイライトリール、ソーシャルメディアコンテンツ、ニュースクリップを作成します。人物とラベルの外観用のキーフレーム、シーンマーカー、タイムスタンプにより、作成プロセスがより円滑で簡単になり、コンテンツの作成中に必要なビデオの部分に容易にアクセスできるようになります。
アクセシビリティ	コンテンツを障碍のある人が利用できるようにしたい場合や、コンテンツをさまざまな言語を使用してさまざまな地域に配信したい場合、Azure AI Video Indexer が提供する複数の言語での文字起こしと翻訳を使用できます。
収益化	Azure AI Video Indexer は、ビデオの価値を高めるのに役立ちます。たとえば、広告収入に依存している業界 (ニュースメディア、ソーシャルメディアなど) では、抽出した分析情報を広告サーバーへの追加のシグナルとして利用することで、関連広告を提供できます。
コンテンツモデレート	テキストとビジュアルのコンテンツモデレーションモデルを使用して、不適切なコンテンツからユーザーの安全を維持し、公開したコンテンツが組織の値と一致することを検証します。コンテンツに関して、特定のビデオを自動的にブロックしたり、ユーザーに通知したりすることができます。
推奨事項	ビデオの分析情報は、ユーザーに関連のあるビデオモーメントを強調表示することで、ユーザーエンゲージメントを向上させるために使用できます。各ビデオに追加のメタデータをタグ付けすることで、ユーザーに最も関連性の高いビデオを推奨し、ニーズに合うビデオの部分を強調表示することができます。

次の方法で共有

Azure AI画像およびビデオ処理テクノロジを選択する

サービス

Azure OpenAI

Azure AI Vision

機能

Azure AI Custom Vision

機能

ユースケース

Azure AI Face

機能

ユースケース

Azure AI Video Indexer

機能

ユースケース

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure AI画像およびビデオ処理テクノロジを選択する

サービス

Azure OpenAI

Azure AI Vision

機能

Azure AI Custom Vision

機能

ユース ケース

Azure AI Face

機能

ユース ケース

Azure AI Video Indexer

機能

ユース ケース

次のステップ

関連リソース

フィードバック

その他のリソース

ユースケース

ユースケース

ユースケース