画像を収集する
物体を認識するために物体検出モデルをトレーニングするには、それらの物体を含む画像を収集する必要があります。 画像の数量と品質に関するガイドラインに従うと、より良い結果が得られます。
オブジェクト検出モデルのフィードに使う画像には、次の特性が必要です :
形式:
- JPG
- PNG
- BMP
サイズ:
- トレーニング用に最大 6 MB
- 256 ピクセル x 256 ピクセルの最小の幅 / 高さ
AI モデルをトレーニングするにあたっては、十分な数の画像をアップロードすることが重要です。 出発点として、トレーニング セットの物体あたり少なくとも 15 の画像が推奨されます。 画像数が少ない場合、ノイズや関連性のない概念を学習してしまう危険性が高くなります。 より多くの画像を使用してモデルをトレーニングすると、精度が向上します。
もう 1 つ考慮が必要な点は、データのバランスを取ることです。 1 つオブジェクトのに 500 の画像があるのに対し、別のオブジェクトでは 50 の画像しかない場合、トレーニング データセットのバランスが取れていないことになります。 これにより、モデルがオブジェクトのいずれかを認識しやすくなる可能性があります。 より一貫性のある結果を得るには、画像数が最小の物体と最多の物体の比率が少なくとも 1:2 になるようにします。 たとえば、画像数が最も多いオブジェクトに 500 の画像がある場合、画像数が最も少ないオブジェクトをトレーニングするには少なくとも 250 の画像が必要となります。
通常の運用において、モデルに送信される代表的な画像を提供してください。 たとえば、リンゴを認識するようにモデルをトレーニングするとします。 皿に乗ったリンゴの画像のみをトレーニングした場合、木に生ったリンゴを一貫して認識できない場合があります。 異なる種類の画像を含めることで、モデルが偏らず、適切に一般化できるようになります。 トレーニングセットをより多様なものにする方法を次に示します。
さまざまな背景の前でオブジェクトの画像を使用する (たとえば、皿、手、木の上の果物など)。 コンテキストを反映した写真は、分類子に多くの情報を提供するため、中立的な背景を背にした写真よりも優れていることになります。
特に、検出に使用する画像で光の加減が異なる可能性がある場合は、さまざまな光の加減を持つトレーニング画像を使用します。 たとえば、フラッシュで撮られた画像や露出が高い画像を含めます。 彩度、色相、輝度を変化させた画像を含めると便利です。 デバイスのカメラでは、これら設定を制御できる場合があります。
物体のさまざまなサイズの画像を提供し、物体のさまざまな部分をキャプチャします (たとえば、バナナの束の写真と 1 本のバナナのクローズアップなど)。 さまざまなサイズにすることで、モデルの一般化が向上します。
さまざまな角度から撮影した画像を指定してみてください。 すべての写真が防犯カメラなどの一連の固定されたカメラからに由来するものである場合は、各カメラに個別のラベルを割り当てます。 これにより、関連のないオブジェクト (街灯柱など) を主要な特徴としてモデリングすることを回避できます。 カメラが同じオブジェクトを撮影した場合でも、カメラのラベルを割り当てることができます。
AI モデルは、画像に共通に含まれている特性を誤って学習してしまう場合があります。 たとえば、リンゴと柑橘類を区別するモデルを作成するとします。 手に乗ったリンゴと白い皿に乗った柑橘類の画像を使用した場合、モデルでは、リンゴと柑橘類ではなく手と白い皿がトレーニングされる可能性があります。
これを修正するには、より多様な画像を用いたトレーニングに関する前述のガイダンスを使用してください (さまざまなアングル、背景、オブジェクト サイズ、グループ、その他のバリエーションを持つ画像を提供します)。