Azure AI 音声でのオーディオの概念

2025-04-28

この音声サービスは複数の形式のオーディオを受け入れ、提供します。オーディオの分野は複雑なトピックですが、背景情報が役に立つ場合があります。

オーディオの概念

音声は本質的にアナログであり、サンプリングによってデジタル信号に変換して近似されます。 1 秒あたりに行われるサンプリングの回数がサンプリングレートであり、各サンプルの精度はビット深度によって定義されます。

サンプル速度

1 秒あたりのオーディオサンプルの数。サンプリングレートが高いほど、音楽などの高い周波数がより正確に再現されます。通常、人間に聞こえるのは 20 Hz から 20 kHz の範囲ですが、最も感度が高いのは 5 kHz までです。サンプルレートは最も高い周波数の 2 倍である必要があるため、人間の音声では通常、16 kHz のサンプリングレートが適切ですが、さらに高いサンプリングレートを使用すると、より大きなファイルでも高品質を提供できます。音声テキスト変換とテキスト読み上げの既定値は両方とも 16 kHz ですが、オーディオブックには 48 kHz をお勧めします。一部のソースオーディオは 8 kHz であり、特に従来の通信システムからのものである場合、結果は質が低下します。

ビット深度

非圧縮オーディオサンプルはそれぞれ、精度または解像度を定義する多数のビットで表されます。人間の音声の場合は 13 ビットが必要で、16 ビットサンプルに切り上げられます。プロのオーディオや音楽には、より高いビット深度が必要になります。従来のテレフォニーシステムでは、圧縮に 8 ビットが使用されることが多いですが、それは理想的ではありません。

チャンネル

音声サービスでは通常、モノラルストリームが想定され、提供されます。ステレオおよびマルチチャネルファイルの動作は API 固有です。たとえば、音声テキスト変換の REST API ではステレオファイルが分割され、チャネルごとに結果が生成されます。テキスト読み上げはモノラルのみです。

オーディオの形式とコーデック

音声サービスでオーディオを使用できるようにするには、それがエンコードされている方法を把握する必要があります。また、オーディオファイルは比較的大きくなる可能性があるため、圧縮を使用してサイズを小さくするのが一般的です。オーディオファイルとストリームは、コンテナー形式とオーディオコーデックによって記述できます。一般的なコンテナーは WAV または MP4 で、一般的なオーディオ形式は PCM または MP3 です。通常、コンテナーで特定のオーディオ形式が使用されているとは想定できません。たとえば、WAV ファイルには PCM データが含まれていることがよくありますが、他のオーディオ形式の場合もあります。

非圧縮オーディオ

音声サービスは内部的に、パルス符号変調 (または PCM) でエンコードされた非圧縮オーディオを処理します。これは、すべてのサンプルが信号の振幅を表していることを意味します。これは処理のための単純な表現ですが、スペース効率が良くないため、オーディオの転送には圧縮が頻繁に使用されます。

非可逆圧縮オーディオ

非可逆アルゴリズムを使用すると圧縮率が高くなり、その結果ファイルを小さくしたり、帯域幅を減らしたりできます。これは、モバイル接続やビジー状態のネットワークで重要になる場合があります。一般的なオーディオ形式は MP3 で、これは非可逆圧縮の一例です。 MP3 ファイルはオリジナルよりも大幅に小さく、元のファイルとほぼ同じように聞こえるかもしれませんが、正確なソースファイルを再作成することはできません。非可逆圧縮は、オーディオを部分的に削除または近似することによって動作します。非可逆アルゴリズムを使用してエンコードする場合は、精度に対して帯域幅をトレードオフします。

MP3 は、音声よりも音楽用として設計されました。

AMR と AMR-WB は、携帯電話の音声を効率的に圧縮するように設計されており、音楽やノイズを表現するのに適していません。

A-Law と Mu-Law は、各サンプルを単独で圧縮し、対数量子化手法を使用して 16 ビットサンプルを 8 ビットに変換する古いアルゴリズムです。レガシシステムのサポートにのみ使用する必要があります。

可逆圧縮オーディオ

可逆圧縮を使用すると、元の圧縮されていないファイルを再作成できます。通常、圧縮ファイルは元のファイルよりも大幅に小さく、損失は発生しませんが、実際の圧縮は入力に依存します。複数の方法を使用してファイルから冗長性を削除することで、圧縮を実現します。

最も一般的な可逆圧縮は FLAC です。

次のステップ

オーディオ処理に Speech SDK を使用する