この音声サービスは複数の形式のオーディオを受け入れ、提供します。オーディオの分野は複雑なトピックですが、背景情報が役に立つ場合があります。
オーディオの概念
音声は本質的にアナログであり、サンプリングによってデジタル信号に変換して近似されます。 1 秒あたりに行われるサンプリングの回数がサンプリング レートであり、各サンプルの精度はビット深度によって定義されます。
サンプル速度
1 秒あたりのオーディオ サンプルの数。 サンプリング レートが高いほど、音楽などの高い周波数がより正確に再現されます。 通常、人間に聞こえるのは 20 Hz から 20 kHz の範囲ですが、最も感度が高いのは 5 kHz までです。 サンプル レートは最も高い周波数の 2 倍である必要があるため、人間の音声では通常、16 kHz のサンプリング レートが適切ですが、さらに高いサンプリング レートを使用すると、より大きなファイルでも高品質を提供できます。 音声テキスト変換とテキスト読み上げの既定値は両方とも 16 kHz ですが、オーディオ ブックには 48 kHz をお勧めします。 一部のソース オーディオは 8 kHz であり、特に従来の通信システムからのものである場合、結果は質が低下します。
ビット深度
非圧縮オーディオ サンプルはそれぞれ、精度または解像度を定義する多数のビットで表されます。 人間の音声の場合は 13 ビットが必要で、16 ビット サンプルに切り上げられます。 プロのオーディオや音楽には、より高いビット深度が必要になります。 従来のテレフォニー システムでは、圧縮に 8 ビットが使用されることが多いですが、それは理想的ではありません。
チャンネル
音声サービスでは通常、モノラル ストリームが想定され、提供されます。 ステレオおよびマルチチャネル ファイルの動作は API 固有です。たとえば、音声テキスト変換の REST API ではステレオ ファイルが分割され、チャネルごとに結果が生成されます。 テキスト読み上げはモノラルのみです。
オーディオの形式とコーデック
音声サービスでオーディオを使用できるようにするには、それがエンコードされている方法を把握する必要があります。 また、オーディオ ファイルは比較的大きくなる可能性があるため、圧縮を使用してサイズを小さくするのが一般的です。 オーディオ ファイルとストリームは、コンテナー形式とオーディオ コーデックによって記述できます。 一般的なコンテナーは WAV または MP4 で、一般的なオーディオ形式は PCM または MP3 です。 通常、コンテナーで特定のオーディオ形式が使用されているとは想定できません。たとえば、WAV ファイルには PCM データが含まれていることがよくありますが、他のオーディオ形式の場合もあります。
非圧縮オーディオ
音声サービスは内部的に、パルス符号変調 (または PCM) でエンコードされた非圧縮オーディオを処理します。 これは、すべてのサンプルが信号の振幅を表していることを意味します。 これは処理のための単純な表現ですが、スペース効率が良くないため、オーディオの転送には圧縮が頻繁に使用されます。
非可逆圧縮オーディオ
非可逆アルゴリズムを使用すると圧縮率が高くなり、その結果ファイルを小さくしたり、帯域幅を減らしたりできます。これは、モバイル接続やビジー状態のネットワークで重要になる場合があります。 一般的なオーディオ形式は MP3 で、これは非可逆圧縮の一例です。 MP3 ファイルはオリジナルよりも大幅に小さく、元のファイルとほぼ同じように聞こえるかもしれませんが、正確なソース ファイルを再作成することはできません。 非可逆圧縮は、オーディオを部分的に削除または近似することによって動作します。 非可逆アルゴリズムを使用してエンコードする場合は、精度に対して帯域幅をトレードオフします。
MP3 は、音声よりも音楽用として設計されました。
AMR と AMR-WB は、携帯電話の音声を効率的に圧縮するように設計されており、音楽やノイズを表現するのに適していません。
A-Law と Mu-Law は、各サンプルを単独で圧縮し、対数量子化手法を使用して 16 ビット サンプルを 8 ビットに変換する古いアルゴリズムです。 レガシ システムのサポートにのみ使用する必要があります。
可逆圧縮オーディオ
可逆圧縮を使用すると、元の圧縮されていないファイルを再作成できます。 通常、圧縮ファイルは元のファイルよりも大幅に小さく、損失は発生しませんが、実際の圧縮は入力に依存します。 複数の方法を使用してファイルから冗長性を削除することで、圧縮を実現します。
最も一般的な可逆圧縮は FLAC です。