フォントで使用される文字セット

[アーティクル]
06/13/2023

すべてのフォントで文字セットが使用されます。文字セットには、句読点、数字、大文字と小文字、およびその他すべての印刷可能な文字が含まれています。文字セットの各要素は、数値で識別されます。

使用されているほとんどの文字セットは、32 から 127 までの 96 個の数値の文字を定義する、米国の ASCII 文字セットのスーパーセットです。文字セットには、次の 5 つの主要なグループがあります。

Windows
Unicode
OEM (相手先ブランド供給)
Symbol
ベンダー固有

Windows 文字セット

Windows 文字セットは、最もよく使用される文字セットです。これは基本的に ANSI 文字セットと同等です。空白文字は、Windows 文字セットの最初の文字です。 0x20の 16 進数の値 (10 進数 32) があります。 Windows 文字セットの最後の文字の 16 進数の値は、0xFF (10 進数 255) です。

多くのフォントでは、既定の文字が指定されています。フォントに含まれていない文字に対して要求が行われるたびに、システムはこの既定の文字を提供します。 Windows 文字セットを使用する多くのフォントでは、既定の文字としてピリオド (.) が指定されています。 TrueType フォントと OpenType フォントでは、通常、既定の文字として開いているボックスが使用されます。

フォントでは、四角形と呼ばれる区切り文字を使用して単語を区切り、テキストを両端揃えします。 Windows 文字セットを使用するほとんどのフォントでは、空白文字が区切り文字として機能することを指定します。

Unicode 文字セット

Windows 文字セットは、各文字を表すために 8 ビットを使用します。したがって、8 ビットを使用して表現できる文字の最大数は 256 (2^8) です。これは通常、フランス語、ドイツ語、スペイン語、その他の言語で使用される分音記号を含む西洋言語では十分です。ただし、東部言語では何千もの個別の文字が使用されており、1 バイトのコーディングスキームを使用してエンコードすることはできません。コンピュータコマースの急増に伴い、8ビット、16ビット、24ビット、または32ビットのシーケンスで文字を表現できるように、2バイトコーディングスキームが開発されました。これには複雑なパッシングアルゴリズムが必要です。それでも、異なるコードセットを使用すると、2 つの異なるコンピューターでまったく異なる結果が得られる可能性があります。

複数のコーディングスキームの問題に対処するために、データ表現の Unicode 標準が開発されました。 16 ビット文字のコーディングスキームである Unicode は、65,536 (2^16) 文字を表すことができます。これは、現在のコンピューターコマースのすべての言語と、句読点、数学記号、拡張の余地を含めるのに十分です。 Unicode では、文字変換が常に正確になるように、すべての文字に対して一意のコードが確立されます。

OEM 文字セット

OEM 文字セットは、通常、画面表示用の全画面表示 MS-DOS セッションで使用されます。通常、32 から 127 の文字は、OEM、米国 ASCII、および Windows 文字セットで同じです。 OEM 文字セット内の他の文字 (0 から 31、128 から 255) は、全画面表示の MS-DOS セッションで表示できる文字に対応しています。これらの文字は、通常、Windows 文字とは異なります。

シンボル文字セット

Symbol 文字セットには、数学および科学的な数式を表すために通常使用される特殊文字が含まれています。

ベンダー固有の文字セット

多くのプリンターやその他の出力デバイスでは、Windows および OEM セットとは異なる文字セットに基づいてフォントが提供されます (拡張バイナリコード 10 進交換コード (EBCDIC) 文字セットなど)。これらの文字セットのいずれかを使用するために、プリンタードライバーは Windows 文字セットからベンダー固有の文字セットに変換します。