前のトピック: 非 UTF-8 ロケールのサポートおよびローカライズ次のトピック: ローカライズおよび UTF-8 エンコード


UTF-8 および MBCS のエンコード

UTF-8 (8-bit Unicode Transformation Format)は、異なるバイト数を使用して文字を表示できる文字エンコード方式です。 UNIX 上では、UTF-8 は他のマルチバイト文字セットと同様に取り扱われ、ASCII 文字セットと後方互換性があります。

Linux および UNIX 上の CA ITCM コードは、通常、UTF-8 ロケールで運用されます。 これにより、オペレーティング システムが非 UTF-8 ロケールを使用している場合、オペレーティング システムとのインターフェースに問題が発生します。 ファイル名、コマンド ライン パラメータなど、オペレーティング システムと接触するすべてのコードは、システム MBCS ロケールと UTF-8 との間で変換されます。

マルチバイト文字セット(MBCS)には、1 文字ごとに 1 バイトまたは 2 バイトが使用され、多数のさまざまな文字を含む文字セット(アジア言語の文字セットなど)に使用されます。