2バイト言語

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内, 検索

2バイト言語(2バイトげんご)とは、コンピュータ関連の世界で、日本語中国語韓国語など、通常使用する文字をコンピュータで扱うために、1文字に2バイトを要する文字で表記される文字言語を指すときに使われる言葉。ダブルバイト言語、マルチバイト言語ともいう呼び方もなされるが、後述のような問題点がある。

目次

[編集] 背景

コンピュータに各国の言語を実装しようとした頃、英語などの言語は当時の1バイト文字で充分な表現が行えたが、1バイト文字の範囲で扱えない多数の文字言語を使う国では、2バイトの文字を扱う必要に迫られた(マルチバイト処理)。

これには大変な困難が伴ったほか、その後も英語版のソフトウェアを他の言語に移植する際、フランス語版を作るのと日本語版(あるいは朝鮮語版、中国語版など)を作るのとでは必要な労力が桁違いだった。それはいわゆる1バイト文字だけ扱っていたソフトウェア(特に文書処理)を、2バイト文字も扱えるようにするには大幅な拡張が必要だったためである。

例えば英語の場合アルファベット26文字で、大文字小文字ピリオド!, ? などを含めても、1バイト (256種類) でことは足りるし、フランス語やドイツ語も似たようなものである。しかし、例えばハングルを表現しようとしたら日常的に使われる文字だけでも2500文字以上あり(1987年KSC5601では2350文字収録)、日本語中国語ではさらに文字数が多くなるため、1バイトではとても足りないので、1バイト文字を拡張し2バイト=65536種類表現できるようにした。

そのため、英語やフランス語などの言語をひとまとめにして1バイト言語、2バイト文字が必要となるものを2バイト言語とする呼び方が一部で生まれた。

[編集] 問題点

ただし、1バイト文字で "This is a pen" と書いても2バイト文字で "This is a pen" と書いても英語は英語である。逆に、「おはようございます」を「Ohayougozaimasu」と記述したものを日本語ではないということはできない(言語とは文字言語に限らないため)。

そのため、この表現自体に問題があると言えるが、一群として指し示すのに便利で、代替の適切な単語が知られていないことから現在でもIT関連のメディアや、それらのソフトウェアを販売する会社などでも使われているようである。

そもそも日本語の文字を2バイト文字と呼ぶことには、文字集合と符号化方式の混同がみられる。 ある文字を表現するのに必要なバイト数はその言語ではなく、その文字集合の符号化方式(エンコーディング)によって決まる。 たとえば日本語でもいわゆる半角カナShift JIS符号化方式を使えば 1バイトで表現できるし、 英語の文字でも UTF-16 などの符号化方式では 1文字に最低 2バイトを必要とする。 ウィキペディアでも使用している符号化形式 UTF-8 では、1文字に必要なバイト数が可変となっており、 日本語の文字は通常3バイト、その他の言語によっては最大6バイト長を必要とする。

[編集] 2バイト圏

なお、同じソフトウェアでも英語版やドイツ語版などと、日本語版や中国語版、韓国語版とで価格が大きく違うものが見られる。開発および移植にかかわるコストの違いと見られるが、このため「1バイト言語」「2バイト言語」という表現が今でも使用される。

一部では、欧米と対置するものとして「2バイト/ダブルバイト圏(文化圏)」という表現も見られる。文字言語のナショナリティと連帯感からの言葉であろうと思われるが、これとて同様の問題を抱えていることに変わりはない。

これらの2バイト圏は、主に2バイト文字を使う中国語や日本語、韓国語 (Chinese, Japanese, Korean) の頭文字を取って CJK 、またはそこにヴェトナム語 (Vietnamese) を加え CJKV と呼ぶ。


[編集] 関連記事

個人用ツール
名前空間

変種
操作
案内
ヘルプ
ツールボックス
他の言語