ワイド文字

ワイド文字（ワイドもじ、英: wide character）とは、主にC言語およびC++における文法要素で、1文字あたりのバイト数を通常より多くしたデータ型である。

概要[編集]

C言語やC++の基本実行文字集合は通常、ASCIIのサブセットの文字種からなる。ただし実際の文字コードが何であるかは規定されていない。

漢字のような拡張実行文字集合は、通常マルチバイト文字として扱われるが、1文字を構成するバイト数が可変長であり、本来1つの文字でありながら複数の文字の組（あるいは文字列）として扱わなければならないなどの不便がある。そうした問題を解消するために、1文字を1つの整数値で扱えるようにすることを目指したのがワイド文字である。

wchar_t型[編集]

C言語では1995年の ISO/IEC 9899/AMD1:1995 より、wchar_t 型や <wchar.h>、<wctype.h> などのヘッダーファイルが追加になった。ワイド文字は wchar_t というデータ型で表現する。char型を用いた文字および文字列の場合、文字定数および文字列リテラルはソースコード中で、例えばそれぞれ「'c'」および「"str"」と表記する。これに対応するように、ワイド文字定数は大文字のエルによるプレフィックスLを付けて「L'c'」と表記する。同様に、ワイド文字から構成される文字列をワイド文字列と呼び、そのリテラルは「L"str"」と表記する。

C言語での wchar_t は単なるtypedefによるエイリアス（他の型の別名として定義されている）であるが、C++においてはキーワード（予約語）である。コンパイラによっては、「wchar_t」を組み込みの型とみなすか否かをコンパイラの設定で切り替えられるものもある^[1]。

C99 規格や C++98 規格の場合、ワイド文字定数・文字列リテラルには ISO 10646 文字集合の数値で表現するユニバーサル文字名を使用することもできる。

内部表現[編集]

char型のサイズは常に1バイトであることがC/C++規格で保証される^[2]。つまり、sizeof(char) == 1は常に真である。

一方、wchar_t 型は C および C++ 双方の標準規格において、符号付きの場合は少なくとも-127から+127まで、符号無しの場合は少なくとも0から255までの範囲を表現できる数値型^[3]、ということのみ定められている（少なくともchar型と同じ大きさが必要）。charがASCIIであるとは限らなかったり、floatやdoubleがIEEE 754の単精度・倍精度であるとは限らなかったりすることと同様に、wchar_tの内部表現もUnicodeである必要はない。本来はCode Set Independent（符号化集合に独立）なのである。

wchar_t 型のサイズと符号化形式は、例えばWindowsでは2バイト (16ビット) のUTF-16であり、LinuxやmacOSでは4バイト (32ビット) のUTF-32である。しかし、その他の環境でもUnicodeを用いた符号化形式であると誤解されて、あるいは仮定してプログラムが作られることがある^[要出典]。そのようなプログラムは、Unicodeを用いた符号化形式とは限らない一般のUnixなどへの移植の際に問題が表面化する。なお、C99より、wchar_tがUnicodeと互換性のある場合、__STDC_ISO_10646__が事前定義されると定められている。

char16_t, char32_t型[編集]

ワイド文字の問題は、前述のように型のサイズや符号化形式が規定されておらず、プラットフォームおよび処理系依存であることである。Unicodeが普及するにつれて、移植性の問題が表面化してきた。

2011年に改訂された C/C++ の標準規格、C11 と C++11 では、新たに2つの文字型 char16_t と char32_t が導入された。これらはそれぞれ UTF-16 と UTF-32 を内部表現とする。u'c' や U'c' あるいは u"str" や U"str" のように小文字の u あるいは大文字の U を前置することで、それぞれ char16_t と char32_t の文字定数・文字列リテラルを表現する。また、u8 を前置することで UTF-8 の文字列リテラルを表現する^[4]が、char8_t 型は存在せず、従来の char 型で代用する。C++17ではUTF-8の文字リテラルをサポートするようになった^[5]。C++20ではchar8_t型がサポートされるようになる予定である。

C言語の場合char16_tおよびchar32_tはそれぞれuint_least16_tおよびuint_least32_tのtypedefエイリアスであるが、C++の場合char16_tおよびchar32_tはキーワードであり、それぞれstd::uint_least16_tおよびstd::uint_least32_tと同じサイズではあるものの、別の型として規定されている^[6]。

いずれの言語においても、char16_t型のサイズは16ビットよりも大きい可能性があるが、格納される値は16ビット幅である^[7]。同様に、char32_t型のサイズは32ビットよりも大きい可能性があるが、格納される値は32ビット幅である^[8]。

D言語[編集]

D言語では、charと別に、次の2つの文字型が用意されている。

wchar: UTF-16を格納する16ビットの文字型
dchar: UTF-32を格納する32ビットの文字型

脚注[編集]

^ /Zc:wchar_t (wchar_t Is Native Type) | Microsoft Docs
^ ただし1バイトが8ビットであることは保証されない。バイトあたりのビット数は、<limits.h>/<climits>にてマクロ定数 CHAR_BIT として定義される。
^ JIS X 3010:2003「プログラム言語C」§7.18.3「他の整数型の限界値」WCHAR_MIN, WCHAR_MAX
^ 文字列リテラル - cppreference.com
^ 文字リテラル - cppreference.com
^ 基本型 - cppreference.com
^ char16_t - cppreference.com
^ char32_t - cppreference.com