図形素結合子
表示
図形素結合子[1](ずけいそけつごうし、英語: combining grapheme joiner、CGJ)は、Unicodeの結合文字の一種である。図形素結合子の有無によって表示結果が変化することはないが、照合・検索などの処理において、基底文字が後続する文字と一つの図形素(二重音字)を形成しないことを示すために使われる。
符号位置は U+034F ͏ combining grapheme joiner (HTML: ͏
) である。文字名称の上では「結合子」となっているが、文字を結合するのではなく、むしろ結合しないことを表す。
例
[編集]スロバキア語で‹CH›は‹H›と‹I›の間に来る文字として扱われる。したがって、これを‹C›と‹H›の2文字としてソートしたい場合は‹C›の後ろに‹CGJ›を加える[2]。
ドイツ語では、ウムラウトつき文字の‹Ü›を‹UE›と同じと見なしてソートする場合がある。ところがフランス語のトレマで同様の処理を行うのは適切ではない。このような場合に両者を区別するために、トレマつき文字の方を‹U›‹CGJ›‹¨›(U+0055 U+034F U+0308)のように表現することができる[2][3]。
図形素結合子は複数の結合文字が正規化されて順序が変化するのを妨げる機能も果たす。たとえば聖書ヘブライ語において、[4](エルサレム)のようにひとつの字にニクダーのパタフ(U+05B7)とヒリック(U+05B4)の両方がこの順に並んでいる場合、正規化するとヒリックが先に来てしまう[5]。しかしパタフの後ろに図形素結合子を置くことで順序が変化することを回避することができる[6]。
脚注
[編集]- ^ JIS X 0221:2014 による日本語通用名称は「図形素結合子(結合可能)」
- ^ a b Mark Davis; Ken Whistler; Markus Scherer (2016-05-18), Unicode Technical Standard #10: Unicode Collation Algorithm, The Unicode Consortium
- ^ JIS X 0221:2014 20.7 の注記
- ^ 現代では「יְרוּשָׁלַיִם」と書かれるが、聖書では通常この形が現れる
- ^ Unicodeのの各結合文字は結合クラスと呼ばれる値を持ち、正規化は結合クラスの昇順に結合文字を並べ替える。パタフの結合クラスは17、ヒリックは14なので、ヒリックが先に来る。JIS X 0221:2014 20.2 を参照
- ^ Unicode Standard 9.0.0 Chapter 23.2
参考文献
[編集]- 『国際符号化文字集合(UCS)JIS X 0221:2014 (ISO/IEC 10646:2012)』日本規格協会。
外部リンク
[編集]- Frequently Asked Questions: Characters and Combining Marks, The Unicode Consortium