符号点
符号点(ふごうてん)は、文字符号化体系の符号空間内の、文字(キャラクター)を割り当てうる個々の点。コードポイント (code point)。Unicodeでは符号位置(ふごういち)と訳す。文脈によっては単に点(てん、point)ともいう。
符号点は文字を割り当て「うる」点であり、実際に文字が割り当てられるか、将来の拡張のためもしくは技術的制約により予約される。
符号点のバイト列化 [編集]
符号空間は一般に多次元空間であり、その中の符号点は、座標に相当する整数列で特定される。ただし、ASCIIなど符号空間が1次元の場合は、長さ1の製数列、つまり、1つの整数となる。
整数列は文字符号化スキームによりバイト列に変換される。最も単純なスキームでは整数列がそのままバイト列になるが、複雑なスキームでは、値が変化したり、個数すら変わってしまうこともある。
なお、Unicodeでは、整数列ではなく1つの整数「Unicodeスカラ値」で文字を指定できるが、文字符号化スキームによってバイト並びに変換されることについては同様である。
群・面・区・点 [編集]
符号点(この節では、以下、単に点と呼ぶ)とは、整数列(バイト列ではない)を最後まで使って指定される点状の部分集合である。それに対し、最後から2番目の整数までを使って指定される、多数の点からなる線状の部分集合を区という。同様に、最後から3番目の整数までを使って指定される、多数の区からなる面状の部分集合を面といい、最後から4番目の整数までを使って指定される、多数の面からなる部分集合を群という。
上位から並べなおすと、群・面・区・点であり、群は多数の面からなり、面は多数の区からなり、区は多数の点からなる。それぞれを特定する最後の整数を(つまり、最後から4番目の整数から順に)、群番号・面番号・区番号・点番号、あるいは単に、群・面・区・点という。
当然ながら、符号空間の次元が低く整数列が短い場合には、上位の整数は使わない。ISO 10646など符号空間が4次元の場合は群から点までの4つを全て使うが、Unicodeなど3次元の場合は面から点までの3つ、JIS X 0208など2次元の場合は区と点の2つ、ASCIIなど1次元の場合は点だけを使う。
なお、特にJISなどで、区番号と点番号からなる2つの整数の組を区点番号、あるいは単に区点という。
参考資料 [編集]
Unicodeに関する用語の日本語表記は次にならった。“Unicode Terminology English - Japanese”. Unicode, inc. 2010年1月1日閲覧。