異体字セレクタ
異体字セレクタ[1] (英: variation selector) は、付加された文字の字形をより詳細に指定する、Unicodeの結合文字。
目次 |
[編集] 解説
Unicodeは文字コード (コンピュータ上で文字を扱うための電子的な表現) の規格であり、Microsoft WindowsやMac OS Xなど、PCのオペレーティングシステムで広く使われている[2]。Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[3]。しかし状況によっては、フォントの指定などを含めることができないプレーンテキスト上で字形の区別を保存したいという需要も存在する。たとえば、
- ほとんどのオペレーティングシステムにおいてファイル名はプレーンテキストであり、プレーンテキストで区別できないものは区別できない。
- IMEに単語登録可能な文字列は通常プレーンテキストのみである[4]。このためフォントの指定やDTPアプリケーションによる字形の選択が可能であっても、通常の文字入力とは異なる操作を要求される上に正しい組み合わせを覚えていなければならず、ほとんどの一般利用者にとって現実的な手間で入力できない。たとえばWindows Vistaでは葛飾区と葛城市を区別して表示できるが[5]、「かつしかく」が
飾区、「かつらぎし」が
城市に変換されるような単語登録はできない。ただしegbridgeなど、Mac OS Xのインプットメソッドのうちグリフアクセスプロトコルに対応したものはプレーンテキストの制約に縛られない[6]。 - 電子メールの送信に使われるSMTPなどの情報交換用プロトコルは、情報交換をプレーンテキストで行うよう設計されている。このため、Mac OS Xのグリフアクセスプロトコルのように内部に閉じたテキスト処理ではプレーンテキストの制約を取り払ったシステムも、メールなどによる外部との情報交換では字形の区別を保存できない[7]。
このような字形の区別にかかわる需要は、Unicodeの漢字統合の規則が国内での運用の実情に沿っていない日本では特に顕著であり、JIS漢字やUnicodeで満たせない需要に対応するため、官庁では戸籍統一文字や住民基本台帳ネットワーク統一文字など、民間では今昔文字鏡やGT書体、TRONコードなど独自の文字コード体系が繰り返し作成され、一部で運用されてきた。しかしそれらは独自であるがゆえに、Unicodeを使用している既存の大多数のPC環境と相互運用性がない。
異体字セレクタは以上のような問題をUnicode上で解決するために考案された特殊な文字である。HTMLやCSSなどのWeb標準を管理しているWorld Wide Web Consortiumは、HTMLなどのマークアップ言語においても字形を指定するために異体字セレクタを使うことを想定している[8]。
異体字セレクタは、付加された文字の字形をより詳細に指定する機能を持つが、それ自身は表示されない。異体字セレクタはモンゴル文字専用のモンゴル自由字形選択子がU+180B〜U+180Dに3文字、特定の適用対象を定められていないものがU+FE00〜U+FE0FおよびU+E0100〜U+E01EFに256文字存在し、選択したい字形に応じて異なる異体字セレクタを付加する。異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。利用者が独自に考えた未登録の字形を利用したい場合には、私用領域の文字を私用の異体字セレクタとして使う。
なお、U+303EにIDEOGRAPHIC VARIATION INDICATOR(直訳すると漢字異体字表示子)という似たような名称で、かつ例示字形が点線で囲まれている(通常は不可視である制御文字などを示す)ものが存在するが、これはこれに続く漢字が異体字であることを示す可視の記号 (下駄記号の異体字版) であり、異体字セレクタではない[9]。
2011年2月現在Unicodeに登録されている異体字セレクタの組み合わせは、数学記号が23通り、モンゴル文字が64通り、パスパ文字が6通り[10]、そして漢字がAdobe-Japan1-6に含まれる約14600通り、および汎用電子コレクション (英: Hanyo-Denshi collection) に含まれる約4200通りである[11]。ただし汎用電子コレクションには、Adobe-Japan1コレクションと多数の重複がある[12]。漢字は常用漢字の字形など日本において標準的な字形も登録されており、Adobe-Japan1-6に含まれるものなら、「一」のように単一の字形しか存在しないものでもその単一の字形が登録されている。
漢字の字形指定には、基本多言語面の異体字セレクタを使わない[13]。このため漢字の異体字セレクタに対応し、UTF-16を使用するアプリケーションは、サロゲートペア(代用対)を正常に扱えなければならない。
[編集] 歴史
Unicodeは主に米国企業の集まりからなるユニコードコンソーシアムが定める私的な文字コード規格だが、国際符号化文字集合 (ISO/IEC 10646, UCS) との間で、収録文字と符号の割り当てに関して常に同期を取ることで合意がなされている[14]。国際符号化文字集合は国際標準化機構 (ISO) と国際電気標準会議 (IEC) の合同技術委員会 (ISO/IEC JTC 1) 第2小委員会 (SC2) 第2作業部会 (WG2) で制定作業が行われている。以下、WG2での動きを中心に異体字セレクタの収録にかかわる歴史を概観する。
2000年9月15日、ISO/IEC 10646-1が改訂され、中国の提案によりUCSに収録されたモンゴル文字の一部としてモンゴル自由字形選択子 (Mongolian free variation selector) 3文字が規定された[15]。
2000年3月14日、アメリカがUCSへの数学記号の追加を提案した。この一部として、異体字セレクタ1文字が含まれていた。これは、意味が同じだが出版社の慣習や著者の好みなどにより異なる字形が使われることのある数学記号の字形を区別するために使うことを意図していた[16]。
2001年1月14日、アメリカが追加の異体字セレクタの収録および異体字セレクタの使い方に関する説明の追加を提案した。この説明は漢字に対しての使用が想定されていたが、実際に漢字に対して定められた組み合わせはこの時点で1つも存在しなかったため、漢字に関する言及は除いてWG2に受理された[17]。
2001年8月17日、WG2のリエゾン会員であるユニコードコンソーシアムが、活動報告として255文字の異体字セレクタを追加で承認したことを述べた[18]。UCSとUnicodeの同期の原則により、これらはUCSにも収録される必要があった。
2002年3月27日にUnicode 3.2が[19]、7月15日にISO/IEC 10646-1:2000 追補1が制定された[20]。これらは256文字の異体字セレクタのうち基本多言語面に含まれる16文字を収録していた。
2002年4月1日、日本はWG2に、万寿の表現には少なくとも10000種類の異体字セレクタが必要であるから、UCSの第13面をまるまる漢字の異体字セレクタに割り当てるべきであるとする文書を提出した[21]。ただしこれは大真面目に書かれてはいるもののジョークRFCに似たエイプリルフール文書で、なぜかWG2の第42回会議の議題にまで上ってしまったが[22]、実際には審議されていない[23]。
2002年5月20日、日本は上記アメリカの提案が異体字セレクタを漢字に使うつもりであったことに関して、議論が全く深められておらず導入は時期尚早であると懸念を表明した[24] (モンゴル文字や数学記号の収録に伴う異体字セレクタの導入ではそれまで長い時間を掛けて検討が重ねられていた)。
2003年4月にUnicode 4.0が[25]、12月にISO/IEC 10646:2003が制定され[26]、追加面に含まれる異体字セレクタの残り240文字が両規格に収録された。
2003年6月25日、ドイツがウムラウトとトレマを区別するための異体字セレクタの追加を要望したが[27]、技術的制約により異体字セレクタでは実現不可能であったため却下された[28]。
2005年7月16日、アメリカの企業アドビシステムズのエリック・ミューラーとアメリカの企業サン・マイクロシステムズの樋浦秀樹 (当時) より、異体字セレクタを実際に漢字で運用するための漢字字形データベース (英: Ideographic Variation Database) の規格草案がユニコードコンソーシアムに提案され[29]、2006年1月13日正式版が発行された[30]。
2006年7月4日にISO/IEC 10646:2003 追補2が、14日にUnicode 5.0が制定され[31]、両規格へのパスパ文字の収録に合わせてパスパ文字と異体字セレクタの組み合わせが追加された[10]。
2007年12月14日、Adobe-Japan1-6が最初の漢字字形コレクションとして正式に承認された[11]。ただし2度の公開レビューにもかかわらず割り当てに疑問が残る組み合わせの存在も指摘されている (右図はその一例)[32]。
2008年10月10日、日本は汎用電子情報交換環境整備プログラムの成果として収集・整理された、戸籍や住民基本台帳ネットワークの処理に必要とされる異体字を、互換漢字として追加提案した[33]。これに対しUnicode Technical Committee (UTC)と米国は、互換漢字は正規化に際して区別が保存されず、また統合漢字の字形の一意性は保証されないため、IVDによる登録を推奨するとコメントした[34]。またUTCは、SC2からの登録に対して通常IVDへの登録にかかる登録料を免除すると伝えた[35]。これを受け、2009年10月16日、日本は互換漢字の追加提案を取り下げた[36]。
2010年3月31日、日本は取り下げた互換漢字の追加提案に代わってIVDへ登録を申請し[37]、2010年11月14日正式に汎用電子コレクションが登録された[38]。
2010年12月6日、アドビシステムズ、イースト、ジャストシステム、大日本スクリーン、マイクロソフト、モリサワの6社共同で、IVSの普及推進を目的としてIVS技術促進協議会が設立された[39]。
[編集] 互換漢字との関係
JIS X 0213やCNS 11643などの各国の従来文字コードでは区別されているがUnicodeでは統合されている文字を区別するため、UnicodeではこれまでCJK互換漢字を使ってきた。しかし技術的な制約により、漢字の異体字セレクタはCJK統合漢字 (正確にはUnified_Ideographプロパティを持つ文字) にしか付けることができない。これはUnicode正規化に対する安定性の問題 (CJK互換漢字#問題点を参照) を改善するが[40]、同じ字形を意図していても異体字セレクタに対応した実装と対応していない実装との間で異なる符号化表現が採用され、混乱を招く可能性も指摘されている[41]。
また、2006年1月に漢字字形データベースへの登録手続きが制定されて[30]漢字字形コレクションの登録が可能になった後にもARIB外字や汎用電子で収集された漢字の一部を互換漢字として収録することが要望される[42][33]など、足並みは必ずしもそろっていなかった。
[編集] 問題点
- フォントを指定できないプレーンテキストでの使用を想定されているにもかかわらず、確実にフォントを指定できる環境以外では、異体字セレクタを使用しても対象の環境で意図した異体字が表示されるとは限らない。ただし外字と異なり、どのような字形を意図していたかの情報は失われない。
さらに2011年2月現在、
- 異体字セレクタに対応した環境はかなり少なく、現在のところ一部のDTPソフトウェアやブラウザなどのみである (#ソフトウェアの節を参照)。
- 異体字セレクタに対応したフォントが少ない (#フォントの節を参照)。
- 現状では日本向けのコレクションしか登録されていないため、国によって異なる骨の異体字(右記の図参照)のようなケースを異体字セレクタで区別することはできない。
[編集] 実装
2011年9月現在、漢字の異体字セレクタに対応した実装には以下のようなものがある。
[編集] フォント仕様
- OpenType仕様のバージョン1.5は、漢字の異体字セレクタによる字形切り替えをサポートするためにFormat 14 'cmap' subtableと呼ばれる情報のフォーマットを規定する[43]。
- SVGフォントはIVSに限らず、任意のUnicode符号列に対してグリフを割り当て可能である[44]。
[編集] フォント
- Y.OzFont - フリーフォントのY.OzFontは2008年2月8日のバージョン12.04以降、漢字の異体字セレクタに対応している[45]。
- 小塚明朝/小塚ゴシック Pr6N - 2007年8月1日のバージョン6.003で、初めてFormat 14 'cmap' subtableに対応した[46]。
- 花園フォント - 2009年12月1日版よりIVSのサポートを開始し、2010年2月22日版でAdobe-Japan1コレクションのIVSを完全収録した[47]。
- IPAフォント
-
- IPAexフォント - JIS X 0213:2004で例示字形が変更される以前の字形をIVSによりサポートしている。サポート文字数はVer.001.02の時点で172文字[48]。
- IPAmj明朝 - 汎用電子情報交換環境整備プログラムによる字形を約4200文字サポートしている[49]。IPAexフォントに収録されているIVSに対応した字形はサポートしていないものも多い。
[編集] フォント作成ツール
Format 14 'cmap' subtableを含んだフォントの作成に対応したツールには、以下のようなものがある。
- FontForge - 2007年10月2日以降のビルドでFormat 14 'cmap' subtableの生成に対応[51]。
- Adobe Font Development Kit for OpenType (AFDKO) - バージョン2.1以降でFormat 14 'cmap' subtableの作成に対応[46]。
- TTX/FontTools - GlyphWikiでIVS対応フォントの生成に使われている[52]。
[編集] ライブラリ
FreeTypeの2007年10月以降の開発版には、Format 14 'cmap' subtableから異体字セレクタの情報を読み取るためのAPIが追加されている[53]。
[編集] ソフトウェア
- Windows 7は標準のテキスト描画処理が異体字セレクタに対応しており、エクスプローラーでのファイル名表示やメモ帳やサードパーティのテキストエディタでのテキスト表示等で異体字セレクタによる字形切り替えが可能である。但し、使用するフォントが異体字セレクタによる字形切り替えに対応している必要があり、日本語版にプレインストールされた標準的なフォントであるメイリオは非対応であるため、初期設定では異体字セレクタで字形が切り替わらない。[54]
- Mac OS X 10.5標準のテキスト描画処理はdefault ignorableプロパティに従い[55]異体字セレクタを描画しないが、字形の切り替えはサポートしない。
- Mac OS X 10.6標準のテキスト描画処理は字形の切り替えをサポートするが[56]、Windows 7と同様標準フォントのヒラギノは異体字セレクタに未対応である。
- Alpha (テキストエディタ) - 2008年2月のIVS-OTFT試験公開版では異体字セレクタの情報をOpenType機能タグの情報に変換することにより、異体字セレクタによるグリフの切り替えに対応している[57]。
- gdi++
- Emacs 23[58]
- EmEditor v11以降[59]
- Adobe Reader 9以降、Flash Player 10のFlash Text Engine、Adobe InDesign CS4などのアドビ社製品[56]。
- Windows 7上でのOpera[60]
- Mozilla Firefox 4は、システムにインストールされたフォントおよびWebフォントによる異体字セレクタの描画をサポートする[61]。
- WebKitはSVGフォントをサポートしており、SVGフォントによって定義したIVSによる字形切り替えが可能である。OperaもSVG文書でのみSVGフォントによる字形切り替えが可能[62]。
[編集] 脚注
- ^ JIS X 0221:2007の規格票では「字形選択子」という訳語を当てているが、全く意味の異なる"Character shaping selectors"などにも全く同じ訳語を当てているので、混乱を避けるため本項では「異体字セレクタ」という訳語を用いる。
- ^ “Unicode Enabled Products”. 2008年2月2日閲覧。
- ^ “Unicode Technical Report #17 - Character Encoding Model” (2004年9月9日). 2008年2月2日閲覧。
- ^ 川俣晶 『Windows NT 日本語処理ガイドブック』 Windows NT 漢字処理技術協議会、1998年10月30日、p.5。
- ^ “アプリケーション開発者向け Windows Vista 対応アプリケーションの互換性”. pp. 68. 2008年2月2日閲覧。 デモ映像
- ^ “Mac専用日本語入力プログラム“egbridge Universal””. 2008年2月15日閲覧。
- ^ “アップル - Pro - 技術情報 - Mac OS Xと日本語タイポグラフィ 第5回:ヒラギノProの漢字を巡る座談会 - ページ6”. 2008年2月15日閲覧。
- ^ “Format Characters Suitable for Use with Markup” (2003年6月13日). 2008年2月2日閲覧。
- ^ “Ad-Hoc Report on Ideographic Variation Indicator” (1998年3月18日). 2008年2月21日閲覧。
- ^ a b “Standardized Variants Revision 5.0.0” (2006年7月14日). 2008年2月2日閲覧。
- ^ a b “Ideographic Variation Database”. 2011年2月1日閲覧。
- ^ 安岡孝一 (2011年1月24日). “UnicodeのIVSがもたらすメリットとデメリット - 新常用漢字が引き起こす文字コード問題”. 2011年2月1日閲覧。
- ^ “Unicode Technical Standard #37 - Ideographic Variation Database” (2006年1月13日). 2008年2月2日閲覧。
- ^ The Unicode Consortium (2006-11-03). The Unicode Standard, Version 5.0. Addison-Wesley Professional, p.1097. ISBN 978-0321480910.
- ^ (2000-09-15) ISO/IEC 10646-1:2000 Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane.
- ^ “Proposal for encoding additional mathematical symbols in BMP” (2000年3月14日). 2008年2月2日閲覧。
- ^ “Final disposition of comments on FPDAM1 – 10646-1:2000” (2001年1月14日). 2008年2月2日閲覧。
- ^ “Unicode Liaison Report” (2001年8月17日). 2008年2月2日閲覧。
- ^ “Unicode Standard Annex #28 - Unicode 3.2” (2002年3月27日). 2008年2月2日閲覧。
- ^ “ISO/IEC JTC 1 SC 2 N 3651 3. Prgramme of Work”. 2008年2月2日閲覧。
- ^ “Proposal: Use full plane-13 for the Han variation selector” (2002年4月1日). 2008年2月2日閲覧。
- ^ “Updated Agenda – Meeting 42” (2002年5月19日). 2008年2月2日閲覧。
- ^ “Dublin Meeting 42 Minutes”. pp. p.36 (2002年10月30日). 2008年2月2日閲覧。
- ^ “Concerns on the VARIATION SELECTORS in ISO/IEC 10646-2, PDAM-1” (2002年5月20日). 2008年2月2日閲覧。
- ^ “Components of Unicode 4.0” (2003年4月). 2008年2月2日閲覧。
- ^ “JTC 1/SC 2 Programme of Work”. 2008年2月2日閲覧。
- ^ “German request to encode the characters "LATIN VARIATION SELECTOR UMLAUT" and "LATIN VARIATION SELECTOR TREMA"” (2003年6月25日). 2008年2月2日閲覧。
- ^ “UTC response to N2593” (2003年9月4日). 2008年2月2日閲覧。
- ^ “Proposed Draft Unicode Technical Standard #37 - Registration of Ideographic Variation Sequences” (2005年7月16日). 2008年2月2日閲覧。
- ^ a b “Unicode Technical Standard #37 - Ideographic Variation Database” (2006年1月13日). 2008年2月2日閲覧。
- ^ “Components of Unicode Standard 5.0” (2006年7月14日). 2008年2月2日閲覧。
- ^ “IVDのダブリ” (2008年1月7日). 2008年2月2日閲覧。
- ^ a b “Proposal to Add a Set of Compatibility Ideographs for Government Use” (2008年10月10日). 2011年2月1日閲覧。
- ^ “Handling Glyph Shapes for Government Use in WG2/N3530 via Variation Sequences” (2009年2月9日). 2011年2月1日閲覧。
- ^ “Information on the Unicode Ideographic Variation Database – Letter to SC2 Unicode Consortium” (2009年3月12日). 2011年2月1日閲覧。
- ^ “Follow-up on N3530 (Compatibility Ideographs for Government Use)” (2009年10月16日). 2011年2月1日閲覧。
- ^ “N3796 Announcement of Japan's IVD Registration Japan NB” (2010年3月31日). 2011年2月1日閲覧。
- ^ Ken Lunde (2010年11月25日). “The “Hanyo-Denshi” IVD Collection has been registered!”. 2011年2月1日閲覧。
- ^ “人名などの異体字もデータ交換可能に、MSなどが「IVS技術促進協議会」発足”. INTERNET Watch. 2011年2月1日閲覧。
- ^ “Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)” (2007年3月20日). 2008年2月2日閲覧。
- ^ “Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)” (2007年3月25日). 2008年2月2日閲覧。
- ^ “Proposal to encode six CJK Ideographs in UCS” (2007年9月7日). 2008年2月2日閲覧。
- ^ “Microsoft Typography - OpenType Specification” (2008年1月29日). 2008年3月10日閲覧。
- ^ “Fonts – SVG 1.1 (Second Edition)”. 2011年2月1日閲覧。
- ^ “Y.Oz Vox” (2008年3月10日). 2008年3月10日閲覧。
- ^ a b “Ideographic Variation Sequences”. pp. p.10 (2007年10月17日). 2008年3月10日閲覧。
- ^ “花園フォント”. 2011年1月19日閲覧。
- ^ “IPAフォントリリースノート”. 2011年1月19日閲覧。
- ^ “連載:OSS界のちょっと気になる話 第1回 どんな人名も正しく表示? IPAの新フォントを試そう!”. 2012年1月5日閲覧。
- ^ “和田研細丸ゴシック2004フォントの公開”. 2012年1月5日閲覧。
- ^ “Change log for FontForge” (2008年3月9日). 2008年3月10日閲覧。
- ^ “GlyphWiki:フォント生成”. 2011年1月19日閲覧。
- ^ “freetype-devel (thread)” (2007年10月31日). 2008年3月10日閲覧。
- ^ “Biotronique - PC - 実は異体字セレクタに対応済のWindows 7” (2009年12月2日). 2009年12月3日閲覧。
- ^ “FAQ - Display of Unsupported Characters”. 2011年1月19日閲覧。
- ^ a b Ken Lunde. “IVS (Ideographic Variation Sequence) support in OSes”. 2011年2月1日閲覧。
- ^ “Alpha の бесполезный な日記” (2008年3月4日). 2008年3月10日閲覧。
- ^ “Emacs 23 と Lookup”. 2011年1月19日閲覧。
- ^ “EmEditor Professional 11 の特長”. 2011年9月24日閲覧。
- ^ “Windows7でIVSの表示テスト”. 2011年1月19日閲覧。
- ^ “Bug 552460 - implement Ideographic Variation Sequences support”. 2011年1月19日閲覧。
- ^ “SVGフォントでIVSを表示するテスト”. 2011年1月19日閲覧。
[編集] 関連項目
[編集] 参考資料
- The Unicode Consortium (2006-11-03). The Unicode Standard, Version 5.0. Addison-Wesley Professional. ISBN 978-0321480910. (英語)
- ISO/IEC JTC 1 (2003-12-15). ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS). (英語)
- ISO/IEC JTC 1 (2005-11-18). ISO/IEC 10646:2003/Amd 1:2005 Glagolitic, Coptic, Georgian and other characters. (英語)
- ISO/IEC JTC 1 (2006-07-04). ISO/IEC 10646:2003/Amd 2:2006 N'Ko, Phags-pa, Phoenician and other characters. (英語)
- 日本規格協会 『JIS X 0221:2007 国際符号化文字集合 (UCS)』、2007年12月20日。 上記3資料を併合して日本語訳したもの。