CJK統合漢字

Unicode > CJK統合漢字

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています（詳細）。

（シージェーケーとうごうかんじ、英: CJK unified ideographs）は、ISO/IEC 10646（略称：UCS^[1]）およびUnicode（ユニコード）にて採用されている符号化用漢字集合およびその符号表である。CJK統合漢字の名称は、中国語（英: Chinese）、日本語（英: Japanese）、朝鮮語（英: Korean）で使われている漢字をひとまとめにしたことからきている。

CJK統合漢字の初版であるUnified Repertoire and Ordering第二版は1992年に制定されたが、1994年にベトナムで使われていた漢字も含めることにしたため、CJKVと呼ばれることもある。CJKVは、中国語・日本語・朝鮮語・ベトナム語(Vietnamese) を表す英語の頭文字である。特にその四つの言語で共通して使われる、または使われていた文字体系である漢字（チュノムを含む）のこと。ソフトウェアの国際化、中でも文字コードに関する分野で用いられる。

CJK統合漢字は、中国・台湾・日本・北朝鮮・韓国・ベトナムの各国・地域の工業規格で定められた漢字コードとの対応表も定めているが、事情によりCJK統合漢字との対応を持たない各国・各地域の漢字コードをUCSに適切に変換できるよう、互換用の領域が別途定められている。この領域の漢字はCJK互換漢字^[2]と呼ばれる。

歴史[編集]

1978年、日本によって世界で最初のISO 2022に基づく漢字コード規格JIS C 6226が制定された。1980年代には中国・台湾・韓国で次々と各国・地域用の漢字コード規格が制定されていったが、これらは互いに関連性がなく、混在させて使用するにはISO 2022のエスケープ・シーケンスで漢字コード表を切り替えるしかなかった。

1980年、国立国会図書館の高橋徳太郎が主に書誌学の観点から、東アジアの統一漢字コードの必要性を指摘した。同年、台湾で制定された3バイト漢字コード規格CCCIIは、恐らく日本・中国・台湾の漢字を統一的に扱うことを目的とした最初の規格の一つである。この規格は東アジアの文献情報用にアメリカでもANSI Z 39.64として採用された。

1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し^[要出典]、1989年、各国の漢字コードを統合した漢字集合HCC^[3]のアイデアを提案した。

1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。

一方、1987年頃から、ゼロックスのジョー・ベッカー^[4]とリー・コリンズ^[5]は世界中の文字を統一して扱える文字コードUnicodeを開発していた。1989年に発表されたUnicodeの概要では、その基本ポリシーとして、16ビットで全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することとしていた。1990年にはこの方針に基づいた最終ドラフトが完成、それに賛同する企業によって、翌1991年1月にはUnicodeコンソーシアムが設立された。このドラフトでは、日本・中国・韓国の漢字の類似する漢字を統合することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。

1991年、ISO/IEC 10646の初版ドラフトはUnicodeとの一本化を求める各国により否決され、また中国およびUnicodeコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646とUnicode用の統合漢字コード表を作成した。1991年末、この文字表はUnified Repertoire and Ordering (URO) として完成した。

1992年、UROを取り込んだISO 10646の二版ドラフトが完成し、賛成多数で国際規格化された。ただしUROには若干の間違いが発見されており、それらの修正が行われている。

1993年5月、U+4E00〜U+9FFFのブロックに最初のCJK統合漢字、20,902字が割り当てられたISO/IEC 10646が正式に制定され、その1カ月後には内容を同じくするUnicode 1.1が制定された。

1999年、Unicode 3.0で、ISO/IEC 10646の修正案17において、CJK統合漢字拡張Aとして、U+3400〜U+4DFFのブロックに6,582字が追加された^[6]。当初は6,584文字の予定であったが、そのうち2文字が互換漢字領域にあったため、互換領域の2文字を拡張Aとして扱うことにして、この2文字は追加集合からは削除された^[7]。同時期に発行された修正案13において、URO漢字のうち中国に原規格がない文字に対して、GB 16500に基づく新規に原規格の割り当てが行われ^[8]、ベトナムの文字欄が追加されCTJKVの5欄併記となった^[9]。

2001年、Unicode 3.1で、ISO/IEC 10646-2として、CJK統合漢字拡張Bに42,711字が、U+20000〜U+2A6FFのブロックに追加された。しかしながら、非常に膨大な漢字集合を極めて短期間のうちに定めたため、漢字の重複や字形の誤りが多数発生した。

2005年、Unicode 4.1で、ISO/IEC 10646:2003修正案1として、基本多言語面 (BMP) のU+9FA6〜U+9FBBに22文字の漢字が追加されて20,924文字になった。

2008年、Unicode 5.1で、基本多言語面のU+9FBC〜U+9FC3に8文字が追加されて20,932文字になった。

2009年、Unicode 5.2で、拡張Cの4,149文字がU+2A700〜U+2B734に、基本多言語面でもU+9FC4〜U+9FCBに8文字が追加されて20,940文字になった。

2010年、Unicode 6.0で、拡張Dの222文字がU+2B740〜U+2B81Fに追加された。

2012年、Unicode 6.1で、基本多言語面のU+9FCCに1文字が追加されて20,941文字になった。

2015年、Unicode 8.0で、拡張Eの5,762文字がU+2B820〜U+2CEAFに追加された。基本多言語面でもU+9FCD〜U+9FD5に9文字が追加されて20,950文字になった。

2017年、Unicode 10.0で、拡張Fの7,473文字がU+2CEB0〜U+2EBE0に追加された。基本多言語面でもU+9FD6〜U+9FEAに21文字が追加されて20,971文字になった。

2018年、Unicode 11.0で、基本多言語面のU+9FEB〜U+9FEFに5文字が追加されて20,976文字になった。

2020年、Unicode 13.0で、拡張Gの4,939文字がU+30000〜U+3134Aに追加された。基本多言語面のU+9FF0〜U+9FFCに13文字が追加されて20,989文字になった。拡張AのU+4DB6〜U+4DBFに10文字が追加されて6,592文字になった。拡張BのU+2A6D7〜U+2A6DDに7文字が追加されて42,718文字になった

2021年、Unicode 14.0で、基本多言語面のU+9FFD〜U+9FFFに3文字が追加されて20,992文字になった。拡張BのU+2A6DE〜U+2A6DFに2文字が追加されて42,720文字になった。拡張CのU+2A735〜U+2A738に4文字が追加されて4,153文字になった。

2022年、Unicode 15.0で、拡張Hの4,193文字がU+31350〜U+323AF, 拡張CのU+2A739に1文字が追加されて4,194文字になった。

2023年、Unicode 15.1で、拡張Iの622文字がU+2EBF0〜U+2EE5Fが追加されて622文字になった。

Unicode 15.1 段階での文字数は以下の通りである（互換漢字ブロックにあり、統合漢字として扱われる12字を加えると97,680文字になる）。

範囲	名称	字数
U+4E00 - U+9FFF	CJK Unified Ideographs	20,992
U+3400 - U+4DBF	CJK Unified Ideographs Extension A	6,592
U+20000 - U+2A6DF	CJK Unified Ideographs Extension B	42,720
U+2A700 - U+2B738	CJK Unified Ideographs Extension C	4,154
U+2B740 - U+2B81D	CJK Unified Ideographs Extension D	222
U+2B820 - U+2CEA1	CJK Unified Ideographs Extension E	5,762
U+2CEB0 - U+2EBE0	CJK Unified Ideographs Extension F	7,473
U+30000 - U+3134A	CJK Unified Ideographs Extension G	4,939
U+31350 - U+323AF	CJK Unified Ideographs Extension H	4,192
U+2EBF0 - U+2EE5F	CJK Unified Ideographs Extension I	622
合計		97,668

CJK統合漢字の特徴と問題点[編集]

「Unihan」を参照

将来の予定[編集]

中国は『康熙字典』や、古壮字をはじめとする少数民族で使われている特殊漢字などの文字をすべてUCSに収録させようとしており、日本や韓国、ベトナムでも漢字（国字、韓国国字、チュノムなど）の追加提案があるため、Unicodeの今後のバージョンでは、CJK統合漢字の拡張ブロックが今後更に増加する可能性があり、また甲骨文などの古代の文字を、第三漢字面へ追加することが検討されている。

CJK互換漢字[編集]

「CJK互換漢字」も参照

U+F900～U+FAFFのブロックである。Unicode 3.1では補助集合として第2面（追加漢字面）にU+2F800～U+2FA1Fのブロックが追加された。基本的にCJK統合漢字と重複する漢字が割り当てられている。

CJK統合漢字には、基本的に一つの漢字に付き一つの符号位置しか与えられないため、KS X 1001など各国の規格で全く同じ形の漢字が重複して収録されていた場合、Unicodeとの相互変換を行った際可逆性が失われる事となる。（KS X 1001の場合、読みにより分離しているため、読みが分からなくなって困ることがある）。この問題を解決するために、このブロックが作られた。Big5で誤って重複してしまった2字もこのブロックにある。IBM拡張漢字のうちCJK統合漢字に入れなかったものもあり、その中にはU+FA1F（﨟）やU+FA24（﨤）などCJK統合漢字に同じ漢字が存在しないため、CJK統合漢字と同じ扱いをするものが12字ある。

Unicode 3.2では、JIS X 0213で包摂基準が変更され分離されたもののうち、「侮󠄁󠄁」や「僧󠄁󠄁」、「社󠄁」などUnicodeでは包摂されるものがこのブロックに追加された。これは、CJK統合漢字は日本以外にも中国と韓国の漢字を含めたものであり、日本だけのために包摂基準を変更して包摂分離して追加すると、他の国が国内規格と対応するUnicodeのコード値を変更しなければならないことがあるからである。例えば、「社󠄁」など⽰偏の漢字はGB 18030では偏が「⺭」の形を採用しているが、KS X 1001では偏が「⺭」でなく「⺬」の形を採用している。もし「社󠄁」を包摂分離してCJK統合漢字の新たな符号位置に追加したとすると、GB 18030はそのままでよいが、KS X 1001の「社󠄀」のコードとの対応は新たに追加された方に変更しなければならなくなる。

原規格[編集]

漢字のそれぞれの文字には、少なくとも一つの原典参照がある。^[10]

注記原典が更新されても、原典参照は、更新しない。更新された原典は、古い版に含まれていない文字の識別だけに用いてもよい。

原典 G[編集]

原典 G は、次のとおりに識別する。

G0 GB 2312-80
G1 GB 12345-90
G3 GB 7589-87 繁体字
G5 GB 7590-87 繁体字
G7 現代漢語通用字表及び簡化字総表
GS シンガポールにおける漢字
G8 GB 8565-88
G9 GB 18030-2000
GE GB 16500-95
GH GB 15564-1995 香港の一部の文字放送用の漢字体系
GK GB 12052-89 情報交換用ハングル文字符号化文字情報
G4K 四庫全書
GBK 中国大百科全書
GCE 国家教育研究院
GCH 辞海
GCY 辞源
GCYY 中国測絵科学院用字
GDM 中国公安省戸籍人名地名漢字
GDZ 地質出版社用字
GFC 現代漢語規範詞典第二版
GFZ 方正排版系統
GGFZ 通用規範漢字字典
GGH 古代漢語詞典
GHC 漢語大詞典
GHF 漢文仏典疑難俗字彙釈与研究
GHZ 漢語大字典
GHZR 漢語大字典第二版
GIDC 中国公安省 ID システム
GIDCX 中国公安省 ID システム
GJZ 商務印書館用字
GKX 康熙字典及び康熙字典補遺
GKJ Terms in Sciences and Technologies (科技用字) approved by the China National Committee for Terms in Sciences and Technologies (CNCTST)
GLGYJ 壮族嘹歌研究
GLK 龍龕手鑑
GOCD オックスフォード英漢漢英詞典
GPGLG 壮族民歌文化丛書•平果嘹歌
GRM 人民日報の漢字
GT 1983年標準電碼本(修訂本)
GWZ Hanyu Da Cidian Press ideographs
GXC 現代漢語詞典
GXH 新華字典
GXHZ 新華大字典
GZ 古壮字字典
GZFY 古代漢語詞典
GZH 中華字海
GZJW 殷周金文集成引得
GZYS 壮族人民的文化遺産-方块壮字, 中国民族古文字研究

注記康煕字典（GKX）として参照されている文字に対する符号表上での図形記号は、現在中国で使用されているものであり、康煕字典に示されている図形記号とは僅かに異なる場合がある。

原典 H[編集]

原典 H は、次のとおりに識別する。

H 香港増補字符集 2008
HB0 Big-5:計算機での中国語字形と文字符号との対応表, Technical Report C-26, 電脳用中文字型与字碼対照表, 技術通報 C-26, 1984, Symbols
HB1 Big-5, Level 1
HB2 Big-5, Level 2
HD 香港増補字符集 2016

原典 M[編集]

原典 M は、次のとおりに識別する。

MA HKSCS-2008
MB1 Big Five
MB2 Big Five
MC MCSCS Reference
MD MCSCS horizontal extensions
MDH MCSCS horizontal extensions
MAC Macao Information System Character Set（澳門資訊系統字集）

原典 T[編集]

原典 T は、次のとおりに識別する。

T1 TCA-CNS 11643-1992 第 1 面
T2 TCA-CNS 11643-1992 第 2 面
T3 TCA-CNS 11643-1992 第 3 面及び幾つかの追加文字
T4 TCA-CNS 11643-1992 第 4 面
T5 TCA-CNS 11643-1992 第 5 面
T6 TCA-CNS 11643-1992 第 6 面
T7 TCA-CNS 11643-1992 第 7 面
TA 化学命名原則（第四版）
TB TCA-CNS 11643-2007 第 11 面
TC TCA-CNS 11643-2007 第 12 面
TD TCA-CNS 11643-2007 第 13 面
TE TCA-CNS 11643-2007 第 14 面
TF TCA-CNS 11643-2007 第 15 面
T13 TCA-CNS 11643 19th plane (pending new version)

原典 J[編集]

原典 J は、次のとおりに識別する。

J0 JIS X 0208-1990
J1 JIS X 0212-1990
J13 JIS X 0213:2004 level-3 characters replacing J1 characters
J13A JIS X 0213:2004 level-3 character addendum from JIS X 0213:2000 level-3 replacing J1 character
J14 JIS X 0213:2004 level-4 characters replacing J1 characters
J3 JIS X 0213:2000 第 3 水準
J3A JIS X 0213:2004 第 3 水準
J4 JIS X 0213:2000 第 4 水準
JA 国内5社漢字統合表，1993
JA3 JIS X 0213:2004 level-3 characters replacing JA characters
JA4 JIS X 0213:2004 level-4 characters replacing JA characters
JH 汎用電子情報交換環境整備プログラム 2002〜2009
JK 今昔文字鏡^[11]
JMJ 文字情報基盤整備事業
JARIB 電波産業会 ARIB STD-B24 第 5.1 版，2007 年 3 月 14 日

原典 K[編集]

原典 K は、次のとおりに識別する。

K0 KS X 1001:2004（以前は，KS C 5601-1987 であった。）
K1 KS X 1002:2001（以前は，KS C 5657-1991 であった。）
K2 PKS C 5700-1 1994
K3 PKS C 5700-2 1994
K4 PKS 5700-3:1998
K5 Korean IRG Hanja Character Set 5th Edition: 2001
K6 KS X 1027-5:2014
KC Korean History On-Line

注記 K2，K3，K4 及び K5 に含まれる漢字は，新しい韓国規格群において改正作業が進んでいる。

原典 KP[編集]

原典 KP は、次のとおりに識別する。

KP0 KPS 9566-97
KP1 KPS 10721:2000及び KPS 10721:2003

原典 V[編集]

V0 TCVN 5773:1993
V1 TCVN 6056:1995
V2 VHN 01:1998
V3 VHN 02:1998
V4 喃字詞典, 岱喃字字典, 沔南喃字榜査
VN Vietnamese horizontal extensions

その他[編集]

SAT SAT大正新脩大蔵経テキストデータベース
UK Ideographic Rapporteur Group
UTC ユニコード技術報告書 UTR #45, U-source Ideographs, May 2010

書記素クラスタ[編集]

書記素クラスタ (grapheme cluster) で、漢字は、UTF-16で可変（16、32、48、64ビット）である^[12]。

16ビット

基本多言語面(BMP)

32ビット

追加面

基本多言語面(BMP)+SVS(字形選択子 (Unicodeのブロック)（英語版）)

48ビット

基本多言語面(BMP)+IVS(字形選択子補助（英語版）)

64ビット

追加面+IVS

参考文献[編集]

三上喜貴『文字符号の歴史　アジア編』共立出版。ISBN 4-320-12040-X。
安岡孝一、安岡素子『文字符号の歴史　欧米と日本編』共立出版。ISBN 4-320-12102-3。

脚注[編集]

[脚注の使い方]

^ 英: universal multiple-octet coded character set
^ 英: CJK comptatibility ideograph
^ 英: Han character collection
^ 英: Joe Becker
^ 英: Lee Collins
^ 英: vertical supplementation
^ “Editorial corrigenda on CJK compatibility ideographs, and other items” (1998年11月30日). 2008年4月12日閲覧。
^ 英: internal supplementation
^ 英: horizontal supplementation
^ JIS X 0221:2014 国際符号化文字集合（ＵＣＳ）
^ ケン・ランディ博士：JKは今昔文字鏡である。
^ 経済産業省改元を目前に今すぐ実施すべき準備、対応とは 13ページ
^ IPAmj明朝フォント符号化の状況

外部リンク[編集]

Chinese Japanese Korean Characters in Unicode
Windowsの多言語フォント・リスト
CJK-CODE
BabelMap - Unicode Character Map for Windows

[1] 英: universal multiple-octet coded character set

[2] 英: CJK comptatibility ideograph

[3] 英: Han character collection

[4] 英: Joe Becker

[5] 英: Lee Collins

[6] 英: vertical supplementation

[7] “Editorial corrigenda on CJK compatibility ideographs, and other items” (1998年11月30日). 2008年4月12日閲覧。

[8] 英: internal supplementation

[9] 英: horizontal supplementation

[10] JIS X 0221:2014 国際符号化文字集合（ＵＣＳ）

[11] ケン・ランディ博士：JKは今昔文字鏡である。

[12] 経済産業省改元を目前に今すぐ実施すべき準備、対応とは 13ページ

[13] IPAmj明朝フォント符号化の状況

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]