電碼

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

電碼(でんま、ちゅうぶんでんま、繁体字中文電碼簡体字中文电码拼音: Zhōngwén diànmǎ注音: ㄓㄨㄥㄨㄣˊ ㄉㄧㄢˋㄇㄚˇChinese telegraph codeCTC)は、中国文電報を送るために、漢字と4桁の数字とを対応づけた文字コードである。これは、漢字を符号化した文字コードとして世界最初のものである。電報碼(でんぽうま、繁体字中文電報碼簡体字中文电报码拼音: Zhōngwén diànbàomǎ注音: ㄓㄨㄥㄨㄣˊ ㄉㄧㄢˋㄅㄠˋㄇㄚˇ)とも呼ばれる。

符号化および復号[編集]

電碼による中国文の符号化および復号には、コードブックを用いる。コードブックはそれぞれの漢字と4桁の数字との対応を示している。コードブックの正編において、漢字は基本的に部首と画数に基づいて並べられ、その順に00000000は未使用であるので、正確には0001の「」)から番号づけられている。8000以降には補遺として漢字、記号が収録されている。

コードブックは1ページに100組の漢字と数字との対応を示している。各ページは10行10列の表になっている。表の各ます目には、漢字、4桁の数字、および3桁のローマ字が印刷されている。

電報を送るときは、まず、コードブックを参照して漢字を一字一字4桁の数字に置き換える。そして得られた数字の列をモールス符号によって送信する。漢字から電碼への翻訳は有料の付加サービスである。

電報を受け取ったときは、まず、モールス符号を数字の列にもどす。数字の列を4桁ごとに区切り、それぞれの4桁をコードブックを参照して漢字にもどす。

3桁のローマ字は国際電報に使われる電碼であり、数字の電碼に比べて桁数が少ないぶん、電報料金の節約になる。国際電報の料金は、語の数によって決まる。暗語は、5文字までを1語と数える。例えば、「標準電碼本」の5文字は数字の電碼では2871 3294 7193 4316 2609となり、国際電報では5語と計算される。これを5桁ごとに区切り直して28713 29471 93431 62609とすると、4語と計算される。他方、「標準電碼本」の5文字はローマ字の電碼ではEGL EWS KQR GKA DWJとなるが、これを5桁ごとに区切り直して、EGLEW SKQRG KADWJとすると、3語と計算される。

歴史[編集]

『電報新書』の電碼のうち0001から0200まで。現在用いられている電碼とは異なる。

中国における電報事業が1871年デンマークグレート・ノーザン・テレグラフ社(Great Northern Telegraph Company、大北電報公司)によって始められてしばらくしてから、電碼が実用されるようになった。それは、デンマーク人の天文学者ハンス・シェレルプHans Carl Frederik Christian Schjellerup1827年1887年)の仕事を引き継ぎ、上海にいたフランス人ヴィギエール(Septime Auguste Viguier、威基謁)がつくったものであった(三上 2002, pp. 94, 95, 安岡ら 2006, p. 25)。このコードブックは『電報新書』として刊行された(威基謁 1872)。

上海市地方志弁()公室 (2004) によれば、その後の電碼の歴史はつぎのとおりである。1881年、鄭 観応は『電報新書』の字種の不足と配列の混乱にかんがみて、新たに『電報新編』を編纂した。1924年には『電報新書』の電碼の使用が中止された。1929年には中華民国交通部が『明密電碼新編』を刊行した。1933年、『明密電碼新編』には補遺が付加された。

電碼は本来、漢字のみを符号化するものであったが、のちに拡張され、ラテン文字、記号などを符号化できるようになった。ローマ字3桁の電碼も、のちに加えられた。

1952年に大陸で発行された『標準電碼本』(中央人民政府郵電部 1952)は、8000以降を補遺とする。8001以降に追加の漢字がある。また、補遺には月、日および時間をそれぞれ4桁の数字で表すための特別のコードが定められている。すなわち、9701「一月」、…、9712「十二月」、9901「一日」、…、9931「卅一日」、9800「〇點」、…、9824「廿四點」である。さらには、注音字母37文字、キリル文字32文字、ラテン文字26文字、および記号30文字も補遺に収録されている。記号には9998の間隔、9999の改行などが含まれる。26進法の3桁のローマ字の電碼 (AAA, AAB, …) も付け加えられている。

また、1981年、中華人民共和国郵電部電信総局は『標準電碼本』を大きく改訂した(中華人民共和国郵電部 1983)。改訂の内容は、「簡化字総表」および「印刷通用漢字字形表」にそった簡化字の採用、異体字520字およびまれにしか用いない1,681字の削除、ならびに漢字106字および記号16字の追加であった。ただし、通信の実情にかんがみて、115の繁体字はすえおかれた。

『標準電碼本』の文字の配列は、従来より部首と画数順であった。しかし、1981年の改訂では、電碼はそのままに、繁体字を簡化字に置き換えたため、部首と画数順の配列が乱れ、文字を検索しにくくなった。その対策として、第一に、ピン音による索引が「下編」として設けられた。第二に、簡化により部首が変わった一部の文字と電碼の対応が各ページの余白に掲載された。例えば、「歳」および「驚」の部首はそれぞれ、「止」および「馬」であった。簡化により「」および「」となったため、もとの掲載ページに加えて「山」の部首のページの余白にも「」が、「心」の部首のページの余白にも「」が、掲載された。

大陸の電碼と台湾の電碼は、それぞれ独立に改訂されたため、共通する部分を有するものの、同一ではない。特に、コードブックのうちの補遺の部分の共通性は著しく低い。正編であっても4桁の数字が表す文字が異なることもある。また、ローマ字3桁の電碼の付け方は、大陸と台湾との間で異なっている。林 (1984) はそれらの対照表を提供した。UnicodeのHanデータベースは、林の対照表に基づいて大陸と台湾の電碼を記録している (Jenkinsら 2006)。

応用[編集]

電碼はコンピュータへの中国文インプットメソッドとして用いることもできる。しかし、電碼は覚えにくいので、一般のコンピュータ・ユーザがマスターして使うことはほとんどない。

香港住民の身分証は、氏名の漢字下に、漢字に対応する電碼を表示する(香港特別行政区政府 入境事務所 2006)。香港では、政府や会社が用意する書式用紙の多くに、氏名の電碼を書き入れる欄が設けられている。これらは、氏名をコンピュータにインプットするために用いられる。

CJK統合漢字への収録[編集]

安岡ら (1997) は、ISO/IEC 10646およびUnicodeCJK統合漢字に、中華人民共和国のコードブックである『標準電碼本』の1983年の版から収録された漢字があることを明らかにした。

安岡らによると、『標準電碼本』の1983年の版に含まれながらGB 2312-80などの既存の国内規格に含まれない漢字が58文字あった。それにもかかわらず、最初にCJK統合漢字を編纂するにあたっては、各国の当時の国内規格に含まれる漢字にかぎって収録することが、中国、日本および韓国の間の合意となった。そこで、中華人民共和国は、その58文字が既存の国内規格に含まれていたことにして、CJK統合漢字への収録を達成した。

それらの漢字のなかには、異体字の整理や簡化字の採用といった中華人民共和国の言語政策を『標準電碼本』が不十分に反映してきたことに由来すると思われる漢字が見られる。

中華人民共和国では、1955年の『第一批異体字整理表』によって一部の異体字の使用停止が決められた。電碼6067の「託」と電碼2094の「托」とは、たがいに異体字の関係であるとされ、今後もっぱら「托」を用い、「託」は使わないこととなった。それにもかかわらず、『標準電碼本』は「託」にコードを与えつづけた。そして、『標準電碼本』の1981年の改訂において、電碼6067の漢字は「託」から「」に変更された。

この「」は、正式には存在しないはずの漢字と推測される。たしかに、1964年の『簡化字総表』によれば、言偏を規則的に「」に置き換え、したがって「記」は「」に、「話」は「」にする。しかし、簡化字の正式な採用は異体字の整理の後におこなわれたことであるので、簡化字の正式な採用のときまでに、「託」は「托」と書かれるようになっているはずであり、「託」の「」という簡化は正式にはあり得ないはずである。

ただし、『第一批異体字整理表』は、既存の商号や人の姓には異体字の整理を及ぼさなくてよいとしている。針谷 (2005) は『第一批異体字整理表』の電子版を提供している。

参考文献[編集]

中国語[編集]

日本語[編集]

英語[編集]

  • John, Jenkins; Richard Cook (2006年). “Unicode Han Database”. Unicode, Inc. 2007年1月5日閲覧。

関連項目[編集]

外部リンク[編集]