幽霊文字

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索
この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています詳細

幽霊文字(ゆうれいもじ、英語: ghost characters)とは、JIS基本漢字に含まれる、典拠不明の文字の総称。幽霊漢字(ゆうれいかんじ)、幽霊字(ゆうれいじ)とも呼ぶ。

概説[編集]

1978年に当時の通商産業省が制定したJIS C 6226(後のJIS X 0208)では、いわゆるJIS第1・第2水準漢字として6349字が規定された。この漢字集合を「JIS基本漢字」と呼ぶ。このとき典拠として次の4つの漢字表に含まれる漢字が採用された[1]

  1. 標準コード用漢字表(試案): 情報処理学会漢字コード委員会(1971年)
  2. 国土行政区画総覧: 国土地理協会(1972年)
  3. 日本生命収容人名漢字: 日本生命(1973年)、現存しない
  4. 行政情報処理用基本漢字: 行政管理庁(1975年)

しかし、制定当時は各文字の典拠が規格の中に明示されなかったため、「音、意味や歴史はおろか、どこで使われているのかもわからない文字」が多く混入することが指摘された。これが幽霊文字であり、約60字、一説には100字を超えるといわれた[誰?]。代表的なものに「」や「」などがあり、これらは康熙字典にも収録されておらず、国字新字体などを追加した諸橋轍次の『大漢和辞典』(2000年にJIS基本漢字の一部を含めて補充した『補巻』を除く)にも記載がなかった。

こうした状況を踏まえて、1997年制定の改定規格では、その原案作成委員会において委員長の芝野耕司国立国語研究所笹原宏之らが中心となり、1978年規格の原案作成時に参照された文献を調査した。その結果、幽霊文字とされてきたものの多くは、地名などに実際に使われていた漢字であることが明らかになった。

調査によると、1978年規格原案作成に先立って、行政管理庁は1974年に上記の1~3を含む8つの漢字表をとりまとめた『行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果』を作成しており、これには漢字表と元の典拠が併せて記載されている。当時のJIS基本漢字の選定の際には、元の典拠ではなくこの対応分析結果が参照されており、このうち『国土行政区画総覧』『日本生命収容人名漢字』を典拠とするものに幽霊文字が多く含まれていることが判明した。特に『日本生命収容人名漢字』は第1次規格の原案作成時点で既に原典が存在せず、内容に不備か指摘されている[2]。この結果を受け、改定規格の委員会は『国土行政区画総覧』の1972年版を校正履歴から復元したうえで、そこに現れる漢字を全ページにわたって照合し、用例を確認した。このほか、現存しない『日本生命収容人名漢字』に代わる人名用例としてNTTの電話帳データベースを調査対象としたり、30以上にわたる古今の字書を調査対象としたりするなど、徹底的な文献参照を行った。

一方、このような綿密な調査を経ても、12の漢字については典拠の不明なまま残される結果となった。典拠が不明でも、古字書に同形衝突した文字が見えたり資料の写し間違いが推察されたりといった手がかりが発見されたものが多いが、そのうち1文字(「彁」)に関してはまったく手がかりのない字である[3]。したがって、現在では本当に幽霊文字とみなされるのはこれら12文字、狭い意味では「彁」1文字のみである。

幽霊文字とされた漢字の調査結果[編集]

前述の笹原宏之らによる調査の成果はJIS X 0208:1997の附属書7「区点位置詳説」にまとめられている。本節ではその一部を抜粋する。

典拠が不明なもの[編集]

JIS X 0208:1997では、下表の12文字について典拠の確信を得られないため、「典拠不詳」「不明」「同定不能」として扱っている。

文字 区点 典拠 偶然に一致した(暗合)例
52-55 対応分析結果になし(典拠不明)。 集韻』鈔本にあるが誤写か
52-63 対応分析結果になし(典拠不明)。「㕓」の誤写か。 倭玉篇』にあり
54-12 国土行政区画総覧典拠とあるが発見できず。「𡚴」の誤認か。 字鏡集』などにあるが誤写か
55-27 対応分析結果になし(典拠不明)。「彊」などの誤写か。 同定不能
57-43 国土行政区画総覧典拠とあるが発見できず。「栩」の誤写か。 中華字海』などにあり
58-83 国土行政区画総覧典拠とあるが発見できず。「杲」などの誤写か。 法華三大部難字記』にあり
59-91 国土行政区画総覧典拠とあるが発見できず。「」の誤写か。 一切経音義 (玄応)』にあり
60-57 国土行政区画総覧典拠とあるが発見できず。「橦」の誤写か。 宋元以来俗字譜』などにあり
74-12 行政情報処理用基本漢字典拠(明治生命保険相互会社漢字コード表)とあるが用例なし。 新撰字鏡』にあり
74-57 国土行政区画総覧典拠とあるが発見できず。「祢」の誤写か。 新撰字鏡』『類聚名義抄』などにあり
79-64 国土行政区画総覧典拠とあるが発見できず。「閏」の誤字か。 宋版『広韻』の一部にあるが誤写か
81-50 日本生命人名表典拠とあるが原典不在。 類聚名義抄』にあり
典拠資料に存在しながら規格収録されなかった文字を誤写した可能性があるもの
  • 「壥」は、対応分析結果に含まれている「㕓」がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[4]。「㕓」はJIS X 0213にも収録されていない。
  • 「妛」は、滋賀県犬上郡多賀町河内にある「𡚴原」(あけんばら)の「𡚴」(「山女(あけび)」の合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある。典拠である国土行政区画総覧において、異なる文字の一部を切って貼り合わせることで作字していたため、切れ目の影を横画と見誤って転記したものと推測されている[4][5]。「𡚴」はJIS X 0213に収録された。
  • 「椦」は、群馬県前橋市にある「橳島」(ぬでしま)[6]の「橳」(植物のヌルデの別名カチノキの合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[4]。「」はJIS X 0213に収録された。

典拠が判明したもの[編集]

JIS X 0208:1997では、典拠の明らかになった文字のうち、諸橋『大漢和辞典』、角川『新字源』の両方に掲載されていないものを中心に72文字[7]の典拠詳細をまとめている。 下表にその一部を例示した。

文字 区点 典拠・用例
52-18 国土行政区画総覧に用例あり。藤垈(ふじぬた)・相垈(あいぬた)・大垈(おんた)/山梨県
52-21 国土行政区画総覧に用例あり。垉六(ほうろく)/愛知県
54-19 国土行政区画総覧に用例あるが現存せず。広岾町(ひろやまちょう)→広帖町(こうちょうちょう)/京都府
55-78 日本生命人名表典拠。NTT電話帳に人名用例あり。
60-81 日本地名大辞典に用例あり。石橸(いしだる)/静岡県
61-73 国土行政区画総覧に用例あり。汢の川(ぬたのかわ)[8]/高知県
66-83 日本生命人名表典拠。NTT電話帳に人名用例あり。
67-46 国土行政区画総覧に用例あるが原典誤字か。穃原→榕原(ようばる)/沖縄県
68-68 国土行政区画総覧に用例あり。粐蒔沢(ぬかまきざわ)[9]/秋田県
68-70 国土行政区画総覧に用例あり。粭島(すくもじま)/山口県
68-72 国土行政区画総覧に用例あるが原典誤字か。粫田(うるちだ)→糯田(もちだ)/福島県
68-84 国土行政区画総覧に用例あり。糘尻(すくもじり)/広島県
71-19 国土行政区画総覧に用例あり。膤割(ゆきわり)/熊本県
77-32 国土行政区画総覧に用例あるが現存せず。軅飛(たかとぶ)→鷹飛(たかとび)/福島県
78-93 国土行政区画総覧に用例あり。小鍄(こがすがい)/山形県
82-94 国土行政区画総覧に用例あるが原典誤字か。鵈沢→沢(みさごさわ)/福島県
文字用例が確認された地名の例
  • 粫 - 粫田(うるちだ)
福島県白河市大字本沼。現在は「糯田(もちだ)」となっている模様[10]
  • 橸 - 石橸(いしだる)
静岡県静岡市葵区井川。当地の役所の資料で確認できる[10]。この地名は同地に現存している[11]
  • 軅 - 軅飛(たかとぶ)
福島県白河市白坂。現在は「鷹飛(たかとび)」に変更されている[10]
  • 垈 - 相垈(あいぬた)
山梨県韮崎市藤井町。交差点、およびバス停の名称として確認できる。

辞書での扱い[編集]

規格制定以降、辞書編纂の方針としてJIS基本漢字を全掲載することが前提となった字書類が出版されている。JIS基本漢字に収録された幽霊文字については、過去の出典を参照することができないため、その取り扱いは字書や個別の文字によって以下のように異なった。

読みを便宜的に割り当てる
JIS基本漢字を実装した情報機器では、幽霊文字といえども実装されている以上は変換してその文字が出てこないというのは具合が悪く、便宜的に形声文字として解釈した「音読み」を割り当てることがある[12]。これに倣い、辞書でもこれらの便宜的な読みを掲載するものもある。彁=カ・セイ、椦=ケンなど。笹原宏之は、日本電子工業振興協会による調査報告(1982年)や、NEC(1982年)・日本IBM(1983年)の発行資料に基づいてこれらの読みが与えられた可能性を指摘している[13]
似た文字の異体字とする
「駲」を「馴」の異体字[14]、「軅」を「軈」の異体字[15]とするものがある。しかし、いずれも典拠を示したものがない。
「妛」は大漢和辞典康熙字典に非常に似た文字「」(上部の「山」が「屮」となるもの)が収録されており、その異体字とするものがあった[16]。これはJIS X 0208:1997での調査でも典拠つきで暗合例が紹介されている。また、Unicodeでもこれら2文字は同一コードポイントに統合されている(cf. #幽霊文字が残されている理由)。
暗合した別の文字として解説する
「槞」を「櫳」の異体字、「鵈」を「とび」の意の国字として解説するものがある。これらはJIS X 0208:1997での調査でも典拠つきで暗合例が紹介されているものである。規格の収録意図とは異なる可能性が高いが、このような扱いは幽霊文字に限らず、収録文字の解説に汎用性を持たせるために行われる。
幽霊文字として解説する
前述の調査結果から幽霊文字であることが判明してからは、読みや意義が不明であることをありのままに記述するものが一般的である。

幽霊文字が残されている理由[編集]

Unicodeで他国規格収録文字と統合された例
Unicode 1.1 U+5788 U+599B U+5CBE
JIS X 0208-1990(日本)
(52区18点)

(54区12点)

(54区19点)
CNS 11643-1992(台湾) -
(3面2553)
-
KS C 5601-1987(韓国)
(535C)
-
(6F40)

笹原宏之らによって幽霊文字の調査は行われたが、これはJIS X 0208の第四次規格(1997年)改正の一環であった。第二次規格(1983年)のいわゆる「83JIS改正」では、区点の入替えを主とする非互換の改変がされたために大きな混乱を招いた過去があり、それを再び起こすわけにはいかなかった。

また、Unicodeとの互換性を維持する必要もあった。調査時点において1993年制定のUnicode 1.1には既にJIS基本漢字がすべて収録されており、この時期になっての変更は、単に国内だけの問題に留まるものではなかった。加えて、Unicode制定時にCJK統合漢字として各国の規格をひとまとめにした際に、幽霊文字や国内文献典拠文字が他規格収録文字と包摂され、同一コードポイントに統合されているものがある。Unicode制定以降においても、Unicode収録文字に基づいて中国GB 16500-1995・台湾CNS 11643-2004などといった他国内規格が追加拡張を行っており、これら規格内にも幽霊文字が含まれている。このようにUnicodeをはじめとする他規格との連繫はさらに複雑なものとなっており、規格変更という形での対処はやはりより大きな混乱をもたらす恐れがある。

結果として、幽霊文字はいまなおJIS基本漢字やUnicodeに残され、フォントさえ用意すれば世界中の情報機器で利用可能となっている。

使用例[編集]

幽霊文字は元来典拠不明であり過去の用例が発見されていないものであるが、規格制定以降はその普及に伴い幽霊文字の用例が現れている。

規格に収録されていることで幽霊文字と似た形の漢字が誤用を誘発しやすく、代表的な例に「祢宜」「栩谷」を「宜」「谷」などと誤用する例が散見する[17]。また、丹羽基二の著書では幽霊文字「妛」を用いた「妛芸凡(あきおうし)」という苗字を出典なしに掲載している[18]が、これも「𡚴」または「安」の誤植の可能性が高い[19]。笹原宏之はこうした誤用例を「幽霊用法」と呼び、曖昧な用例の不用意な引用により情報が独り歩きすることについて注意喚起している。

誤字の可能性が高いもののうち、本来の文字がJIS X 0208に収録されなかったものは、幽霊文字をその代用とする用例がある(cf. 「𡚴原」→「原」、「島」→「島」)。規格上はこれらも誤用の範疇であるが、JIS X 0213では異なる区点位置で本来の文字が登録されたため、JIS X 0213の普及に伴ってこうした用例は少なくなっていくものと予想される。

そのほか個別のものでは、検証可能性の高い用例として以下のものがある。

  • 挧 - 道士・嘉挧(どうし・かく)
1993年東映制作『五星戦隊ダイレンジャー』に登場する架空の人物名。規格制定後に収録文字を利用して命名したものと思われる。
  • 蟐 - 蟐蛾ノ瀬戸航路(じょうがのせとこうろ)
長崎県壱岐市沖合から出ている航路の一つ。沖合に位置する「嫦娥島」の別表記として「蟐蛾島」が見られる[20]
  • 岾 - 大岾(おおはけ)
埼玉県所沢市南永井の小字[20]。「岾」はもともと京都市左京区浄土寺広岾町(ひろやまちょう)を用例として採用されたものだが地名としては現存しておらず、暗合用例である「はけ」として使用される。

なお、実用例ではないが、幽霊文字紹介としての利用が多々ある。本記事もその一例であるが、幽霊文字について解説する以上、具体例としてそのうちの何文字かを挙げる必要があるため、規格制定以前に用例が見つかっていない幽霊文字にとっては、必然的にこれが主な用途となっている。

同様の事例[編集]

UnicodeのCJK統合漢字にも収録経緯が不明な文字があり、こちらも「幽霊文字」と呼ばれることがある。これは、中国がCJK統合漢字の制定時に、各国が合意した規格に含まれない多くの漢字を既存規格収録文字として提出したことによるものである[21]。 詳細は、CJK統合漢字#幽霊漢字を参照のこと。

脚注[編集]

[ヘルプ]
  1. ^ JIS X 0208:1997 『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』 日本規格協会、1997年、pp.269f。
  2. ^ 名字・名前と漢字 第9回 | 大修館書店 WEB国語教室
  3. ^ 前掲、pp.291f。
  4. ^ a b c JIS X 0208:1997 『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』 日本規格協会、1997年、p.288, pp.289f, p.292。
  5. ^ 笹原宏之 『日本の漢字』 岩波書店〈岩波新書〉、2006年、p.82。ISBN 4-00-430991-3
  6. ^ 漢字の写真字典 国字(木 12)” (日本語). Yoshio Yoshida (2013年4月). 2016年12月13日閲覧。
  7. ^ JIS X 0208:1997の附属書7で「原典典拠」と付された区点一覧には72文字が掲載されているが、詳説本文には「鰛(82-60)」が記載されておらず、71文字にとどまっている。
  8. ^ 現地役所によると本来は「冫土」(にすい)であり、国土行政区画総覧の誤字である可能性あり。2002年1月1日に利便性と用例を考慮してさんずいに改めている。
  9. ^ JIS X 0208:1997の附属書7「区点位置詳説」では「粐薪沢」と誤植している。
  10. ^ a b c JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』「附属書7(参考) 区点位置詳説」、日本規格協会、2004年、2.148, 2.127, 2.166, 2.115
  11. ^ 2006-06-29の入札結果表静岡市の公式ホームページ)にて、「南アルプス公園線(井川字石橸工区)地すべり調査・観測・測量業務委託」という委託業務の説明がある。
  12. ^ MS-IME単漢字辞書、ATOKGoogle 日本語入力など。なお、MS-IMEの逆引き機能では空白文字を返す。
  13. ^ 比留間直和 (2011年8月22日). “幽霊文字の読み、どこから ― 変換辞書のはなし5”. 朝日新聞デジタル. 2017年4月14日閲覧。
  14. ^ 戸川芳郎 『漢辞海』 三省堂、2016年、第四版。ISBN 978-438-5-14048-3
  15. ^ 鎌田正, 米山寅太郎 『新漢語林』 大修館、2011年、第二版。ISBN 978-446-9-03163-8
  16. ^ 新村出広辞苑』 岩波書店、1998年、第五版。ISBN 978-400-0-80111-9
  17. ^ JIS X 0208:1997 『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』 日本規格協会、1997年、p.292, p.304。
  18. ^ 丹羽基二 『苗字のはなし2』 芳文館、1998年、p.165。ISBN 978-4-990-05847-0
  19. ^ 笹原宏之 『国字の位相と展開』 三省堂、2007年、p.788。ISBN 978-4-385-36263-2
  20. ^ a b 長崎県(蟐), 埼玉県(岾) (稀少地名漢字リスト - 検証重視のサイトで、現地レポートや考証資料が充実している。)
  21. ^ 安岡孝一・安岡素子 『「啢」はなぜJIS X 0221に含まれているのか-Unicode幽霊字研究-』 情報処理学会研究報告、1997年

関連項目[編集]