幽霊文字
幽霊文字(ゆうれいもじ)は、JIS基本漢字に含まれる、典拠不明の文字(漢字)の総称。幽霊漢字(ゆうれいかんじ)、幽霊字(ゆうれいじ)とも呼ぶ。
概説[編集]
1978年に当時の通商産業省が制定したJIS C 6226(後のJIS X 0208)では、いわゆるJIS第1・第2水準漢字として6349字が規定された。この漢字集合を「JIS基本漢字」と呼ぶ。このとき典拠として次の4つの漢字表に含まれる漢字が採用された[1]。
- 標準コード用漢字表(試案): 情報処理学会漢字コード委員会(1971年)
- 国土行政区画総覧: 国土地理協会(1972年)
- 日本生命収容人名漢字: 日本生命(1973年、現存せず)
- 行政情報処理用基本漢字: 行政管理庁(1975年)
しかし、制定当時は各文字の典拠が規格の中に明示されなかったため、音義・使用例の不明な文字があることが指摘され、辞書類に収録されながら実用例のない単語を意味する「幽霊語」をもじって「幽霊文字」と呼ばれるようになった[2]。代表的なものに「妛」や「彁」などがあり、これらは古字書を網羅的に収録した『康熙字典』や『大漢和辞典』にも記載がなかった。
こうした状況を踏まえて、1997年制定の改定規格では、その原案作成委員会において委員長の芝野耕司や国立国語研究所の笹原宏之らが中心となり、1978年規格の原案作成時に参照された文献を調査した。その結果、幽霊文字とされてきたものの多くは、地名などに実際に使われていた漢字であることが明らかになった。
調査によると、1978年規格原案作成に先立って、行政管理庁は1974年に上記の1 - 3を含む8つの漢字表をとりまとめた『行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果』を作成しており、これには漢字表と元の典拠が併せて記載されている。当時のJIS基本漢字の選定の際には、元の典拠ではなくこの対応分析結果が参照されており、このうち『国土行政区画総覧』『日本生命収容人名漢字』を典拠とするものに幽霊文字が多く含まれていることが判明した。特に『日本生命収容人名漢字』は第1次規格の原案作成時点で既に原典が存在せず、内容に不備が指摘されている[3]。
この結果を受け、改定規格の委員会は『国土行政区画総覧』の1972年版を校正履歴から復元したうえで、そこに現れる漢字を全ページにわたって照合し、用例を確認した。このほか、現存しない『日本生命収容人名漢字』に代わる人名用例として、NTTと電電公社の電話帳データベースを比較調査したり、30以上にわたる古今の字書を調査対象としたりするなど、徹底的な文献参照を行った。
しかしこうした綿密な調査を経てもなお、12の漢字については典拠不明のまま残される結果となった。この中には、資料の写し間違いが推察されるなどの手がかりが発見されたものも含まれる。また、典拠不明の文字の多くは古字書に同形衝突した文字が見えるが、唯一「彁」に関しては同形の文字を発見することはできなかった[4]。したがって、現在では本当に幽霊文字とみなされるのはこれら12文字、狭い意味では「彁」1文字のみである。
幽霊文字は既にUnicode等の国際規格に採用されており、これらの規格変更は互換性の問題を起こす可能性が高いため、幽霊文字の修正や削除は事実上不可能になっている。
幽霊文字とされた漢字の調査結果[編集]
前述の笹原宏之らによる調査の成果は、JIS X 0208:1997の附属書7「区点位置詳説」にまとめられている。本節ではその一部を抜粋する。
典拠が不明なもの[編集]
JIS X 0208:1997では、前述の4つの漢字表のうちいずれかを典拠とするものか確信を得られないため、下表の12文字について「典拠不詳」「不明」「同定不能」として扱っている。
幽霊文字は「そもそも存在しうるはずのない漢字」であるため、読み方は「便宜上」つけられたものである。
文字 | 区点 | 読み方 | 典拠 | 偶然に一致した(暗合)例 |
---|---|---|---|---|
墸 | 52-55 | チョ | 対応分析結果になし(典拠不明)。 | 『集韻』鈔本にあるが誤写か |
壥 | 52-63 | デン | 対応分析結果になし(典拠不明)。「㕓」の誤写か。 | 『倭玉篇』にあり |
妛 | 54-12 | シ | 国土行政区画総覧典拠とあるが発見できず。「𡚴」の誤認か。 | 『字鏡集』などにあるが誤写か |
彁 | 55-27 | カ
セイ |
対応分析結果になし(典拠不明)。「彊」などの誤写か。 | 同定不能 |
挧 | 57-43 | ウ
トチ |
国土行政区画総覧典拠とあるが発見できず。「栩」の誤写か。 | 『中華字海』などにあり |
暃 | 58-83 | ヒ | 国土行政区画総覧典拠とあるが発見できず。「杲」などの誤写か。 | 『法華三大部難字記』にあり |
椦 | 59-91 | ケン | 国土行政区画総覧典拠とあるが発見できず。「橳」の誤写か。 | 『一切経音義 (玄応)』にあり |
槞 | 60-57 | ル
ロウ |
国土行政区画総覧典拠とあるが発見できず。「橦」の誤写か。 | 『宋元以来俗字譜』などにあり |
蟐 | 74-12 | ジョウ
モム |
行政情報処理用基本漢字典拠(明治生命保険相互会社漢字コード表)とあるが用例なし。 | 『新撰字鏡』にあり |
袮 | 74-57 | ネ
ナイ |
国土行政区画総覧典拠とあるが発見できず。「祢」の誤写か。 | 『新撰字鏡』『類聚名義抄』などにあり |
閠 | 79-64 | ギョク
ニン |
国土行政区画総覧典拠とあるが発見できず。「閏」の誤字か。 | 宋版『広韻』の一部にあるが誤写か |
駲 | 81-50 | シュウ
ジュン |
日本生命人名表典拠とあるが原典不在。 | 『類聚名義抄』にあり |
誤写の可能性があるもの[編集]
典拠不明の文字のうち、典拠資料に存在しながら規格収録されなかった文字を誤写し、誤った字体で登録した可能性があるものとして、以下のものが挙げられる。
- 「壥」は、対応分析結果に含まれている「㕓」がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[5]。「㕓」はJIS X 0213にも収録されていない。
- 「妛」は、滋賀県犬上郡多賀町河内にある「𡚴原」(あけんばら)の「𡚴」(「山女(あけび)」の合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある。典拠である国土行政区画総覧において、版下作成時に異なる文字の一部を切って貼り合わせることで作字したと見られる重ね目の影のような印刷跡があり、それを横画と見誤って転記したものと推測されている[5][6]。「𡚴」はJIS X 0213に収録された。
- 「椦」は、群馬県前橋市にある「橳島」(ぬでじま)[7]の「橳」(植物のヌルデの別名カチノキの合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[5]。「橳」はJIS X 0213に収録された。
典拠が判明したもの[編集]
JIS X 0208:1997では、典拠の明らかになった文字のうち、諸橋『大漢和辞典』、角川『新字源』の両方に掲載されていないものを中心に72文字の典拠詳細をまとめている。ただしこの中には、原典による誤字と判明しているものも含まれる。
JIS X 0208:1997の附属書7で「原典典拠」と付された区点一覧には72文字が掲載されているが、詳説本文には「鰛(82-60)」が記載されておらず、71文字にとどまっている。
下表にその一部を例示した。
文字 | 区点 | 典拠・用例 |
---|---|---|
垈 | 52-18 | 国土行政区画総覧に用例あり。藤垈(ふじぬた)・相垈(あいぬた)[注釈 1]・大垈(おおぬた)/山梨県 |
垉 | 52-21 | 国土行政区画総覧に用例あり。垉六(ほうろく)/愛知県 |
岾 | 54-19 | 国土行政区画総覧に用例あるが現存せず。広岾町(ひろやまちょう)→広帖町(こうちょうちょう)/京都府[注釈 2] |
恷 | 55-78 | 日本生命人名表典拠。NTT電話帳に人名用例あり。 |
橸 | 60-81 | 日本地名大辞典[注釈 3]に用例あり。石橸(いしだる)[注釈 4]/静岡県 |
汢 | 61-73 | 国土行政区画総覧に用例あり。汢の川(ぬたのかわ)[注釈 5]/高知県 |
碵 | 66-83 | 日本生命人名表典拠。NTT電話帳に人名用例あり。 |
穃 | 67-46 | 国土行政区画総覧に用例あるが原典誤字。穃原→榕原(ようばる)/沖縄県 |
粐 | 68-68 | 国土行政区画総覧に用例あり。粐蒔沢(ぬかまきざわ)[注釈 6]/秋田県 |
粭 | 68-70 | 国土行政区画総覧に用例あり。粭島(すくもじま)/山口県 |
粫 | 68-72 | 国土行政区画総覧に用例あるが原典誤字。粫田(うるちだ)→糯田(もちだ)[注釈 7]/福島県 |
糘 | 68-84 | 国土行政区画総覧に用例あり。糘尻(すくもじり)/広島県 |
膤 | 71-19 | 国土行政区画総覧に用例あり。膤割(ゆきわり)[注釈 8]/熊本県 |
軅 | 77-32 | 国土行政区画総覧に用例あるが現存せず。軅飛(たかとぶ)→鷹飛(たかとび)/福島県 |
鍄 | 78-93 | 国土行政区画総覧に用例あり。小鍄(こがすがい)/山形県 |
鵈 | 82-94 | 国土行政区画総覧に用例あるが原典誤字。鵈沢→鵃沢(みさごさわ)/福島県 |
辞書での扱い[編集]
規格制定以降、辞書編纂の方針としてJIS基本漢字を全掲載することが前提となった字書類が出版されている。JIS基本漢字に収録された幽霊文字については、過去の出典を参照することができないため、その取り扱いは字書や個別の文字によって以下のように異なった。
- 読みを便宜的に割り当てる
- JIS基本漢字を実装した情報機器では、幽霊文字といえども実装されている以上は変換してその文字が出てこないというのは具合が悪く、便宜的に形声文字として解釈した「音読み」を割り当てることがある[注釈 9]。これに倣い、辞書でもこれらの便宜的な読みを掲載するものもある(彁=カ・セイ、椦=ケンなど)。笹原宏之は、日本電子工業振興協会による調査報告(1982年)や、NEC(1982年)・日本IBM(1983年)の発行資料に基づいてこれらの読みが与えられた可能性を指摘している[12]。
- 似た文字の異体字とする
- 「駲」を「馴」の異体字[13]、「軅」を「軈」の異体字[14]とするものがある。しかし、いずれも典拠を示したものがない。
- 「妛」は大漢和辞典・康熙字典に非常に似た文字「妛」(上部の「山」が「屮」となるもの)が収録されており、その異体字とするものがあった[15]。これはJIS X 0208:1997での調査でも典拠つきで暗合例が紹介されている。また、Unicodeでもこれら2文字は同一コードポイントに統合されている(#幽霊文字が残されている理由を参照)。
- 暗合した別の文字として解説する
- 「槞」を「櫳」の異体字、「鵈」を「とび」の意の国字として解説するものがある。これらはJIS X 0208:1997での調査でも典拠つきで暗合例が紹介されているものである。規格の収録意図とは異なる可能性が高いが、このような扱いは幽霊文字に限らず、収録文字の解説に汎用性を持たせるために行われる。
- 音義未詳字として解説する
- 読みや意義が不明であることをありのままに記述する。
前述の調査結果が判明してからは、その内容を採るものが一般的である。『大漢和辞典』は2000年に補巻を、角川『新字源』は2017年に改訂新版を刊行しており、いずれも典拠の判明した文字の一部を含めて収録している。
幽霊文字が残されている理由[編集]
Unicode 1.1 | U+5788 | U+599B | U+5CBE |
---|---|---|---|
JIS X 0208-1990(日本) | 垈 (52区18点) |
妛 (54区12点) |
岾 (54区19点) |
CNS 11643-1992(台湾) | - | 妛 (3面2553) |
- |
KS C 5601-1987(韓国) | 垈 (535C) |
- | 岾 (6F40) |
笹原宏之らによって幽霊文字の調査が行われたが、これはJIS X 0208の第4次規格(1997年)改正の一環であった。第2次規格(1983年)のいわゆる「83JIS改正」では、区点の入れ替えを主とする非互換の改変がされたために大きな混乱を招いた過去があり、それを再び起こすわけにはいかなかった。
また、Unicodeとの互換性を維持する必要もあった。調査時点において1993年制定のUnicode 1.1には既にJIS基本漢字がすべて収録されており、この時期になっての変更は、単に国内だけの問題に留まるものではなかった。またUnicodeでは、source separation rule(原規格分離規則、例えばJIS X 0208で別々に収録されているものは分離を維持する)という原則の一方で、CJK統合漢字ではその規則に反しない範囲で包摂(en:Han unification、包摂 (文字コード) の記事も参照)を行うという複雑な経緯を経て、またそれ以降においても、Unicode収録文字に基づいて中国GB 16500-1995、台湾CNS 11643-2004などといった他国内規格が追加拡張を行っており、これら規格内にも幽霊文字が含まれている。以上のような把握困難な複雑さから、変更という形での対処は事実上不可能であったと言える。
結果として、幽霊文字はいまなおJIS基本漢字やUnicodeに残され、フォントさえ用意すれば世界中の情報機器で利用可能となっている。
使用例[編集]
幽霊文字は元来典拠不明であり、過去の用例が発見されていないものであるが、規格制定以降はその普及に伴い幽霊文字の用例が現れている。
規格に収録されたことで幽霊文字と似た形の漢字との誤用を誘発しやすくなり、代表的な例に「祢宜」「栩谷」を「袮宜」「挧谷」などと誤用する例が散見する[16]。また、丹羽基二の著書では幽霊文字「妛」を用いた「妛芸凡(あきおうし)」という苗字を出典なしに掲載している[17]が、これも「𡚴」または「安」の誤植の可能性が高い[2]。笹原宏之はこうした誤用例を「幽霊用法」と呼び、曖昧な用例の不用意な引用により情報が独り歩きすることについて注意喚起している。
朝日新聞データベースにおいては、1923年(大正12年)2月23日付の朝日新聞朝刊の記事に対応する検索キーワードとして幽霊文字「彁」を用いた「埼玉自彁会」が含まれていたが、その後「埼玉自彊会」の誤用と結論付けられ、検索キーワードも修正された[18]。
誤字の可能性が高いもののうち、本来の文字がJIS X 0208に収録されなかったものは、幽霊文字をその代用とする用例がある(「𡚴原」→「妛原」、「橳島」→「椦島」)。規格上はこれらも誤用の範疇であるが、JIS X 0213では異なる区点位置で本来の文字が登録されたため、JIS X 0213の普及に伴ってこうした用例は少なくなっていくものと予想される。
そのほか個別のものでは、検証可能性の高い用例として以下のものがある。
- 蟐 - 蟐蛾ノ瀬戸航路(じょうがのせとこうろ)
- 岾 - 大岾(おおはけ)
- 挧 - 道士・嘉挧(どうし・かく)
- 1993年東映制作『五星戦隊ダイレンジャー』に登場する架空の人物名。名前は賈詡からとられているが、テロップや雑誌では「挧」と表示されており公式表記である。当時は既にJIS基本漢字を実装した情報機器が普及しており、収録文字を利用して選定したか、誤植がそのまま公式表記になったものと思われる。
なお、実用例ではないが、幽霊文字そのものを紹介するための用例が多々ある。本記事もその一例であるが、幽霊文字について解説する以上、具体例としてそのうちの何文字かを挙げる必要があるため、規格制定以前に用例が見つかっていない幽霊文字にとっては、必然的にこれが主な用途となっている。
詠坂雄二の著作『5A73』では幽霊文字を用いた事件が書かれている。タイトルの『5A73』は「暃」のJISコードポイントとなっている[22]。
また、使われた文献がなく使う用途がないという幽霊文字の特性を利用し、匿名メッセージサービスのマシュマロでは、本来は卑語などを伏せるため自動変換されるマシュマロ絵文字を任意に出力するための専用文字として「彁」を利用している[23]。
音楽ゲーム『beatmania IIDX』には、幽霊文字を使用した『閠槞彁の願い』という楽曲が収録されている。楽曲コメントによれば、「人間には発音できない読み」としており、仮の読みとして「ぎょくろうかのねがい」としている[24]。この類例として『太鼓の達人』に楽曲『彁』が存在する。読みは「か」[25]。
Unicodeでの類似事例[編集]
UnicodeのCJK統合漢字にも収録経緯が不明な文字があり、こちらも「幽霊文字」と呼ばれることがある。これは中国がCJK統合漢字の制定時に、各国が合意した規格に含まれない多くの漢字を既存規格収録文字として提出したことによるものである[26]。
このほかUnicodeのCJK統合漢字拡張Fには住基統一文字に由来する読みや意味が不明な文字が幾つか含まれている[27]。
脚注[編集]
注釈[編集]
- ^ 山梨県韮崎市藤井町相垈。交差点名および山梨交通(旧:山交タウンコーチ)のバス停名「相垈」として現存する[8][9][10]。
- ^ 京都市左京区浄土寺広岾町(ひろやまちょう)→広帖町(こうちょうちょう)。
- ^ 国土行政区画総覧典拠とあるが発見できないため、ここでは別の地名資料を典拠としている。
- ^ 静岡県静岡市葵区井川。2006-06-29の入札結果表 (静岡市公式ウェブサイト)にて、「南アルプス公園線(井川字石橸工区)地すべり調査・観測・測量業務委託」という委託業務の説明がある。
- ^ 高知県高岡郡四万十町。四万十町役場によれば、本来はにすい(冫)の「
」であるとの報告がされている[11]が、以降の版でも国土行政区画総覧は修正されていない。2002年1月1日に利便性と明治時代の用例を考慮して「
の川」→「汢の川」に改めている[11]。
- ^ JIS X 0208:1997の附属書7「区点位置詳説」では「粐薪沢」と誤植している。
- ^ 福島県白河市大字本沼。
- ^ 熊本県水俣市栄町・野口町。
- ^ MS-IME単漢字辞書、ATOK、Google 日本語入力など。なお、MS-IMEの逆引き機能では空白文字を返す。
出典[編集]
- ^ JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、pp.269f頁。
- ^ a b 笹原宏之『国字の位相と展開』三省堂、2007年、p.212, p.788頁。ISBN 978-4-385-36263-2。
- ^ 名字・名前と漢字 第9回 WEB国語教室、大修館書店
- ^ JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、pp.291f頁。
- ^ a b c JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、p.288, pp.289f, p.292頁。
- ^ 笹原宏之『日本の漢字』岩波書店〈岩波新書〉、2006年、p.82頁。ISBN 4-00-430991-3。
- ^ “漢字の写真字典 国字(木 12)”. Yoshio Yoshida (2013年4月). 2016年12月13日閲覧。
- ^ 山梨県韮崎市藤井町相垈(Googleマップ)
- ^ 相垈(あいぬた)バス停留所 山梨交通 ジョルダン乗換案内NEXT
- ^ 相垈(あいぬた)増富温泉郷線〔増富温泉郷行き〕山交タウンコーチ NAVITIME
- ^ a b 町内ぶら~り散歩 汢の川(ぬたのかわ) 四万十町
- ^ 比留間直和 (2011年8月22日). “幽霊文字の読み、どこから ― 変換辞書のはなし5”. 朝日新聞デジタル. 2017年4月14日閲覧。
- ^ 戸川芳郎『漢辞海』(第四版)三省堂、2016年。ISBN 978-438-5-14048-3。
- ^ 鎌田正, 米山寅太郎『新漢語林』(第二版)大修館書店、2011年。ISBN 978-446-9-03163-8。
- ^ 新村出『広辞苑』(第五版)岩波書店、1998年。ISBN 978-400-0-80111-9。
- ^ JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、p.292, p.304頁。
- ^ 丹羽基二『苗字のはなし2』芳文館、1998年、p.165頁。ISBN 978-4-990-05847-0。
- ^ ことばマガジン 大正十二年の幽霊文字、比留間直和、朝日新聞デジタル、2011年9月5日。
- ^ a b 稀少地名漢字リスト - 検証重視のサイトで、現地レポートや考証資料が充実している。[リンク切れ]
- ^ 長崎県(蟐) 稀少地名漢字リスト[リンク切れ]
- ^ 埼玉県(岾) 稀少地名漢字リスト[リンク切れ]
- ^ 5A73 詠坂雄二 | フィクション、文芸 | 光文社
- ^ marshmallow_qaのツイート(1073829388725116928)
- ^ beatmania IIDX 28 BISTROVER NEW SONG 閠槞彁の願い KONAMI,2023年2月2日閲覧
- ^ @7eaF. "【新曲/告知】「彁」" (ツイート). Twitterより2023年2月2日閲覧。
- ^ 安岡孝一・安岡素子『「唡」はなぜJIS X 0221に含まれているのか ―Unicode幽霊字研究―』情報処理学会研究報告、1997年 。
- ^ 安岡孝一「UCSにない住民基本台帳ネットワーク統一文字」, 京都大学(2012年) 閲覧日:2023年5月17日