Microsoftコードページ932
| この項目には、一部のコンピュータや閲覧ソフトで表示できない文字(NEC 特殊文字、IBM 拡張文字、漢字 Talk 7.1 の拡張文字)が含まれています。 |
Microsoft コードページ 932(以下 CP932)は、マイクロソフト及び、MS-DOS の OEM ベンダが Shift JIS を独自に拡張した文字コードである。また同時に、CP932 は Shift_JIS の Windows アプリケーションにおける「実装」を指す用語であるとも言える。
この項では、主に Shift_JIS におけるマイクロソフトおよび各ベンダの独自拡張部分について言及する。ベンダ独自拡張部分以外の内容については、Shift JIS を参照されたい。
また、マイクロソフト標準キャラクタセットの項目も併せて参照されたい。
[編集] CP932の呼称(別名)の整理
- Windows-31J
- Windows 3.1 (J) のリリースに合わせて、マイクロソフトが IBM と日本電気 (NEC) のコードを統合して作った符号化文字集合。1993 年以降、マイクロソフトが自社のドキュメント等で「CP932」という用語を使って表している対象は、常にこの「Windows-31J」である。この名前は IANA に登録されている。
- MS932
- Java で、「IBM のコードページ 932」と「Windows-31J」を区別するための用語。
- CP932
- MS-DOS と Windows における日本語コードページを表す用語。「Windows-31J」が制定されるまでは、OEM ベンダによって文字集合が違う。
- MS 漢字コード
- 「CP932」とほぼ同じ意味の用語である。マイクロソフトが(Shift_JIS という符号化方式を)策定したという点や、マイクロソフトが(JIS X 0208 という文字集合に対して)文字を独自に追加した点を強調したい場合に用いられる。また、単に「シフト JIS」のことを指している場合もある。
- OEM コードページ 932
- Windows 3.1 日本語版の発売以前における、OEM ベンダ各自の拡張を許した仕様の文字セット。
以下は、マイクロソフトから離れ、現在では公的機関からも認められた文字符号化方式を指す用語である。
- シフト JIS
- JIS X 0208 符号化文字集合を一定の規則に従ってシフトした文字符号化方式。具体的な内容は JIS X 0208:1997 に「シフト符号化表現」として記載がある。しかし、文脈によってはベンダ拡張されたコードセットを指している場合もある。
- Shift_JIS
- 「シフトJIS」の IANA 登録名。
- SJIS
- Shift_JIS の短縮形。Java では Shift_JIS と同義語。
[編集] CP932 の誕生と発展
CP932 が、現在の「Windows-31J」の形として完成に至るまでには複雑な経緯がある。
1982年(JIS X 0208-1983 策定の前年)、JIS C 6226 を複雑にシフトさせた文字符号化方式として Shift JIS が誕生した。この符号化方式(を利用した拡張符号化文字集合)は、マイクロソフトにより MS-DOS における標準日本語コードとして採用され、「コードページ 932 (CP932)」という管理番号を与えられた。
ところで、マイクロソフトは MS-DOS における唯一の日本語用コードページである、この「CP932」を OEM メーカーの自由に任せていた。そのため、NEC の PC-9800 シリーズ、IBM の PS/55 シリーズ、富士通の FMRシリーズなどは全て MS-DOS を搭載しているコンピュータであり、搭載されている文字符号化方式も Shift_JIS を採用しているにもかかわらず、登録されている文字集合がバラバラだった。
以下、代表的な2つの実装を解説する。
1983 年、IBM は、日本語処理に重点を置いたデスクトップコンピュータ「マルチステーション5550」を発売することとなる。このコンピュータで利用する符号化文字集合を以下のように定めた。
- IBM のコードページ 932 の概要
こうしてできた DBCS-PC は 1990 年発売の DOS/V にも引き継がれることとなる。
一方 NEC は、1983年に PC-9800シリーズの漢字処理オプション提供を開始した。特に、MS-DOS および CP/M-86 搭載機における漢字 ROM に収容する文字集合を以下のように定めた。
- PC-9800 仕様 OEM コードページ 932 の概要
[編集] OEM コードページの統合
マイクロソフトは 1993 年、Windows3.1 の日本語版を出すにあたり、「CP932 の誕生と発展」節で述べたように多様化した「CP932」の仕様を OEM メーカーの自由に任せるという方針を撤回した。日本のパーソナルコンピュータ市場で、特に大きなシェアを持つ上記 2 社の統合コードを Windows における日本語標準コードとし、また、これを IANA に「Windows-31J」という名で登録した。IANA 登録名の「Windows-31J」とは、読んで字のごとく、「Windows3.1 Japanese」を意味している。IBM はマイクロソフトによる「CP932」の統合を受けて、「Windows-31J」と各文字のコードポイントまで同一にした「CP943」を策定し、同社の OS である OS/2、AIX、DBMS である DB2 などに搭載している。
統合の概要は以下のとおりである。
- Microsoft による IBM & NEC 統合の概要
-
- ベースとなる符号化文字集合として JIS X 0208-1990 を採用。
- NECが 9 - 13 区に登録していた特殊文字の内、13 区のものだけを継承。この 13 区登録の文字のことを「NEC 特殊文字」と命名。
- NEC が 89 - 92 区に登録していた漢字と非漢字は全て継承。このエリアの 374 文字のことを「NEC 選定 IBM 拡張文字」と命名。
- IBM が 115 - 119 区に登録していた漢字と非漢字も全て継承。このエリアの 388 文字のことを「IBM 拡張文字」と命名。
上記の統合以後は、「CP932」と言えば、マイクロソフトの技術文書以外でも、一般的に「Windows-31J」を指すようになった。しかし、統合前の文字セットが全く利用されなくなったというわけではない。例として、Java では、「CP932」が IBM の「CP932」を指し、「MS932」が「Windows-31J」を指す。JDK 1.4.1 以降では「MS932」の代わりに「Windows-31J」というキーワードでも「Windows-31J」文字セットを指定できるようになっている。
[編集] Windows-31J に重複登録されたコード
前節で触れたように、「Windows-31J」は NEC と IBM のそれぞれのコードを統合して作られた経緯があるため、統合の過程で重複する文字が登録されてしまっている。具体的には「NEC 選定 IBM 拡張文字」と「IBM 拡張文字」がまるごと重複しており、また「¬」「∵」については三重複している。
[編集] 重複文字が含まれる領域
重複文字が含まれる領域は以下の表のとおりである。
| 文字種名 | コードポイント | 区番号 |
|---|---|---|
| JIS X 0208 の非漢字(1983 年追加文字)の一部 | - | 2 区 |
| NEC 特殊文字 | 0x8740 - 0x879C | 13 区 |
| NEC 選定 IBM 拡張文字 | 0xED40 - 0xEEFC | 89 - 92 区 |
| IBM 拡張文字 | 0xFA40 - 0xFC4B | 115 - 119 区 |
[編集] 文字コード変換時の重複文字の影響
文字コード変換を行う際には、この重複文字というのは厄介になる。別の文字コードから、「Windows-31J」に変換する場合に、重複するどちらの文字へと変換するべきかが問題になる。
それに関して、Windows の API の仕様における優先順位は、以下のようになっている。
- JIS X 0208-1990 の登録文字である場合は、これに統一
- 例 : 「√(ルート)」、「∵(なぜならば)」、「¬(否定)」
- 「NEC 特殊文字」「IBM 拡張文字」が重複する場合は、「NEC 特殊文字」に統一
- 例 : 「№(ナンバー)」 、「㈱(かっこかぶ)」、「Ⅲ(大文字ローマ数字の3)」
- 「NEC 選定 IBM 拡張文字」「IBM 拡張文字」が重複する場合は、「IBM拡張文字」に統一
- 例 : 「﨑(たちざき)」 、「髙(はしごだか)」 、「ⅲ(小文字ローマ数字の 3)」
この基準に従って、Microsoft IME によって、「㈱(かっこかぶ)」を入力しようとした場合には、IBM 拡張文字のコードである“0xFA58”ではなく、NEC 特殊文字としてのコードである“0x878A”が引き当てられる。
[編集] インターネット上での Windows-31J の利用について
IANA の charset 登録簿には「Windows-31J」が登録されているが、「限定された、または特殊な使用のためのもの」とされており、インターネット上で用いることが推奨されるまでには至っていない。ただし、文字符号化方式として Shift JIS を用いてデータを交換し合う二者間において、明示的に使用が合意されている場合は、Windows-31J を使っても問題が無い。
Unicode 範囲を完全に表現可能な UTF-8 等の文字符号化方式を用いてデータの交換をする場合は、話が若干ややこしくなる。IBM 拡張文字等の Windows-31J 独自追加の文字は、他の JIS X 0208 非登録の CJK統合漢字に比べて、異機種(OS / アプリケーション)間でのデータ交換を、文字化けを起こしたりせずにデータのやり取りが正常に行える確率が高いからである。これについては、デスクトップ OS としての Windows の普及率が非常に高いことも理由の1つである。機種依存文字の項も併せて参照のこと。
とは言え、UTF-8 などのような Unicode の登録文字を全て利用できる文字符号化方式を利用している場合であっても、あえて JIS X 0208 登録文字だけを用いてデータ交換を行った方が、問題が起こりにくい。
[編集] NEC 特殊文字・IBM 拡張文字
NEC 特殊文字や IBM 拡張文字はもともとベンダの独断で作られた文字セットであるが、現在では各種の公的な規格でも全部または一部が採用されている。特に Unicode については、マイクロソフトが Unicode コンソーシアムのメンバーであるおかげで、NEC 特殊文字・IBM 拡張文字が全て基本多言語面に収録されている。
[編集] NEC 特殊文字
- Windows-31J
- 全 83 文字を、13 区に収録。
- 「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の 9 文字は 2 区にも重複して収録。
- 「∵」の 1 文字はさらに 115 区にも重複して収録。
- Unicode
- 83 文字全てを基本多言語 (BMP) 面に収録。
- JIS X 0212-1990
- 「№」の 1 文字を 2 区 81 点に収録。
- JIS X 0213:2004
- 「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の 9 文字は 2 区に収録。
- 「∑ (N-ARY SUMMATION)」の 1 文字は収録されていない。6 区 18 点のギリシャ大文字シグマ「Σ」で代用できるため。
- 上記以外の 73 文字は Windows-31J と同一区点(13 区)上に収録。
[編集] IBM 拡張文字
- Windows-31J
- 全 388 文字を、2 ないし 3 重複して収録。
- Unicode
- 388 文字全てを基本多言語 (BMP) 面に収録。
- JIS X 0212-1990
- 全 388 文字中 280 文字を収録。
- このうち漢字部分は 360 文字で、収録は 279 文字。
- JIS X 0213:2004
- 全 388 文字中 304 文字を収録。
- 漢字部分 360 文字については、うち 276 文字を収録。
- 富士通 JEF
- 「﨩」以外の 387 文字を収録。
- NEC JIPS
- 388 文字全てを収録。
- 日立製作所 KEIS (90)
- 「'」「"」以外の 386 文字を収録。
- IBM DBCS-Host
- 388 文字全てを収録。
- 三菱電機 JSII
- 388 文字全てを収録。
- 日本ユニシス Lets-J
- 388 文字中 328 文字を収録。
[編集] JIS X 0208 以外の公的規格にて登録のある NEC 特殊文字一覧
[編集] JIS X 0212-1990 に登録されている NEC 特殊文字(全部)
№
[編集] JIS X 0213:2004 に登録されている NEC 特殊文字(全部)
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ ⑱ ⑲ ⑳ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ㍉ ㌔ ㌢ ㍍ ㌘ ㌧ ㌃ ㌶ ㍑ ㍗ ㌍ ㌦ ㌣ ㌫ ㍊ ㌻ ㎜ ㎝ ㎞ ㎎ ㎏ ㏄ ㎡ ㍻ 〝 〟 № ㏍ ℡ ㊤ ㊥ ㊦ ㊧ ㊨ ㈱ ㈲ ㈹ ㍾ ㍽ ㍼ ≒ ≡ ∫ ∮ √ ⊥ ∠ ∟ ⊿ ∵ ∩ ∪
[編集] IBM 拡張文字を名前に持つ有名人
下記の名前の文字中、「髙」は「高」の、「﨑」は「崎」の俗字であり、康熙字典に根拠はない。
- 髙村薫(日本の小説家)
- 內田百閒(日本の小説家) - IBM 拡張文字として登録があるのは「閒」の方。ちなみに「内」の中の部分は康熙字典体に準拠した「入」である。
- 手塚治虫(日本の漫画家)
- 德永英明(日本のシンガーソングライター)
- 宮﨑あおい(日本の女優)
- 草彅剛(日本のタレント)
- 里見弴(日本の小説家)
- 李承燁(韓国のプロ野球選手)
- 鄭珉台(韓国のプロ野球選手)
- 鄧小平(中国の政治家)
| 文字コード | 髙 | 閒 | 塚 | 德 | 﨑 | 彅 | 弴 | 燁 | 珉 | 鄧 |
|---|---|---|---|---|---|---|---|---|---|---|
| JIS X 0208-1990 | 高 | 間 | 塚 | 徳 | 崎 | × | × | × | × | × |
| JIS X 0212-1990 | - | - | - | - | - | ○ | ○ | ○ | ○ | ○ |
| JIS X 0213:2004 | 高 | 間 | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ |
| Unicode 2.0 - | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ |
表中の漢字表示箇所については、その文字に包摂されている(同じ文字とみなされる)ことを表す。
[編集] JIS X 0208 以外の公的規格にて登録のある IBM 拡張文字一覧
[編集] 人名用漢字(2004 年改正)に登録されている IBM 拡張文字(全部)
寬 薰 瀨 增 德 賴 朗 橫 黑 緖 諸 祥 神 都 福 郞
[編集] JIS X 0212-1990 に登録されている IBM 拡張文字(全部)
№ 丨 仡 伀 伃 伹 佖 侊 侒 侔 侚 俉 俍 俿 倞 倢 偀 偂 偆 偰 傔 僘 兊 兤 冝 冾 刕 劜 劦 劯 勀 勛 匀 卲 厓 厲 叝 咜 咩 哿 喆 坥 垬 埇 埈 墲 夋 奓 奛 奝 奣 妤 妺 孖 寀 寘 尞 岦 岺 崧 嵂 嵭 嶸 嶹 巐 弡 弴 彅 彧 忞 恝 悊 惕 惞 惲 愑 愰 愷 憘 戓 抦 揵 摠 撝 擎 昀 昉 昕 昞 昤 昮 昱 晗 晙 曻 晳 暙 暠 暲 暿 曺 朎 杦 枻 柀 桒 桄 棈 棏 楨 榘 槢 樰 橆 橳 橾 櫤 毖 氿 汜 汯 沆 泚 洄 浯 涇 涖 涬 淏 淼 渧 渹 渼 湜 溿 澈 澵 濵 瀅 瀇 炅 炫 焄 焏 煆 煇 煜 燁 燾 犱 犾 猤 獷 玽 珉 珒 珖 珣 珵 琇 琦 琩 琪 琮 瑢 璉 璟 甯 畯 皛 皜 皦 睆 砡 硎 硤 硺 禔 禛 竑 竫 箞 絈 絜 綷 繒 纊 罇 羡 茁 荿 菇 菶 葈 蒴 蓜 蕓 蕙 蕫 裵 褜 訒 訷 詹 誧 誾 諟 諶 譓 賰 贒 軏 遧 鄧 釗 釚 釞 釤 釥 釭 釮 鈆 鈊 鈐 鈹 鈺 鈼 鉀 鉎 鉑 鉙 鉧 鉷 鉸 銈 銧 鋐 鋓 鋕 鋗 鋙 鋠 鋧 鋹 鋻 鋿 錂 錝 錞 錡 錥 鍈 鍗 鍰 鎤 鏆 鏞 鏸 鐱 鑅 鑈 隝 隯 霳 靃 靏 靕 顗 顥 餧 驎 髜 魵 鮏 鮱 鮻 鰀 鵫 鵰 鸙
[編集] JIS X 0213:2004 に登録されている IBM 拡張文字(全部)
ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ¬ ¦ ' " ㈱ № ℡ ∵ 丨 仡 伃 佖 侊 侔 俉 偀 傔 兊 冝 刕 勛 匀 匇 厓 厲 咜 咩 哿 喆 﨏 埇 埈 塚 增 奝 妤 孖 寘 寬 尞 岺 崧 﨑 嵓 嵭 嶸 弴 彅 彧 德 忞 惕 愰 愷 揵 摠 擎 昀 昉 昕 昞 昤 昱 曻 晙 晥 晳 暠 暲 曺 朗 杦 枻 柀 栁 桒 棈 楨 﨔 槢 橫 橳 櫤 毖 汜 沆 洄 涇 涬 淼 湜 澈 濵 瀅 瀨 炅 炫 焏 煆 煇 煜 凞 燁 燾 犾 猪 珉 珖 珣 琇 琦 琪 琮 瑢 璉 璟 甁 甯 畯 皛 皞 皦 睆 硎 神 祥 福 竫 箞 絈 絜 綠 緖 繒 纊 罇 茁 荢 菇 葈 蒴 蕙 﨟 薰 裵 褜 訒 訷 詹 誧 諟 諶 諸 賴 贒 郞 都 鄕 鄧 釗 釤 釥 釭 鈐 鈹 鈺 鈼 鉀 鉸 銈 鋓 鋠 鋿 錡 錥 鍈 鍰 鏆 鏞 隆 隝 霳 霻 靍 靏 顗 顥 馞 驎 魲 魵 鮏 鰀 鵰 黑 伀 侒 侚 倞 倢 偂 偆 偰 劦 劯 匤 咊 垬 夋 奛 寀 岦 嵂 嶹 悊 惲 憘 抦 撝 晗 暙 暿 桄 﨓 棏 榘 樰 橆 橾 氿 泚 淏 渧 渼 溿 澵 瀇 炻 焄 犱 獷 皜 砡 硤 礰 禔 禛 竑 竧 綷 荿 蓜 蕓 蘒 﨡 誾 譿 賰 﨤 釚 釮 鈊 鉎 鉑 鉙 鉧 銧 鋐 鋗 鋙 鋧 鋹 鋻 錂 錝 錞 鍗 鑅 隯 靕 髜 鮱 鵫 鸙
[編集] CP932 の利用者定義領域
CP932 においては、95 - 114 区までの 1880 文字の領域が「利用者定義領域(外字領域)」となっている。
Unicode との変換について、Windows API の仕様では、BMP面の私用領域 6400 文字分の領域の先頭から 1880 文字目までと、95 - 114 区の当領域を 1 対 1 の写像変換するようになっている。
[編集] Windows-31J 以外のベンダ拡張シフト JIS
[編集] アップルコンピュータのシフト JIS
アップルコンピュータは自社のコンピュータの OS として MS-DOS や CP/M-86 を採用しなかったが、Macintosh が用いる文字コードとしてシフト JIS を利用した。
その Macintosh(漢字 Talk 7.1 以降)搭載のシフト JIS の 9 - 15 区にはアップルコンピュータ独自の特殊文字が登録されている。このエリアには 13 区が含まれるため、Windows-31Jの「NEC特殊文字」領域と被っている。文字の例を挙げれば、NEC 特殊文字の「①」は Apple 特殊文字の「㈰」が同じコードポイントに登録されている。さらに、117 区に「縦書き用文字」が登録されている点も Windows-31J と異なる。IBM 拡張文字の領域は存在しない[5]。この文字コードについては、MacJapanese を参照のこと。
漢字 Talk 6 以前の Macintosh では、NEC 互換のシフト JIS が使われており、13 区の NEC 特殊文字も Macintosh 上で利用できた。Mac OS X 標準ウェブブラウザの Safari では、Mac 用シフト JIS (MacJapanese) で表示するのか、Windows-31J で表示するのかを選択できる。
[編集] 富士通のシフト JIS
富士通の MS-DOS 搭載コンピュータの OEM コードページ 932 として使われる文字コードに、「R90」というものがある。これは FMR シリーズで利用された。この符号化文字集合の特徴は、87 - 93 区に「OASYS 拡張文字」の領域を持つことである。ベースとなる文字集合は JIS X 0208-1990 であるが、第一水準漢字の中で「78⇔83 非入替文字」でない漢字(203 文字)の字形を JIS C 6226-1978 に合わせてある点に特色がある。なお、富士通のマニュアル等では、「R90」のことを「SJIS (R90)」と呼び、「Windows-31J」のことを「SJIS (MS)」と呼んで区別している。
[編集] i モードのシフト JIS
NTTドコモの iモードは標準日本語コードにシフト JIS を採用している。この文字集合においては JIS X 0208-1990 を以下のように拡張している。
- 13区に PC-9800 シリーズ用の特殊文字が搭載されている。NEC 選定 IBM 拡張文字は搭載されていない。
- 112 - 114 区に絵文字を登録している。この 112 - 114 区というのは、CP932 における 95 - 114 区にある 1880 文字のユーザ外字登録領域の最後尾の位置に当たる。
[編集] 京セラ・AH-K3001V のシフト JIS
京セラの PHS・AH-K3001V の搭載するシフト JIS は、9 - 13 区に PC-9800 シリーズ用の特殊文字が搭載されている。
[編集] 「0x5c」と「0x7e」の文字について
「0x5c」と「0x7e」については、ASCII とも JIS X 0201 とも違う文字が登録されている。日本人の多くが「ASCII文字」と呼んでいるものは実は、「Windows-31J 文字」であるということも言われている。
| 0x5c | 0x7e | |
|---|---|---|
| ASCII | \(バックスラッシュ) | ~(チルダ) |
| JIS X 0201 | ¥(円記号) | ¯(オーバーライン) |
| Windows-31J | ¥(円記号) | ~(チルダ) |
[編集] マイクロソフトが規定する CP932 に関連があるコード
E メールで用いるために 7 ビットコードで「Windows-31J」の文字集合(=マイクロソフト標準キャラクタセット[6])を表現した「CP50220」や、GR 領域にマイクロソフト標準キャラクタセットを表現した「CP51932」というものがある。これらは、マイクロソフトの Internet Explorer や、EmEditor、秀丸エディタなどの Windows アプリケーションで利用されている。
| IE6.0 における表記 | Microsoft のコードページ | 文字集合と符号化方式 |
|---|---|---|
| 日本語(シフト JIS) | CP932 | マイクロソフト標準キャラクタセットをシフト符号化表現 |
| 日本語 (JIS) | CP50220 | マイクロソフト標準キャラクタセットを RFC1468 符号化表現 |
| 日本語 (EUC) | CP51932 | マイクロソフト標準キャラクタセットを GR 表現[7] |
| Unicode | CP1200 | Unicode を UTF-16 (Little Endian) で符号化 |
| Unicode (Big-Endian) | CP1201 | Unicode を UTF-16 (Big Endian) で符号化 |
| Unicode (UTF-8) | CP65001 | Unicode を UTF-8で符号化 |
[編集] 脚注
- ^ メインフレームにて搭載されている符号化文字集合。単に「IBM漢字」と呼ばれることも多い。IBM コードページ 300 という管理番号が割り振られている。日本語カナ版 EBCDIC(IBM コードページ 290)と組み合わせて IBM コードページ 930 として用いられたり、日本語英小文字版 EBCDIC(IBM コードページ 1027)と組み合わせて IBM コードページ 939 として用いられることが多い。
- ^ マイクロソフトおよび IBM は、それぞれ独自に「コードページ ###(# は数字)」という形で、符号化文字集合を管理している。また、同じ番号のコードページ同士が同じ文字集合を指しているわけではない。
- ^ JIPSは、NEC が 1979年に開発したメインフレーム用の日本語処理システムの名前だが、ここではそのシステムで使われる符号化文字集合を以って JIPS と呼ぶ。JIPS では「JIS C 6226-1978」が GL に呼び出され、その 9 - 13 区に特殊文字が実装され、また、GR 領域に「G1 集合」と呼ばれる拡張漢字領域が実装されている。
- ^ NEC としては、JIPS の G1 集合を収める方が建前として良かったのかもしれない。しかし、CP/M-86 や MS-DOS などのオペレーティングシステム (OS) 搭載機においては、符号化方式としてシフト JIS が前提だった。G1 集合部分を収めるには配置制約を大きく受けることになるため断念したものと考えられる。また、漢字 ROM 容量の都合上、G1 集合部分を収めても利用することは不可能だったとも考えられる。
- ^ マイクロソフトはこのコードに対して、コードページ 10001 という管理番号を付与している。
- ^ 本節では、マイクロソフト標準キャラクタセットが JIS X 0208 のコードポイントを拡張する形で表現されているものと仮定した場合の説明を行っている。
- ^ マイクロソフトは「CP51932」のほかに「CP20932」という EUC-JP に似たコードページを有している。「CP20932」は上位バイト 0xa0 - 0xfe、下位バイト 0x20 - 0x7e という 2 バイトの組み合わせを利用することで補助漢字を表現する。eucJP-open との対応においては、「CP51932」よりも「CP20932」の方が、レパートリの一致度が高い。
[編集] 関連項目
[編集] 外部リンク
- Microsoft Windows Codepage 932
- Microsoft .NET Framework クラスライブラリ Encoding クラス
- Windows-31J 情報
- 通信で使って良い文字、悪い文字
- cp932 to Unicode table
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||