Microsoftコードページ932

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索
この項目には、一部のコンピュータや閲覧ソフトで表示できない文字(NEC 特殊文字、IBM 拡張文字、MacJapanese)が含まれています詳細

Microsoft コードページ 932(以下 CP932)は、マイクロソフト及び、MS-DOSOEM ベンダが Shift_JIS を独自に拡張した文字コードである。また同時に、CP932 は Shift_JIS の Windows アプリケーションにおける「実装」を指す用語であるとも言える。

この項では、主に Shift_JIS におけるマイクロソフトおよび各ベンダの独自拡張部分について言及する。ベンダ独自拡張部分以外の内容については、Shift_JIS を参照されたい。

また、マイクロソフト標準キャラクタセットの項目も併せて参照されたい。

目次

CP932の呼称(別名)の整理 [編集]

Windows-31J
Windows 3.1 (J) のリリースに合わせて、マイクロソフトが IBM日本電気 (NEC) のコードを統合して作った符号化文字集合。1993 年以降、マイクロソフトが自社のドキュメント等で「CP932」という用語を使って表している対象は、常にこの「Windows-31J」である。この名前は IANA に登録されている。
MS932
Java で、「IBM のコードページ 932」と「Windows-31J」を区別するための用語。
CP932
MS-DOS と Windows における日本語コードページを表す用語。「Windows-31J」が制定されるまでは、OEM ベンダによって文字集合が違う。
MS 漢字コード
「CP932」とほぼ同じ意味の用語である。マイクロソフトが(Shift_JIS という符号化方式を)策定したという点や、マイクロソフトが(JIS X 0208 という文字集合に対して)文字を独自に追加した点を強調したい場合に用いられる。また、単に「シフト JIS」のことを指している場合もある。
OEM コードページ 932
Windows 3.1 日本語版の発売以前における、OEM ベンダ各自の拡張を許した仕様の文字セット。

以下は、マイクロソフトから離れ、現在では公的機関からも認められた文字符号化方式を指す用語である。

シフト JIS
JIS X 0208 符号化文字集合を一定の規則に従ってシフトした文字符号化方式。具体的な内容は JIS X 0208:1997 に「シフト符号化表現」として記載がある。しかし、文脈によってはベンダ拡張されたコードセットを指している場合もある。
Shift_JIS
「シフトJIS」の IANA 登録名。
SJIS
Shift_JIS の短縮形。Java では Shift_JIS と同義語。

CP932 の誕生と発展 [編集]

CP932 が、現在の「Windows-31J」の形として完成に至るまでには複雑な経緯がある。

1982年(JIS X 0208-1983 策定の前年)、JIS C 6226 を複雑にシフトさせた文字符号化方式として Shift_JIS が誕生した。この符号化方式(を利用した拡張符号化文字集合)は、マイクロソフトにより MS-DOS における標準日本語コードとして採用され、「コードページ 932 (CP932)」という管理番号を与えられた。

ところで、マイクロソフトは MS-DOS における唯一の日本語用コードページである、この「CP932」を OEM メーカーの自由に任せていた。そのため、NEC の PC-9800 シリーズ、IBM の PS/55 シリーズ富士通FMRシリーズなどは全て MS-DOS を搭載しているコンピュータであり、搭載されている文字符号化方式も Shift_JIS を採用しているにもかかわらず、登録されている文字集合がバラバラだった。

以下、代表的な2つの実装を解説する。

1983 年、IBM は、日本語処理に重点を置いたデスクトップコンピュータ「マルチステーション5550」を発売することとなる。このコンピュータで利用する符号化文字集合を以下のように定めた。

IBM のコードページ 932 の概要
  • Shift_JIS をベースとする。
  • JIS C 6226 が規定する 94 区×94 点の領域に拡張文字追加を行なわない。
  • 95 - 114 区をユーザ外字領域とする。
  • 115 - 119 区に JIS C 6226 に非登録の DBCS-Host[1]文字を登録することで、DBCS-Host の文字セット全体を表現する。
  • 2 バイト文字部分だけの符号化文字集合の名称を DBCS-PC とし、コードページ番号[2]として「301」を割り当てる。
  • 1 バイト・2 バイト文字全体の符号化文字集合のコードページ番号として「932」を割り当てる。

こうしてできた DBCS-PC は 1990 年発売の DOS/V にも引き継がれることとなる。

一方 NEC は、1983年PC-9800シリーズの漢字処理オプション提供を開始した。特に、MS-DOS および CP/M-86 搭載機における漢字 ROM に収容する文字集合を以下のように定めた。

PC-9800 仕様 OEM コードページ 932 の概要
  • Shift_JIS をベースとする。
  • JIPS[3]の 9 - 13 区の特殊文字領域をそのままの区点番号で配置。
  • JIS C 6226-1978 非漢字・第一水準漢字・第二水準漢字はそのままの字形で、そのままの区点番号に配置。
  • IBM のメインフレームの「IBM 漢字 (DBCS-Host)」の中で JIS C 6226 に登録の無い漢字を IBM の DBCS-PC と同様の並びで 89 - 92 区に配置[4]。DBCS-PC と違い、115 - 119 区ではなく、GL 表現も可能なように追加文字全てを 94 区内に全て配置した。

OEM コードページの統合 [編集]

マイクロソフトは 1993 年、Windows3.1 の日本語版を出すにあたり、「CP932 の誕生と発展」節で述べたように多様化した「CP932」の仕様を OEM メーカーの自由に任せるという方針を撤回した。日本のパーソナルコンピュータ市場で、特に大きなシェアを持つ上記 2 社の統合コードを Windows における日本語標準コードとし、また、これを IANA に「Windows-31J」という名で登録した。IANA 登録名の「Windows-31J」とは、読んで字のごとく、「Windows3.1 Japanese」を意味している。IBM はマイクロソフトによる「CP932」の統合を受けて、「Windows-31J」と各文字のコードポイントまで同一にした「CP943」を策定し、同社の OS である OS/2AIXDBMS である DB2 などに搭載している。

統合の概要は以下のとおりである。

Microsoft による IBM & NEC 統合の概要
  • ベースとなる符号化文字集合として JIS X 0208-1990 を採用。
  • NECが 9 - 13 区に登録していた特殊文字の内、13 区のものだけを継承。この 13 区登録の 83 文字のことを「NEC 特殊文字」と命名。
  • NEC が 89 - 92 区に登録していた漢字と非漢字は全て継承。このエリアの 374 文字のことを「NEC 選定 IBM 拡張文字」と命名。
  • IBM が 115 - 119 区に登録していた漢字と非漢字も全て継承。このエリアの 388 文字のことを「IBM 拡張文字」と命名。

上記の統合以後は、「CP932」と言えば、マイクロソフトの技術文書以外でも、一般的に「Windows-31J」を指すようになった。しかし、統合前の文字セットが全く利用されなくなったというわけではない。例として、Java では、「CP932」が IBM の「CP932」を指し、「MS932」が「Windows-31J」を指す。JDK 1.4.1 以降では「MS932」の代わりに「Windows-31J」というキーワードでも「Windows-31J」文字セットを指定できるようになっている。

Windows-31J に重複登録されたコード [編集]

前節で触れたように、「Windows-31J」は NEC と IBM のそれぞれのコードを統合して(互換性を維持する形で)作られた経緯があるため文字の重複があり、大づかみに言えば「NEC 選定 IBM 拡張文字」と「IBM 拡張文字」がほぼまるごと重複している。漢字部分についていえば、すべての漢字がきっかり2つずつ登録されている。

以下、拡張文字を(非符号化)文字集合として詳しく見ると、まずNEC選定IBM拡張は漢字360文字と小文字のローマ数字「ⅰ」‐「ⅹ」、および「¬」「¦」「'」「"」で構成されるが、これらはすべてIBM拡張に含まれる。IBM拡張はこのNEC選定IBM拡張に、大文字のローマ数字「Ⅰ」‐「Ⅹ」と「㈱」「№」「℡」「∵」の計14文字を加えたものである。そしてこの差分の14文字はすべてNEC特殊文字にも含まれており、NEC特殊文字はこの14文字と、IBM拡張・NEC選定IBM拡張のいずれにも含まれない69文字で構成される。したがってNEC選定IBM拡張文字とNEC特殊文字を合わせると、過不足のない拡張文字の集合の全体になる。また、これらのうちでJIS X 0208:1990(実質最新)と重複するのは非漢字のみであり、それは3重複である「¬」「∵」の2文字と、NEC特殊文字との2重複である「≒」「≡」「∫」「√」「⊥」「∠」「∩」「∪」の8文字である。なお、JIS X 0208:1990の持つこれら10文字の重複はすべて、JIS X 0208:1983の段階で追加された文字である。

重複文字が含まれる領域 [編集]

重複文字が含まれる領域は以下の表のとおりである。

文字種名 コードポイント 区番号 重複文字数
JIS X 0208 の非漢字(1983 年追加文字)の一部 - 2 区 10文字
NEC 特殊文字 0x8740 - 0x879C 13 区 22文字
NEC 選定 IBM 拡張文字 0xED40 - 0xEEFC 89 - 92 区 374文字(全部)
IBM 拡張文字 0xFA40 - 0xFC4B 115 - 119 区 388文字(全部)

文字コード変換時の重複文字の影響 [編集]

文字コード変換を行う際には、この重複文字というのは厄介になる。別の文字コードから、「Windows-31J」に変換する場合に、重複するどちらの文字へと変換するべきかが問題になる。

それに関して、Windows の API の仕様における優先順位は、以下のようになっている。

  1. JIS X 0208-1990 の登録文字である場合は、これに統一
    • 例 : 「(ルート)」、「(なぜならば)」、「(否定)」
  2. 「NEC 特殊文字」「IBM 拡張文字」が重複する場合は、「NEC 特殊文字」に統一
    • 例 : 「(ナンバー)」 、「(かっこかぶ)」、「(大文字ローマ数字の3)」
  3. 「NEC 選定 IBM 拡張文字」「IBM 拡張文字」が重複する場合は、「IBM拡張文字」に統一
    • 例 : 「(たちざき)」 、「(はしごだか)」 、「(小文字ローマ数字の 3)」

この基準に従って、Microsoft IME によって、「(かっこかぶ)」を入力しようとした場合には、IBM 拡張文字のコードである“0xFA58”ではなく、NEC 特殊文字としてのコードである“0x878A”が引き当てられる。

インターネット上での Windows-31J の利用について [編集]

IANA の charset 登録簿には「Windows-31J」が登録されているが、「限定された、または特殊な使用のためのもの」とされており、インターネット上で用いることが推奨されるまでには至っていない。ただし、文字符号化方式として Shift_JIS を用いてデータを交換し合う二者間において、明示的に使用が合意されている場合は、Windows-31J を使っても問題が無い。

Unicode 範囲を完全に表現可能な UTF-8 等の文字符号化方式を用いてデータの交換をする場合は、話が若干ややこしくなる。IBM 拡張文字等の Windows-31J 独自追加の文字は、他の JIS X 0208 非登録の CJK統合漢字に比べて、異機種(OS / アプリケーション)間でのデータ交換を、文字化けを起こしたりせずにデータのやり取りが正常に行える確率が高いからである。これについては、デスクトップ OS としての Windows の普及率が非常に高いことも理由の1つである。機種依存文字の項も併せて参照のこと。

とは言え、UTF-8 などのような Unicode の登録文字を全て利用できる文字符号化方式を利用している場合であっても、あえて JIS X 0208 登録文字だけを用いてデータ交換を行った方が、問題が起こりにくい。

NEC 特殊文字・IBM 拡張文字 [編集]

NEC 特殊文字や IBM 拡張文字はもともとベンダの独断で作られた文字セットであるが、これがデファクトスタンダードとしての影響力を持った結果として[要出典]現在では各種の公的な規格でも全部または一部が採用されている。

NEC 特殊文字 [編集]

Windows-31J
全 83 文字を、13 区に収録。
「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の 9 文字は 2 区にも重複して収録。
「∵」の 1 文字はさらに 115 区にも重複して収録。
Unicode
83 文字全てを基本多言語 (BMP) 面に収録。
JIS X 0212-1990
「№」の 1 文字を 2 区 81 点に収録。
JIS X 0213:2004
「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の 9 文字は 2 区に収録。
(N-ARY SUMMATION)」の 1 文字は収録されていない。6 区 18 点のギリシャ大文字シグマ「Σ」で代用できるため。
上記以外の 73 文字は Windows-31J と同一区点(13 区)上に収録。

IBM 拡張文字 [編集]

Windows-31J
全 388 文字を、2 ないし 3 重複して収録。
Unicode
388 文字全てを基本多言語面 (BMP) に収録。ただし、「羽」「都」「精」「祥」などその一部はCJK互換漢字としての採用であり、統合漢字において別の字体を標準とするコードポイントに包摂されているものである。Unicodeに基づいてこれらの字体を特定的に使用したい場合には、統合漢字のIVSを用いることが推奨されている。
JIS X 0212-1990
全 388 文字中 280 文字を収録。
このうち漢字部分は全 360 文字中 279 文字を収録。
JIS X 0213:2004
全 388 文字中 304 文字を収録。
このうち漢字部分は全 360 文字中 276 文字を収録。
富士通 JEF
「﨩」以外の 387 文字を収録。
NEC JIPS
388 文字全てを収録。
日立製作所 KEIS (90)
「'」「"」以外の 386 文字を収録。
IBM DBCS-Host
388 文字全てを収録。
三菱電機 JSII
388 文字全てを収録。
日本ユニシス Lets-J
388 文字中 328 文字を収録。

JIS X 0208 以外の公的規格にて登録のある NEC 特殊文字一覧 [編集]

JIS X 0212-1990 に登録されている NEC 特殊文字(全部) [編集]

JIS X 0213:2004 に登録されている NEC 特殊文字(全部) [編集]

① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ ⑱ ⑲ ⑳ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ㍉ ㌔ ㌢ ㍍ ㌘ ㌧ ㌃ ㌶ ㍑ ㍗ ㌍ ㌦ ㌣ ㌫ ㍊ ㌻ ㎜ ㎝ ㎞ ㎎ ㎏ ㏄ ㎡ ㍻ 〝 〟 № ㏍ ℡ ㊤ ㊥ ㊦ ㊧ ㊨ ㈱ ㈲ ㈹ ㍾ ㍽ ㍼ ≒ ≡ ∫ ∮ √ ⊥ ∠ ∟ ⊿ ∵ ∩ ∪

IBM 拡張文字を名前に持つ有名人 [編集]

下記の名前の文字中、「」は「高」の、「」は「崎」の俗字であり、康熙字典に根拠はない。

  • 村薫(日本の小説家)
  • 田百(日本の小説家) - IBM 拡張文字として登録があるのは「」の方。ちなみに「内」の中の部分は康熙字典体に準拠した「入」である。
  • 治虫(日本の漫画家)
  • 永英明(日本のシンガーソングライター)
  • あおい(日本の女優)
  • (日本のタレント)
  • 里見(日本の小説家)
  • 李承(韓国のプロ野球選手)
  • (韓国のプロ野球選手)
  • 小平(中国の政治家)
Windows-31J 以外における上記 IBM 拡張文字の収録状況
文字コード
JIS X 0208-1990 × × × × ×
JIS X 0212-1990 - - - - -
JIS X 0213:2004
Unicode 2.0 -

表中の漢字表示箇所については、その文字に包摂されている(同じ文字とみなされる)ことを表す。

JIS X 0208 以外の公的規格にて登録のある IBM 拡張文字一覧 [編集]

人名用漢字(2004 年改正)に登録されている IBM 拡張文字(全部) [編集]

寬 薰 瀨 增 德 賴 朗 橫 黑 緖 諸 祥 神 都 福 郞

JIS X 0212-1990 に登録されている IBM 拡張文字(全部) [編集]

№ 丨 仡 伀 伃 伹 佖 侊 侒 侔 侚 俉 俍 俿 倞 倢 偀 偂 偆 偰 傔 僘 兊 兤 冝 冾 刕 劜 劦 劯 勀 勛 匀 卲 厓 厲 叝 咜 咩 哿 喆 坥 垬 埇 埈 墲 夋 奓 奛 奝 奣 妤 妺 孖 寀 寘 尞 岦 岺 崧 嵂 嵭 嶸 嶹 巐 弡 弴 彅 彧 忞 恝 悊 惕 惞 惲 愑 愰 愷 憘 戓 抦 揵 摠 撝 擎 昀 昉 昕 昞 昤 昮 昱 晗 晙 曻 晳 暙 暠 暲 暿 曺 朎 杦 枻 柀 桒 桄 棈 棏 楨 榘 槢 樰 橆 橳 橾 櫤 毖 氿 汜 汯 沆 泚 洄 浯 涇 涖 涬 淏 淼 渧 渹 渼 湜 溿 澈 澵 濵 瀅 瀇 炅 炫 焄 焏 煆 煇 煜 燁 燾 犱 犾 猤 獷 玽 珉 珒 珖 珣 珵 琇 琦 琩 琪 琮 瑢 璉 璟 甯 畯 皛 皜 皦 睆 砡 硎 硤 硺 禔 禛 竑 竫 箞 絈 絜 綷 繒 纊 罇 羡 茁 荿 菇 菶 葈 蒴 蓜 蕓 蕙 蕫 裵 褜 訒 訷 詹 誧 誾 諟 諶 譓 賰 贒 軏 遧 鄧 釗 釚 釞 釤 釥 釭 釮 鈆 鈊 鈐 鈹 鈺 鈼 鉀 鉎 鉑 鉙 鉧 鉷 鉸 銈 銧 鋐 鋓 鋕 鋗 鋙 鋠 鋧 鋹 鋻 鋿 錂 錝 錞 錡 錥 鍈 鍗 鍰 鎤 鏆 鏞 鏸 鐱 鑅 鑈 隝 隯 霳 靃 靏 靕 顗 顥 餧 驎 髜 魵 鮏 鮱 鮻 鰀 鵫 鵰 鸙

JIS X 0213:2004 に登録されている IBM 拡張文字(全部) [編集]

ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ¬ ¦ ' " ㈱ № ℡ ∵ 丨 仡 伃 佖 侊 侔 俉 偀 傔 兊 冝 刕 勛 匀 匇 厓 厲 咜 咩 哿 喆 﨏 埇 埈 塚 增 奝 妤 孖 寘 寬 尞 岺 崧 﨑 嵓 嵭 嶸 弴 彅 彧 德 忞 惕 愰 愷 揵 摠 擎 昀 昉 昕 昞 昤 昱 曻 晙 晥 晳 暠 暲 曺 朗 杦 枻 柀 栁 桒 棈 楨 﨔 槢 橫 橳 櫤 毖 汜 沆 洄 涇 涬 淼 湜 澈 濵 瀅 瀨 炅 炫 焏 煆 煇 煜 凞 燁 燾 犾 猪 珉 珖 珣 琇 琦 琪 琮 瑢 璉 璟 甁 甯 畯 皛 皞 皦 睆 硎 神 祥 福 竫 箞 絈 絜 綠 緖 繒 纊 罇 茁 荢 菇 葈 蒴 蕙 﨟 薰 裵 褜 訒 訷 詹 誧 諟 諶 諸 賴 贒 郞 都 鄕 鄧 釗 釤 釥 釭 鈐 鈹 鈺 鈼 鉀 鉸 銈 鋓 鋠 鋿 錡 錥 鍈 鍰 鏆 鏞 隆 隝 霳 霻 靍 靏 顗 顥 馞 驎 魲 魵 鮏 鰀 鵰 黑 伀 侒 侚 倞 倢 偂 偆 偰 劦 劯 匤 咊 垬 夋 奛 寀 岦 嵂 嶹 悊 惲 憘 抦 撝 晗 暙 暿 桄 﨓 棏 榘 樰 橆 橾 氿 泚 淏 渧 渼 溿 澵 瀇 炻 焄 犱 獷 皜 砡 硤 礰 禔 禛 竑 竧 綷 荿 蓜 蕓 蘒 﨡 誾 譿 賰 﨤 釚 釮 鈊 鉎 鉑 鉙 鉧 銧 鋐 鋗 鋙 鋧 鋹 鋻 錂 錝 錞 鍗 鑅 隯 靕 髜 鮱 鵫 鸙

CP932 の利用者定義領域 [編集]

CP932 においては、95 - 114 区までの 1880 文字の領域が「利用者定義領域外字領域)」となっている。

Unicode との変換について、Windows API の仕様では、BMP面の私用領域 6400 文字分の領域の先頭から 1880 文字目までと、95 - 114 区の当領域を 1 対 1 の写像変換するようになっている。

Windows-31J 以外のベンダ拡張シフト JIS [編集]

アップルコンピュータのシフト JIS [編集]

アップルコンピュータは自社のコンピュータの OS として MS-DOS や CP/M-86 を採用しなかったが、Macintosh が用いる文字コードとしてシフト JIS を利用した。

その Macintosh(漢字 Talk 7.1 以降)搭載のシフト JIS の 9 - 15 区にはアップルコンピュータ独自の特殊文字が登録されている。このエリアには 13 区が含まれるため、Windows-31Jの「NEC特殊文字」領域と被っている。文字の例を挙げれば、NEC 特殊文字の「」は Apple 特殊文字の「」が同じコードポイントに登録されている。さらに、117 区に「縦書き用文字」が登録されている点も Windows-31J と異なる。IBM 拡張文字の領域は存在しない[5]。この文字コードについては、MacJapanese を参照のこと。

漢字 Talk 6 以前の Macintosh では、NEC 互換のシフト JIS が使われており、13 区の NEC 特殊文字も Macintosh 上で利用できた。Mac OS X 標準ウェブブラウザSafari では、Mac 用シフト JIS (MacJapanese) で表示するのか、Windows-31J で表示するのかを選択できる。

富士通のシフト JIS [編集]

富士通の MS-DOS 搭載コンピュータの OEM コードページ 932 として使われる文字コードに、「R90」というものがある。これは FMR シリーズで利用された。この符号化文字集合の特徴は、87 - 93 区に「OASYS 拡張文字」の領域を持つことである。ベースとなる文字集合は JIS X 0208-1990 であるが、第一水準漢字の中で「78⇔83 非入替文字」でない漢字(203 文字)の字形を JIS C 6226-1978 に合わせてある点に特色がある。なお、富士通のマニュアル等では、「R90」のことを「SJIS (R90)」と呼び、「Windows-31J」のことを「SJIS (MS)」と呼んで区別している。

i モードのシフト JIS [編集]

NTTドコモiモードは標準日本語コードにシフト JIS を採用している。この文字集合においては JIS X 0208-1990 を以下のように拡張している。

  • 13区に PC-9800 シリーズ用の特殊文字が搭載されている。NEC 選定 IBM 拡張文字は搭載されていない。
  • 112 - 114 区に絵文字を登録している。この 112 - 114 区というのは、CP932 における 95 - 114 区にある 1880 文字のユーザ外字登録領域の最後尾の位置に当たる。

京セラ・AH-K3001V のシフト JIS [編集]

京セラPHSAH-K3001V の搭載するシフト JIS は、9 - 13 区に PC-9800 シリーズ用の特殊文字が搭載されている。

「0x5c」と「0x7e」の文字について [編集]

「0x5c」と「0x7e」については、ASCII とも JIS X 0201 とも違う文字が登録されている[要検証 ]。日本人の多くが「ASCII文字」と呼んでいるものは実は、「Windows-31J 文字」であるということも言われている。(しかし少なくともIANAにおけるWindows-31Jの定義はJIS X 0201を用いるものである)

0x5c 0x7e
ASCII \バックスラッシュ ˜ (チルダ
JIS X 0201 ¥ (円記号 ‾ (オーバーライン
Windows-31J ¥ (円記号) ˜ (チルダ)

マイクロソフトが規定する CP932 に関連があるコード [編集]

E メールで用いるために 7 ビットコードで「Windows-31J」の文字集合(=マイクロソフト標準キャラクタセット[6])を表現した「CP50220」や、GR 領域にマイクロソフト標準キャラクタセットを表現した「CP51932」というものがある。これらは、マイクロソフトの Internet Explorer や、EmEditor秀丸エディタなどの Windows アプリケーションで利用されている。

Internet Explorer 6.0(日本語版)における表記と Microsoft コードページの対応
IE6.0 における表記 Microsoft のコードページ 文字集合と符号化方式
日本語(シフト JIS) CP932 マイクロソフト標準キャラクタセットをシフト符号化表現
日本語 (JIS) CP50220 マイクロソフト標準キャラクタセットを RFC1468 符号化表現
日本語 (EUC) CP51932 マイクロソフト標準キャラクタセットを GR 表現[7]
Unicode CP1200 UnicodeUTF-16 (Little Endian) で符号化
Unicode (Big-Endian) CP1201 Unicode を UTF-16 (Big Endian) で符号化
Unicode (UTF-8) CP65001 Unicode を UTF-8で符号化

脚注 [編集]

[ヘルプ]
  1. ^ メインフレームにて搭載されている符号化文字集合。単に「IBM漢字」と呼ばれることも多い。IBM コードページ 300 という管理番号が割り振られている。日本語カナ版 EBCDIC(IBM コードページ 290)と組み合わせて IBM コードページ 930 として用いられたり、日本語英小文字版 EBCDIC(IBM コードページ 1027)と組み合わせて IBM コードページ 939 として用いられることが多い。
  2. ^ マイクロソフトおよび IBM は、それぞれ独自に「コードページ ###(# は数字)」という形で、符号化文字集合を管理している。また、同じ番号のコードページ同士が同じ文字集合を指しているわけではない。
  3. ^ JIPSは、NEC が 1979年に開発したメインフレーム用の日本語処理システムの名前だが、ここではそのシステムで使われる符号化文字集合を以って JIPS と呼ぶ。JIPS では「JIS C 6226-1978」が GL に呼び出され、その 9 - 13 区に特殊文字が実装され、また、GR 領域に「G1 集合」と呼ばれる拡張漢字領域が実装されている。
  4. ^ NEC としては、JIPS の G1 集合を収める方が建前として良かったのかもしれない。しかし、CP/M-86 や MS-DOS などのオペレーティングシステム (OS) 搭載機においては、符号化方式としてシフト JIS が前提だった。G1 集合部分を収めるには配置制約を大きく受けることになるため断念したものと考えられる。また、漢字 ROM 容量の都合上、G1 集合部分を収めても利用することは不可能だったとも考えられる。
  5. ^ マイクロソフトはこのコードに対して、コードページ 10001 という管理番号を付与している。
  6. ^ 本節では、マイクロソフト標準キャラクタセットが JIS X 0208 のコードポイントを拡張する形で表現されているものと仮定した場合の説明を行っている。
  7. ^ マイクロソフトは「CP51932」のほかに「CP20932」という EUC-JP に似たコードページを有している。「CP20932」は上位バイト 0xa0 - 0xfe、下位バイト 0x20 - 0x7e という 2 バイトの組み合わせを利用することで補助漢字を表現する。eucJP-open との対応においては、「CP51932」よりも「CP20932」の方が、レパートリの一致度が高い。

関連項目 [編集]

外部リンク [編集]