ノート:全角と半角

ページのコンテンツが他言語でサポートされていません。

出典提示要請[編集]

パソコン通信の時代に、1行内に全角文字と半角文字を混ぜると化けるので、全角が使われたという話を聞いたことがあります。もっとも、自身はパソコン通信の世代ではありませんし、第一、情報源と呼べる資料の持ち合わせもありません(ゆえに残念ながら件の記述を自ら復元する意思は現在ありません)が参考になれば幸いです。--Wdpp 2008年12月30日 (火) 12:06 (UTC)[返信]

  • JIS C 6226の制定作業の当初は、JIS C 6220 (後にJIS X 0201と改称) に規定するラテン文字集合を符号表の最初の区の前 (いわば第0区) に置き、前者を後者の拡張規格とすることも検討された - {{要出典}}タグを貼る
    自分の記述ですが、情報源を忘れました。出典の明記にご協力願います。

適切な情報源が提示されたら、タグをはがしてください。しばらくたっても提示されない場合は、記述を除去してください。 --Hatukanezumi 2008年1月2日 (水) 04:03 (UTC)[返信]

後者についてですが、JIS X 0208:1997規格票のpp.378-379で似たような話を見たことがあります。ただしそこではJIS X 0202と整合しない第0区ではなく、第1区にラテン文字集合を置くことになっていました。
オンラインでは94^2文字集合の誕生(頻繁に503が出るのでキャッシュも)に言及があるようです。ここでは解説図3と書かれていますが、実際には解説図2です。
--emk 2008年1月2日 (水) 07:27 (UTC)[返信]
規格票を読み直してみました。

第1次規格の本来の意図は, JIS X 0201の図形文字すべてを含めることにあった。〔中略〕

符号化文字集合規格としては, ISO 646との互換性を保つため, ISO 646で規定する図形文字については, 符号位置を変更してはならなかったはずである。事実, JIS X 0202の第1次規格の“解説”では, 想定されていた符号化文字集合を解説図2のように図示している。

この点では, この規格で規定する符号化文字集合の非漢字部分は, 第1次規格以来, 本来の目的とは異なっており, 国際規格と整合的ではない。

この欠陥は, 今回の改正においても補正することはできなかった。

(JIS X 0208:1997 解説2.2.3「第1次規格の非漢字」p.378)
なんか芝野節という感じですがそれはともかく、その解説図2では、1区から順に「ローマ文字」、「片仮名」、「平仮名」、「漢字」が配当される図が再掲されています。ただ、これだけでは「JIS X 0201の図形文字すべて」を1区にそのまま入れるという話かどうかわかりませんね (余談ですが、Unicodeの制定作業当初も「符号位置はたっぷりあるんだから、各国の文字集合を面ごとに入れれば解決じゃないか」みたいな議論はあったようですけども、JIS X 0208の現在の1区のようにラテン文字だけではない状況は話が違います)。わたし自身も、もうすこし調べてみます。 --Hatukanezumi 2008年1月2日 (水) 10:44 (UTC)[返信]
私も図を見てそうは思ったのですが、WP:NOR的には規格票の解説が「そのまま含めることを意図していた」と主張してるならそれをそのまま紹介すべきで、われわれが分析、総合、解釈、評価を加えるべきでないという見方もできます。解説の見解に対して何か別の信頼できる情報源から反論とか矛盾した情報が出てくるなら話は別ですが。というわけで追加調査には反対しません。--emk 2008年1月2日 (水) 14:57 (UTC)[返信]
「符号位置を変更してはならなかったはず」というのは、第5次規格原案を作成した符号化文字集合調査研究委員会の見解であって、当初そのようなことが想定されていたかどうかとは別です (そうすべきだった、と後づけで言っているにすぎない)。第1次規格のコピーを入手したいところですが、規格協会は平日昼間しかやってないからなあ。とりあえず、「いわば第0区」は除去しました。 --Hatukanezumi 2008年1月2日 (水) 15:11 (UTC)[返信]
とりあえず公表された資料としては、JIS C 6228-1975のp.17に、このあたりに関する解説があったりします。一応、引用しますね。「複数バイトG0集合は,漢字など大規模なキャラクタ集合を表現するために設けられたものである。この概念をISO規格に導入するに当たっては多くの曲折があったが、このような大規模キャラクタ集合は,我が国の漢字集合だけでなくドクメンテーションなど94文字を越える字種を必要とするアプリケーションにも有用な場合があること,並びに複式バイト方式によってもISO 7単位符号との互換性が十分に保たれることの2点について,基本的な理解と合意に達した結果 実現したものである。」(複式ママ)で、この文章を説明するための図として、JIS C 6228-1975のp.19に「解説図1」が入ってて、それをそのままコピーしたのがJIS X 0208:1997のp.379「解説図2」です。ですので、ISO 7単位符号のローマ字(つまり当時のJIS C 6220ローマ字)を、1974年以前には「1区」に置くつもりだったように読めます。ところが『情報交換のための漢字符号の標準化に関する調査研究報告書』(日本情報処理開発センター, 1975年3月)によると、JISの原案委員会は、これを「3区」に移してしまった上で、記号類を1~2区に取り出してしまった。それで、今のJIS X 0208の3区は、あんな隙間のあいた構造になった、という風に読めます。--安岡孝一 2008年1月4日 (金) 09:43 (UTC)[返信]
ご教示ありがとうございます。そういえば3区はISO/IEC 646の英数字と一致していますね。「ISO 7単位符号との互換性が十分に保たれる」と言っているということは、符号位置も変えないつもりだったと見ていいのだろうとおもいます。1975年報告書も見てみることにします。とりあえず、いまの記事はいろいろ間違ってるところを訂正します。 --Hatukanezumi 2008年1月4日 (金) 14:25 (UTC)[返信]
  • 未了... 2点めについては、JIS X 0208:1997解説2.2.3を出典として挙げました。安岡孝一さんの示した資料と合わせれば十分な気もしますが、とりあえず{{要検証}}を貼り、もうすこし調べてみたいとおもいます。 --Hatukanezumi 2008年1月5日 (土) 11:58 (UTC)[返信]
日本情報処理開発協会 (JIPDEC; 情報処理開発センターの後身) に問い合わせたところ、『調査研究報告書』は1975年、1976年とも在庫がないそうです。貸し出せるものもないとのこと。探すのが面倒だったのかもね。いまのJIPDECにとっては重要なことではないだろうから。そういうわけで、東京タワー蝋人形館見学もキャンセル。国立国会図書館にも蔵書がないようです。
ただ、加筆したGB 2312-80付属書3の事例のように、当時の東アジアの文字集合規格関係者の間で、重複符号化と文字幅についての問題意識が存在していたことは確かだとおもわれます。いずれにせよ、現時点ではこれ以上調べられません。
いったん{{要検証}}をはがして、この節は閉じたいとおもいます。 --Hatukanezumi 2008年4月29日 (火) 04:36 (UTC)[返信]

「半角と全角の違い」節[編集]

「全角と半角の違い」節をいったんコメントアウトしました。

全体として、例示字形の比較によって「違い」を論じていることによって、独自の研究になっているとおもいます。

  • 実装上のタイプフェイスに違いがあると言いたいのなら、そうであることの出典を示すべきです。
  • カンマの後のスペースの有無は、一般的に正しくありません。そもそも、字形自体にスペースを含んでいたりいなかったりするわけではありません。
  • 縦中横の解説は全角と半角に関係ありません。
  • これらの「事例」をまとめることで「全角は東アジアにおける文字として使用する目的で使用される」と結論づけるのは独自の研究です。

改善されたらコメントアウトを外してください。 --Hatukanezumi 2008年9月7日 (日) 01:29 (UTC)[返信]

中文の逗号について[編集]

解決済み除去。
ある程度改善されましたので、節全体をコメントアウトすることはしません。しかし、まだ独自の研究と見られるものが多々見受けられますので、指摘しておきます。
幅によって字形が変わる文字 - 日本語フォントの場合は出典を示すのが難しければやむを得ないと、個人的にはおもいます (出典にもとづくほうがより厳密な書きかたができるとおもいますが)。しかし、中国語フォントの説明は変です。実際の印刷物やコンピュータ用のフォントを見ると、カンマは下付き後アキの全角取りである場合も、天地左右中央の全角取りである場合もあります。また、カンマ以外に「、」や「。」にも同様の字形のバリエーションがありますから、「幅が違うと字形が違う」という説明は不正確でしょう。
なお、GB2312かCNS 11643の規格票 (両方だったかも。いま手もとにないので未確認) には、全角取りで左下すみに点を置く字形が示されています。それと、全角形カンマの用例について、いまのところ情報源が示されていません。
--- {{要出典}}を貼りました。 --Hatukanezumi 2008年9月7日 (日) 05:53 (UTC)[返信]
情報源が提示されたのを見ました。これは字形の例を示す目的なら、なかなかいいとおもいます。少なくとも台湾の教育では、この字形が用いられることがはっきりわかりますね。
ただ、幅によって字形が変わることの情報源にはなっていません。資料では「占一個字的位置,居正中。」と述べているだけで、文字が全角であるとは述べていません。述べる必要もないとも言えます。というのは、資料の文中の文字はすべて、東アジアの文字幅で言うところの「wide」な文字だからです。全角か半角かの区別は両者の対比できまるものですから、両者が混在した場合について述べた資料が必要です (たとえば英語しか知らないひとは、英文のタイプ原稿を見て「半角で打ってある」とは考えないでしょう。そんな区別が必要ではないからです)。
現状示された資料と解説の記述は、コンマの記事に加筆するには向いているとおもいます。
ともかく、出典として必要なのは、つぎのことを述べている資料だと考えます。
  1. 中国語ではカンマに、幅が狭い (半角) 文字と広い (全角) 文字があり、両者の意味は (ほぼ) 同じである。
  2. 1. の場合に、幅が違うと字形が変わる。
ところで、「出典」というのは、「見ればわかる証拠」というのとはちょっと違います。記事に書いたことを裏書きするような「説明」や「主張」が書いてあるものを「出典」といいます。ひとつ、大きな書店や図書館へいって、そのような説明をしている資料がないか探してみてはいかがでしょうか。印刷出版に関連する棚などを見てみるといいでしょう。
期待しています。 --Hatukanezumi 2008年9月11日 (木) 12:45 (UTC)[返信]
[1]の編集について。
  • たしかにこの資料には「英文一律使用半形標點符號」「中文一律使用〔…〕全形標點符號」とありますが、これは資料の標題のとおり『「東亞經典與文化」研究叢書』の投稿規定です。特定の研究グループの中でのスタイルガイドであるにすぎません。上に述べた 2 点のことが一般になりたつことを、客観的に解説した資料とは言えません。
    ネット上で見つかる資料にも出典として適切なものはあるとおもいますが、「見ればわかる証拠」を探すのではなく、きちんとした「説明」が書いてあるものを探してください。それには、図書館や書店にあるようなまとまった書籍をしらべたほうがいいです。
  • それと、ちょっと考えてみていただきたいんですが、「全角か半角かで字形が変わる」という説明のしかたに無理はないでしょうか。これがコンマの項であれば、「中国語文ではコンマがこれこれの字形になる」という解説はできるとおもいます (きちんとした出典を示せば、ですが)。わざわざ全角か半角かを区別する必要もありません (実際、英文のカンマは常に半角だとは限りません)。当記事の解説として加筆することが適当なのかどうかも、検討してみてください。
  • あと蛇足。これは個人的な推測なんですが、中文の逗号「」(「」「」などとともに使う) と、英文のカンマ「,」(「.」などとともに使う) は、中国語のウェブサイトなどでは普通、文脈によって使い分けられているようにおもいます。つまりこれらは「別の文字」として使われているのではないでしょうか。GB 2312には、JIS X 0208のようにこれらの文字の符号を同じ文字の符号とみなす規定はありませんから、別の文字の符号として扱ってもよいわけです (GB18030などでどうなっているかは、まだ調べていません)。だとすれば、「全角と半角」という対比自体がなりたちません。この点がどうなのか、ずっと気になっています。 --Hatukanezumi 2008年9月13日 (土) 23:10 (UTC)[返信]
  • 台湾政府が公式に提供しているこの書体では、同一の中国語の文字セットの中で異なる字形をとってますので、これを示せば納得いただけますか?
  • 全角と半角は「別の文字」とすることが正しいなら、先に記載していた「全角は東アジアにおける文字として使用する目的で使用される。」が成り立つのではないでしょうか。--122.220.1.166 2008年9月17日 (水) 19:03 (UTC)[返信]
いや。根本的な問題として、中国語文や中国語用フォントでは「文字の幅を全角と半角に区別している」のだ、ということを証拠付ける出典が示されていない、と言っているのです。日本語については、公式にそういう区別が定義されているということが、出典つきで示されていますね。JIS X 4051JIS B 0191や、『日本語EUCの定義と解説』がそうです。中国語の場合についても、こういう信頼できる資料を示してください、と言っているのです。
あなたのこれまで挙げたものはいずれも、「文字は半角と全角に区別されている」という前提に立って、「文字が半角に見えたり全角に見えたりする」ようなを挙げているにすぎません。それではトートロジーであって、根拠となる資料 (出典) を示したことにならないでしょう。
ちなみに、東アジアの主な文字コード規格 (JIS X 0208, JIS X 0213, GB2312, CNS 11643, KS C 5601-1987, KS X 1001-1997) については調べましたが、「全角」や「半角」に相当するような概念の定義は見つけられませんでした (有休をとって東京の日本規格協会まで行って、閲覧させてもらったのです。閲覧は無料ですし、予約などもいりません)。参考まで。
また、「全角と半角は『別の文字』とすることが正しいなら、先に記載していた『全角は東アジアにおける文字として使用する目的で使用される。』が成り立つのではないでしょうか」とのことですが、成り立ちません。「中文の逗号に使われる符号と英文のカンマに使われる符号は異なる」ということが成り立つだけです。中文の逗号が (仮に全角文字であるとした場合でも) 中文で使われるからといって、全角形の文字はすべて中文のために用意されたのだとはいえませんし、まして、東アジアの文書のために用意されたとも言えません。それを言うためには、個々の文字について例を挙げただけではだめなのです。
なんだかひどくこまかいことにこだわっているようにおもわれるかもしれませんが、当記事は「全角や半角とはどういうことなのか」を解説するものですので、記事中で「全角」や「半角」という言葉をどういう意味で使うのかについては、注意深くなるべきだとおもうのです。
ところで、{{要出典}}を貼ったからと言って、執筆したかたが調査をつづけておられることがわかっていれば、すぐに記述を除去したりはしません。時間をかけて調べていただいて大丈夫ですよ。 --Hatukanezumi 2008年9月18日 (木) 12:34 (UTC) 加筆 --Hatukanezumi 2008年9月18日 (木) 13:03 (UTC)[返信]

×除去 中文の逗号に関する記述を除去しました。わたしもしらべてみたんですが、どうもこの記号が全角形でもそうでないものでも同じ文字として扱われているのか、そうでないのかの決め手になる資料が見出せませんでした。信頼できる情報源に基づいて再加筆されるのなら歓迎します。 --Hatukanezumi 2008年11月24日 (月) 11:06 (UTC)[返信]

回転横組みについて[編集]

解決済み記述はコメントアウトの後、除去されました。 --Hatukanezumi 2008年9月14日 (日) 03:47 (UTC)[返信]
縦書きで半角文字が回転するという説明 - ワープロがあまり普及していない時代から電算写植機やDTP専用機はありましたが、これらでは1バイト文字を含むテキストデータを単に流し込めば、それらの文字も1文字ずつ全角取りで組まれていました。回転横組みにしたり縦中横にしたりするには、組版指定が必要です。実際、写植やDTPによる印刷物を見ればわかるように、欧字や数字は縦組みのときに「全角形」の文字を使っているわけでは必ずしもなく、文字の配置が「全角取り」になっているだけなのです。
ワープロでも、縦組みに対応した当初は半角文字への配慮は見られませんでした。たとえばOASYSでは、縦書き印刷の際、半角文字は2文字づつの縦中横のようになってしまいました (おそらく半角文字は1バイト文字で、テキストが2バイト単位で管理されていたのだとおもわれます)。このあたりから、文字を全角取りに組みたいために全角形2バイト文字を使う、というやりかたが普及したと想像されます。しかし、全角形の2バイト文字がもともと全角取りの目的のためにあったわけではありません
Microsoft Wordが縦書きに対応したときに回転横組みを採用したのは、プロユースにも一般向けにも中途半端で、あまり評判がよくなかったような気がします (これはわたしのまわりのひとから受けた印象ですが)。
いずれにしても、常に回転横組みとなるとは限らず、いろいろな場合があるということです。
--- コメントアウトしました。
ほかの点については、編集履歴も見てください。 --Hatukanezumi 2008年9月7日 (日) 05:53 (UTC) 不正確な表現を修正。add lk. --Hatukanezumi 2008年9月7日 (日) 10:00 (UTC)[返信]

全角文字のバイト数について[編集]

文中で「全角文字 (ぜんかくもじ) とはバイト数が2バイトの文字」とありますが、これはワープロ時代のものではないでしょうか?現代のパソコン環境では、たとえばUTF-8で全角文字を表現した場合、多くの文字が1文字3バイトです。逆に半角文字で複数バイトを持つものもあるかと思います。「2バイト以上の文字」あたりが適当かと思いますが、いかがでしょう。--Jkneko 2009年8月4日 (火) 06:22 (UTC)[返信]

上記記載の意図は「歴史」の部分を見て箇所を読んでいただければ何故「2バイトの文字」と書いてあるかが理解できるかと。UTF-8で考えると半角カナは3バイトになってしまいますのでUTF-8をあげるのは不適当ですね。--122.220.1.166 2009年8月15日 (土) 13:44 (UTC)[返信]