Wikipedia:井戸端/subj/Unicodeの基本多言語面にない文字をタイトルに含むページの作成解禁に向けて

Unicodeの基本多言語面にない文字をタイトルに含むページの作成解禁に向けて[編集]

現在関連議論として通常記事名においてもJIS X 0208以外の文字を使えるようにすべきではないかという議論を行っております。是非ご参加ください。--Schwei2会話) 2020年5月8日 (金) 14:01 (UTC) リンク修正 Schwei2会話2020年5月8日 (金) 14:37 (UTC)[返信]


先行議論はWikipedia:井戸端/subj/Unicodeの基本多言語面にない文字をタイトルに含むページの作成禁止は継続すべきかです。

現在のところ日本語版ウィキペディアではページ名にはUnicodeの基本多言語面(BMP)にある文字のみが使用できることになっており、「𠮷」(U+20BB7)や「🌰」(U+1F330)といった基本多言語面にない文字(追加面にある文字)は例外なく(記事以外であっても)ページ名に使用してはいけないことになっています。この規定は2017年12月にあったWikipedia‐ノート:記事名の付け方/過去ログ6#基本多言語面にない字の使用制限での議論により追加されたもので、追加された理由はHelp:ページ名#Unicode文字の使用可能範囲にも書かれている通り、当時のデータベース管理システムに使用されていたMySQLに存在した制約によるものです。

しかしながらBMP外の文字をタイトルに使えないとなると、𠮷野家𠮷野家) → 吉野家のように本来の表記にBMP外の文字を含むケースでリダイレクトを作成できないという弊害があります。また、ウィキメディアの仕様上BMP外の文字を含むアカウント名は取得可能ですが、そのようなアカウントの利用者ページや会話ページを日本語版ウィキペディアでは作成できないという問題もあります。

2019年になって先述の規定を継続すべきか意見を求めたところ、MySQLに存在した制約は今はなくなっており、BMP外の文字をページ名に使用してもシステム上問題は生じないだろうという結論に至りました。引き続いてBMP外の文字をページ名に使用可能にする提案を出したところ複数の賛成あり、反対なしの状況でした。

その後Wikipedia:即時削除の方針のリダイレクト2-4(Unicodeの基本多言語面(BMP)(U+0000からU+FFFFまで)に含まれない文字を使用しているもの)を廃止(特別:差分/73427404)したところで放置してしまいました。当初私が想定していた作業内容を一部変更・追加した上で実施することを今回改めて提案します。提案する作業内容を以下に示します。

  1. チェック Help:ページ名#Unicode文字の使用可能範囲を丸ごと除去
  2. チェック Wikipedia:記事名の付け方の改訂
    1. Wikipedia:記事名の付け方#記事名に使用できる文字にある「システム上の使用可能文字の制限」のリンク先をHelp:ページ名#制限へ変更
    2. Wikipedia:記事名の付け方#システム上の使用可能文字の制限を丸ごと除去
  3. チェック Wikipedia:表記ガイド#項目名にある「システム上の使用可能文字の制限」のリンク先をHelp:ページ名#制限へ変更
  4. BMP外の文字を使用しているという理由で個別に作成保護されている(と推測される)ページについて保護の解除を依頼
  5. チェック タイトルにBMP外の文字を含む標準名前空間のページを追跡するためのモジュール、テンプレートおよびカテゴリを作成
  6. 新たな編集フィルターの作成を提案
  7. MediaWiki:Titleblacklistにある.*[\x{10000}-\x{10FFFF}].*ならびにMediaWiki:Titlewhitelistにある利用者(‐会話)?:.*[\x{10000}-\x{10FFFF}].*のエントリの除去を依頼
  8. Wikipedia:リダイレクト#正式名称に記事名に使えない文字が含まれる場合にBMP外の文字を含むリダイレクトの例を追加
  9. Wikipedia:お知らせにタイトルにBMP外の文字を含むページが作成可能になった旨の報告

いくつか補足します。4についてですが、今年の4月20日時点のダンプデータを用いて、作成保護されているページ名のうちBMP外の文字を含むものを検索したところウルトラマン😛🙁Xノート / 履歴 / ログ / リンク元𠮷ブーノート / 履歴 / ログ / リンク元𠮷野家ノート / 履歴 / ログ / リンク元の3つが見つかりました。このうち1つ目は将来も含めて作成する必要は生じないと考えられます(削除記録もないのにどういうわけか「度重なる荒らし」を理由に作成保護がかけられている)ので、残り2つに対して保護解除依頼を出します。

5についてですが、モジュールおよびテンプレートの試作品をそれぞれモジュール:サンドボックス/本日晴天/Title with non-BMP利用者:本日晴天/sandbox/Template:Title with non-BMPに作成しました。使用例についてはtest2wiki:辰𠮷𠀋一郎test2wiki:辰𠮷𠀋一郎2ご覧ください。テンプレートを使用したページがリダイレクトであるか否かにより異なるカテゴリを付与するという仕組みになっています。

6についてはタイトルにBMP外の文字を含む標準名前空間のページでは5で作成したテンプレートの使用を強制するという仕様を考えています。あと私としては迷っているのですが、タイトルにBMP外の文字を含む標準名前空間のページについてはリダイレクトとしてのみ作成・編集を許可するように制限してもいいかもしれません。リダイレクトでない標準名前空間のページとして考えられるのは曖昧さ回避ページ、あるいは文字そのものについての記事です。この点についてもよろしければご意見をお願いします。

合意が得られた場合は1から6まで順次実施し、6の編集フィルターがWikipedia:編集フィルター/提案#提案から正式稼動までの流れに書かれている試験運用に入ったら7を実施、そして編集フィルターが正式稼働となったら8と9を実施する予定です。

先の議論でも述べましたが、今回の提案は一般的な記事名に使用可能な文字の範囲を変更するものではない点をご留意ください。BMP外の文字をページ名に使用可能にするという方向性については先の議論で合意が得られていると思われますが、合意不十分だと考える方、反対される方がいらっしゃいましたらその旨の表明をお願いします。--本日晴天会話) 2020年4月26日 (日) 14:59 (UTC) 下線部を追記。--本日晴天会話2020年4月26日 (日) 15:01 (UTC)[返信]

 追記 7についてですが、Wikipedia:バグの報告由来でMediaWiki:Titlewhitelist利用者‐会話:.*[\x{10000}-\x{10FFFF}].*のエントリが追加されていたので、これを除去する依頼を出すことも追加します。あと、追加特殊用途面(U+E0000 - U+EFFFF)と私用面(U+F0000 - U+10FFFF)にある文字の使用については引き続き禁止するものとします。これらはMediaWiki:Titleblacklistによって、7で提示したエントリとは別に規制されています。--本日晴天会話2020年4月27日 (月) 05:27 (UTC)[返信]

  • ウルトラマン😛🙁Xの作成保護に対するご指摘についてですが、同じ管理者による同日中の公開記録を見るとLTA:203らしき利用者によって作成された特撮関連記事が削除・作成保護されているので、それと関係があるかもしれません。--Keruby会話2020年4月27日 (月) 01:22 (UTC)[返信]
  • 賛成 とりあえず、本日晴天さんが提示した作業内容で進めていいと思います。BMP外の文字は入力が困難であろうと思料しますので、入力の利便性を考えてリダイレクトとしてのみ作成すべきであると考えます。文字そのものについての記事はWikipedia:独立記事作成の目安をクリアできそうな例が現時点で思いつきませんので、将来そのような文字が現れた場合に例外として許可すればいいでしょう。--ネイ会話2020年5月4日 (月) 14:50 (UTC)[返信]
  • コメント 前回の議論でも指摘しましたが、この案では荒らしに新しい玩具を与えるだけです。この提案が問題を引き起こす原因は、BMP範囲外の文字が「必要ではない」状況でも無制限に解放しているところと、単にBMP外の解放とするだけで精査を欠くところにあります。
まず絵文字(とそれに類するもの)、漢字、その他の言語は分けて考えなければなりません。ブロック (Unicode)を参照するなら、以下の3パターンに分けられると思います。
  1. 追加漢字面:おそらくこの提案で最も意味があるのがこちらです。リダイレクトではあっても作成できるのであれば、「制限の理由を知らずに作れずに行き詰まる」ケースへの対応が可能となります。
  2. その他の言語類:リダイレクトとして可能性は皆無ではありませんが、大半は不要でしょう。おそらく「文字そのものについての記事」と「翻訳」でしか使えません。
  3. 絵文字類:ページ名として解放する利点を解放しない利点が上回ると考えます。
これは、絵文字以外についてはページ名側からは「文字それ自体」を除けば即時改名してリダイレクト化するだけで現状と全く変わりが無いからです。ただ、文字そのものについての記事には何らかの方法で回避記事は必要になるのですが、それは既存の記事についても同様なので置いておくことはできると考えます。しかし、絵文字は別です。絵文字は確実に子供っぽいいたずらや荒らしの武器になります(上記のウルトラマンの例)。加えて見落とされているのは、絵文字の入力はモバイルから安易にやってしまうことも考えられることです。そのため単純に解除することは害が利点を上まわるでしょう。既に別途話題(Wikipedia:井戸端/subj/Unicodeの文字をリダイレクトとして作成できるか)が提起されていますが、以下のような対処であるべきと考えます。
  1. 必要ではないページ名には使用できない状況を維持する(技術的に無理ならリダイレクトはSD対象とする)。リダイレクト設定となる標準(まだ存在しませんがDraftを含む)、他言語版で作成されたユーザーを含む範囲外の文字を想定する利用者ページや会話ページ。これ以外の空間では不要でしょうし、通常の記事で使用される可能性のあるカテゴリ・テンプレートや、これらに対する依頼を想定するWikipediaについては、むしろ積極的に対象外にする必要があります。
これをベースに考えると提案は補助私用領域まで含みブラックリストから外す範囲が広すぎますので、
  1. U+20000 - U+2FA1Fを外す(追加漢字面のみ解除案)
  2. U+10000 - U+2FA1Fを外す(絵文字を含む解除案、絵文字を含まない解除案とリダイレクトが両立しない場合)
  3. 上記からU+1F000 - U+1FAFFをブラックリストに残す(絵文字を含まない解除案)
  4. さらに記事名になるとは考えられないものを個別にブラックリストに加える
この4案のいずれかになると思われます。厳しさでは、1→4→3→2の順で緩くなっていきます。運用としては、
  1. 標準空間の単独の絵文字は全てリダイレクトして保護するか作成保護とする。絵文字そのものについての記事は、「絵文字名 (絵文字)」の形式。
  2. リダイレクト以外の絵文字は引き続き使用不可とする
  3. 絵文字以外はリダイレクトに限定する。曖昧さ回避は許可せず、無期限の移動保護。文字そのものについての記事は例外とするが、前述の通り回避方法は検討が必要。
  4. これを受けて保護済みの記事については保護を解除せず保護中の記事の編集依頼としてリダイレクト化。
これぐらいの制限があれば、荒らしによって記事名として乱用される・移動荒らしによってリダイレクトへ移動されるといった事態はある程度阻めるでしょう。--Open-box会話2020年5月6日 (水) 12:09 (UTC)[返信]
  • Open-boxさんのコメントは、本日晴天さんの作業手順のうち4、6、7のみに対する反論とみられます。
    • Open-boxさんの4案にしてもそれ以外の案を採用するにしても、ブラックリスト入りの理由が「システム上の制限」ではなくなり、「荒らし対策」あるいは「記事名として使用されることのない文字」が理由となります。したがって1から3の改訂とは矛盾しないようにみえます。5はむしろ荒らし対策の一環として役に立つ(荒らしが今回の解禁で新しく作成できるようになったリダイレクトを作成した場合、当該カテゴリに含まれ、検出がより容易になる)ため、積極的に進めるべきでしょう。9は今回の改訂を告知するだけで、1から8が完了した後にあえて告知しない理由がないと考えます。
    • つきまして、荒らし対策に関する議論が続いている間でも手順1、2、3、5は進めることができると考えます(「システム上の使用可能文字の制限という記述が誤りでも、荒らし対策に関する議論が終わるまでは誤りのままにすべき」という意見ならば別ですが)。
  • 本題についてですが、絵文字でもUnicodeブロック記事へのリダイレクトか、絵文字が表すものの記事へのリダイレクトとして作成されるべき(これは絵文字1文字に限ります)と考えます。追加多言語面の文字についても、ショー文字など文字体系の記事へのリダイレクトになると思います。つきまして、「標準空間の単独の絵文字・追加多言語面の文字は全てリダイレクトのみ許可」「リダイレクト以外は引き続き使用不可とする」「文字そのものについての記事は例外とする」に賛成します。
    • 追跡カテゴリのページ数が多すぎるという問題は、ページ名が1文字のものをサブカテゴリに移すことで解決できます。
  • ただし、絵文字そのものについての記事名は「絵文字名 (絵文字)」にならないものも多い(例としては怒りマーク温泉マークがある)ので、これを現時点で定めるのは慎重であるべきと考えます。
  • なお、「補助私用領域まで含みブラックリストから外す範囲が広すぎます」は本日晴天さんが述べた通り、「MediaWiki:Titleblacklistによって、7で提示したエントリとは別に規制されています」ので、「補助私用領域まで含み」は誤りです。
  • 技術的に可能・不可能の話は、基本的にTitleBlacklistより編集フィルターのほうができることが多いと考えてください。たとえば、TitleBlacklistはリダイレクト以外を禁ずる機能はありません(名前空間はページ名の指定により可能)。人手が足りない状況の中即時削除依頼の数を増やしたくないという考えから、規制を「TitleBlacklist+即時削除」ではなく、「編集フィルター(+補助私用領域はTitleBlacklist)」で行うのが得策であると考えます。この考えに同意した場合、7の手順に反対しないことになります(意見の異なる事柄が編集フィルターの内容に絞られるため)。--ネイ会話2020年5月8日 (金) 09:59 (UTC)[返信]
    • (構成の都合上、間に入ります)Schwei2さんが別途出されたような提案が出てくるから、安易に広げるのはやめとけって感触はあるんです(「記事名」だけ厳しい理由が知られてないなぁと)。自由に使わせろ・困る人なんていない・かっこ悪い・我慢するのは嫌だ・コードについて考えたくない・荒らしなんて出てこない、だから解放しろとなるのは当然の要求なので、下準備をしっかりしないとこの変更は危険です。本文との不一致が原因の一つで、本文に使えるなら当然記事名にもとなりますからね。
ブラックリストのその部分に手を付けないなら問題はおきないでしょう
実は一番問題が大きいのは9です(この発表では自由に使用できるため)。ただこれは、「リダイレクト」を作成できると公表すればいいので微調整の範囲でしょう。
絵文字の記事については、「XXマーク」は確かにありますね。これは「絵文字」を記事名に使用してはならないぐらいにまで広げても対応できると考えます。
編集フィルター:現状でこんなことはできますか? 作成済みの絵文字1文字のリダイレクトに影響を及ぼさず絵文字入りのページ名を禁止する、名前空間依存でBMP範囲外のページ名を禁止する、移動や編集を阻止する。執筆者への通知や作成されたページの発見するだけで阻止する機能は無いのでは意味がありません。通知を無視して作られてからフィルターで報告が飛んでも一般利用者にはほとんど価値はありません。
どうもリダイレクト設定で満足しているのではないかというのが引っかかります。先に述べたとおり次に起きることの一つのは移動荒らしですが、リダイレクトを設定するだけですとかえって悪影響があります。「コピペ移動」という度々問題を起こしているケースを忘れないで下さい(これがあるので絵文字は保護を提案しています)。また、これらに対する依頼は必然的にBMP範囲外のページ名を伴いますからさらなる悪影響を伴います。即時削除依頼の数を増やしたくないどころか、通常の依頼すら増えそうなんです。--Open-box会話2020年5月8日 (金) 19:13 (UTC)[返信]
  • 編集フィルターの内容は下記のようなものが考えられます。(詳しい解説はmw:Extension:AbuseFilter/Rules_format/jaにて)
    • 「ページ編集(作成を含む)の場合」かつ「ページ名にBMP範囲外の文字を含む場合」かつ(「リダイレクトでない場合」または「リダイレクトであり、追跡用テンプレートがない場合」または「リダイレクトで、ページ名が2文字以上、かつ絵文字入りの場合」):「対処操作:不許可」
      • or文を「または」で、and文を「かつ」で表現しています。「BMP範囲外の文字を含む」は正規表現による検出になります。
    • 「ページ移動の場合」かつ「移動先のページ名にBMP範囲外の文字を含む場合」:「対処操作:不許可」
  • 技術上は上記のフィルターが可能だと判断しています(上記リンクに日本語の仕様書があるので、ほかの方もご確認いただければ幸いです)。--ネイ会話2020年5月9日 (土) 05:19 (UTC)[返信]
    • ありがとうございます。一通り確認してきましたが、page_namespaceを使えば名前空間別の処理も可能になりそうです(もっとも避けたいのはテンプレートとカテゴリ)。これで阻止できないのは、リダイレクトを通常の記事名に移動するぐらいですね。誤記がありうるのでこれを編集フィルター対応とすると不自由すぎるかも知れません。他の部分はフィルターでの解決が可能と考えますから、ここだけ何とかしていただければ賛成となります(全部先に作って保護だと多忙すぎますかね)。--Open-box会話2020年5月9日 (土) 05:44 (UTC)[返信]
    • Schwei2さんのコメントは冒頭に移動させました。編集フィルターの内容1つ目についてなんですが、最後の「リダイレクトで、ページ名が2文字以上、かつ絵文字入りの場合」は必要か、というかそもそも実現可能なんでしょうか。mw:Extension:AbuseFilter/Rules_format/jaを見た感じだとページ名が1文字だけなのであれば絵文字かどうかはpage_title in "(絵文字を並べた文字列)"で判定できそうですが、2文字以上の場合に文字列中の全部の文字について同様の判定を行うことはできないという気がします。BMP外の絵文字を含む2文字以上のリダイレクトは作品名とかで需要がありそうです。単独記事にはなっていませんが、まんがライフMOMO#創刊以後の連載作品に初恋💔症候群(シンドローム)という作品名が書かれています(「💔」(U+1F494)を含む)。あと、ページの冒頭に{{即時削除}}などを貼った結果リダイレクトでなくなった場合は例外的に許可した方がいいですね。--本日晴天会話2020年5月10日 (日) 03:37 (UTC)[返信]
      • 自己レスになりますが、絵文字入りかは正規表現を使えば複雑にはなりますができなくはないですね。そうなると「ページ名にBMP範囲外の文字を含む場合」の部分と合わせて正規表現を2回も使うことになり、コスト面からあまり好ましくないように思えます。--本日晴天会話2020年5月10日 (日) 04:34 (UTC)[返信]

報告 ここに書かれていた、Uminokawausoさんと私のやり取りについてはノートに転記しました。--本日晴天会話2020年5月29日 (金) 11:34 (UTC)[返信]

報告 当初の提案から3週間以上経過しましたので、とりあえず一度も反対意見が出なかった1・2・3・5の作業については実施しました。作成したモジュールはモジュール:Title with non-BMP、テンプレートはTemplate:Title with non-BMP、カテゴリはCategory:Unicode基本多言語面外の文字を含むページ名Category:Unicode基本多言語面外の文字を含むリダイレクトです。--本日晴天会話2020年5月21日 (木) 11:45 (UTC)[返信]

報告 コメント 6の作業に関して、Wikipedia:編集フィルター/提案にてネイさんご提示の内容のうち1つ目のフィルター(作成・編集)について提案を出しました。 2つ目のフィルター(移動による作成)についてですが、その内容でしたら代わりにTitleblacklistの.*[\x{10000}-\x{10FFFF}].*にmoveonlyを付けるというのはいかがでしょうか。この場合、Titlewhitelistの利用者(‐会話)?:.*[\x{10000}-\x{10FFFF}].*はそのまま残します。デメリットとしては管理者であれば規制をすり抜け可能なことでしょうか。--本日晴天会話2020年5月29日 (金) 11:51 (UTC)[返信]