コンテンツにスキップ

Wikipedia:井戸端/subj/機械翻訳と削除の方針について

機械翻訳と削除の方針について[編集]

過去の議論(Wikipedia:井戸端/subj/翻訳ツール(ベータ)を用いた編集の増加と、機械翻訳の取り扱いWikipedia‐ノート:削除の方針#ケースHおよびI(またはG-2およびH)新設の提案)の蒸し返しになりますが、改めて機械翻訳と削除の方針についての議論を行いたく、皆様の意見を募集いたします。 上に挙げた議論でも話題にあがっていますが、2016年にコンテンツ翻訳を利用した機械翻訳が日本語版に対応して以来、Yandex翻訳を利用した機械翻訳による投稿とそれに次ぐ削除依頼が相次いでいます。コンテンツ翻訳における機械翻訳対応前後の決定的な違いの1つはライセンス違反が発生しなくなったことと思います。その結果これまでケースBとして削除されていた機械翻訳による記事が削除対象から外れました。それもあって導入当時に削除の方針改訂の議論が行われていましたが、結論がまとまらず、結局うやむやになって改訂せずに終了してしまったようです(上述の「Wikipedia‐ノート:削除の方針#ケースHおよびI(またはG-2およびH)新設の提案」参照)。しかしながらその後機械翻訳を理由とした削除依頼が相次いで発生しており、概ね次のいずれかの結論を得ているようです。

  1. 改稿による存続(例1例2
  2. ケースBによる削除(例3例4
  3. ケースZ、あるいはそれに準じた削除(例5例6例7

解決法として理想的なのは1かと思いますが、改稿をできる利用者の数と機械翻訳そのままで投稿される記事の量を比較すると圧倒的に後者の方が多いというのが現実であり、理想的ではあるものの必ずしもこの解決法を採れるとは限りません。また、これは感覚的なものですが、機械翻訳による初版投稿者がその後機械翻訳に頼らない編集を継続的に行う事例は一部の例外を除けば稀かと思われます。2のケースBを理由とした削除は以前よくあったと思いますが、上述の通りコンテンツ翻訳におけるYandexの利用はライセンスをクリアしており、ケースBの適用にはなりません。問題は最後のケースZを理由とした削除ですが、例5で重陽さんがおっしゃっているように本来ケースZでは「読んでいて意味不明なもの」が削除対象外であり、これを理由とした削除は厳密には方針に反している事が多いかと思われます。一方で上述の例に挙げたように「機械翻訳そのままで投稿された記事は削除すべき」という意見は削除依頼で非常に多く見られる意見です。要するに「機械翻訳そのままの記事は削除すべきという意見が多数だが、現方針は(厳密には)それを認めていない」というのが現状です。

そこで次の2点について意見を募集します。

  • 機械翻訳そのままで投稿された記事を受け入れるべきか否か。
  • 削除すべきとして方針の改訂は必要か否か。

もちろんケースバイケースであり、一概には言えないところもありますが、一般論としての意見をお願いしたく思います。また、以前の議論では翻訳のガイドラインについても改訂が必要じゃないかという意見がありました。これについてももしもあればご意見を頂ければ幸いです(ただし機械翻訳はそもそも非日本語話者と思われるユーザーが行う事が多いので個人的にはあまり意味があるものと思えません)。本来はWikipedia‐ノート:削除の方針で議論すべき内容かもしれませんが、前述の通り一度議論が頓挫した過去を踏まえ、できるだけ多くの議論を集めるために井戸端に投稿させて頂きました。--Karasunoko会話2017年3月6日 (月) 10:30 (UTC)[返信]

詳しい訳ではないですが、個人的には「機械翻訳そのまま」な記事に著作性があるとは思えません。コピーに準じたものとして削除すべく改訂に賛成します。--Hiroes会話2017年3月6日 (月) 11:03 (UTC)[返信]
コメント 機械翻訳は意味が通じない場合がほとんどなので、ケースGの援用、もしくは改定して適用すれば十分かと。--ネイ会話2017年3月6日 (月) 11:15 (UTC)[返信]
コメント ケースGの適用もアイデアとしてはありえますが、実際の運用で機械翻訳が行われてケースGで削除されたと言えるものはほとんど無いようです。ケースGの延長線上で削除するなら改訂は必須かと。--Karasunoko会話2017年3月6日 (月) 11:30 (UTC)[返信]
センスに自信がないので具体的な言及は差し控えますが、優先順位的には「機械翻訳の疑いがあるものは、」と「ライセンスを確認してケースBで~」の間に(ほぼ)全文に渡るケースを追記するのがいいと思います。--Hiroes会話2017年3月6日 (月) 11:45 (UTC)[返信]
  • 前置きは大幅にはしょりますが、削除の方針に照らせばほとんどが存続になってしまいます。一部でも日本語として成立していればよく、翻訳の見込みが無いと証明することも非常に難しい。伝統的なjawpの運用・思想の観点から見れば、そして方針を素直に解釈すれば、余程無茶苦茶でない限り存続です。これを削除相当とすることは、言わば改革になります。ただ、伝統的なそれはjawp編集者側の理屈に立っている感があります(デマを拡散する可能性を否定出来ないのは明らかなのに免責事項に書いてあるからーと典拠不明な記述がただちに削除されず、要出典を貼ると荒らし扱いされる場合すらあること、要出典を貼る行為に制限を設ける、典拠が無いからと言ってただちに除去すると時として荒らし扱いされるなど)。誤解を恐れずに言うなら、大昔の、jawpが質より量的だった時代の考え方です。で、こう言った記事、読者側にとっては、わざわざアクセスしたのに役立たずじゃないかコンチクショーとなる場合もある様です。実際に私も一般の方数人からこう言う話を聞いています(笑)。そう言った事を踏まえますと、また現在量は相当な物となり質が求められる状況である、と、言わば時代が変わったことも勘案致しますと、私個人の考えと致しましては、従来のそれより基準を厳しく持っていきたいところです。すなわち、例えばケースGの翻訳途中の救済規定を「原則として全文の半分以上が適切な日本語として翻訳されている必要があります」という原罪より厳しいと取れる基準に改めるなどは、一つの案になりそうです。実際にこの基準を満たしているかどうかは、削除依頼の場で吟味されるでしょう。--Hman会話2017年3月6日 (月) 14:18 (UTC)[返信]
  • 環境の都合で議論は困難なので意見だけ置いておきます。
まず、2のケースBについては本質的に別の問題であり、混同すべきではありません。これについては現行の方針通り明文で利用が可能なものとYandexは除くとすべきでしょう(Yandexが別立てなのは、こちらはYandexとの関係性に依存するため)。これは方針にYandexを追加しただけの処理であり、難しいことではありません。むしろ、機械翻訳については明文で確認できないものを「なんとか使えないかな?」と存続を図ってきた経緯がありますが(明記されていない機械翻訳に対して解釈で存続としたケースもあります)、Yandex翻訳の実装によりその必要性はなくなっていますから、もはや適用すべきではないでしょう。実際には、ほぼ一致でもない限り「出所不明の機械翻訳」として扱わざるを得ず、「利用条件が不明な翻訳エンジンを利用可能なものと解釈した上で、それが使用されていると推定」しての存続というのは妥当ではないという深刻な問題もあります(複数候補があり、どれかであろうと推定されるのはBの対象です)。
ついで、1の「改稿されたら存続」になるのは、ケースBと重複に該当しない限りは、問題点の解消となりますから存続となり深く考える必要はありません。ケースBに該当なら版指定削除になるだけです。
そしてこのケースわけから漏れていますが、改稿のバリエーションとして「別記事として作成」があります。この場合は機械翻訳された記事は重複になりますので削除かリダイレクト化です。
つまり、1(改稿)と2(ケースB)は、3と質的に異なり、機械的に結論が出る性格のものですから、この場合考えるべきは3について「どこまでが削除対象になるか」となります。
現状で個々の記事に対する根拠なら、ケースGの援用やZで考えれば十分でしょう。削除依頼されたケースがほとんどないのではなく、単に見つからなかったり、コンテンツ翻訳機能を原文との対比目的で使用し機械翻訳まで使っていないとか、使っていても日本語として通用するレベルにまでは仕上げてくれている「削除対象にならない」ケースだったり、小規模なら改稿する方が早いとかそのつもりで放置されたり、ケースBが先に来て機械翻訳が問題にならなかったり(日本語以外の外部サイトからの機械翻訳)、あまりにひどくてSD対象になったりすることは考えられますので、実際には相当な分量が埋もれており削除依頼に回付されるのはごく一部であることが例が少数となる理由と考えます。
日本語の文字を使用していても、日本語として意味が通らない記事は、明白にケースGです。これは動かせません(ケースGに明記)。むしろこんなものまで、改稿すればいいじゃないかと存続にするほうが問題です。
問題となるのは「一部が意味の通る日本語」である場合です。とはいっても、酸素に「激しい運動を行った人間が上げる叫び声の一種」だとか、ネコに「一部のヒトを支配する動物」とか日本語として意味は通るが、それって記事としてはまずいだろって記載まで「意味の通る日本語」扱いすべきではないでしょう。また、いわゆるサブスタブ(役に立たない記事)まで容認すべきとは考えません。ここで「意味が通る」として扱うのは、スタブ以上のレベルにあるものと考えます。
過去の議論において、「改稿すればいい」という意見は確かにあります。ですがそれは、膨大な労力を他者に押しつけることでコミュニティに負担をかけ、同時に自らは労することなく意味が通らない記事を量産することで信頼性を毀損するという荒らし行為を容認するためのものではありません。また、改稿すればいいのは当然であり、改稿されなかった場合をカバーできる理由ではありません。削除依頼は加筆依頼ではありませんから改善されないことを前提にするのはまずいんですが、同時に翻訳依頼でもないのでまともな日本語に改稿されることを前提にすべきではないでしょう。
日本語版には追放の方針がないため、そのような問題利用者をブロックしても、作成された記事はいつまでも残ります。これを継続的に行う長期荒らしは複数存在しており、長期荒らしの初稿が放置されているケースもあります。そして、それら長期荒らしの執筆であっても、ここで問題になるような機械翻訳よりは「日本語としてまし」なんです(内容レベルで問題があるケースはありますが、意味不明というケースはほとんどありません)。それ(翻訳を含む粗製濫造が無期限ブロック相当の荒らし行為)を踏まえたとき、より問題の大きい機械翻訳を受忍し、放置すべきではないでしょう。
例5は原文を確認できない立場なので一般論として考えますと解釈に問題が発生します。「読んでいて意味不明」というのは、翻訳の場合に限らず「日本語の品質問題」であって内容の問題ではないんです(Wikipedia:無意味な記述)。日本語の品質だけで何とかなるなら、ケースGやZの問題にはなりません。翻訳の意味不明は、「内容レベルの意味不明」が問われる別の問題です。
追放の方針による対処が出来ない以上、ある程度の縛りは必要です。過去に考えた案を踏まえますと、最大限甘く見ても「日本語になっている部分だけ残して記事として再編されたら存続」ぐらいでしょうか。Hmanさんの案も魅力的なんですが、「日本語になっている部分だけでも抄訳とかスタブぐらいにはなる」というケースを考えるともったいないというのが先に来ます。--Open-box会話2017年3月8日 (水) 02:16 (UTC)[返信]
失礼しました。私の申し上げました「全文の半分以上」と言う一例は、原文を考慮せず、「日本語版」に投稿された記事の「全文の半分以上」が適切な日本語であるかと言う意図でした。説明不足でした。もちろん、抄訳は許されますし、削除依頼前または審議中に翻訳されていない部分を(ある程度)取り除き再編する方がいれば、「削除」と言う結論には至らないと思います。ですが、もちろん翻訳以前の問題として、少なくとも「それなりに有用なスタブ」になっているのは立項の大原則でございますが。--Hman会話2017年3月8日 (水) 05:51 (UTC)[返信]
Open-boxさんは「現状で個々の記事に対する根拠なら、ケースGの援用やZで考えれば十分でしょう」とおっしゃいますが、これは現状を無視されています。繰り返しにはなりますが、現状「Yandex翻訳が行われた上でケースGとして削除」というケースはほとんどありません。少なくとも自分が検索した限りでは2016年の一年間に「Yandex翻訳が行われ」かつ「ケースGで削除」されたと言えるケースは全く見当たりませんでした(コンテンツ翻訳が使用された上でケースGによる削除はありましたが(参考)、これはそもそも機械翻訳が行われていませんでした)。とすると機械翻訳が行われたものを現在のケースGで削除するには抵抗を覚える管理者・削除者がほとんどであるという可能性が高いと考えられます。一方、これもまた繰り返しになりますが、ケースZは「読んでいて意味不明なもの」が対象外であり、実際にはこれが適用されることが多いものの、厳密には方針に則っていません。
とは言え、ここまで頂いたご意見から機械翻訳をわざわざ残すべきとも思えません。つまるところ、削除の方針の改訂が必要と考えるのが妥当かと思います(少なくともそれに反対される方はいらっしゃらないようですし)。もうちょっと意見が集まると期待していたのですが、これ以上は期待できなさそうなので余裕があるときに削除の方針の改訂の提案を改めて行いたいと思います。なお、自分がやるといつになるかわかりませんので代わりにやっていただいたも構いません。皆様ご意見ありがとうございました。--Karasunoko会話2017年3月17日 (金) 14:15 (UTC)[返信]
コメント 機械翻訳に対してケースB-1(著作物に関する法令違反の疑い)で対処していた時代は終わった、ということでしょうね。これからはケースG(非日本語)を適用しやすいように、方針文書の文面を変える作業をやりましょう、という結論が適切かなと思いました。以下、「現在のケースGで削除するには抵抗を覚える管理者・削除者がほとんど」に関して少しフォローします。ケースGでの削除例が少ないことことは、現時点の方針文書の文面に機械翻訳はケースB-1を優先して適用しましょうと解せる文言からあることから、まあ、そうなるのでしょう。Google 翻訳はケースB-1が懸念するような権利侵害が起きないと解せるのですが、機械翻訳記事を立てた利用者のノートページに「あなたは機械翻訳を利用しましたね?」と問い詰めたり、削除依頼議論を始めて意見する機会を与えたりしても、当該利用者はそもそも日本語が理解できないからこそ機械翻訳を使ったのであって、特に対話に応じることなく、めでたくケースB-1成立になっていたのではないかなと思います。ところがベータ版機能「コンテンツ翻訳」(CX)は、まったく日本語がわからない人でも、「Yandex を利用している」と言明した状態で機械翻訳記事を立てることを可能にしますので、ケースB-1を成立させることは不可能です。したがって、ケースG(非日本語)を適用しやすいように方針文書の改定を行う、などの対処を行うことは自然な流れでしょう。以上は、機械翻訳に対処が必要であるという前提で、お話しました。--ねをなふみそね会話2017年3月20日 (月) 03:00 (UTC)[返信]