Wikipedia:井戸端/subj/コンテンツ翻訳内の機械翻訳機能を制限できないか

コンテンツ翻訳内の機械翻訳機能を制限できないか[編集]

現在、翻訳支援ツールであるコンテンツ翻訳の日本語版では、Google翻訳やYandex翻訳などの機械翻訳文をワンクリックで提供する機能が備えられています。デフォルト設定では、日本語訳を書き込むべきスペースをクリックすると、翻訳元をGoogle翻訳にかけた文章が、あたかも自分が書いたかのようにそっくりそのまま表れる仕組みになっています。そのまま投稿しようとすると警告が出るようですが、少し表現を変えるなど手を加えるだけで、ほぼ機械翻訳そのままの文章が標準名前空間に投稿できるようになっています。そのため、日本語入力フィールドをクリックして全文を機械翻訳で転換し、翻訳元にはほとんど一文字も目を通さないで公開する行為を「記事翻訳」だと勘違いしてしまっている方が、残念ながら後を絶ちません。

名指しして申し訳ありませんが、コンテンツ翻訳で作成された新しい記事を一つ一つ確認していくと、体感で2割ほどは「Jiri Lev」や「Reactor パターン」、「Google ナレッジグラフ」のようなひどい状態のまま公開され放置されています。一目見ていただければ分かる通り、現在の日本語機械翻訳の技術水準では、意味の通らない文章や誤訳を乱発し、とても読めるWikipedia記事を作れる段階にはありません(Wikipedia:翻訳のガイドライン#機械翻訳もご覧ください)。機械翻訳を多用する利用者の方をめぐるトラブルも起きています。現状、対処法は誰かが一から十まで訳し直して文章を差し替えるか、ケースGで削除依頼に出すほかなく、コミュニティにかかっている負担は相当なものになっています。また作業が追い付かず、機械翻訳そのままの記事が放置されれば、Wikipedia日本語版全体の信頼性も損なうことになるでしょう。

そこで私は、日本語版への翻訳でコンテンツ翻訳を使う際に、全面的に機械翻訳を使用できなくするようMediaWikiで提案できないかと考えています。実は英語版では2016年の段階でこの機械翻訳機能による粗悪な記事乱造が問題になり、機械翻訳機能の廃止とコンテンツ翻訳利用者の制限(英語版で拡張承認された利用者のみ)が行われ(参考: en:Wikipedia:Content translation tool#Why machine translation is disabled in content translationen:Wikipedia:Administrators' noticeboard/CXT#Machine translation gadget)、さらにはそれまでにコンテンツ翻訳で作成された記事の全レビューまで行われました。本来コンテンツ翻訳はWikipedia編集のハードルを下げる目的で導入されたツールですが、大前提としてWikipediaが「その言語で読める」百科事典を作ろうとしていることを忘れるべきではありません。

英語よりはるかに機械翻訳と相性が悪い日本語においても、同様に制限をかける必要があるのではないかと思います。さすがにこれまでの記事を総ざらいするほどの人的リソースは日本語版にないので難しいかもしれません。しかしせめて機械翻訳機能を制限、停止することができれば、機械翻訳投稿が正しい行為なのだと初心者が勘違いする問題を防げると思います。日本語版コミュニティ内でのコンセンサスを得るため、ご意見を戴けると幸いです。--McYata会話2022年2月1日 (火) 06:39 (UTC)[返信]

古いコンテンツ翻訳記事はひどいのがわかりきってる時代のYandexだったり不気味の谷に落ちてるのが丸わかりのGoogleだったりするので、最近のものを総当たりレビュー、それも利用者の属性を日本語版での活動経験(平たい話資格制や許可制で様子見することが許容されるかどうかの判定)で分けてやった方が良さそうです。コンテンツ翻訳だけですと、単に対訳システムとして使っている人が巻き込まれます=コンテンツ翻訳無罪とする方向に悪用されるのはわかりきっていますので、やるべきは「機械翻訳」のレビューでしょう。例えば、1月のもの(この時点でコンテンツ翻訳にはかなり有利な設定になります)を当たってみるとか(多分300件未満のはずですから英語版よりはましでしょう)。しかし、「最近の更新」のタグでの絞り込みは使いにくい……この件に限らずさまざまなデータを簡単に抽出する方法はあるはずなのですが、それをわざわざ隠している意味が無いと思うのですが(この場合日数を自由に設定できるだけでも役に立つがその程度の機能すら無い)。--Open-box会話2022年2月1日 (火) 14:19 (UTC)[返信]
返信 (Open-boxさん宛宛) (参考)特別ページ>ログ(特別:ログ)で ログ:ページ作成記録、タグ絞り込み: contenttranslation(またはcontenttranslation-v2)とすれば、コンテンツ翻訳タグのデータの抽出は可能です。--115.39.21.102 2022年2月2日 (水) 00:21 (UTC)[返信]
ありがとうございます。これなら削除された記事も見えますから、洗い出しに使えますね。--Open-box会話2022年2月2日 (水) 00:58 (UTC)[返信]
  • 返信 (McYataさん宛宛) 賛成 まさに思っていたことを代弁していただきありがとうございます。ご指摘のこの方が典型的ですが、本来翻訳という作業には翻訳元の言語と翻訳先の日本語の双方において最低限度の必要となる水準があるはずなのに、その双方または一方を著しく欠いているままでも記事「らしきもの」が容易に作れてしまうことは大きな問題であると思います。
未精査の機械翻訳貼り付けだけなら外部の翻訳サイト経由でもやられてしまうじゃないかということはありますが、コンテンツ翻訳特有の問題は、Wikipedia公式の機能に組み込まれており、さらにワンクリックで翻訳文が挿入されるのが既定となっている点にあります。「公式で許されているような誤解を与えかねない外観」+「操作の容易さ」というUX面の要素が組み合わさり、(使用者の害意の有無にかかわらず)翻訳ガイドライン未満の記事を作ることに対するハードルを不必要に下げすぎています。
MediaWiki上の手続については何も知らず恐縮ですが、賛否の投票等が行われるのであれば個人的に賛成する所存でおります。
したがって、ご提案のとおり機械翻訳は全廃止でよいと思っています。正直たたき台としても使い物になるレベルにないからです。自分でコンテンツ翻訳を使う際も、中途半端な訳文が表示される方が逆に面倒なので、最近は「原文を転写」を既定に設定してしまっているぐらいです。
なお、今回コンテンツ翻訳翻訳自体の廃止は議論されておらず(英語版の事例として拡張承認者のみという制限について触れられてはいますが)、議題になっているのはそこに組み込まれた機械翻訳機能の停廃止のみと認識しています(話題の見出しも「コンテンツ翻訳内の機械翻訳機能を制限できないか」ですし)。コンテンツ翻訳翻訳経由か否かにかかわらず、機械翻訳放置問題に対する対処は必要というのはOpen-boxさんが(おそらく)お持ちの問題意識のとおりでしょうし、私もレビュープロジェクトなど立ち上がるのであれば微力ながら貢献したい気持ちはありますが、失礼ながらこの話題の趣旨からはややずれるようにお見受けします。--Leukemianwalt会話2022年2月1日 (火) 20:19 (UTC)[返信]
過去により本格化した議論(Wikipedia:井戸端/subj/コンテンツ翻訳ツールにおける日本語への機械翻訳をツール側で禁止する提案)がありましたが、「コンテンツ翻訳の機械翻訳を止めようとするのが日本語版の共通認識足りうるか?」という点と、「日本語版が意見を統一して停止を要望しても通らない」という点が問題になります。基本的に「機械翻訳停止でまとまろうとしても反対意見を持つ人は絶対に納得しない(使用しているツールを取り上げようとするのですから)」「財団はコンテンツ翻訳を強制的に実装したい」という前提で考えてください。反対意見は出てきにくいだけで必ず出てきます。むしろまとまりかけたところにケチを付ければ、容易に譲歩を獲得できます(これは前回の破綻の原因の一つです)。そして停止でまとまったとしても、コンテンツ翻訳に自信を持ち譲歩する意図が無い相手から機械翻訳停止という大幅な譲歩を引き出そうとしているのですから、財団を説得するだけの材料が必要なのです。そのためにもレビューを行い、「私は使えているから機械翻訳を維持したい」という反対意見に対抗するだけの材料を用意し、「機械翻訳を行っていないコンテンツ翻訳」「機械翻訳を改稿したコンテンツ翻訳」を「機械翻訳」と意図的に同一視して問題ないと主張したい財団の手口を潰しておく必要があるのです。--Open-box会話2022年2月2日 (水) 00:58 (UTC)[返信]
  • Open-boxさん、Leukemianwaltさん、コメントありがとうございます。Open-boxさんが提示してくださった以前の議論は私も覚えがあります(私の私論が議論材料にも使われましたし)。この議論から2年以上、英語版の機能廃止から5年以上経過していますが、それこそこの間に財団とGoogleが全力で改良してきたはずの日本語機械翻訳を使った記事の惨状が未だ改善されていない現実を突きつければ、財団もそう文句は言えないのではないかと考えております。
ちなみに前回議論で争点の一つになっていた、コンテンツ翻訳内で自動算出される「機械翻訳率」ですが(mw:Help:Content translation/Translating/Translation qualityによると、インドネシア語版で70%以上のものの投稿を制限する仕組みができた後、アッサム語版やテルグ語版にも移入されているようです)、私が機械翻訳機能をオフにし完全に手作業で進めている翻訳ですら軒並み90%以上という数値が出るので全く信用できません。前述のMediaWikiの文書は、「機械翻訳そのままの割合が85%以上」もしくは「ソースをそのままコピーした場合は変更されていない部分の割合が65%以上」の時に警告が出ると称していますが、日本語版では一切役に立っていないということは私が証拠を出せます。何をもとに割合を計算しているのか不明ですが、「少なくとも日本語版では機械翻訳率の閾値による投稿制限は意味がなく、むしろまともな翻訳記事の公開を阻害することになる」という主張が成り立つのは明らかです。
交渉材料とするのも兼ねて、ぜひとも前回本格化できなかった記事レビューを実行に移したいところです。1月分など範囲を区切って単発でレビューを行うなら、すぐにでもWikipedia‐ノート:翻訳のガイドラインもしくはそのサブページあたりでレビューを始めたいところです。IPさんが示してくださった通りタグ検索を使えるのであれば、en:Wikipedia:Administrators' noticeboard/CXT/Pages to reviewを参考に単純なリスト&レビューページを作れそうです(より大規模な検証をするなら、専用プロジェクトを立ち上げたりbotに網羅的なリストを作ってもらったりする手もあります)。別件ですが、DeepL翻訳などを使用した著作権侵害疑いの記事も同時に洗い出せると良いですね。--McYata会話2022年2月2日 (水) 03:40 (UTC)[返信]
  • 取り急ぎ機械翻訳率の判定につきましては、バグかわかりませんが「原文を転写」にして全人力翻訳を行っても「100%機械翻訳が含まれています」と表示されるのは私の環境でも同様ということを申し添えます。日本語版では閾値設定は意味がないというご指摘に同意します。--Leukemianwalt会話2022年2月2日 (水) 03:58 (UTC)[返信]
  • コメント コンテンツ翻訳での機械翻訳全面停止というのが良い判断なのかというところはさておき、コンテンツ翻訳の現状を正しく認識するという目的でレビューをすることには強く賛成します。実際問題として低質というよりない翻訳記事が出てきていることは事実で、その一因としてコンテンツ翻訳の中でGoogle翻訳などが規定で使えることにあるという印象はあります。このあたりを、印象からデータに格上げする試みは非常に重要かと存じます。 --紅い目の女の子(会話/履歴) 2022年2月2日 (水) 05:23 (UTC)[返信]
    • 紅い目の女の子さん、ありがとうございます。「印象からデータに格上げする試み」としてレビューを行うという案については多くの方が賛同していらっしゃいますので、勝手ながら当方で利用者:McYata/コンテンツ翻訳レビュースペースという仮ページと仮ルールを作ってみました。人力で記事を抽出するのが面倒で、まだ1月1日-3日分しかリスト化できていませんが、ひとまずこのような感じでレビューできたら良いかな、という雛形は用意できました。こちらについてもご意見いただければ幸いです(「機械翻訳機能の制限」という本題から少しずれるので、このレビュースペースのノートにコメントいただいた方がいいかもしれません)。--McYata会話2022年2月2日 (水) 10:59 (UTC)[返信]