Wikipedia:井戸端/subj/翻訳ツール(ベータ)を用いた編集の増加と、機械翻訳の取り扱い

翻訳ツール(ベータ)を用いた編集の増加と、機械翻訳の取り扱い[編集]

翻訳ツール画面の例

昨年6月に日本語版でも「翻訳ツール」(ベータ)が導入されたようで、「個人設定:ベータ版機能」によれば現時点で2,750人程度が有効化しています。この機能を使って新規立項された記事(contenttranslation「コンテンツ翻訳」タグのついた記事)は現在550ほどあるのですが、削除依頼では機械翻訳は問答無用でケースB-1を理由として削除するのが慣例となっているようですので、のべ記事数としてはもっと多かったことでしょう。

ツールが提供する機械翻訳のまま投稿しようとしたときの警告

ここで一度整理させていただきますと、翻訳ツール(Content Translation) とやらは、他言語版の記事を左に、これから作ろうとする自言語版の入力欄を中央に、サイドバーを右に配置した3コラムの新しい入力ツールで、原文と入力欄を横に並べて段落ごとに逐語訳していけて、公開ボタンを押すと翻訳先の言語版に新規記事として投稿するところまでを行うツールです*1。従来のような単独のテキストボックスに入力するのとは異なり、左右に文章を並べて逐語訳がしやすいようになった、新しい入力インターフェースだと理解しています。ここで、オプション機能として、翻訳元と翻訳先の言語の組み合わせによっては、段落ごとに機械翻訳で自動的に翻訳先を埋めることもできるようであり、それに関係するようなメッセージも右のサイドバーに表示されます。もちろんそのまま公開ボタンを押すと出力のクオリティが低いことを危惧した警告が出ますが(図)、それでも機械翻訳をひな型にして素早く翻訳ができる、というのが、製作チームの思惑のようです。印欧語同士ならば、昨今の機械翻訳というのはなかなかうまくいくことも多いのですが、日本語に関する機械翻訳は難しく、幸か不幸か日本語についてはこのオプションは全く使えないようですので、ただ入力欄が左右に便利に並んでるインターフェースだと捉えて構わないでしょう。したがって、最近増加したGoogle翻訳は、この翻訳ツールを立ち上げ、別画面でGoogle翻訳を利用して、段落ごとにGoogle翻訳にコピペして、出力をツールに貼り付けた結果なのでしょう。

しかし、こういった投稿に対して慣例となっている「機械翻訳ならばケースB-1」ということの根拠かどうにもみつけられず、方針の拡大解釈による不文律と化しているのではないかと疑っております。最近多いのはGoogle翻訳を利用した投稿ですが、財団法務部はGoogle翻訳に著作権的問題はないとしているようで(m:Wikilegal/Copyright for Google Translations)、異端なのは承知の上で先ほどこういう意見を書いたりなどもしました。また「Wikipedia:翻訳のガイドライン#機械翻訳の著作権」には、利用規約に注意しろともあります(例えば商用利用が制限されていないかなど)。以前はGoogle翻訳独自の利用規約があったように思うのですが、2012年にGoogleサービス全体で一本化されたそうで、Google利用規約最新版を参照すればよいのでしょう。

本サービスの一部では、ユーザーがコンテンツをアップロード、提供、保存、送信、または受信することができます。ユーザーは、そのコンテンツに対して保有する知的財産権を引き続き保持します。つまり、ユーザーのものは、そのままユーザーが所有します。 — http://www.google.com/intl/ja/policies/terms/

とあるので、問題にならないと考えます。*2

このように、機械翻訳による投稿の続出は、何も特定の利用者のしつこいブロック逃れなどではなく、新ツール導入によって投稿が手順的に容易になったというところにそもそもの背景がありますので、今後も減ることはなくむしろ増える一方、日常茶飯事になることが予想されます。それにもかかわらず、現在の運用とは齟齬が生じており、削除依頼のいたちごっこに陥っています。日本語版としての対応としては、保守的な方から挑戦的な方までいろいろ考えられますが:

  1. 翻訳ツール自体、日本語版としてオプトアウトし、従来からの入力画面以外一切使えないようにする。
  2. 法的な問題はないにしても、現状の慣例のまま、機械翻訳は削除対象とする。
    問題点:ケースBに該当しないので削除する根拠条文がない
  3. 機械翻訳の利用を促すような画面右端のメッセージを、独自に切り替えられないか、翻訳ツール開発チームに相談し、例えばJAWP独自で設けるガイドラインなどに案内する。
  4. 利用規約で許容されているサービスに限り機械翻訳を認める
    (実は、現状のガイドラインを文字通り読むならば、すでにこうなっており、運用と乖離しているだけだと捉えています)
    「コンテンツ翻訳」タグをモニタし、クオリティの低い翻訳文をその都度編集で直していく必要があります。
  5. (まだ未来の話ですが)いずれ日本語自動翻訳が標準で提供されたとき、それを許容する

他にもご意見いろいろあるかと思いますが、3番などはいずれにせよ検討の価値のあるアクションですし、翻訳のガイドラインもこのツールを想定した記述を盛り込んでいく必要がありますでしょうか。

脚注
  1. このとき、「ページ「A」の翻訳により作成」という要約が自動記入され、Aの部分はSpecial:Redirect/revision/(版番号)による版指定リンクが張られます。履歴継承を意識しての仕様だと思います。
  2. 利用規約では、その下にさらに「Googleに対して(中略)ライセンスを付与する」云々ともありますが、Googleに対してライセンスする行為は、全読者に対してGFDL/CCでライセンスする行為を妨げませんので、問題ないと思います。

--朝彦会話2016年1月8日 (金) 10:46 (UTC)[返信]

  • 翻訳ツール(ベータ)による要約は仕様として仕方がないとしても、Google翻訳による機械翻訳は品質が良くないのは明白なので機械翻訳による記事作成は認めるべきではないでしょう。--hyolee2/H.L.LEE 2016年1月8日 (金) 11:21 (UTC)[返信]
  • 行き違いになりましたが、コンテンツ翻訳での機械翻訳の運用や、その文書の整備状況を見る限り、あくまで発表の一つであってmetaで受け入れられた結論ではないようです。--Open-box会話2016年1月8日 (金) 11:58 (UTC)[返信]
  • コメント 翻訳ツールを使って作成した記事は、機械翻訳そのままかもしれないし、適切な翻訳であるかもしれない(つまり、普通に翻訳記事が作成されたのと同じ)。という事で宜しいでしょうか?イタナラの初版の要約は、他の記事と違い「Wikipedia 翻訳支援ツール Ver1.31」とありますが、これはまた別のツール?なのでしょうか?--JapaneseA会話2016年1月8日 (金) 12:09 (UTC)[返信]
    感想レベルで申しますと、日本語として適切か、容易に修正できる範囲ならば、機械翻訳であっても削除依頼に出したりなどせず編集対応でいいのに、と思っています。例えば日本語ネイティブじゃない利用者が、記事にはなっているものの日本語に修正が要する投稿をした場合とよく似た扱いで。 / Wikipedia翻訳支援ツールというのは私も使ったことがないのですが 別物の外部ツール のようですね。このツールそのものはリンクを書き換えるだけであり投稿などしないようですので、要約欄にそのツール名が表れているのはよくわかりません。--朝彦会話2016年1月8日 (金) 13:07 (UTC)[返信]
コメント井戸端なので、練りに練った論理的な意見というより「感想文」レベルのことをいいます。大雑把にはhyolee2さんと同意見で、機械翻訳の問題の中心は「訳の品質が絶望的にすごく悪い」にあると考えています。著作権とか、利用規約(著作権とはまた別の問題)に関する問題はおまけです。
いわゆる印欧語の相互間では機械翻訳ってけっこういい線いくのですが、日本語の場合は根本的に文法が違うので、機械翻訳後の文章は高確率で何言ってるか全然わからないし、高確率で酷い誤訳をします(意味が反対になっちゃうとか)。ましてや、分野ごとの適切な術語・訳語が選ばれていることなど期待できません。機械翻訳はあくまでも翻訳の補助ツールの域を出ません。
削除依頼案件で「どの条項に引っかかるのか」を厳密に当てはめようとして「著作権(B案件)」を適用しようとするよりは、ケースZ(その他の問題)として処理すべきかなあというふうには思います。厳密にどの条項かを示すのは重要ではありますが、行き過ぎるのは官僚的発想であって(WP:BURO)、「ほとんど意味が通らない(ケースG)」やWikipedia:無意味な記述、あとは「まともな訳に置き換えることの実現可能性」あたりを念頭におきながら合意形成をするという感じじゃないかなあと思います。その「実現可能性」については記事ごとの特性の差があって、イージーなのか、専門分野における術語や定訳の検証の困難さによって判断は変わるでしょう。
視点としては「機械翻訳の記事」を問題視するというよりは「機械翻訳みたいな質の低いものを投稿する行為」を問題視するという方向でないと、手間と効果が見合わないかなあとも思います。ここにもWP:BUROがあって、「そもそもそれは問題行為なのか」を定義するために「問題行為とは」をやりだすとこれまたアレでして、「こんなの問題に決まってるだろ」でいいんじゃないかなと思います。---柒月例祭会話2016年1月8日 (金) 12:13 (UTC)[返信]
官僚的になっているとのお叱りは真摯に受け止めさせていただきます。出力された翻訳文の創作性すら考慮されることなく「機械翻訳だ⇒Bで削除だ」以外の議論がなされていない依頼をよく目にし、それはちょっとどうだろうと思うことが以前からあったのは事実です。おっしゃるとおり、常識も働かせて各記事の質を見て是々非々で検討するのが理想ですね。--朝彦会話2016年1月8日 (金) 13:42 (UTC)[返信]
「お叱り」のつもりはありませんので、どうぞお気になさらず。真剣に取り組んで考え始めるとしばしば定義や規則主義の暗黒面にとらわれてしまいますし、かと言って「全てを無視しなさい」や「雪玉」「常識」を最初に言い出すのってちょっと勇気が要りますよね。--柒月例祭会話2016年1月8日 (金) 17:21 (UTC)[返信]
コメント 提案のうち、「機械翻訳の利用を促すような画面右端のメッセージ」は、「使い物になるサービスが提供されるまでの間」書き換えた方が良さそうです。「利用規約で許容されているサービスに限り機械翻訳を認める」については、単に翻訳サービスが確定しない場合は、品質的にどうしようもないケースG準用が併発する場合以外は問題になっていないだけかと。ですから「日本語自動翻訳が標準で提供されたとき」は、品質を見てケースGの範疇になるかと思われます。ただ、実のところhyolee2さんと㭍月例祭さんが指摘されている品質問題が大きすぎて、ライセンスなんかどうでもいいから止めろという主張にも一理あるんですよね(その場合、現行より運用が厳しくなります)。ただ、質の低い投稿は機械翻訳に限ったことではないので、承認制の導入でしか阻めそうにありません。ライセンス違反じゃないなら書き直そうよという意見もありですから、「改善されなかった場合」ぐらいは明文で付けて欲しいところなのですが。--Open-box会話2016年1月8日 (金) 12:23 (UTC)[返信]
ご意見ありがたく拝聴いたしました。英語版のような承認制の導入は私もこっそり賛同派ですが、参加も散発的ですしあまり表明したことはありませんでした。--朝彦会話2016年1月8日 (金) 13:42 (UTC)[返信]

hyolee2さん、柒月例祭さん、Open-boxさんの3名様から、権利的な話はともかく、とにかく質が悪いからやめてほしいという主旨のご意見をいただきました。(乱暴なまとめ方だったらすみません。)これについてはもちろん反論することはございません。結局のところ、ケースBをある種の言い訳として機械翻訳の排除に用いていたのであって、実際の思いとしてはケースGに近く、まともな日本語になっていないという理由の方が強いという感じになるのでしょうか。その考え方に基づき、日本語の質を考慮にして審議するような運用は私もアリだと思っています。また、さきほどいろいろとツールを試してみていたのですが、他言語版から直接日本語版に投稿できてしまうんですね( http://test.wikipedia.org にログインし、英語をソースに指定し、日本語をターゲットに指定し、 利用者:朝彦/translatetest (便宜上のターゲット)に直接投稿できてしまいました)。 ja.wikipedia.org を一度も訪れずに投稿が完了してしまいます。投稿者に日本語版のトークページで呼びかけても届かないことでしょう。これは穴としてふさいでもらうべきものでしょうか。あるいは、ひとつの投稿のあり方として構えておくべきでしょうか。--朝彦会話2016年1月8日 (金) 13:42 (UTC)[返信]

コメント 朝鮮語の新聞記事(報道用語の言い回しがほとんど共通している)のような例外を除けば、他言語 → 日本語の機械翻訳ってある種のワードサラダ、良くてもスパムレベルにしかならないんですよね。精緻な形態素解析をしている翻訳ソフトならまだマシですが、統計翻訳を採用しているGoogle翻訳なんかは実用性皆無な結果しかでませんし、なんらかのパラダイムシフトが起こりでもしない限り、当面の間は訳文の質的な改善は望めないでしょう(もちろん短い定型句の検索はピカイチなので翻訳補助には有用であることは認めますが)。そういう意味でケースGの準用どころか、即時削除の方針の全般1「内容が全く意味を持たないページ」を適用できるケースすらも少なくないんじゃないかと個人的には思います。
今回の議論の発端となった、Wikipedia:削除依頼/パリンチンスの翻訳元はポルトガル語、先日削除された類似案件のWikipedia:削除依頼/元越戦争の翻訳元はベトナム語です。「たとえスパムレベルの日本語でも残しておけば誰かが直してくれるだろう」と楽観視することもできますが、もっともメジャーな他言語である英語でさえ翻訳文を添削できる利用者がごく限られている現状を考えると、添削する速度が「スパム」が増殖する速度を上回る可能性は皆無と言って良いでしょう。
私は出来る限りウィキペディアの参加者の善意を信じていますし、ウィキペディアの理想は常に包摂主義にあると考えています。しかし無制限に機械翻訳による記事を濫造する利用者がいたとしたら、それは決して容認できないことだと考えます。もちろんそこには「日本語版ウィキペディアの記事を充実させたい」という善意があるとは思いますが、記事の大半がスパムで埋め尽くされるのは考えるだけでも恐ろしいことです。
私も「官僚的なウィキペディア」というのは自己矛盾そのものであり好きではありませんが、これを機に「ケースBに該当しないので削除する根拠条文がない」という現状を見直してもよいかもしれません。ライセンスについて問題が発生しないのであれば、ケースGを改訂することが選択肢として上がります。現状では

なお、機械翻訳の疑いがあるものは、ライセンスを確認してケースBで対処するようにしてください

となっていますが、例えばこれを

なお、機械翻訳で作成された記事においては、ライセンス上の問題が疑われればケースBで対処してください。ライセンスが不明の場合は、可能な限り記述を残すよう努力されるべきですが、翻訳の改善に要するマンパワーやその実現可能性などを総合的に斟酌して問題が多いと判断される場合は削除依頼に提出することは妨げられません。

などとすれば、個別の案件毎にコミュニティに判断を託すことが可能だと思いますがいかがでしょうか。--Damena会話2016年1月8日 (金) 19:45 (UTC)[返信]
この場は「翻訳ツール」のお話が主とは存じますが、google翻訳のライセンスについては全くのフリーではないものと思量しますので、つつらつらと書いてみます。「Google 利用規約」には確かにgoogle翻訳の成果物を利用する際に求められることは書かれていませんが、「本サービスは多岐にわたるため、追加規定または特定の製品についての条件(年齢制限を含みます)が適用されることがあります。」ともあります。そしてgoogle翻訳には、「オープンソース コンポーネントとライセンス」というページが設けられているのですね。言語によってライセンスが異なるのですが、日本語には" Japanese Wordnet"が指定されています……なんとライセンスのリンク先が消えてしまっているのですが、恐らくこれがそのライセンスです。で、NICTの権利者表示を求めていること、成果物が無償で提供されねばならないことがひっかかってくると思われます。なのでgoogle翻訳を用いたと推定される記事に対しケースBを適用することは、故無き事ではないのです。他の無料で使える翻訳サイトで行われた翻訳も、クリエイティブ・コモンズのライセンスに適合するものは寡聞にして存じ上げません。
まぁ実際、削除依頼の審議では翻訳の質が問題とされ、形式的にケースB扱いしていることは否めません。ケースGの拡張が行われるのならば、その方が望ましいとは思います。--LudwigSKTalk/History2016年1月9日 (土) 01:06 (UTC)[返信]
BSDライセンスに似ていますね。これはソフトウェアそのもの・辞書データベースそのもの・ソフトウェアの解説ドキュメント ("software, database, and any associated documentation") を再配布するときに関係してくるライセンスであり、出力物に適用されるものとは別ではありませんか? 一般的な話として、ソフトウェア自体のライセンスは、その出力物には及びません。(一例として、ソフトウェアの再配布を認めていないワープロソフトであっても、それで出力したドキュメントにはソフトウェアのライセンスは関与せず、ユーザーの著作物です。)--朝彦会話2016年1月9日 (土) 01:36 (UTC)[返信]
"Permission to use, copy, modify and distribute ..."とあるので、成果物にも適用されるものと考えておりました(BSDライセンスでは"use in source and binary forms"と限定されている部分です)。--LudwigSKTalk/History2016年1月9日 (土) 02:02 (UTC)[返信]
どう読んでも「使用・利用」であり「成果物」ではないでしょう。--221.189.165.162 2016年1月9日 (土) 03:40 (UTC)[返信]
ここでNICTのソフトウェアを「使用」しているのはGoogleです。Googleはライセンスに従ってこのライセンスを表示させて(HTTPリンクを張って表示に代えて)います。感染性とも俗に言われるコピーレフト系 (GPLやCC-BY-SA) と異なり、今回のようなライセンスはいわゆる許容型フリーライセンスとも呼ばれるものであり、二次著作物(元のソフトウェアを組み込んだ製品)には適用されません。--朝彦会話2016年1月9日 (土) 04:14 (UTC)[返信]

Wikipedia‐ノート:削除の方針/2016年#ケースHおよびI(またはG-2およびH)新設の提案を行いました。翻訳とついでに履歴継承をケースBから切り離す提案です。--Open-box会話2016年1月13日 (水) 05:21 (UTC)[返信]

報告 MediaWiki.org で返答をいただきました。少なくとも、既存の「翻訳ガイドラインを閲覧」のリンク先を日本語版のものに変更することは、現状の枠組みでも可能だと言われました。該当システムメッセージは MediaWiki:Cx-tools-view-guidelines-link で、これを現状の

https://en.wikipedia.org/wiki/Project:Translation#How_to_translate

(メッセージ未作成)から、

https://ja.wikipedia.org/wiki/Wikipedia:%E7%BF%BB%E8%A8%B3%E3%81%AE%E3%82%AC%E3%82%A4%E3%83%89%E3%83%A9%E3%82%A4%E3%83%B3

に変更することを提案します。ここで意見を募るのでいいのかわかりませんが、自明の変更だとも思いますので異論がなければ1週間後以降に管理者伝言板で依頼します。 --朝彦会話2016年2月9日 (火) 10:09 (UTC)[返信]