プロジェクト‐ノート:翻訳検証

ナビゲーションに移動 検索に移動
  • 提案 翻訳検証プロジェクトについてのこの議論を広く周知すべくWikipedia:コメント依頼およびWikipedia:コメント依頼/リストからの誘導が必要ということであれば追加しようと思いますがいかがでしょうか?「合意形成」or「議論活性化?」で迷っている部分もありますので、自分以上に必要性を感じられている方がいらっしゃるのであればその方に一任します--Tze Chiang Hao会話) 2022年5月24日 (火) 12:09 (UTC)[返信]
    まずは我々の中で練って、最終で外部の方に諮った方がよいと考えます。...悪質機械翻訳に対処していてこの仕組みが全然作れていませんが、漸次進めていきましょう。--Sethemhat会話) 2022年6月20日 (月) 10:03 (UTC)[返信]

テンプレート改訂案[編集]

粗悪翻訳の場合は現状査読を経て削除依頼となりますが、「Template:Sakujo」は本プロジェクトに適した文面とはなっておらず、プロジェクト立ち上げ前のWikipedia‐ノート:削除の方針#新テンプレートと参加者登録制についての要不要にて改訂の必要性を訴えておりました。今回プロジェクトが正式にスタートするということで、再度文面の改訂あるいは「Template:翻訳検証」新設の必要性について改めてご意見を伺いたいと思います。

現行方式は
  • 主執筆者による「Template:査読依頼」
  • 主執筆者あるいは第三者による「Template:Rough translation
  • 削除依頼(Template:Sakujo)→削除審議で翻訳の不備を述べる→管理人が削除or存続

のような流れとなっていますが、

新方式(なんとなく英語版のドラフト制度に似てますかね?)
  1. 翻訳レビュー→削除依頼(Template:Sakujo、ケースG-3)→管理人が削除or存続(これが上記までの議論内容ですが、自分が考えているのは下記のようになります。)
  2. 翻訳レビュースペースで(『Template:翻訳検証※翻訳判定と削除依頼は併存並立するものとし、翻訳判定は削除依頼の保険的・補助的な役割も担う。記事に対する削除依頼直行を否定するものではない。
→査読者OK判定の場合:記事からテンプレート除去(ノート欄等に第○版レビュー済みであることを示す文言orテンプレートを追加)
→査読者NG判定の場合:→削除依頼(Template:Sakujoに移行、:サブページ先頭に(*機)や(*訳)をつけG-3案件であることを明示する)→即時削除あるいは管理人が削除or存続判断
1人目の査読者により明白なNG判定とならなくても、先行査読者が後任査読者の判断を仰ぐ旨を明記しており、2人目以降の(単数もしくは複数)査読者によってNGが決定付けられれれば上記フェーズで問題ないと思います。

記事に貼り付けられる削除依頼テンプレートの文面について、以下のような文面へ改稿されるのが望ましいと考えています。

  • 現行テンプレート文面
  現在、削除の方針に従って、この項目の一部の版または全体を削除することが審議されています。削除についての議論は、削除依頼の依頼サブページで行われています。削除の議論中はこのお知らせを除去しないでください。この項目の執筆者の方々へ: まだ削除は行われていません。削除に対する議論に参加し、削除の方針に該当するかどうか検討してください。また、本項目を既に編集されていた方は、自身の編集した記述内容を念のために控えておいてください。
  • 改訂案(上記を以下のように書き換える素案)
  現在、削除の方針またはプロジェクト:翻訳検証に従って、この項目の一部の版または全体を削除することが審議されています。機械翻訳の妥当性についてはプロジェクト:翻訳検証/コンテンツ翻訳レビュースペースにて検証が行われています。検証削除についての議論は、削除依頼の依頼サブページで行われています。削除の議論中はこのお知らせを除去しないでください。この項目の執筆者の方々へ: まだ削除は行われていません。削除に対する議論に参加し、削除の方針に該当するかどうか検討してください。また、本項目を既に編集されていた方は、自身の編集した記述内容を念のために控えておいてください。
  • 新設案(素案)
  現在、プロジェクト:翻訳検証によりこの記事はコンテンツ翻訳レビュースペースにて第三者の翻訳検証を受けています。削除の方針G-3に該当する場合は即時削除あるいは削除依頼の処置が執られる場合があります。

検証についての議論は、プロジェクト内の検証サブページで行われています。検証の議論中はこのお知らせを除去しないでください。 この項目の執筆者の方々へ: まだ削除は行われていません。翻訳検証に対する議論に参加し、機械翻訳あるいは削除の方針に該当するかどうか検討してください。また、本項目を既に編集されていた方は、自身の編集した記述内容を念のために控えておいてください。

必要性の有無、必要なら改訂or新設どちらがよいか、文面など皆様の忌憚なきご意見をお待ちしております。--Tze Chiang Hao会話) 2022年5月22日 (日) 09:57 (UTC) (新設案について一部文面修正。)--Tze Chiang Hao会話) 2022年5月24日 (火) 12:09 (UTC)[返信]

  • Template:Sakujoを改訂するケースでは、冒頭に「削除の方針またはプロジェクト:翻訳検証」と並列して記載することには違和感があります。あらゆるケースの削除依頼で使用されるテンプレートになりますので、例えば特筆性の問題によりケースEで削除依頼が提出された場合でも、記事に貼付されたテンプレートによって、翻訳関係での削除依頼がなされているとミスリードする懸念があります。勿論、フラグで分岐させるなど条件により表示を変更することもできますが「プロジェクト:翻訳検証でNG判定されたケースG-3に該当する記事」というTemplate:Sakujoの使用法の中でもごく限られたケースでしか使用できませんので、新たにテンプレートを作成する方が良いのではないかと思います。また、テンプレートの使用方法につきましては、対象記事すべてに貼付することは運用上、かなりの工数が必要に感じます。少なくとも査読結果OKの場合、テンプレート貼付→除去の作業は省略可能に思えますので、検証結果が「NG」もしくは「要検証」の場合に、削除される可能性があることを通知するテンプレートにするという案はいかがでしょうか。加えて、プロジェクト:翻訳検証による検証はされていないものの機械翻訳だと強く疑われる場合にも使用できるような汎用性があっても良いかもしれません。--Junknote会話) 2022年5月23日 (月) 01:38 (UTC)[返信]
  • 私も新設が良いかと思います。本来、削除依頼は最後の手段であり、翻訳検証で問題ありとされたからといっていきなり真っ赤なおどろおどろしい削除テンプレートが貼られては、翻訳者をはじめ関係者を委縮させてしまう恐れもあります。プロジェクト:翻訳検証の仕組みまで含めて色々考えたのですが、こんな段取りを作ってみてはどうでしょうか。
  1. コンテンツ翻訳レビュースペースでNG/要検証とされた記事に、「翻訳検証中テンプレート」(Tze Chiang Haoさんの「新設案(素案)」)を設置する。また個別に機械翻訳が疑われる記事にも、このテンプレートを自由に貼ることができるようにする。
  2. 削除依頼テンプレートと同様に、「翻訳検証中テンプレート」から翻訳検証サブページを作れるようにしておく。翻訳の問題指摘や議論、改善報告などはサブページで実施する。
  3. 「翻訳検証中テンプレート」設置およびサブページ設置から一定期間経過して進展が無ければ、G-3で削除依頼を出すことができる。具体的には、該当ページで「翻訳検証中テンプレート」の上に重ねて削除依頼テンプレートを貼り、通常の手続き通りに削除依頼を提出する。削除依頼では機械翻訳との関連があることを簡潔に指摘し、詳しい経緯は翻訳検証サブページを参照するよう誘導する。
  4. 削除依頼は通常通り進行し、そこでの投票をもとに管理者が削除判断を下す。
削除手続きそのものを特殊化すると、期間を延ばすとか削除依頼テンプレートを変えなきゃいけないなどといった面倒なことになると思います。削除依頼の手続きは、あくまでも現行のWikipedia:削除依頼に記載の手順をそのまま使った方が今後の手続きも楽になるかと。そこで上記のように、問題記事ごとに翻訳検証サブページを作るという段階を挟み、その告知テンプレートとしてTze Chiang Haoさんが提案されたようなテンプレートを使うというのはいかがでしょう。--McYata会話) 2022年5月23日 (月) 14:02 (UTC)[返信]

翻訳検証参加者[編集]

2022年5月20日までに登録された自分を除く利用者についてはレビューの実績も相当あり、釈迦に説法かもしれませんが、今後参加者が増えた場合に備えて良心的な参加者を想定しつつも性悪説も取り入れています。以下もWikipedia‐ノート:削除の方針#新テンプレートと参加者登録制についての要不要での素案であり、新たなアイデアが浮かんだわけではないのでそのまま転記しております。

  • 原則、利用者の任意とする
  • 参加者の語学力、対象となる言語や参加資格(正式な各種外国語検定の有無)は特に問わないが、常識的な良心の範囲および自己の能力および可処分時間の範囲内でプロジェクトに協力する意思を有すること
  • 検証参加者は原則としてプロジェクト:翻訳検証に登録するプロジェクト:翻訳#参加者に準じてプロジェクト:翻訳検証#参加者に署名という形を考えています。上位である前者への登録がなくても下位である後者だけへの参加表明を以って参加意志とみなす形を想定しています。)
  • 上記登録がなくても参加は可能であるが、ある程度問題ない判定をしているうちは判定を有効とする(黙認扱い)、誤判定を繰り返す場合は登録者欄の節に「未登録参加かつその判定に問題がある利用者」のような節を設け注意を促す。
  • IP参加者もテンプレートを用いた査読はできるが、削除依頼同様その意見は「投票権なしのコメント」とみなし、登録参加者の意見を待つ。
  • 検証参加者は週次や月次、年次の回数やノルマは課されないが、幽霊登録者と見なされかねないような低頻度が見込まれるような空登録は控えること。
  • プライベートでの事情で参加できないことや、執筆したい記事がありそちらに集中したい、あるいは期間中の対象記事が自分が専門としない言語や分野であるため参加を控えることを想定しています。(自分の場合ですと『今は中→日の記事が無いから参加を見合わせよう』などが思いつきます。)
  • ウィキブレイクや翻訳検証プロジェクトから参加を一定期間見合わせる、撤退するなどの場合は「参加者覧の自分の利用者名にその旨を追記するか、利用者名を打ち消し線で修飾」あるいは「利用者ページでのウィキブレイク」明記などを以ってそれを代替する。
  • 悪戯目的あるいは悪意ある参加者があまりに雑過ぎるいい加減かつ軽率な判定を行い、かつ判定に正当な異論がつくなどそれが誰の目にも明らかな場合、あるいはそのような判定の結果、削除依頼が存続となるような場合にその回数分のイエローカードTemplate:Yelを借用かそれに準じたものを作成。2回目あるいは累積でレッドカードとはしない)を参加者一覧の利用者名に付与し、同一記事で複数回のイエロー、あるいは複数の記事におけるイエローの間隔や頻度によってはその利用者に対する対話(会話ページ、コメント依頼など)へと移行。(誰がイエロー判定するのかなどの問題はここでは棚上げします。)
  • イエローカードX枚で参加資格や認定レビュワー資格は停止・剥奪されず、引き続き判定行為を継続することができる。
  • ただしイエローカード後の直近N回の判定は「判定ではなくコメント扱い」とされ、他の判定者によりそのN回全てで判定内容に異論がなかった場合は、イエロー+N回コメント以後の行為で有効扱いが復活する。(プロサッカーリーグでの累積イエロー5枚で出場停止のようなものと考えてください。厳密には出場停止ではなく、意見表明を継続できるが、N回の間はIPと同じコメント扱いにされる。)
  • イエロー直後のN回判定コメントでも悪質な判定と認定された場合、プロジェクト登録か否かを問わずその利用者への対話フェーズに移行する(当該利用者会話ページあるいはコメント依頼)

問題点は大量の濫造記事に対してレビューが追いつくのかと、管理者、削除者、一般利用者からこれのための人材リソースが確保できるのかに尽きると思います。

却下されることも前提に思いついたことを自分なりに整理してみました。提案そのものの妥当性およびイエローカード制度やサスペンション期間の期間(=記事レビュー数)はどれぐらいが妥当かなど、皆様の忌憚なきご意見をお待ちしております。--Tze Chiang Hao会話) 2022年5月22日 (日) 09:57 (UTC)[返信]

大統領執務室[編集]

同じ作成者のストレスボールに気になるビーズと書いてあって不安になりました。なので大統領執務室の検証をしてくれませんか。--2001:268:991F:E65C:0:3F:2EF2:D201 2022年6月18日 (土) 06:45 (UTC)[返信]

ざっとしか見てませんが、これはダメですね。「ジョージワシントンはホワイトハウスを占領したことはありません」とですますが残留しており、このことから他の部分も十分改訳されていないことが予想されます。図のキャプションにも、「タフト大統領執務室、1909年から1933年」節にもがっつり英語が残っていますし完全にダメです。こんなに編集されているのにどうして記事の削除依頼が出ていないのでしょうか...私は今他の機械翻訳案件を扱っていますし、自分の分野の編集もしたいので対処する余裕がありません。後に回します。--Sethemhat会話) 2022年6月18日 (土) 07:14 (UTC)[返信]

「機械翻訳の濫用はおやめください」テンプレートについて[編集]

作業効率化のために、「機械翻訳はおやめください」のテンプレートを作りましょう。一番対処されているMcYataさんに草稿を作っていただいてそれに私含め他の人が加筆するスタイルでどうでしょうか。--Sethemhat会話) 2022年6月20日 (月) 09:59 (UTC)[返信]

  • コメント 技術的なことは詳しくないので、こちらからは毎度のように皆様に丸投げ、追認する形しかとれそうにありません。おそらく問題利用者の会話ページに貼り付ける運用を想定しておられるのでしょうが、それとは別に新規作成時に警告の一環で表示させるようなギミックがあってもよいかもしれません。--Tze Chiang Hao会話) 2022年6月20日 (月) 10:07 (UTC)[返信]

METAなどの文書の翻訳会社のひとつ、Gengoへの登録について[編集]

プロジェクトの参加者様、以下の内容はウィキペディアなどの記事の翻訳とは関りがありません。財団とコミュニティとの意思疎通のためです。これまでボランティアの方々の善意の翻訳に主として依存してきました。しかし、一部の文書について、財団が幾つかの翻訳会社と契約をしました。あくまでも一部です。全てではありません。急ぐ場合(技術者がコミュニティから意見を聞きたい場合など)、担当者が自分の判断で機械翻訳をし、お知らせや井戸端に載せます。

Gengoは最近、契約に至った翻訳会社です。東京に本社があります。柴田は個人的なつながりは一切ありません。ただ、選考段階で、他の会社よりは「まし」とわかりました。Gengoに限らず他の翻訳会社も一次翻訳に機械翻訳を使います。仕上げを登録翻訳者が行います。

ご存知の通り、どのウィキにも独特の用語があります。7月以降、財団の中に、提出された日本語が正しいのかどうかを確認する人間がいなくなります。求人がもうすぐ出そうですが。何にせよ、英語・日本語・各ウィキの事情(特にムーブメントストラテジー)に精通している人が必要です。

もしよろしければ登録をお願い致します。なお登録をしてもしなくても、柴田にはわかりません。誰にもわかりません。せっかく日本の会社が選ばれたのにWikis用語に不適切な日本語が使用され、誰かが「この翻訳は酷い」と財団に言えば、契約打ち切りになる可能性があります。他の、例えば、インドの会社が選ばれるかもしれません。実際、日本語についてもインドの会社になりかけました。

財団の中の、柴田所属の多言語担当者のチームで多言語共通用語集を作り、翻訳会社に渡しました。しかしご存知の通り日本語は一筋縄ではいきません。Wikisを知らない登録翻訳者が間違える可能性は高いです。他にもどなたがご存知であればこのリンクを送っていただければありがたいです。--YShibata (WMF)会話) 2022年6月20日 (月) 10:56 (UTC)[返信]

機械翻訳を機械的に検証する方法[編集]

みなさんこんばんは。外部ツールで文章の一致率を算出するフリーツールがいくつか発表されており、そうしたツールに翻訳された記事をかけてみるとどのような結果になるか、いくつか検証してみましたので情報連携しておきます。

今回使用したツール : 文章類似度算出(速攻ハック版)(テキストベースでコピペして比較するタイプ)

それぞれ、記事から無作為に抽出した一定量の文章と翻訳元google翻訳結果文章該当部分を比較した。

google翻訳結果と類似しているとして削除依頼にかけられていたもの

機械翻訳を参考にはしたものの文章を自作したことがあきらかなものの場合(私が作ったもの)

プロジェクト:翻訳検証/コンテンツ翻訳レビュースペース/2022年6月の6/21より

翻訳記事のため、ある程度の一致はしょうがないのかなと思いますが、おおむね、80%後半で一致すると、該当の機械翻訳を使用した可能性が高く、適切に改稿できていないような感じを受けました。 この場合、原始社会での紛争イェンス・バーゲンステンはgoogle翻訳からほぼそのまま持ってきている可能性があります。定量的に結果がわかるので、自分の中で一致率がいくつだったら削除しようとかの明確な目標数値を持つことができます。アルゴリズムがわからない外部のツールなので正式に使いましょうとは言えませんが・・・--Gurenge会話) 2022年6月22日 (水) 10:25 (UTC)[返信]

  • コメント 自分は過去にコンテンツ翻訳を使ったことがなかったのですが、せっかくプロジェクトに参加しているのだからと思い、テストも兼ねて使ってみました。右隅に機械翻訳との一致率が出る仕様のようですね。事前に「コンテンツ翻訳の画面上で文章のみ(極力)自力翻訳し一旦除去」(A)、ローカル(オフライン)で保存しておいた「文章のみ自力翻訳」(B')、同じくローカル上の「完全自力翻訳(出典強化とテンプレート最適化含む)した完全版の原稿」(B)を用意したうえで初めて使ってみました。A除去後に本文のみ最初からやり直した直後に、画面上で生成された機械翻訳の日本語(A')をA水準に近づけてもツール上の機械翻訳率が80%を切ることは一度もなく、B'(≒B)の文章に近づけてもそれは変わりませんでした。infobox型のテンプレートの置き換えに難があることや、原文についていた出典が右側の訳文出力箇所に移入できていなかったりで、前々から思っていた機能上の欠陥を更に思い知る結果となりました。旧大安渓橋がそうなのですが、初版(A')→第2版(B')→第3版(B)でどれほど齟齬があったかはおわかりいただけるかと思います。B'とBをツール画面に投入しても80%台を維持していたので、個人的にはコンテンツ翻訳機能は翻訳そのもの以上にそういった判定に問題を抱えていることがよくわかった、というのが個人的な感想です。それはそれとして、上記のツールは便利そうですので次回レビュー時に活用してみようかと思います。--Tze Chiang Hao会話) 2022年6月22日 (水) 14:52 (UTC)[返信]
  • コメント Gurengeさんがご提示された「文章類似度算出(速攻ハック版)」を使用したGoogle翻訳の検証記事を発見したので共有します。当該ブログの筆者の方はGoogle翻訳をポストエディットしたものは、見抜けると結論付けられているようです。私も少なくとも機械翻訳を見分ける目安として使用することはできそうに思えます。
  • Tze Chiang Haoさんがご指摘されているコンテンツ翻訳ツールの示す一致率につきましては、データを引っ張れるAPIを見つけたので、何かに利用できないかとレビュースペースの結果と比較してみたのですが(参考)、機械翻訳が50%以下でもGoogle翻訳そのままだったり、きちんと手が加えられているものが80%台だったりと、目安としても使用するのは厳しい印象です。
  • ついでに私が最近使用して便利だと思ったツールがこの話題に役立ちそうなので紹介します。コンテンツ翻訳を制作されたウィキメディアの技術者の方が公開している「Translation debugger」というデバッグツールです。英語版からの翻訳であれば Source language に「en」、Target languageに「ja」、Source title に英語版の記事名を入力して「FIND」をクリックすると下に情報が出力されます。ここで TRANSLATION タブをクリックすると、コンテンツ翻訳でその時に吐き出した機械翻訳文が確認可能で、翻訳結果の揺れを排除できます。--Junknote会話) 2022年6月23日 (木) 03:42 (UTC)[返信]