Wikipedia:Bot作業依頼/過去ログ/2018年5月
このページは過去の議論を保存している過去ログページです。編集しないでください。新たな議論や話題は、Wikipedia:Bot作業依頼で行ってください。 |
BG Plants 和名−学名インデックスのURL変更に関するBOT作業依頼:
[編集]- 議論場所:プロジェクト‐ノート:植物#BG Plants 和名−学名インデックスのURL変更に関するBOT作業依頼
- 依頼内容:「http://bean.bio.chiba-u.jp/bgplants/ylist_detail_disp.php?pass=xxxx」(pass=xxxxの部分はページごとに異なるページID)となっているURLを「http://ylist.info/ylist_detail_display.php?pass=xxxx」(同前)と書き換え
- 範囲:依頼時点でのリンクは1000件弱が確認できます[1]。これら全件の修正をお願いします。
- コメント:多くの記事で出典として使われている和名−学名インデックスのURL変更に伴う修正作業をBOTで行っていただきたく依頼します。URL変更前後でページIDが変わっていませんので、単純な文字列の置換で対応できると思います。プロジェクトのノートではテンプレートを使ったらどうかという意見もありましたが、私の方ではテンプレートの作成等は難しいので、まず目先のリンク切れを対応した上で後からそういうことができる人で対応してほしい旨のご返答をしました。その後1週間以上経過して更なるご返答がなかったため、その線で合意できたとして作業を依頼します。よろしくお願いします。--重陽(会話) 2018年4月5日 (木) 22:19 (UTC)
- 着手します。 着手します。--iwaim(会話) 2018年4月10日 (火) 05:16 (UTC)
- 一時停止 仕様の確認 2件実施しました。「アイグロマツ」の編集(差分)後のリンク先が「エゾニワトコ」になっていました。アイグロマツは http://ylist.info/ylist_detail_display.php?pass=10 のようです。以前から間違っていた可能性はありますが、BOTによる作業を継続するか否かを判断してください。--iwaim(会話) 2018年4月10日 (火) 05:48 (UTC)
- コメント 作業ありがとうございます。アイグロマツの件につきましてアーカイブで確認しましたところ、http://bean.bio.chiba-u.jp/bgplants/ylist_detail_disp.php?pass=970もエゾニワトコのページでした[2]。URL変更前から間違っていたようですので、ページIDの整合性に問題はなさそうです。BOT作業を継続していただけましたらと思います。よろしくお願いします。--重陽(会話) 2018年4月10日 (火) 13:24 (UTC)
- 一時停止 仕様の確認 2件実施しました。「アイグロマツ」の編集(差分)後のリンク先が「エゾニワトコ」になっていました。アイグロマツは http://ylist.info/ylist_detail_display.php?pass=10 のようです。以前から間違っていた可能性はありますが、BOTによる作業を継続するか否かを判断してください。--iwaim(会話) 2018年4月10日 (火) 05:48 (UTC)
- 着手します。 着手します。--iwaim(会話) 2018年4月10日 (火) 05:16 (UTC)
コメント 「アカエゾマツ」内のリンク(版番67751192)を修正後はアオミノアカエゾマツの箇所が http://ylist.info/ylist_detail_display.php?pass=5089 の「ヒカゲシラスゲ」になってしまうようです。2010年に追加されています(版番35580733)が、それ以降にYList側のデータが変更になったのではないかと想像します。本来としてはBotでの作業に適した内容であるとは判断するのですが、本件に関しては機械的な置き換えは止めておいた方がよいように判断します。--iwaim(会話) 2018年4月16日 (月) 11:12 (UTC) 補足追加。--iwaim(会話) 2018年4月16日 (月) 11:18 (UTC)
- コメント 調査ありがとうございます。もう少し調べますと、フクギの記事で2008年10月の編集で追加された[3]においてもID検索結果が存在しないことになっており、どこかのタイミングでデータ変更があったみたいですね。確認ですが、例えばBOTで記事中の文字列とリンク先の文字列を比較して一致しない場合に作業用カテゴリに分類するといったことや、URLが追加された編集の編集日時を取得して確実にデータ変更以降の日時の編集であるもののみをBOTで置換するということは可能でしょうか?可能であれば引き続き調査したいと思いますが、無理なようでしたら依頼を取り下げてプロジェクトに手作業のお願いを投げかけたいと思います。よろしくお願いします。--重陽(会話) 2018年4月19日 (木) 21:34 (UTC)
- コメント 「いつ追加されたのか」というところに負荷がかなりかかりそうかなー、という印象です。全部を手作業よりもマシそうな案としては「(現時点で検証可能性が形式的には担保されていないので)誤ったURLになるものがある程度あることは受け入れる。そして、置換対象を全件精査して問題があるものは修正する」というものは思いつきました。「プロジェクト:植物」にて合意がなされ、人手が担保できる見込みがあるならば、私の方でBotは走らせます。--iwaim(会話) 2018年4月27日 (金) 21:52 (UTC)
- 取り下げ ご回答および対案のご提示ありがとうございます。一度プロジェクトにて話を振ろうかと思いますが、はじめにこの話をしたときにもあまりコメントはいただけませんでしたので、人手の担保の見込みとなると少し時間がかかってしまうかもしれません。本提案はいったん取り下げてプロジェクトに差し戻し、目処が付いた際に再度BOT作業依頼をさせていただこうと思います。その際にはまたよろしくお願いいたします。--重陽(会話) 2018年5月2日 (水) 12:42 (UTC)
- コメント 「いつ追加されたのか」というところに負荷がかなりかかりそうかなー、という印象です。全部を手作業よりもマシそうな案としては「(現時点で検証可能性が形式的には担保されていないので)誤ったURLになるものがある程度あることは受け入れる。そして、置換対象を全件精査して問題があるものは修正する」というものは思いつきました。「プロジェクト:植物」にて合意がなされ、人手が担保できる見込みがあるならば、私の方でBotは走らせます。--iwaim(会話) 2018年4月27日 (金) 21:52 (UTC)
Lintエラー修正(fontタグ関連)
[編集]- 議論場所:Wikipedia:井戸端/subj/RemexHTML移行に関する合意形成
- 依頼内容:fontタグ関連のLintエラー修正
- コメント:Lintエラー修正依頼の1件目として、特別:LintErrorsの「Tidy bug affecting font tags wrapping links」を依頼いたします。具体的にはfontタグでリンクの文字色を変更している場合に修正が必要で、<font color=red>[[あ]]</font>が[[あ|<span style="color:red">あ</span>]]に、<font color=red>[[い|あ]]</font>が[[い|<span style="color:red">あ</span>]]になります。合意が形成されたのは「標準名前空間」のみなので、今回の修正はそのように限定しています。現在そのようなエラーが数千件ありますので、ボット作業を依頼いたします。--ネイ(会話) 2018年4月21日 (土) 21:09 (UTC)
- 着手します。 標準名前空間を対象に作業着手します。標準名前空間内の当該エラー件数は178件、おそらく作業対象ページ数は59頁になるかと予想します。 --Kanjy(会話) 2018年4月30日 (月) 16:59 (UTC)
- 完了 該当する55頁を対象に作業いたしました。うち2頁は不具合のため再修正いたしました。標準名前空間内のTidy font bugエラーは現時点で残2件となり、おそらくは{{WWTBAM question}}を修正すれば残ゼロ件になるかと思います。ご確認いただければ幸いです。 --Kanjy(会話) 2018年4月30日 (月) 17:44 (UTC)
- 確認しました。作業していただきどうもありがとうございました。--ネイ(会話) 2018年5月5日 (土) 01:31 (UTC)
- 完了 該当する55頁を対象に作業いたしました。うち2頁は不具合のため再修正いたしました。標準名前空間内のTidy font bugエラーは現時点で残2件となり、おそらくは{{WWTBAM question}}を修正すれば残ゼロ件になるかと思います。ご確認いただければ幸いです。 --Kanjy(会話) 2018年4月30日 (月) 17:44 (UTC)
Template:TVの除去
[編集]- 議論場所:Template‐ノート:TV#廃止について
- 依頼内容:Template:TVの使用記事から、「{{TV}}¥n」の除去をお願いいたします。
- コメント:Wikipedia:Bot作業依頼/過去ログ/2018年2月#Template:漫画の除去、#Template:同人の除去との類似案件です。--Missing340(会話) 2018年5月4日 (金) 08:40 (UTC)
- 着手します。--iwaim(会話) 2018年5月5日 (土) 03:26 (UTC)
- 完了記事名前空間とCategory名前空間を対象に作業し、完了しました[4]。--iwaim(会話) 2018年5月5日 (土) 03:58 (UTC)
- 確認致しました。--Missing340(会話) 2018年5月5日 (土) 05:16 (UTC)
- 完了記事名前空間とCategory名前空間を対象に作業し、完了しました[4]。--iwaim(会話) 2018年5月5日 (土) 03:58 (UTC)
- 着手します。--iwaim(会話) 2018年5月5日 (土) 03:26 (UTC)
鉄道関連記事Infoboxの事業者等の欄からのアイコン画像の削除
[編集]- 議論場所:プロジェクト‐ノート:鉄道/アイコン画像#記事中の企業ロゴや都道府県旗アイコンの除去提案、プロジェクト‐ノート:鉄道/アイコン画像#アイコン画像によるマークアップ
- 依頼内容:鉄道関連記事の以下のテンプレート及びパラメータ内で使用している、インライン画像([[ファイル:]]または[[File:]]で挿入されている画像)の削除
- Template:Infobox 列車名 -「地域」「運営者」「前身」「後継」「旧運営者」「線路所有者」「使用路線」の各パラメータ
- Template:Infobox 鉄道路線 - 「所在地」「所有者」「運営者」の各パラメータ
- Template:Infobox rail line - 「locale」「owner」「operator」の各パラメータ
- Template:駅情報 - 「所属事業者」「所属路線」の各パラメータ
- コメント:上記の各テンプレートを使用している件数が大変多いため、Bot作業依頼としました。ただし、必ずしも全て(のパラメータの設定内容)に画像が挿入されているとは限りません。また、のぞみ (列車)の運営者欄のJRロゴのように複数の画像が挿入されている場合は、全ての画像を除去します。なお、上記のパラメータ以外や、テンプレート外の画像につきましては削除対象外(そのまま存続)です。以上よろしくお願いいたします。--茶でもすするか(会話) 2018年2月23日 (金) 23:45 (UTC)
- 仕様の確認 何点か確認したい点がございます。--本日晴天(会話) 2018年5月3日 (木) 11:42 (UTC)
- 上記のテンプレート以外(Template:列車名やTemplate:鉄道車両、Template:Infobox 鉄道事故など)については手動でインライン画像の除去を行うということでよろしいでしょうか。
- Template:駅情報の「乗換」のパラメータに企業や路線のロゴを使用しているもの(大阪駅、新宿駅#東京メトロなど)もありますが、こちらも除去してよろしいでしょうか。
- Template:JR西路線記号などの路線記号テンプレートについても、ご指定の箇所で使用されているものは除去してよろしいでしょうか。
- 仕様の確認 何点か確認したい点がございます。
- Template:列車名の「運行者」「経由線区」「線路所有者」の各パラメータに上記依頼を適用することは可能でしょうか? Template:鉄道車両など、その他のテンプレートにつきましては手動で除去予定です。
- はい。インライン画像の除去をお願いします。
- 路線記号等のテンプレートにつきましては、今回は除去対象外としたいと思います。企業ロゴでテンプレートを使用している箇所につきましては別途依頼予定です。
- --茶でもすするか(会話) 2018年5月3日 (木) 12:26 (UTC)
- 着手します。 利用者:SeitenBot/user-fixes.py#鉄道関連記事Infoboxの事業者等の欄からのアイコン画像の削除に記載したものと同じコードをpywikibotのuser-fixes.pyに入力し、それをreplace.pyから読み込んで使用します。インストールしたpywikibotに付属していたmwparserfromhellも利用しています。--本日晴天(会話) 2018年5月4日 (金) 02:24 (UTC)
- 一時停止 列車の記事170本(投稿記録)、路線などの記事671本(投稿記録)、駅の記事3185本(投稿記録1・投稿記録2)に対して作業を行いました。駅の記事についてはまだ半分も終わっていないようですが、一旦作業を停止し、後ほど再開します。--本日晴天(会話) 2018年5月4日 (金) 16:39 (UTC)
- 完了 引き続き駅記事3460本(投稿記録1・投稿記録2)に対して作業を行いました。これで今回ご依頼の分は完了です。あとはTemplate:駅情報/韓国の「所属路線」のパラメータに画像を使用しているものが多いようですね(所属路線のパラメータの先頭で画像を使用しているページ)。--本日晴天(会話) 2018年5月5日 (土) 13:20 (UTC)
- 確認いたしました。合計7486件、延べ2日間と非常に大量な依頼のご対応に深く感謝申し上げます。--茶でもすするか(会話) 2018年5月6日 (日) 02:09 (UTC)
- 完了 引き続き駅記事3460本(投稿記録1・投稿記録2)に対して作業を行いました。これで今回ご依頼の分は完了です。あとはTemplate:駅情報/韓国の「所属路線」のパラメータに画像を使用しているものが多いようですね(所属路線のパラメータの先頭で画像を使用しているページ)。--本日晴天(会話) 2018年5月5日 (土) 13:20 (UTC)
- 一時停止 列車の記事170本(投稿記録)、路線などの記事671本(投稿記録)、駅の記事3185本(投稿記録1・投稿記録2)に対して作業を行いました。駅の記事についてはまだ半分も終わっていないようですが、一旦作業を停止し、後ほど再開します。--本日晴天(会話) 2018年5月4日 (金) 16:39 (UTC)
text-align 指定の修正
[編集]- 議論場所: ありません
- 依頼内容:
- text-align:cebter; → text-align:center; (insource検索では500件ほどヒット)
- コメント:
- text-alignの指定が「cebter」と誤っているものについて「center」となるよう、Botでの修正を依頼させていただきます。よろしくお願いします。--なびお(会話) 2018年3月1日 (木) 03:43 (UTC)
- <div class="NavFrame" 〜><div class="NavHead" style="text-align:cebter;">というパターンがほとんどのようですね。この場合だとMediaWiki:Common.cssにというのがありますので、そもそもNavHeadクラスを指定したdiv要素にstyle="text-align:center;"を指定する必要性はないんですよね。先述のパターンに当てはまるものについてtext-align:cebter;を除去し、残ったものについては手動で修正を行うという方向でいかがでしょうか。--本日晴天(会話) 2018年5月3日 (木) 10:58 (UTC)
div.NavFrame div.NavHead { height: 1.6em; font-weight: bold; font-size: 100%; background-color: #efefef; position: relative; text-align: center; }
- <div class="NavFrame" 〜><div class="NavHead" style="text-align:cebter;">というパターンがほとんどのようですね。この場合だとMediaWiki:Common.cssに
- 返答&調査ありがとうございました。そもそも不要な指定だったのですね。承知しました。ご提案いただいた内容での作業をお願いできますでしょうか?作業完了後、必要であればこちらで手動で修正したいと思います。よろしくお願いいたします。--なびお(会話) 2018年5月6日 (日) 01:31 (UTC)
- 着手します。 style属性にtext-align:cebter;のみが指定されている場合はstyle属性ごと除去するようにします。--本日晴天(会話) 2018年5月6日 (日) 02:16 (UTC)
- 完了 487ページに対して作業を行いました(作業記録)。ご確認ください。残ったものについては手動で修正お願いします。--本日晴天(会話) 2018年5月6日 (日) 04:02 (UTC)
- 確認 作業ありがとうございました。100件ほど差分を確認しまして、問題ないと判断しています。「cebter」で検索してヒットした1件については手動で修正いたしました。--なびお(会話) 2018年5月6日 (日) 09:50 (UTC)
- 完了 487ページに対して作業を行いました(作業記録)。ご確認ください。残ったものについては手動で修正お願いします。--本日晴天(会話) 2018年5月6日 (日) 04:02 (UTC)
- 着手します。 style属性にtext-align:cebter;のみが指定されている場合はstyle属性ごと除去するようにします。--本日晴天(会話) 2018年5月6日 (日) 02:16 (UTC)
- text-alignの指定が「cebter」と誤っているものについて「center」となるよう、Botでの修正を依頼させていただきます。よろしくお願いします。--なびお(会話) 2018年3月1日 (木) 03:43 (UTC)
Template:ドラマの除去
[編集]- 議論場所:Template‐ノート:ドラマ#廃止について
- 依頼内容:Template:ドラマの使用記事から、「{{ドラマ}}¥n」の除去をお願いいたします。
- コメント:Wikipedia:Bot作業依頼/過去ログ/2018年2月#Template:漫画の除去、#Template:同人の除去との類似案件です。--Missing340(会話) 2018年5月4日 (金) 08:40 (UTC)
- 着手します。--iwaim(会話) 2018年5月5日 (土) 03:59 (UTC)
- 完了 完了しました[5][6][7][8][9][10][11][12]。--iwaim(会話) 2018年5月6日 (日) 04:49 (UTC)
- 確認 致しました。膨大な作業でしたがありがとうございました。--Missing340(会話) 2018年5月7日 (月) 08:04 (UTC)
- 完了 完了しました[5][6][7][8][9][10][11][12]。--iwaim(会話) 2018年5月6日 (日) 04:49 (UTC)
- 着手します。--iwaim(会話) 2018年5月5日 (土) 03:59 (UTC)
Template:国家機関のキャラクターの除去
[編集]- 議論場所:Template‐ノート:国家機関のキャラクター、Wikipedia:削除依頼/Template:国家機関のキャラクター
- 依頼内容:標準名前空間から「{{国家機関のキャラクター}}\n」の除去を依頼します。対象は約140記事。
- コメント:ノートでの合意成立(2018年5月9日(水)07:49(UTC))の後、または削除依頼での管理者対処(5月9日頃の見込み)の後、どちらか早い方の段階で作業開始をお願いいたします。--Ashtray (talk) 2018年5月8日 (火) 14:14 (UTC)
- 作業済み - 第3者により作業済みです。--本日晴天(会話) 2018年5月9日 (水) 14:30 (UTC)
- 感謝 手動での除去を確認いたしました[13]。ぱたごんさん、ご対応ありがとうございました。--Ashtray (talk) 2018年5月9日 (水) 15:43 (UTC)
- 作業済み - 第3者により作業済みです。--本日晴天(会話) 2018年5月9日 (水) 14:30 (UTC)
sorae.jpのsorae.infoへのドメイン変更
[編集]- 事前議論
なし。出典の質や妥当性などについてはまた別の議論になると思いますので。
- 依頼内容
下記範囲に対する外部リンクアドレスのドメイン名部分の「sorae.jp」・「www.sorae.jp」について、「sorae.info」への置換。
- 理由
航空宇宙関連のニュースサイトsorae.jpはしばしば出典に使われており、2017年12月20日現在では244件ほどヒットしています(特別:検索/sorae.jp、そのうちwww.sorae.jpの形も60件あるようです→特別:検索/www.sorae.jp)が、先日「sorae.jp」から「sorae.info」にドメイン変更して[14]おり、それらの多くの出典がリンク切れになっている様子です。しかし新ドメインで最も古い記事を探すと2012年以降のログが残っており[15]、jpをinfoに変えるだけで閲覧できるようです。なおwww.の付いたアドレスもwww.なしのアドレスに転送される様子ですので、置換ついでにwww.も取っちゃって良いと思います。
- 範囲
まだsoraeに残っている(=2012年以降の)個々のニュース記事のアドレスを見る限り、sorae.jp(.info)に続くアドレスは、ニュース記事の場合は「030201」、コラム記事では「02」が続き、その次にhtmlドキュメント名が入るものと考えて良いと思います。そのhtml名にも規則性があり、例えばニュース記事(030201/ … )の場合、
- 2012/01/04の
http://sorae.info/030201/4576.html
から
- 2015/08/24の
http://sorae.info/030201/5662.html
までは単純に数字が増え続けていますが、次の
以降は、日付で始まるhtml名になっています。なおコラム(/02)に関してはもっとも古いものが2015年10月25日[16]ですので「日付で始まるhtml名」しか無いと思います。 以上から、「sorae.jp/030201」または「www.sorae.jp/030201」で始まる外部リンクアドレスのうち、その後に「/2015_ …」、「/2016_ …」、「/2017_ …」が続くか、「/4576. …」以上の数字のアドレスであれば2012年以降の記事として「sorae.info/030201 …」への置換対象と判断できるかと思います。 また「sorae.jp/02」または「www.sorae.jp/02」で始まるアドレスのうち、その後に「/2016_ …」、「/2017_ …」が続くか、「/2015_ … 」が続くもののうち「/2015_10_25 … 」以上の日付についても置換の対象と判断できるかと思います。 それらに合致しない、2011年以前の記事については通常のリンク切れとして別のbotの仕事になると思いますので、取り急ぎ、上記244件のヒット記事の中から上記の対象に合致する出典だけを選び出す形で(httpアドレスのドメイン部分だけを)sorae.jp、www.sorae.jpもしくはwww.sorae.infoからsorae.infoへ置換しておくと良いのではないかと思います。むろん外部リンク先の有無が自動で確認できるなら念のため新アドレスの存在を確認すべきかとは思います。以上でいかがでしょうか? --Gwano(会話) 2017年12月20日 (水) 12:54 (UTC) - 誤字修正--Gwano(会話) 2017年12月22日 (金) 09:07 (UTC) - 条件に紛らわしい部分があったので下線部追記。 --Gwano(会話) 2018年3月21日 (水) 09:11 (UTC)
- (補足) なお、変更はあくまで外部リンクURLのドメイン名部分だけであり、publisher引数などに現れるサイト名はsorae.jpのままで変更はありません。--Gwano(会話) 2017年12月22日 (金) 09:07 (UTC)
- (報告) 昨日、上記依頼範囲のうち21件の記事[17]について、利用者:Yusuke1109さんによって、AWBによるリンク張替えが行われました。内容を確認しましたところ、修正があったのは上記「/030201/」のアドレスに「日付の続くリンク」のみであり、「/02/」に続くアドレス、および、数字の続くアドレスで2012年以降のもの(「/030201/4576.html」から「/030201/5662.html」まで)については未修正の様子です。その21件の記事の中にもこれらの未修正部分が残されているようでしたので、調査すべき範囲(2018年1月4日現在242件)には特に変更は無いものと思われます。--Gwano(会話) 2018年1月4日 (木) 10:28 (UTC)
- Portal‐ノート:宇宙開発#sorae.jpのアドレス変更を依頼中ですに作業を告知しました。--Triglav(会話) 2018年3月20日 (火) 14:00 (UTC)
- 依頼者です。お手数お掛けいたしております。なお上記の告知における「各ページ名の変換が必要」という部分が何を指すのかよく分からなかったのですが、ウェブページのタイトル表記のことでしたら、上記の通りサイト名(publisher)の表記(soraeもしくはsorae.jp)に変更は無いはずですので、タイトル部分にsorae.jpが含まれるような場合であってもそこを変える必要は無いものと考えております。--Gwano(会話) 2018年3月21日 (水) 09:11 (UTC)
- 上記詳細は、パス名の変更ではなく、対象の絞り込みの話でしたね。失礼しました。作業開始します。--Triglav(会話) 2018年5月6日 (日) 23:36 (UTC)
完了193件。古いページについては、書き換え後、確認しながら戻し作業を行おうと思っていましたが、アクセス不能という表示よりもサイト上で該当ページなしを表示させたほうが親切かと思い戻し作業をしておりません。不都合であれば再処理しますのでご指示ください。あと、作業ミスで一部「Sorae」を「sorae」に変える処理が入ってしまいました。--Triglav(会話) 2018年5月7日 (月) 01:39 (UTC)
- 上記詳細は、パス名の変更ではなく、対象の絞り込みの話でしたね。失礼しました。作業開始します。--Triglav(会話) 2018年5月6日 (日) 23:36 (UTC)
- 依頼者です。お手数お掛けいたしております。なお上記の告知における「各ページ名の変換が必要」という部分が何を指すのかよく分からなかったのですが、ウェブページのタイトル表記のことでしたら、上記の通りサイト名(publisher)の表記(soraeもしくはsorae.jp)に変更は無いはずですので、タイトル部分にsorae.jpが含まれるような場合であってもそこを変える必要は無いものと考えております。--Gwano(会話) 2018年3月21日 (水) 09:11 (UTC)
- Portal‐ノート:宇宙開発#sorae.jpのアドレス変更を依頼中ですに作業を告知しました。--Triglav(会話) 2018年3月20日 (火) 14:00 (UTC)
(インデント戻し) ごめんなさい。私の示した条件に一部誤認があったせいか、「/4576. …」以上の数字のアドレスであれば置換対象とする(/4576.html 未満であれば置換しない)の部分がまったく機能しておらず、本来置換対象ではなかった記事に対してまで大量の誤置換が発生しております(滝汗)。 具体的には上記条件で「sorae.jp/」に続くアドレスがニュース記事の場合は「/030201」と限定してしまいましたが、実際には「03 …」で始まる6桁の数字はいろいろあったようですが、infoをjpに変えた新アドレスではすべて「/030201」に転送される仕様だったことから、旧アドレスが必ずしも030201ではないことに気付かなかったのです。どのようなアルゴリズムで処理されたのかは存じませんが、結果的に「(html名が2015~2017_ … の年号で始まらない場合は) /xxxx.html の xxxx の数字部分(注:xxxxは3桁の場合もあります)が4576以上のアドレスを対象とする(4576未満は置換しない)」という条件がまったく機能しておらず、置換してはいけないアドレスまで大量に置換されているのです。 この修正として、
- 上記193件だけを対象として誤置換だけを検出してsorae.info→sorae.jpに再置換するか、
- もしくはいったん193件すべてを差し戻したうえで修正した条件でふたたび置換を試みるか、
どちらかを早急に決めなくてはなりません。前者のほうが楽ではありますが、置換しないアドレスはインターネットアーカイブ化に頼ることが前提になりますから、「wwwの除去」や「大文字を小文字に変換」が同時に起こっていた場合、アーカイブに正常にアクセスできなくなる可能性があるかもしれません。かといって単純に差し戻してしまうと、同じページで正しい置換と間違った置換が同時に起きていた場合、再び置換する必要も生じます。
当時は同じニュース記事のカテゴリ(/03xxxx)でもテーマごとに細分化されていたのが原因のようです。当時は「http://sorae.jp/030805/
」のように記述することで、その細分化されたテーマの記事だけを一覧表示する機能がありました。しかし新ドメインにはその機能は無いようで、「030201」に一本化されています。また、これはコラム記事も同様で、転送前の元アドレスでは「/02」以下にも「/02xx」と数字が続いている場合がありました。一覧表示機能は廃止されていますので、アドレスの最後にhtml名が無い場合(もしくはindex.htmlである場合)は置換対象から外すべきでした。以下のページでそのような使い方が見られました。これも置換対象から外すか、差し戻す必要がありそうです(むろん同じ記事内で本来の置換対象が混在しているものもあります)。
また、以下のページではドメイン名がsorae.jpでないページのアドレスまで(大文字→小文字に)置換されてしまっています。アドレスが変わるのはまずいですが、これらはいずれもリンク切れですので置換対象外です。
そのほか細かいことで気付いたのは以下のようなものがあります。
- 上記の通り、新ドメインではこの中間部分の数字が「030201」となるアドレスに自動転送される(例:http://sorae.info/030809/5564.html → https://sorae.info/030201/5564.html)わけですが、正しく置換が行われたアドレスに関しては転送がなされるので無理に直す必要は無いかもしれません。しかしついでがあれば「03xxxx → 030201」に直しておいたほうが無難かもしれません。
- だいぶ時間を経過してしまったこともあり、いくつかの記事では既にアーカイブ化もしくは{{リンク切れ}}が付けられてしまっている様子です。特に後者の場合はリンク全体が編集除去される懸念もありますので、もし可能であれば、「(2012年以降の)置換対象」に該当するアドレスはアーカイブ・リンク切れ処理を解除したほうが良いかもしれません。
- 新ドメインはアドレスは一応httpではなくhttpsのようですが、その変更は行われていないようです。ただしhttpであってもhttpsへ転送されるようですので、優先度は低いかもしれません。
以上、お手数お掛けします。--Gwano(会話) 2018年5月7日 (月) 09:53 (UTC)
- 大文字ミスもあったので一旦完全に戻しました。--Triglav(会話) 2018年5月7日 (月) 11:16 (UTC)
- 小文字変換は意図的なものではない単純なミスので気にしないでください。4576以上への絞り込みは置換後に目視で戻しの予定でしたので最初から機能させていません。さて仕切り直しということで、改めて作業内容を確認します。
- 対象記事は前回同様に193件とする。
- ページ名は4576以上または2012_以上を対象とする。
- http://www.sorae.jp/、http://sorae.jp/ を https://sorae.info/ にする
- 情報はなるべく残しておいたほうがよさそうなので「030201」に一本化しない。
- {{リンク切れ}}は目視でトル(ことになるかもしれない)。
- --Triglav(会話) 2018年5月7日 (月) 13:45 (UTC)
- 小文字変換は意図的なものではない単純なミスので気にしないでください。4576以上への絞り込みは置換後に目視で戻しの予定でしたので最初から機能させていません。さて仕切り直しということで、改めて作業内容を確認します。
なるほど4576.html以上という条件の自動化は難しそうなのですね、失礼いたしました。私としては手動で行うつもりが無いゆえのbot依頼なのですが、結果的にお手数を押し付けてしまう形となるのであれば申し訳ないです。せめてもの自動化に役立つかどうかは分かりませんが、前回の差分を検証したときに置換対象外と思われたアドレスをメモしておきましたので、以下にリストアップしておきます。もし自動化が可能でしたら、以下のアドレス文字列は修正しないようにはできないでしょうか? なおsorae.jp以前の部分(http://)についてはwwwの有無に表記ゆれがあると思います。
- ↓追記:長いので段組にしてみました。
- sorae.jp/0237/551.html
- sorae.jp/030599/3838.html
- sorae.jp/030601/2925.html
- sorae.jp/030601/3606.html
- sorae.jp/030602/1435.html
- sorae.jp/030602/1994.html
- sorae.jp/030603/2755.html
- sorae.jp/030603/2975.html
- sorae.jp/030603/3117.html
- sorae.jp/030603/3672.html
- sorae.jp/030603/4488.html
- sorae.jp/030604/1488.html
- sorae.jp/030604/1502.html
- sorae.jp/030604/4080.html
- sorae.jp/030604/4098.html
- sorae.jp/030605/1838.html
- sorae.jp/030605/4351.html
- sorae.jp/030606/4542.html
- sorae.jp/030607/4485.html
- sorae.jp/030610/2248.html
- sorae.jp/030611/2320.html
- sorae.jp/030611/3512.html
- sorae.jp/030612/2493.html
- sorae.jp/030613/4500.html
- sorae.jp/030650/948.html
- sorae.jp/030699/3227.html
- sorae.jp/030699/3335.html
- sorae.jp/030699/3439.html
- sorae.jp/030699/3632.html
- sorae.jp/030699/3801.html
- sorae.jp/030701/2793.html
- sorae.jp/030701/2871.html
- sorae.jp/030703/1661.html
- sorae.jp/030703/4378.html
- sorae.jp/030704/1451.html
- sorae.jp/030704/2075.html
- sorae.jp/030704/2445.html
- sorae.jp/030799/1830.html
- sorae.jp/030799/4107.html
- sorae.jp/030799/4297.html
- sorae.jp/030802/4196.html
- sorae.jp/030802/4414.html
- sorae.jp/030803/3831.html
- sorae.jp/030803/4319.html
- sorae.jp/030803/4461.html
- sorae.jp/030805/2230.html
- sorae.jp/030805/4248.html
- sorae.jp/030806/2473.html
- sorae.jp/030806/3977.html
- sorae.jp/030807/2417.html
- sorae.jp/030807/4521.html
- sorae.jp/030809/1798.html
- sorae.jp/030809/2029.html
- sorae.jp/030809/2085.html
- sorae.jp/030809/2348.html
- sorae.jp/030809/2425.html
- sorae.jp/030809/2563.html
- sorae.jp/030809/3052.html
- sorae.jp/030809/3255.html
- sorae.jp/030809/3260.html
- sorae.jp/030809/3416.html
- sorae.jp/030809/3489.html
- sorae.jp/030809/3686.html
- sorae.jp/030809/3688.html
- sorae.jp/030809/3922.html
- sorae.jp/030809/3954.html
- sorae.jp/030809/4055.html
- sorae.jp/030809/4076.html
- sorae.jp/030809/4100.html
- sorae.jp/030809/4118.html
- sorae.jp/030809/4146.html
- sorae.jp/030809/4157.html
- sorae.jp/030809/4164.html
- sorae.jp/030809/4194.html
- sorae.jp/030809/4197.html
- sorae.jp/030809/4217.html
- sorae.jp/030809/4242.html
- sorae.jp/030809/4357.html
- sorae.jp/030809/4442.html
- sorae.jp/030809/4472.html
- sorae.jp/030809/4477.html
- sorae.jp/030811/4013.html
- sorae.jp/030812/1820.html
- sorae.jp/030812/4148.html
- sorae.jp/030813/1916.html
- sorae.jp/030813/4475.html
- sorae.jp/030814/3841.html
- sorae.jp/030816/4451.html
- sorae.jp/030817/1270.html
- sorae.jp/030895/3308.html
- sorae.jp/030895/3864.html
- sorae.jp/030895/3865.html
- sorae.jp/030895/4065.html
- sorae.jp/030899/3037.html
- sorae.jp/030899/3120.html
- sorae.jp/030899/3225.html
- sorae.jp/030899/3616.html
- sorae.jp/030899/3780.html
- sorae.jp/030899/4169.html
- sorae.jp/030899/4341.html
- sorae.jp/030899/4418.html
- sorae.jp/030903/3590.html
- sorae.jp/030903/4240.html
- sorae.jp/030904/2829.html
- sorae.jp/030904/3413.html
- sorae.jp/030904/3415.html
- sorae.jp/030905/3797.html
- sorae.jp/030906/3914.html
- sorae.jp/030906/4084.html
- sorae.jp/030999/3836.html
- sorae.jp/030999/3872.html
- sorae.jp/031002/3204.html
- sorae.jp/031003/1173.html
- sorae.jp/031003/1681.html
- sorae.jp/031003/4104.html
- sorae.jp/031003/4254.html
- sorae.jp/031004/3918.html
- sorae.jp/031004/3946.html
- sorae.jp/031004/4262.html
- sorae.jp/031006/1288.html
- sorae.jp/031006/2760.html
- sorae.jp/031006/3057.html
- sorae.jp/031006/3309.html
- sorae.jp/031006/3381.html
- sorae.jp/031006/3586.html
- sorae.jp/031006/3702.html
- sorae.jp/031006/3769.html
- sorae.jp/031006/3907.html
- sorae.jp/031006/3923.html
- sorae.jp/031006/4409.html
- sorae.jp/031007/1787.html
- sorae.jp/031007/2157.html
- sorae.jp/031007/3250.html
- sorae.jp/031007/3515.html
- sorae.jp/031007/3706.html
- sorae.jp/031007/3800.html
- sorae.jp/031007/3844.html
- sorae.jp/031007/3866.html
- sorae.jp/031007/4165.html
- sorae.jp/031009/3752.html
- sorae.jp/031099/1351.html
- sorae.jp/031101/3911.html
これ以外では、前述の一覧表示アドレスを利用した「アドレスの最後にhtml名が無い場合(もしくはindex.htmlである場合)」の8件に別途対応できれば、ほぼ問題の無い置換になるのではないかと思います。「sorae.jp以外の2件」のリンクアドレスについては大文字と小文字の変換が問題だったものですので、その条件を修正するのであれば、自動的に対象外になると思われます。--Gwano(会話) 2018年5月8日 (火) 08:15 (UTC) - 調査漏れ(下線部)追記--Gwano(会話) 2018年5月9日 (水) 09:37 (UTC) - リストを段組化。--Gwano(会話) 2018年5月11日 (金) 12:17 (UTC)
- データ整理ありがとうございます。絞り込みができないというよりは(Bot作業的に件数が少ないので)手抜きしました。すみません。番号4576以上でも無いものがあるようですがいかがしましょう? 例外として扱うのなら処理後に手作業で戻すのがよろしいかと。2015年の気象・地象・天象(http://www.sorae.jp/031040/5744.html)
(インデント戻し) ご指摘ありがとうございます。考えてみれば5662.htmlを超える数字アドレスも、同様に除外すべきでしたね。最初の報告にありますように、現在のサーバに残っているアドレスでは4576.htmlから5662.htmlまでが数字で、その後は日付で始まる個別アドレスに変わっています。恐らく2015年の11月初頭ごろにsorae.jpでマイナーリニューアルが行われ、それまで数字アドレスだったページが日付を含む固有アドレスに変更された際に、当時まだ過去ログ送り(?)されていなかった直近2か月ほどの記事が数字から日付に変えられたものと考えられ、2015年9月から10月にかけての記事について例外が発生していた模様です。これらについては正しい変更先が存在します。該当リンクは以下のようなものが見付かりましたので、ご参考に。
- sorae.jp/031040/5744.html → sorae.info/030201/2015_10_26.html
- sorae.jp/030809/5699.html → sorae.info/030201/2015_9_29_cz10.html
- sorae.jp/030699/5684.html → sorae.info/030201/2015_9_12_879.html
- sorae.jp/030615/5677.html → sorae.info/030201/2015_9_5_cst100.html
私はbotのことについてはよく存じませんので、結果的にお手数をお掛けする形になるのかもしれませんが、どのように行うのが最善かの判断については、ひとまずお任せしたいと思います。もし手作業が多くなるようでしたら、プロジェクトかポータルにも呼びかけていただければと思います。--Gwano(会話) 2018年5月9日 (水) 09:37 (UTC)
- 開始します。--Triglav(会話) 2018年5月10日 (木) 15:16 (UTC)
- 完了 93件。こんどはいかがでしょう? --Triglav(会話) 2018年5月10日 (木) 15:38 (UTC)
- ありがとうございます。今回の差分を見る限り上記の細かい指摘まで反映してくださった様子で、お手数をお掛けしました。唯一気付いた点といたしましては、既にリンク切れと見なされて{{cite web}}の中でarchiveurl=やarchivedate=、deadlinkdate=が追加されてしまっているリンクでは、そのarchiveurl=のアドレスまで変更されてしまった点でしょうか(と言ってもひまわり8号の差分と天宮1号の差分だけなのですが)。しかし、いずれもオリジナル側のリンクは正しく行われており、少なくとも上記93件で置換えのあったアドレスが今日の時点でsorae.infoのリンク先アドレスを開いてみてすべて正しく参照できることは確認できました(記事からのクリックではなく差分からURLのコピペで確認したものですが)。なお、今回置き換えのあったアドレスのうち{{cite web}}や{{cite news}}の中の「accessdate=」については今日の日付を入れても差支えないと思われますが、これはbotでも可能でしょうか?(たびたびすみません) --Gwano(会話) 2018年5月11日 (金) 12:17 (UTC)
- 調べてみましたが、ちょっと難しいです。AWBなど他のツールを使用すれば可能かもしれませんが、再募集する前に手作業で終わってしまいそう。--Triglav(会話) 2018年5月11日 (金) 20:09 (UTC)
- 確認 了解いたしました。本来の依頼である肝心のリンク部分は解決していますので、ひとまず依頼は完了と考えます。accessdateについては急ぐものでもないと思いますので、念のため第三者の確認を待ちたいと思います。いろいろ面倒な条件に対応していただき、ありがとうございました。--Gwano(会話) 2018年5月12日 (土) 10:51 (UTC)
- 調べてみましたが、ちょっと難しいです。AWBなど他のツールを使用すれば可能かもしれませんが、再募集する前に手作業で終わってしまいそう。--Triglav(会話) 2018年5月11日 (金) 20:09 (UTC)
- ありがとうございます。今回の差分を見る限り上記の細かい指摘まで反映してくださった様子で、お手数をお掛けしました。唯一気付いた点といたしましては、既にリンク切れと見なされて{{cite web}}の中でarchiveurl=やarchivedate=、deadlinkdate=が追加されてしまっているリンクでは、そのarchiveurl=のアドレスまで変更されてしまった点でしょうか(と言ってもひまわり8号の差分と天宮1号の差分だけなのですが)。しかし、いずれもオリジナル側のリンクは正しく行われており、少なくとも上記93件で置換えのあったアドレスが今日の時点でsorae.infoのリンク先アドレスを開いてみてすべて正しく参照できることは確認できました(記事からのクリックではなく差分からURLのコピペで確認したものですが)。なお、今回置き換えのあったアドレスのうち{{cite web}}や{{cite news}}の中の「accessdate=」については今日の日付を入れても差支えないと思われますが、これはbotでも可能でしょうか?(たびたびすみません) --Gwano(会話) 2018年5月11日 (金) 12:17 (UTC)
- 完了 93件。こんどはいかがでしょう? --Triglav(会話) 2018年5月10日 (木) 15:38 (UTC)