Wikipedia:井戸端/subj/web archiveとリンク切れ予防について

web archiveとリンク切れ予防について[編集]

皆様のご意見を拝聴致したく参りました。web上のページを出典として用いることは、もちろん非常にあることです。ですが、リンク切れが起こった時に面倒ですので、私は予め、archiveが存在すれば、それも並記するようにしています。まあ存在するなら、切れてから出してきてもいい訳ですが、時間がある時は先手を打つ訳です[1]。この手法の弱点はrefが長くなるゆえに本文中に挿入すると編集時の見通しが壊滅的になるため、示しましたリンクの通りreflistのrefsを用いてやることを積極的に考えねばならないことですが・・・。

さて、ここまでは問題無いとは思いますが、もし現時点でアーカイヴが存在しないページを出典とする場合を考えてみます。単にurlを貼り付けてしまえば、それがarchiveとして残るかどうかは運任せとなります。特に新聞社サイトのニュースだとひどいことになりがちなのは、皆さんご存じでしょう。所が、みなさん良くご存じのInternet Archive: Wayback Machineでは、トップページの右下に「Save Page Now」と言うものがあり、アーカイヴしたいものを任意にアーカイヴすることができます(もしくは、表示させようとした時に見付からなければ、保存するか?と聞かれる場合があります)。このため、先に示しましたリンクの通り、最近の私はwebをソースとして用いる際にはリンク切れ防止のためまあ大抵、保存してもらっています(そしてarchiveurlもつけておきます)。

さて、この行為は、是でしょうか、非でしょうか、それとも推奨すべきでしょうか。単に是なら構いません。個人的に勝手にやるだけです。もしjawp全体のリンク切れ被害を考え推奨すべきとお考えの方が多いなら、適切なところにこれを一筆書いて置くと、ライトユーザーさんも対処しやすいと考えます。参加者全体で見れば我々のようなPCやWPにコテコテだけではありません。英語が読める人だけでもありません。特にライトユーザーさんはwebソースを用いる傾向が強いと感じて居ます。以上、いかがでございましょうか。--Hman会話2015年3月9日 (月) 09:10 (UTC)[返信]

是であって非ではない。やることは一向に構わないし、文句を言う奴がいるならそれは単純に筋違い。しかし、推奨するべきはアクセス日付を明記すること。--ikedat76会話2015年3月9日 (月) 12:10 (UTC)[返信]
推奨というか案内ぐらいでいいんじゃないですか? 突然クローズ化する場合もありますし、利便性の観点からだけなら案内は大いにありかと。Webソース中心に書いている/確認している「らいとゆーざー」としては、あまり気にしていなかったです。これは比較的出典として提示されたUrlは、archive.todayやInternet archive側で勝手に食べてくれる感覚があるからなのですが(リンク先行方不明になって付け直す作業やってるときにアーカイブに残ってることは多いです)。先んじて保存してあるってのは付け直し作業もやる立場からすればありがたいと思うものの、推奨とまで言ってしまって、「やらなきゃ」と思わせるのはそれはそれで真面目だけど不慣れな人には壁を一つ増やすことになるかなと考えます。ただ、私は日本以外のネタ中心なので元々公開されっぱなしが多いからほとんど問題にならないのですが、まれにアーカイブされてることに苦情を申し立てるケースが見受けられますので、急に使えなくなる可能性が僅かなりとも存在することは念頭に置いた方が良いでしょう。余談ですが、むしろrobot.txtで弾いているページが出典ならまだしも転載元の気配があるときに困ることが多いです(どっちが先だーってなりますので)。見通しについては……計画性がないので直接書く方が楽って人がここに! その辺は人それぞれって事で深く考えないことにしてます。--Open-box会話2015年3月9日 (月) 12:44 (UTC)[返信]
残っていないことも多いんですよねえ、と言うか以前私の書いた記事でそれがあって、それで有意な情報を(一時的にかもしれませんが)除去しなけりゃならなくなり、悔しくなってw その後は、忘れない限り、archiveurlを放り込むかどうかはともかく、食べて貰う事にはしています。しかし、推奨はどうもNGですか。複数の方からの賛同が得られないようでしたら、動くこともできませんね。「やり方の説明」くらいは書いて置きたかったのですが、私がちょっと慎重すぎと言うか真面目すぎと言うかビビりすぎと言うか、多分そうなんでしょうね。webArchive自体の削除は、「元サイトが消されるよりは率は少なかろう、少なくとも予告はあろう」と言うことで・・・。--Hman会話2015年3月10日 (火) 16:14 (UTC)[返信]
そこは、「やり方の説明」を書いておいてですね「アーカイブサイトに置いておくと有益ですよ、できたらやっておいてね」ぐらいでいいと思うんです。Hmanさんの感覚ですと、これでも推奨になると思うのですが、私はこれを案内だと思うってぐらいの語感の相違だけではないでしょうか。誰にとっても有益な内容なのですから、文章化して残しておくってのは誰も困りませんし、義務化につながらないならやってもいいんじゃないですか?--Open-box会話2015年3月10日 (火) 23:19 (UTC)[返信]
そうですね・・・その辺りは感覚ですか。私の想定では、やり方をどこかに書いて置いてですね(もちろん私の利用者ページなどではなく、wikipedia名前空間の言わば公的なページを、新しく作るか紛れ込ませるか・・・それなりに長い文になりそうですので、新規作成でしょうか)、出典を明記する、にでも、「ただしwebサイトはページの削除などによって参照できなくなる場合が多くあり、長期間検証可能であるとは限りません。このため予め、webサイトを専門のサイトにアーカイヴしておき、そのurlを提示する方法もあります。詳しくは・・・」程度の加筆を行う事をぼんやりと想定していました。いやもちろん「方法もあります」と言うところ前後が、皆様のご意見次第では「推奨されます」になるんですが^^; ただ、公式な「出典を明記する」にこれが書かれると、取り方の程度に個人差はあれ、「推奨」と見なされてもおかしくないんですよね。かと言って、ここで案内をしておかないとあまり意味がありません。良く参照されるところで案内されていてナンボでございますれば。・・・まあ、何れに致しましても、複数の方にご賛同頂けるなら、が大前提でございますので・・・。--Hman会話2015年3月12日 (木) 11:57 (UTC)[返信]
リンクする別文書には手引き書 {{how-to}} であることをしっかり明記することでその誤解はある程度避けられるのではないかと思います。(ええもちろん、一方で同じく手引き書に過ぎない「同じ記事への連続投稿を減らす」もまるで重罪であるかのように逐一啓蒙してまわる方が一定数いることも確かですが、それを考え出したらきりがないです。)アーカイブ収録を依頼する作業をどれほど負担に感じるかなんて個人の特性(慣れ、スキル、英語で書かれたサイトを操作することの抵抗の度合い、etc.)次第なので、深く考えすぎてもしょうがなく、あくまでも任意の追加作業としてリンク切れによる検証可能性の喪失を防止する方法があるなら紹介することに害はないはずです。なので私はいいと思っていますよ。--朝彦会話2015年3月12日 (木) 15:06 (UTC)[返信]
著作権的なリスクをどうとるかって議論があったと思う。インターネットアーカイブ自体は合衆国法的にかなりセーフだけど、国内法ではどうか[2]。この場合、アップロードする人が問題視されるので、やったほうがいいと思う本人がやる分には自由だけど、「やろう」と推奨するのが難しいって感じになると思います。
当面は、解説という形で文書を作っておく、てのがいいと思います。Wikipedia名前空間に作ればいいと思う。アーカイブ可能なサイトは複数あるでしょうから、いちおそのへんさらうのが好ましい(archive.todayのリンクを追加するだか張り替えるだかのbotが一時期いたような)。--Ks aka 98会話2015年3月12日 (木) 12:34 (UTC)[返信]
Wayback Machineにてアーカイブへの収録を依頼する行為は、指定したURLをクロール対象に明示的に含め、かつ今すぐクロールを実施してくださいという依頼であり(実際、以前は依頼から実際の収録まで数ヶ月のディレイがありました)、クロール行為の主体はThe Internet Archiveであるため、利用者によるアップロードとは異なり利用者による再配布にはあたらず、国内法も利用者の責任も問題になることはないはずです。--朝彦会話) 2015年3月12日 (木) 15:06 (UTC) ※ 語を補充 --朝彦会話2015年3月12日 (木) 18:20 (UTC)[返信]
ああ、そういう仕組みなんですね。ただ、複製の主体と判断されることはありうると思う。個人的には、気にしなくていいレベルだと思うので、すでに書かれているように、書き手の義務ではない、というところの配慮をして推奨でも反対しないです。--Ks aka 98会話2015年3月12日 (木) 16:14 (UTC)[返信]
はい、気にしなくていいと思います。WWWの情報をほぼまるごと複製することを意図している(が、日々生成されるページが膨大なため、あるいは新たに登場したページの発見が困難なため収録が追いついていないというだけの)プロジェクトであり、クローラがURLを自動的に発見するのを待つのではなく、それに先立ってこのURLに現時点で資料が存在することをMachineに教えてあげるというだけの行為ですから(Open-boxさんが言及された、記事に載せると勝手にクロールされやすいという現象もこれで説明される)、複製の主体かというのも成り立ちにくいと思っています。--朝彦会話2015年3月12日 (木) 18:04 (UTC)[返信]

一応、「書くならこんな感じかな?」と言う、草稿を書いてみました。利用者:Hman/リンク切れになります。独立ページにするのではなく、プロジェクト:外部リンク/リンク切れに加筆するかたちで良さそうですね。その上でWikipedia:出典を明記する#リンク切れの回避と修復に、「一部のアーカイブサービスでは明示的に現時点でのアーカイブを取得する事ができる場合もあります。詳しくは・・・」とだけ加筆する感じになりますでしょうか。--Hman会話2015年3月13日 (金) 01:33 (UTC)[返信]