Help:Pywikipediabot/weblinkchecker.py
このスクリプトには欠陥が存在します。一度に大量のリクエストをだすため、プロバイダから警告がくるかもしれません。自己責任でお使いください。 |
weblinkchecker.pyは壊れた外部リンクを見つけるために、pythonで書かれたプログラムです。Pywikipediabotフレームワークの一つとして動作します。
weblinkchecker.pyはある一つの記事のすべてのURLをチェックすることもできれば、 すべての記事(アルファベット順)をチェックすることもできます。チェックできるリンクはHTTPもしくはHTTPS のリンクに限られ、nowikiのタグのなかとコメントの中にあるリンクを取り除いてしまうでしょう。処理のスピードをあげたいときは、マルチスレッドを使用して、同時に50件のリンクをチェックできます。
botは外部リンクを自身の手で取り除きません。それを報告するだけです(リンクの除去は記事の情報に強い影響をあたえる可能性があるため)。最低でも2回、また最初から最後まで一週間たってからオフラインでそれをみつけたときのみ報告します。これは、サーバーのエラーによってリンクが除去されるのを防ぐためです。botはあなたの接続が悪いのか、サーバーのエラーなのかを識別することはできない、ということを頭のなかにいれておいてください。ですから、安定した接続確保するようにしてください。
botは壊れたリンクの履歴をdeadlinks
下層に保存します。例えば、deadlinks/deadlinks-wikipedia-de.dat
のように。このファイルは、人が読んだり書き換えたりすることができません。このdatファイルはbotが終了したときに書きこまれます。
botがいくつかのページをチェックした後、次のコマンドを入力することで後でもう一度そのページをチェックしてください。
python weblinkchecker.py -repeat
もし、botが2回目も壊れているリンクを見つけたときは、そのログがテキストファイルに保存されます。例えば、deadlinks/results-wikipedia-de.txt
。このテキストファイルはwikiに投稿するのに適したフォーマットで書かれます。なので、それをwikiのページに載せて、リンクを直したり除去するのに他人の手を借りることもできます
加えて、壊れたリンクをその記事のノートページに報告することもできます。これを使うには、report_dead_links_on_talk = Trueという文字列をuser-config.pyに加えてください。.
報告は、もし使用できるなら、Internet Archive Wayback Machineへのリンクを含みます。ですので、重要な出典は維持することができるかもしれません。
このスクリプトの情報を得たいのであれば
python weblinkchecker.py -help
をコマンドラインで実行してください。