うざいbotへの対策
先日、ひょんなことから生アクセスログを久々に見てみたんですが、オドロキました。
BaiduやNaverなどがつく変なbotが片っ端からクロールしているサイトをクロールしてたんですよ。
生ログくらい見ろよと言われそうですが、これまで殆ど見てませんでしたw
深夜帯なのに503エラーが頻発する時があり、それで生ログチェックをしようと思い立ったわけです。
てっきり共有鯖に同居してる誰かさんのところにアクセスが集中してるんだろうな程度しか考えてなかったんですよね。
ところがどっこい生ログを見てみると、怪しいクローラがツンでもない勢いでサイト内を漁ってる。
こりゃいかんということでhtaccessで制限することにしました。
ただその怪しいbotをどうブロックするかが問題なんですよね。
網羅することはほぼ不可能でしょうから、あちこち検索しまくったら丁度いいページがあったのですが、すません、URLを失念しました・・・。
そこにあったUser-Agentとブラウザ名でBANするというのをそのまま頂戴して、以下のとおりにhtaccessに記述。
SetEnvIf User-Agent "naver" shutout SetEnvIf User-Agent "Yeti" shutout SetEnvIf User-Agent "Baiduspider" shutout SetEnvIf User-Agent "BaiduImagespider" shutout SetEnvIf User-Agent "BaiduMobaider" shutout order allow,deny allow from all deny from env=shutout #Baidu, Naverを拒否 BrowserMatch "NaverBot" badrobot BrowserMatch "Baiduspider" badrobot BrowserMatch "Sosospider" badrobot deny from env=badrobot
まだこれを記述して時間がたっていませんが、今のところある程度怪しいbotを弾けているようです。
これ以外にも怪しいbotっぽいのがあるんですが、一体何をしているのかがまだよくわかっていないこともあり、BANまではしていません。
今後もしBANするようでしたら、同じように記述する予定ですw