行儀の悪い海外クローラをアクセス拒否設定する

前々から思っていたのだが、海外の検索エンジンのクローラーは行儀が悪いのが多い!

というのも、自宅サーバのApacheのアクセスログを[tail -f access_log]で見ていると、baiduとかyetiとかが、サーバーの負荷とか考えてないだろ!というくらいにアクセスしてくる!


  • baidu (中国)

  • Yeti/Naver (韓国)

  • など


しかも、これらの検索クローラーは、robots.txtが意味をなさない場合が多い。

それにこれらの海外クローラはアクセスしてきても、それらをインデックスしているページから飛んできてもほとんど意味がない。。。言語違うし・・

百害あって一利なし!!

ということで、Apacheでアクセスそのものを拒否ることにした。

Apacheの設定は以下の通り。


SetEnvIfNoCase User-Agent "^Baiduspider" deny_ua nolog
SetEnvIfNoCase User-Agent "^BaiduImagespider" deny_ua nolog
SetEnvIfNoCase User-Agent "BaiduMobaider" deny_ua nolog
SetEnvIfNoCase User-Agent "Yeti" deny_ua nolog
SetEnvIfNoCase User-Agent "naver" deny_ua nolog
SetEnvIfNoCase User-Agent "Twiceler" deny_ua nolog
SetEnvIfNoCase User-Agent "Tagoo" deny_ua nolog
SetEnvIfNoCase User-Agent "Sogou web spider" deny_ua nolog
SetEnvIfNoCase User-Agent "ZanranCrawler" deny_ua nolog
<Directory "/wwwroot" >
Allow from all
Deny from env=deny_ua
</Directory>

ついでに、アクセスログにすら残さないようにしてやった(^ ^;)
CustomLog /var/log/access_log combined env=!nolog

これでサーバの負荷も減ります(^ ^;)

----------------------------------------------

2009/06/19
User-Agent "Tagoo" を追加

----------------------------------------------

2009/06/24
"Sogou web spider"を追加

----------------------------------------------

2009/06/28
"dotbot" を追加

----------------------------------------------
2009/11/16
"ZanranCrawler"を追加
----------------------------------------------


Apacheセキュリティ


Apache Webサーバー