Loading...

Tag Archive for 'w3c'

    AD: 猛买网,精彩团购 | Jobsdigg | 很棒的男装店 | 网站地图

sogou的垃圾博客爬虫

晚上开了个小会回来发现blog上不去了,很难刷开。以为是牛扑的程序又有效率的问题了,但是进去数据库发现并没有什么lock掉的进程,Web日志也很正常。后来怀疑到blog来,进去日志才发现sogou的blogspider至少开了3个服务器在抓我blog上的Feed。
WP不是只有一个Feed么,怎么会让sogou开了3个服务器抓那么久? 其实细心的话会发现WP每篇文章都有一个评论的Feed可以订阅。比如我这个有850篇文章,就有850个Feed。蜘蛛有节奏地抓是不会有问题的,可是最怕就是乱抓一气。抓到后来,在日志里看到居然出现500错误了。而且据说sogou的爬虫并不支持robots.txt文件,我只能在配置文件里干掉这个爬虫──把整个IP段都给封了。
我在想,如果douban那种每个小组都做一个feed订阅地址的话,除非缓存用得很好,要不也是经不起sogou这么发飙的。
不知道为什么,牛扑每天都有很多Google和Yahoo的爬虫,就是没有baidu的爬虫。难道一个新网站需要百度考查这么久的?还是出了什么问题。
今天我开始对牛扑的一些页面努力进行标准化,现在牛扑的首页已经通过W3C的Transitional验证了,但是一些内页因为内容是来自joyo/dangdang,所以不大容易做到全部通过验证,只能尽量减少结构上的错误了。
后来,还看到Fenng大哥的文章,才知道ECSHOP也是高春辉做的。圈子真小啊,做来做去都是那群人。上个学期曾经花很多时间研究过ECSHOP,很不错的一款网店系统,更厉害的是,它是开源的。