有道的爬虫不支持base标签
原文地址:http://www.blogkid.net/archives/832.html
查看V2Read日志的时候看到这样一条:
60.191.80.29 – - [07/May/2007:23:41:31 -0700] “GET /subject/921/subject/45004/ HTTP/1.1″ 404 5189 “-” “Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )”
得到的是404的结果。我一开始以为是V2Read程序的问题,后来想到原来是这个可爱的虫虫不支持<base>标签。
因为做URLREWRITE会使网站里的页面层次看起来比较混乱,所以我在V2Read上的页首< head >里面都指定了 < base href=”http://www.v2read.cn” />,这样就便于页面里链接的定位了。Google、Baidu、Yahoo的爬虫都是可以正常分析页面的,遇到最傻的也就是这个网易的有道了。
话又说回来,我是不是该迎合一下人家,把页面里的链接都用上绝对地址?
UPDATE: 心烦,直接用robots.txt禁掉了Yodao的爬虫。


下周有个关于PHP的大会在杭州举行,有没有兴趣去看下呢?
http://info.china.alibaba.com/list/wlxkx/signin.html?tracelog=pd_info_wlxkx_signin
wow,已经忘记了。一个在阿里工作的朋友很早就告诉我,但是一直忘记填写申请表,估计现在已经满员了。
应该还没有吧,我前两天申请的,今天已经拿到门票了