May 27th, 2007 by 张磊
晚上开了个小会回来发现blog上不去了,很难刷开。以为是牛扑的程序又有效率的问题了,但是进去数据库发现并没有什么lock掉的进程,Web日志也很正常。后来怀疑到blog来,进去日志才发现sogou的blogspider至少开了3个服务器在抓我blog上的Feed。 WP不是只有一个Feed么,怎么会让sogou开了3个服务器抓那么久? 其实细心的话会发现WP每篇文章都有一个评论的Feed可以订阅。比如我这个有850篇文章,就有850个Feed。蜘蛛有节奏地抓是不会有问题的,可是最怕就是乱抓一气。抓到后来,在日志里看到居然出现500错误了。而且据说sogou的爬虫并不支持robots.txt文件,我只能在配置文件里干掉这个爬虫──把整个IP段都给封了。 我在想,如果douban那种每个小组都做一个feed订阅地址的话,除非缓存用得很好,要不也是经不起sogou这么发飙的。 不知道为什么,牛扑每天都有很多Google和Yahoo的爬虫,就是没有baidu的爬虫。难道一个新网站需要百度考查这么久的?还是出了什么问题。 今天我开始对牛扑的一些页面努力进行标准化,现在牛扑的首页已经通过W3C的Transitional验证了,但是一些内页因为内容是来自joyo/dangdang,所以不大容易做到全部通过验证,只能尽量减少结构上的错误了。 后来,还看到Fenng大哥的文章,才知道ECSHOP也是高春辉做的。圈子真小啊,做来做去都是那群人。上个学期曾经花很多时间研究过ECSHOP,很不错的一款网店系统,更厉害的是,它是开源的。
May 24th, 2007 by 张磊
本来想直接从Google申请删除掉V2Read.cn的收录,但不小心在Google的帮助信息中看到这么一段话: 由于 Google 漫游器依网址来辨别网页,所以您不能自己更改目录里的网址。Google 下次漫游时都会自动更新这些网址。漫游器的行程是自动设定的,我们也没有办法让它提前到达您的网站。 如果您在 Google 漫游后更改了网址,您可以填写网页登录申请表,并按照下列说明删除旧网址。但还是要提醒您,登录的新网址不会马上生效,所以在 Google 下次漫游前的那段时间里,可能无法通过 Google 访问您的网站。 我们建议您要求各网站更新当前指向您的旧网站的链接,使其指向您的新网站,而不要申请更改网址。另外,请不要忘记更改您在 Yahoo! 目录和其它网页目录中的记录。最后,如果您的旧网址使用 HTTP 301(永久)重定向指向您的新网站,Google 漫游时会自动获知新网址,并在六到八周内自动进行更新。 这里说301对定向进行更新在Google需要6到8周,也就是最多要两个月,最少也要一个半月。现在的牛扑在Google收录还是0,看来心急吃不了热豆腐,还得等。要是到时候还不成该怎么办呢? 同时,关于301定向的实现,有这样的资料可供参考: IIS实现: 打开internet信息服务管理器,在欲重定向的网页或目录上按右键 选择“重定向到URL” 在“重定向到”输入框中输入要跳转到的目标网页的URL地址 选中“资源的永久重定向”(切记) 最后点击“应用” Apache实现: 创建一个.htaccess文件,并将下面提供的代码写入文件内,它可以确保旧域名所有的目录或者网页正确的跳转到新域名内。记住.htaccess文件一定要放在旧网站的根目录下,并且新网站要和旧网站保持相同的目录结构及网页文件 Options +FollowSymLinks RewriteEngine on RewriteRule (.*) http://www.domain.com/$1 [R=301,L] 当然,用PHP/ASP这些也是可以实现的,原理其实简单,只要输出一个301代码的HTTP头就可以。V2Read到牛扑使用的是Apache的重定向,可以把原来的地址“无损”地定向过去。比如http://www.v2read.cn/subject/123/到http://www.niupu.com/subject/123/。但是IIS是做不到的,要实现只能在程序里做,还不一定做得彻底。 还有,blogkid.cn的Alexa排名最近狂飙,昨天到今天涨了3万多名,最近三个月涨了70多万名,现在的Rank在608250。想想再写两年的话,那可能也是一头大牛呢。