February 19th, 2008 by 张磊
重启到XP,写篇中文的。 微软求购雅虎是大事,百度封杀nicewords是小事。大事从来都没咱们的事,最近却为小事折腾了许久。 一个网站离开百度会很难生存。可如果离开Google,看起来影响没那么大。我的一个网站在每天有5000IP的时候,在Google的索引里还一个网页都没有。如果是Google封杀nicewords,也不会有多大反响,因为就算不封杀,用nicewords做起来的网站也排在第一百页。 话说回来,国内采集横行,和百度不无关系。奇怪的排名,给了采集站排在前面的机会,也把小站长们都培养成了投机者。同样的内容,豆瓣9点上的文章会排在我的blog前面。百度占着将近70%的搜索份额,哪怕再花大力气打击采集呢,只要算法没改,还是会有大量的采集。域名这么便宜,空间这么便宜,机会成本太低。 题目叫做怎么也不行,是看到邮箱里谷歌推出的大学生公益活动想到的。谷歌把QQ、Tom、新浪、天涯都拉来了,可是养着一群工程师成天做些无厘头的产品,怎么也不行。既然现在一切为了流量,谷歌哪个东西赶上百度知道或是百度贴吧的水平了?最近听说人要做正版音乐下载,日,如果正版在国内可以贯彻,咱们早就都用Ubuntu了。 还有就是通过采集来做的网站,大体来说,怎么也不行。尽管可以短期获得一定的流量甚至可以从Adsense得到些许收入,但这不是一个可以得到稳定收益的方式,因为这个过程没有价值——一不小心被封还会废了域名。怎样才有价值?我觉得产生价值是通过劳动或思考,把无序状态的东西变为有序的过程。比如花些时间拼好一个魔方。如果对采集情有独钟,可以看看智勇的这篇文章。
November 4th, 2007 by 张磊
最近blog的流量又有了些提升,并且和以前那样突然因为某个关键词而流量上升不同了,这次已经稳定下来,保持在日IP150~200的区间。最开始写blog的时候,根本不知道啥是SEO。结果写了一年,日IP还停留在20~30。当时觉得如果有一天能有50IP,真是了不起阿。 后来换了一次blog系统,换到了WP。依然不知道啥叫SEO,还破坏了原有的很多链接——现在想想,以后再也不能干这种傻事了。后来智勇就教了我点SEO方面的入门知识,非常感叹他一个放着不管的小网站都能有不少收入。为啥呢?SEO做得好呗。 今天就随便写写我以前和最近对SEO的一些心得。主要会以这个用Wordpress搭建的blog为例。现在的情况是每天IP在150~200,从搜索引擎过来的流量超过了80%,还有超过10%是自己输入网址的固定群体。 下面是最近7天我的blog页面浏览的统计(数据来自51啦): 地址 入口 比例 浏览 比例 www.blogkid.cn 301 41.7% 453 47.1% /archives/1095 66 9.2% 71 7.4% /archives/973 61 8.5% 68 7.1% /archives/724 45 6.2% 49 5.1% /archives/779 19 2.6% 21 2.2% /archives/1070 16 2.2% 18 1.9% /archives/1073 14 1.9% 16 1.7% /archives/1063 12 1.7% 15 1.6% /archives/1089 12 1.7% 12 1.2% /archives/1098 [...]
October 27th, 2007 by 张磊
最近频繁在流量统计里看到来自美国Google的IP,窃喜,难道有Google的人关注我blog?可是今天一下子就看到4个Google的IP,不会吧,我在Google有这么多Fans?后来想到这个可能性,Google的爬虫开始支持JS了。 我在流量统计的后台看到这几个访问者的客户端信息是:Windows XP, MSIE 6.0, 800×600, 224 色, 未安装 Alexa 工具条。若这些是真的,Google的人用的电脑也太差了吧,或者人家在手机上装了XP?怎么显示器才800*600。想想都不现实。很有可能这些信息都是51啦的默认信息,而使用默认信息的原因是51啦没有获得相应的信息——为什么得不到这些信息呢?因为这几个访问者都是Googlebot。 前些日子看了这篇文章,谈到Google百度对于JS的处理是直接跳过的,现在看来不然。Tiny早先的一篇文章说,Google Adsense的爬虫是支持部分js的。而后来的某篇文章(实在搜不出来了)说,Googlebot将和Google Adsense爬虫在抓取时共享一些数据(应该是应用了缓存一样的东西)。把后面两件事联系起来,完全有理由相信,Googlebot现在支持部分js了。 于是我去查阅了本站的Apache日志,发现了相匹配IP访问,只是头信息没有显示为Googlebot——也许是Google正在实验呢?然后我就打开了51啦统计代码,发现最后提交统计信息的一句是用document.write()输出到浏览器然后由浏览器提交到51啦的。document.write()应该是最容易被支持的了,而获得系统分辨率啥的都比较麻烦,对爬虫也没意义,估计Google就没支持。 其实爬虫支持js本来就不是啥技术问题,只是考虑到性能所以大多SE都不支持。从这个意义上说,性能也算是技术问题~ 不知道我猜得对不对,不过通过js生成的链接啥的,肯定对SEO没啥作用。
April 13th, 2007 by 张磊
今天早上发现V2Readdown了,提示的是”already has more than ‘max_user_connections’ active connections”,一直持续到现在,都没有好。我给DH发了两封邮件,希望他们能协助解决。 后来自己觉得无聊,就去51.la看了流量统计,去发现今天只在凌晨5点以前有两位访客(这时网站肯定是正常的)。然后我登录到服务器上翻阅今天的日志,哗哗哗,除了爬虫还是爬虫。 咳咳,周三小z说我的blog太难读下去了,那今天我就用生动而形象的语言描述一下这场发生在V2Read的爬虫大赛。 却说凌晨5点29分,V2Read迎来了今天最后一个访客,是一位北京的朋友。在他进入之前的12个小时中,已经有零星来自MSN的小爬虫来光顾了。但在他到来的5小时30分之前,也就是北京时间零点,Google的小虫虫们大举出动了(他们怎么找到V2Read的?都怪我提交给Google一个有几十万地址的Sitemap)。 因为Google的手里有了我提供的sitemap,按图索骥,在我那些图书目录中爬呀爬,爬呀爬。可惜我的服务器速度实在不怎么样,所以他们几乎每个页面都会尝试抓那么两三次。不久,sogou的爬虫也来了。从sogou抓取的页面来看,它像只无头的苍蝇,而且还净抓V2Read上很耗时间的页面(心痛啊)。虽然有了sogou的加入,GoogleBot还是占据了绝对优势——引用实况足球里面解说员的话:至少看起来是这样的。竞争进入白热化,可怜的服务器一分钟内被请求了11个页面,GoogleBot以8:3领先。下一分钟sogou马上以7:0进行了有力的回击。双方延续着这样的势头,终于,GoogleBot熄火了。在5:30那位访客离开之后,Sogou占据了绝对的主动,他没有了对手,每分钟都要抓大概8个页面。这时,出现了一个Agent为”larbin_2.6.3 larbin2.6.3@unspecified.mail”的爬虫(肯定是用现成的东西,而且没有改过,不知道是哪个蹩脚的公司做的)。 我毫不怀疑服务器是被sogou拖垮的,看来也得学学Livid干掉sogou的爬虫才行。不过这是后话。在sogou风光一阵之后,早晨6:23,一个巨人来了,那就是”BaiduSpider”。BaiduSpider以15页/分钟的速度贪婪地吞噬着我的数据,其间还点缀着msnbot/larbin_2.6.3的脚印。 不过好戏才刚刚开始,经过一段时间的调整,在6:42,GoogleBot又重回战场。GoogleBot一出来BaiduSpider马上消失了整整一小时。中间只有yahoo的小虫一闪而过。在7:40,如果我没记错的话我起床了。在日志里我看到了我用Ubuntu-Edgy登录V2Read的信息,可惜这时看到的已经是Error了。 在我登录之后,情况发生了突变。Baidu居然又回来了,GoogleBoot突然不见了踪影——真的很让人怀疑他们是不是说好了的。不过,在日志的后面还是可以看到他们两条虫虫在那里PK的记录的。可惜了我的宝贝服务器,被他们这么折腾。我真的怀疑,一个网站是为了用户而做,还是为了Spider而做。 如果有哪个朋友这个爬虫战争的记录感兴趣,我很乐意把V2Read的日志发给你 。貌似解决问题的办法只有先把所有的Spider都用文件禁用掉。