Loading...

Tag Archive for '%e7%89%9b%e6%89%91'

    AD: 猛买 | 快递查询 | Jobsdigg | 很棒的男装店

sogou的垃圾博客爬虫

晚上开了个小会回来发现blog上不去了,很难刷开。以为是牛扑的程序又有效率的问题了,但是进去数据库发现并没有什么lock掉的进程,Web日志也很正常。后来怀疑到blog来,进去日志才发现sogou的blogspider至少开了3个服务器在抓我blog上的Feed。 WP不是只有一个Feed么,怎么会让sogou开了3个服务器抓那么久? 其实细心的话会发现WP每篇文章都有一个评论的Feed可以订阅。比如我这个有850篇文章,就有850个Feed。蜘蛛有节奏地抓是不会有问题的,可是最怕就是乱抓一气。抓到后来,在日志里看到居然出现500错误了。而且据说sogou的爬虫并不支持robots.txt文件,我只能在配置文件里干掉这个爬虫──把整个IP段都给封了。 我在想,如果douban那种每个小组都做一个feed订阅地址的话,除非缓存用得很好,要不也是经不起sogou这么发飙的。 不知道为什么,牛扑每天都有很多Google和Yahoo的爬虫,就是没有baidu的爬虫。难道一个新网站需要百度考查这么久的?还是出了什么问题。 今天我开始对牛扑的一些页面努力进行标准化,现在牛扑的首页已经通过W3C的Transitional验证了,但是一些内页因为内容是来自joyo/dangdang,所以不大容易做到全部通过验证,只能尽量减少结构上的错误了。 后来,还看到Fenng大哥的文章,才知道ECSHOP也是高春辉做的。圈子真小啊,做来做去都是那群人。上个学期曾经花很多时间研究过ECSHOP,很不错的一款网店系统,更厉害的是,它是开源的。

[转]牛扑是个什么概念?聊发感慨!

   看到一文“donews+mop=牛扑 ” 多 年来,MOP以变态低劣恶俗的社区文化顽固的在中国互联网上牢牢的站稳了脚跟,DONEWS则在牛人刘韧的个人魅力和号称中国BLOG教父的KESO的联 袂主持下,一路高歌猛进,尤其在DONEWS改版后,发展尤其迅猛。形象的说,一个是中国互联网的马桶文化代表,一个是高端、理性的旗手。然而,却爆出 MOP  DONEWS合并的消息。姑且不论是合作还是合并,但是至少大多数是认为合并。记得刘老大当初信誓旦旦说DoNews不融资不上市,言犹在耳,话音未落, 仿佛一个巨大的讽刺,DONEWS被兼并而且是被中国互联网以恶搞劣俗文化取胜的MOP。 难道,真的要MOP+DONEWS=牛扑了吗?猫扑尚可称为搞笑可爱,牛扑呢?是个什么风格?我是无法想到高大的牛轻轻一扑?像温顺的小猫一样扑想你吗, 你接受的了吗?至少,我是接受不了。无法想像卑微与高大的结合,无法想像马桶与阳春白雪的结合,无法想像BT和文明的糅合,无法想像KESO在MOP上振 臂高呼,无法想像MOPPER在DONEWS上坐而论道。 也许,会有人说会保持各自的风格,陈一舟也说过绝不会将二者强行融合,这确实是这样的,你将两者强行融合也融合不了,任何人都不会选择将DONEWS和 MOP融合?只是,DONEWS还是不是以前的DONEWS,能否百家争鸣?能否各牛各言?以前就常有触动某些利益集团而删文章的事情出现,其实大多数牛 人理解,DONEWS也要生存,甚至很多人都能领悟到LIUREN在尽量坚持立场中立的前提下的某些举动。到这个圈子的都是IT行业的观望者,实践者,牛 们渴望有个圈子交流,学习,DONEWS承载了这一历史使命。 如今的DONEWS,已经演变成为商业集团的旗下网站,还能否尽可能的坚持中立的立场?牛们依然在观望…….. 互联网不乏有创意的人,合并消息一传出,牛扑域名[NIUPU.COM]都被人注册了,只能说张智勇是个很有眼光的人! 原文来自 http://www1.donews.com/donews/article/8/89367.html hoho,在05年的牛扑和在07年的牛扑价值是不一样的,无怪《长尾理论》里面说,时间也是一条长尾。

逻辑和混沌

牛扑的爬虫最近工作的很稳定,难道数据量大了反而不容易锁死?总之就是太稳定了,从昨天早上开起来到现在已经不间断地跑了一天半,几乎把六分之一的当当图书数据都在这一天半里收入囊中。现在,当当的数据只剩下大约五分之一需要抓取了,做完之后,就会轮到更多的图书网站。 我又在牛扑上更新了一下图书的总目录,程序跑得也很稳定。只花了不到10分钟就把约50万本书的信息重新更新了一次。同时我用图书分类目录代替了原来随机显示的Tag。在301转向带来的低潮中可以为将来做充分的准备。 不懂得< base >标签的有道爬虫又大举来袭,可惜我早就ban掉了它,他读到的只有403了。 以上这些都是通过程序来做的,现在我每一天的生活都和大大小小的程序脱不开干系。以前有一个学长问我,将来是偏向做技术还是偏向做管理——一个很多人都会遇到的问题。那时候我说,这两样东西都少不了逻辑,所以先要把逻辑学好。男人是为逻辑而生的,我经常告诉自己要时刻保持冷静的头脑,这样才能保证能做出正确的判断。 我一直希望能通过简洁的表单和少量的点击完成好的交互,因为在人力有限的情况下,太多的不确定信息会增加处理的成本。我一直认为逻辑是自然的规律,1就是1,0就是0,1和0形成了无数分支,于是有了自然,于是有了人类,于是有了科学。 但情况好象没这么简单。生活中所接触到更多的不是逻辑而是混沌,20世纪末兴起过一个叫“模糊”的概念,模糊洗衣机,模糊电冰箱,模糊空调。这里不是1和0来主宰,而是Random。分形的复杂结构离不开Random;人与人的交流用IM比用表单更能达到效果;Google的爬虫是全自动的不需要干预,但是Google的硬盘会随机地坏掉——同样需要人来维护。谈恋爱更是没法算,因为男人和女人都不是计算机。 我想,我们在很多时候也需要放下那一套逻辑,感性地面对生活。特别是理工科的同学,盲目地相信逻辑没什么好处。相比之下,我更佩服那些活在自己精神世界里的人们。 逻辑的头脑用来赚钱吃饭,混沌的观点用来轻松生活。哈哈

有关301定向

本来想直接从Google申请删除掉V2Read.cn的收录,但不小心在Google的帮助信息中看到这么一段话: 由于 Google 漫游器依网址来辨别网页,所以您不能自己更改目录里的网址。Google 下次漫游时都会自动更新这些网址。漫游器的行程是自动设定的,我们也没有办法让它提前到达您的网站。 如果您在 Google 漫游后更改了网址,您可以填写网页登录申请表,并按照下列说明删除旧网址。但还是要提醒您,登录的新网址不会马上生效,所以在 Google 下次漫游前的那段时间里,可能无法通过 Google 访问您的网站。 我们建议您要求各网站更新当前指向您的旧网站的链接,使其指向您的新网站,而不要申请更改网址。另外,请不要忘记更改您在 Yahoo! 目录和其它网页目录中的记录。最后,如果您的旧网址使用 HTTP 301(永久)重定向指向您的新网站,Google 漫游时会自动获知新网址,并在六到八周内自动进行更新。 这里说301对定向进行更新在Google需要6到8周,也就是最多要两个月,最少也要一个半月。现在的牛扑在Google收录还是0,看来心急吃不了热豆腐,还得等。要是到时候还不成该怎么办呢? 同时,关于301定向的实现,有这样的资料可供参考: IIS实现: 打开internet信息服务管理器,在欲重定向的网页或目录上按右键 选择“重定向到URL” 在“重定向到”输入框中输入要跳转到的目标网页的URL地址 选中“资源的永久重定向”(切记) 最后点击“应用” Apache实现: 创建一个.htaccess文件,并将下面提供的代码写入文件内,它可以确保旧域名所有的目录或者网页正确的跳转到新域名内。记住.htaccess文件一定要放在旧网站的根目录下,并且新网站要和旧网站保持相同的目录结构及网页文件 Options +FollowSymLinks RewriteEngine on RewriteRule (.*) http://www.domain.com/$1 [R=301,L] 当然,用PHP/ASP这些也是可以实现的,原理其实简单,只要输出一个301代码的HTTP头就可以。V2Read到牛扑使用的是Apache的重定向,可以把原来的地址“无损”地定向过去。比如http://www.v2read.cn/subject/123/到http://www.niupu.com/subject/123/。但是IIS是做不到的,要实现只能在程序里做,还不一定做得彻底。 还有,blogkid.cn的Alexa排名最近狂飙,昨天到今天涨了3万多名,最近三个月涨了70多万名,现在的Rank在608250。想想再写两年的话,那可能也是一头大牛呢。

琐事

最近其实心情不好,GF和我闹矛盾,居然把她手机摔坏了把手机卡撕了──这日子没法子过了。想想原因还是我这段太忙了,没有腾出时间来“谈恋爱”。 不过昨天的沙龙还是很开心的,虽然只有7个人,虽然Alone讲的时候有些慌张,但整个气氛很轻松。每两周才能见到徐老师一次,但每次都聊不少东西。昨天还认识了两位新朋友,不过嘛,HDU顶尖的学生圈子总是很小的,e6nian同学是现在的管理学会会长,而前任会长是我在社联的顶头上司兼老乡。 语言表述、交流沟通的能力对我们学技术的同学尤为重要,多锻炼也是好的。第一次做沙龙的时候看着讲台下稀稀拉拉的观众其实我也挺慌张,不过后来就好了。 然后来说说牛扑,大概更换域名10天了,更换域名用的是301永久定向。但是十天里Google的爬虫虽然一直过来,但一直没有收录页面。与此同时,旧的域名V2Read.cn在Google的收录数量从8万多提高到136000并一直保持着。另一个现象是,使用site:v2read.cn搜索时,搜索结果上会有大量的“补充材料”的提示。智勇说可能niupu这个域名被咔嚓了,但我觉得也许有别的解释: 首先,不管是niupu还是v2read,上面的页面数量是巨大的──如果能完全收录,总数在百万的级别。 所以v2read这个域名被更换的时候,页面的收录处在增长之中,google的爬虫其实已经把这些页面抓来了,只是还没有进行索引,于是在更换域名几天之后V2Read的收录量居然还在增加。 其次,在更换域名时,虽然做了301定向,Google还是要经过一段时间的考察(据查,这段时间大概是1-6周),如果页面很多,可能完全转移过来的时间也会很长。不可能他一发现有301就会马上删除原来记录,指向到新的网址。这就可以解释为什么V2READ的收录数量一直没有变化,而是在结果上出现了大量的“补充材料”的提示。没办法,只能等。 最后,niupu.com虽然早就注册了下来并且曾经打算拿来做博客,但其实是个新域名。搜索引擎新域名的抓取是有控制的。不过baidu的爬虫来niupu来得太少了,太少了。现在的收录只有26页。 不着急,再等等。对于niupu,如果SEO做得不好,其他什么都好不起来。 不过,今天看了下Alexa发现blogkid.cn的排名升得很快啊。 这次切身经历了一下301转向。如果哪位朋友对其中的细节感兴趣也可以直接联系我,zhanglei909#gmail.com。对SEO的研究来说也是难得的资源。

睡觉去也

凌晨三点,简历写了一多半了,今天上午八点开始还有五节课,怎么也得睡了。看看牛扑的日志,可爱的爬虫们正在欢快地跳跃着。 洗个澡,睡觉。

hoho

还好昨天把niupu.com域名换上了,要不估计只能推迟到下周再换了。这个星期不是一般地忙啊,今天下午,因为SIFE要参加比赛,就饿着肚子排了一下午,然后8点马上就去社联开会,效率超低的会像是在走长征。开完了会才吃晚饭,等回来已经11点了,被告知明天要交三份实验报告,还要交一份给党支部的思想报告。SIFE那边还需要做一个视频,SIFE还要上交一份中英文简历。哇,这哪里是人能做完的事情呢?不过,现在是凌晨两点,我除了那份简历已经都搞定了,思想报告写了好几张。SIFE那边的赞助商都是一些会计师事务所或是汇丰银行这类的,我不大感兴趣,所以我也没必要拿着自己NB的简历给他们。 这周四去上海,晚上回来。周五去参加GoogleCamp的毕业party,打算带上Alone一起去感受下。本来周六有阿里巴巴的网络工程师大会,早就看到Fenng大哥在说,却忘了申请,直到一个学长提醒,我才想起来,不过那时估计已经来不及了。其实我对SIFE的欲望没有对这个网络工程师大会的欲望强啊,错过了好机会。 最近没怎么关注外界,一心在完善牛扑网,想起来浙大要搞校庆了,活动应该相当多。周五去玉泉的时候可以顺便留心一下。 刚刚看到Gmail里未读邮件数是2046,想起了一部两年前看的电影。 今天还是很开心的。奖学金发了,这次没有上次3K那么多了,打了个对折再对折,只剩下几百了,不过也可以救救急。另一方面,牛扑上面的爬虫今天表现很好,很稳定,不停地抓取dangdang的图书数据,现在当当网图书信息已经快积累到10W了。下个学期我肯定会离开SIFE,如果能引入GoogleCamp,相信可以有更好的地方来做我们的沙龙。