Loading...

Archive for May, 2007

    AD: 子非鱼母婴社区 | 猛买 | Jobsdigg | 很棒的男装店

逻辑和混沌

牛扑的爬虫最近工作的很稳定,难道数据量大了反而不容易锁死?总之就是太稳定了,从昨天早上开起来到现在已经不间断地跑了一天半,几乎把六分之一的当当图书数据都在这一天半里收入囊中。现在,当当的数据只剩下大约五分之一需要抓取了,做完之后,就会轮到更多的图书网站。

我又在牛扑上更新了一下图书的总目录,程序跑得也很稳定。只花了不到10分钟就把约50万本书的信息重新更新了一次。同时我用图书分类目录代替了原来随机显示的Tag。在301转向带来的低潮中可以为将来做充分的准备。

不懂得< base >标签的有道爬虫又大举来袭,可惜我早就ban掉了它,他读到的只有403了。

以上这些都是通过程序来做的,现在我每一天的生活都和大大小小的程序脱不开干系。以前有一个学长问我,将来是偏向做技术还是偏向做管理——一个很多人都会遇到的问题。那时候我说,这两样东西都少不了逻辑,所以先要把逻辑学好。男人是为逻辑而生的,我经常告诉自己要时刻保持冷静的头脑,这样才能保证能做出正确的判断。

我一直希望能通过简洁的表单和少量的点击完成好的交互,因为在人力有限的情况下,太多的不确定信息会增加处理的成本。我一直认为逻辑是自然的规律,1就是1,0就是0,1和0形成了无数分支,于是有了自然,于是有了人类,于是有了科学。

但情况好象没这么简单。生活中所接触到更多的不是逻辑而是混沌,20世纪末兴起过一个叫“模糊”的概念,模糊洗衣机,模糊电冰箱,模糊空调。这里不是1和0来主宰,而是Random。分形的复杂结构离不开Random;人与人的交流用IM比用表单更能达到效果;Google的爬虫是全自动的不需要干预,但是Google的硬盘会随机地坏掉——同样需要人来维护。谈恋爱更是没法算,因为男人和女人都不是计算机。

我想,我们在很多时候也需要放下那一套逻辑,感性地面对生活。特别是理工科的同学,盲目地相信逻辑没什么好处。相比之下,我更佩服那些活在自己精神世界里的人们。

逻辑的头脑用来赚钱吃饭,混沌的观点用来轻松生活。哈哈

有关301定向

本来想直接从Google申请删除掉V2Read.cn的收录,但不小心在Google的帮助信息中看到这么一段话:

由于 Google 漫游器依网址来辨别网页,所以您不能自己更改目录里的网址。Google 下次漫游时都会自动更新这些网址。漫游器的行程是自动设定的,我们也没有办法让它提前到达您的网站。

如果您在 Google 漫游后更改了网址,您可以填写网页登录申请表,并按照下列说明删除旧网址。但还是要提醒您,登录的新网址不会马上生效,所以在 Google 下次漫游前的那段时间里,可能无法通过 Google 访问您的网站。

我们建议您要求各网站更新当前指向您的旧网站的链接,使其指向您的新网站,而不要申请更改网址。另外,请不要忘记更改您在 Yahoo! 目录和其它网页目录中的记录。最后,如果您的旧网址使用 HTTP 301(永久)重定向指向您的新网站,Google 漫游时会自动获知新网址,并在六到八周内自动进行更新。

这里说301对定向进行更新在Google需要6到8周,也就是最多要两个月,最少也要一个半月。现在的牛扑在Google收录还是0,看来心急吃不了热豆腐,还得等。要是到时候还不成该怎么办呢?

同时,关于301定向的实现,有这样的资料可供参考:

  • IIS实现:
    • 打开internet信息服务管理器,在欲重定向的网页或目录上按右键
    • 选择“重定向到URL”
    • 在“重定向到”输入框中输入要跳转到的目标网页的URL地址
    • 选中“资源的永久重定向”(切记)
    • 最后点击“应用”
  • Apache实现:
    • 创建一个.htaccess文件,并将下面提供的代码写入文件内,它可以确保旧域名所有的目录或者网页正确的跳转到新域名内。记住.htaccess文件一定要放在旧网站的根目录下,并且新网站要和旧网站保持相同的目录结构及网页文件
    • Options +FollowSymLinks
      RewriteEngine on
      RewriteRule (.*) http://www.domain.com/$1 [R=301,L]

当然,用PHP/ASP这些也是可以实现的,原理其实简单,只要输出一个301代码的HTTP头就可以。V2Read到牛扑使用的是Apache的重定向,可以把原来的地址“无损”地定向过去。比如http://www.v2read.cn/subject/123/到http://www.niupu.com/subject/123/。但是IIS是做不到的,要实现只能在程序里做,还不一定做得彻底。

还有,blogkid.cn的Alexa排名最近狂飙,昨天到今天涨了3万多名,最近三个月涨了70多万名,现在的Rank在608250。想想再写两年的话,那可能也是一头大牛呢。

为什么这样子

为什么这样子,你拉着我说你有些犹豫,怎么这样子,雨还没停你就撑伞要走,已经习惯不去阻止你,过好一阵子你就会回来,印象中的爱情好像,顶不住那时间. 为什么这样子,你看着我说你已经决定,我拉不住你,他的手应该比我更暖.铁盒的序,变成了日记变成了空气演化成回忆,印象中的爱情好像,顶不住那时间,所 以你弃权.

题目来自上面这首曾经很喜欢的《半岛铁盒》,不过今天说的内容和上面这个浪漫故事半点关系也没。

昨天听徐老师说,她最近刚开始给学生上课,赫然发现学生早已不是她所想的样子。但学生应该是什么样的,她也没有说过。我的感觉就是,当我在校园里走着,经常会听到后面的同学在和别人分享自己打游戏的经历。但是去过不少次浙江大学,看一些朋友们再聊天,所谈的都是创业、学术、出国方面的东西。高下立判啊。在HDU什么都不能奢望,周围能帮到你的人太少了,做什么都要自己一点一点、一步一步来,不过这也未必是一件坏事。

下面要批评一下小鲶鱼(他的blog已经有一个月没有更新了,所以不点过去也可以)。今天中午看到鲶鱼同学在卖力地写着“思想报告”,在大谈“唯物主义”,胡吹一气,一点实质都没有。让我想起小学时被老师逼着写读后感或者电影的观后感,“通过这本书(这场电影),我学习到了XXX,我深刻地感觉到XXX” ──我不知道为什么学校会把学生逼成这样,到了大学里还不放过。当然这也不全怪学校,当事人在这上面也体现出了猥琐的一面。我自己的思想报告写的是企业文化方面的内容,是我真实的想法。胸无点墨的人才会写文章大话连篇,真正有才学的人,像是我们学校的卢章陆老师讲的党课虽然也是纯粹的理论,但给我的印象特别深刻,甚至一年之后我还记忆犹新。

今天看到学院里有申报科技项目的通知。牛扑网所使用的系统(Project ZLLP)完全是我自己开发,做的过程中创造性地解决了不少问题,包括数据库优化缓存,包括缓存的设计和使用,包括Web Service的开发等等,当然也遇到不少新问题,还在不断地开发中。更重要的是,牛扑网是一个可以有一定经济效益的项目。所以一看到这个通知,我就想用Project ZLLP申请一个项目,会有一定的资金支持。可是后来打开申请表,发现要填的东西太多了,详细是好事,也难为那些借此机会想骗些经费下来的老师们了。后来我实在填不下去了,转念一想,Tom所带的那个LED光通信的项目进入了新苗计划,不过只批了5000元。如果我的项目不能到新苗计划,作为学校的科技项目最多只有1000元。想想还是算了吧,1000块钱真的不缺。

但上次在Mrtech,听到他们的CTO说和自己的导师商量给实验室买一辆车,居然马上就被答应了。浙大的老师骗钱真厉害,一辆车点个头就来了。国内学术氛围之差可见一斑,造假横行,陈进这种大流氓骗的是大钱,还有一群小学者骗着小钱。纳税人的钱有多少落进了他们腰包呢?

写文章的时候看到一个新闻:《哈尔滨20天内39人自杀 至少四分之一是大学生

为什么这样子,因为不可能是别的样子。不爽得很,所以今天写了很多文章。

琐事

最近其实心情不好,GF和我闹矛盾,居然把她手机摔坏了把手机卡撕了──这日子没法子过了。想想原因还是我这段太忙了,没有腾出时间来“谈恋爱”。

不过昨天的沙龙还是很开心的,虽然只有7个人,虽然Alone讲的时候有些慌张,但整个气氛很轻松。每两周才能见到徐老师一次,但每次都聊不少东西。昨天还认识了两位新朋友,不过嘛,HDU顶尖的学生圈子总是很小的,e6nian同学是现在的管理学会会长,而前任会长是我在社联的顶头上司兼老乡。

语言表述、交流沟通的能力对我们学技术的同学尤为重要,多锻炼也是好的。第一次做沙龙的时候看着讲台下稀稀拉拉的观众其实我也挺慌张,不过后来就好了。

然后来说说牛扑,大概更换域名10天了,更换域名用的是301永久定向。但是十天里Google的爬虫虽然一直过来,但一直没有收录页面。与此同时,旧的域名V2Read.cn在Google的收录数量从8万多提高到136000并一直保持着。另一个现象是,使用site:v2read.cn搜索时,搜索结果上会有大量的“补充材料”的提示。智勇说可能niupu这个域名被咔嚓了,但我觉得也许有别的解释:

首先,不管是niupu还是v2read,上面的页面数量是巨大的──如果能完全收录,总数在百万的级别。 所以v2read这个域名被更换的时候,页面的收录处在增长之中,google的爬虫其实已经把这些页面抓来了,只是还没有进行索引,于是在更换域名几天之后V2Read的收录量居然还在增加。

其次,在更换域名时,虽然做了301定向,Google还是要经过一段时间的考察(据查,这段时间大概是1-6周),如果页面很多,可能完全转移过来的时间也会很长。不可能他一发现有301就会马上删除原来记录,指向到新的网址。这就可以解释为什么V2READ的收录数量一直没有变化,而是在结果上出现了大量的“补充材料”的提示。没办法,只能等。

最后,niupu.com虽然早就注册了下来并且曾经打算拿来做博客,但其实是个新域名。搜索引擎新域名的抓取是有控制的。不过baidu的爬虫来niupu来得太少了,太少了。现在的收录只有26页。

不着急,再等等。对于niupu,如果SEO做得不好,其他什么都好不起来。

不过,今天看了下Alexa发现blogkid.cn的排名升得很快啊。

这次切身经历了一下301转向。如果哪位朋友对其中的细节感兴趣也可以直接联系我,zhanglei909#gmail.com。对SEO的研究来说也是难得的资源。

开源是一种精神

一个朋友昨天写了篇文章(在这里),其中提到了国内经常被提及的“抄袭”。碰巧这次去参加阿里的网络工程师大会,所参与的话题也都是开源方面的东西。所以想写这一篇文章谈谈自己的想法。

首先是谷歌抄酷讯这件事,明眼人一看就知道是这个小网站赶到了谷歌的压力,只能出此下策炒作自己。让我想起那时候电脑爱好者上头条登了一个很无耻的购物论坛的软文,里面把很多业内人士谈BuyRen论坛的部分都改成了描写他们自己网站的内容。炒作无罪,但是通过这些下三烂的手段,实在是让人鄙视的。

话说回来,今天我们聊的是开源。在网络工程师大会上,我听了PHP之父Rasmus的演讲,感触最深的是他说:“Even I started the project, I am a contributer. ”意思是说虽然他创造了PHP并开发了早期的版本,但他现在的身份也不过是这个项目的贡献者之一。他认为要让一个项目持久地发展下去,作为创始人,应该放弃对它的控制。

他自己说,“I am a tech guy.”在国外做技术的人和国内地位是不一样的。我所了解的在国内大家都羞于说自己是做技术的。一些长辈们也告诉我将来可以先写两年程序然后去公司的管理层XX。这彰显的是国内人们浮躁的心态。在Google就有一些资深的工程师,他们的待遇比副总裁还要高,他们不会涉足公司的管理,因为他们不适合做这个东西。但放到国内的话如果你35岁还在写程序恐怕在家里老婆也会看不起你。

还有一点就是国外人很有钱,所以一些NB的Geek可以从事自己喜欢的事情,然后通过Paypal会得到不少捐助。一些开源的项目也是这样,比如CakePHP。在国内大家一方面对技术并不重视,另一方面大部分人对在网上花钱还是比较害怕的。不过最近好像有了些起色,周曙光不算一个Geek,但是她的所作所为得到了很多人的认可,他现在的三星相机就是通过捐助获得的。

开源是一种精神。在开源社区诞生的一系列产品支撑起了整个互联网。比如Google,比如Yahoo,还有很多大大小小的网站,一群充满热情的人们持久地为开源项目贡献着力量,而并不谋取什么回报。我们看到了一个又一个优异的产品:PHP,Python,Mysql,Ubuntu…

昨天的沙龙由Alone谈了一下Ubuntu,以后的沙龙我们会加入更多开源方面的东西。Lupa社区该不该给我们些活动的经费呢,呵呵。

最后,要感谢Fenng大哥帮我要到了参加网络工程师大会的入场券。希望他工作不要太累,照顾好自己。

Yellow沙龙如期进行

新一期沙龙仍然放在周二,18:00,地点在HDU第11教学科研楼114教室。

这次的主题是Ubuntu操作系统,我们会带一些礼品给到场的朋友们,欢迎踊跃参加。如果有更多的时间,我也很愿意分享一下这段时间自己的收获。

这次由Alone主讲。周五在ZJU和Jennifer聊起嘉之大哥,听说他现在过得很不错,经常出去巡回演讲。我觉得对嘉之这样内向的性格来说,经常的演讲还是很有益处的。对我们Yellow的members也是这样。

4天

洗了一个澡清醒一点,赶紧写篇blog吧,要不关心我的朋友们还以为我出车祸挂了呢。

谈一下这几天的生活。这里的四天,说的是这周星期三一直到星期六这段时间。周二晚上加班,一直到了周三3点半才上去睡。很快,7点半起床去上课,躺在床上的时间一共只有4个小时。

周四要到上海比赛了,所以周三晚上和SIFE的弟兄们排练到十来点回来等到十二点左右就睡了,但是这也没睡多久,早上6点整就起来开始收拾,准备赶去上海的火车。火车上也没歇着,在那边排练话剧一样的练我们的Presantation。

这个时候虽然连续两天都睡得很少,但也没觉得有多累。真正累的是11点多到了上海之后,我穿着硬底的皮鞋,正好左脚在周二踢球时磨破了。实在痛苦,而且到了KPMG的OFFICE里面根本没有坐下的机会。匆匆忙忙底准备、紧紧张张比赛,然后是颁奖──这些完了之后就19点了,估摸着回不去杭州了。

其实我挺不想回去杭州的,因为如果我们九个人不回去的话,会有一个上海师范大学的漂亮MM和我们一起吃饭(后来吃完才知道,这个MM不光是上海师大的学生,也是上海市委党校的学生,牛啊……)。我的小小阴谋得逞,我们吃饭到9点。之后的三个小时,我们奔波在上海的街头,一边高声唱歌,一边在找落脚的地方。3 hours walking,还穿着双硬底皮鞋,可以想想多恐怖。后来终于找到宾馆了,9个人开了一间房,有男有女,过了一个有意思的晚上。

我是在第二天凌晨两点多快三点的时候睡的。我最后一个洗澡,出来之后大家已经都睡着了。我慢吞吞地烧了开水,喝了两大杯之后这才去睡。不过很快就天亮了,6点钟好几个手机的闹钟都开始响,冤枉的是我的手机没上闹钟,我却成了唯一被闹钟叫醒的人。中间估计只睡了三个钟头多一点。

睡三个钟头,脚已经不痛了,歇过来了。然后我们从旅馆朝上海南站走。我突然意识到我第一次来上海的时候到过这里,蜗牛MM还请我吃过一顿很好吃的饭。那是去年10月的事了。去年10月之前我虽然已经是大二的学生,但不用说上海了,连杭州市区也只去过3、4次。 但自从10月在浙大见到了Jennifer,我开始接触了一大批顶尖的同学,也开始习惯于经常往上海或是浙大跑的生活。真快啊,这半年之中我出去过多少次呢?

我们到了南站,买到了9点36的火车,车上我和SIFE里面负责财物的MM聊了一路,爽啊。可惜的是拿这一个半小时来睡一下我肯定会更开心。到了杭州已经是11点40。我下午还和Jennifer约好参加GC的party呢。 于是我马上坐525回到下沙,这时快1点了。我换掉了烦人的西装和硌脚的皮鞋,带着Alone很快出发了,不过还是迟到了。

GC的Party应该从来都不缺乏笑声,里面技术的高手们总给我可爱的感觉。游戏玩了很久,后来huony介绍了一下MrTech的新产品(我保个密先,回头详细介绍)。很快我又得知晚上有ASES的案例分析的活动,我和Alone心动了,反正也不急着回去,就先和Jennifer到了他们公司,骗了一顿饭,然后一起到了遥远的ZJG──这是我第二次来紫金港。

ASES的活动也是很有意思,细节不方便透露。我和Alone以及浙大一个06级的MM在我的鼓动下组了一支队伍,也来参加。本来我是很阳痿地爬在那里,累的够呛了,因为早上只有3个小时的睡眠。后来也想干脆做观众。不过既然大家都来参加这活动,就也组一个队认真对待吧。我马上就来了精神──这点Alone可以作证。我们要做的是给以个产品置顶营销的策略,同时为它定价。我们队三个学的都是计算机方面东西,相比起来我知道的这方面东西可能多一点。我在自己的角度上队这个产品的营销做了陈述,虽然后面没有幸运地拿奖,我对自己的表现还是满意的。活动结束后,一些ZJU的学长主动来要我的名片,颇有成就感啊。

但是,我们忘记了时间。结束之后已经十点多了,怎么从紫金港回到下沙呢?这是一个问题。Alone拨了114,总算找到个办法。我们回到寝室的时候,已经快0点了。我这一天在外面奔波,连电脑都没开过,于是开了电脑处理邮件。这一弄就到了一点多。感谢Fenng大哥,帮我要来一张阿里巴巴网络工程师侠客行大会的门票,大会是在周六上午开始。我一点多睡觉,然后早上六点起来,准备去做公交到市里(虽然很辛苦,但从来也没抱怨过怎么到下沙了)。下了公交车又走了20多分钟,终于到了传说中的人民大会堂了。

上午的两场专题演讲都是英文的,PHP之父Rasmus以及另一位Yahoo资深的工程师。我周围的朋友都在用同声翻译的装置,但我发现自己居然可以直接听懂,不禁对我的英文水平有了全新的认识。下午比较累,头疼(我很少头疼的)。但还是坚持听完了,花了半个小时走到公交站,站着回来下沙,现在是星期天的凌晨了,前一天的晚饭还没吃。

这4天里我加起来睡的不超过20小时,但是大部分时间还是能保持清醒的头脑和充沛的精力。我在火车上感觉会睡着的时候,就很努力地和旁边的人说话,因为我感觉万一睡着,想再变得清醒就不容易了。

这是我生命里最稠密的四天时间。想好好休息、放松下了。周日的侠客行大会就不过去了。今天大部分链接也没有加,见谅。

睡觉去也

凌晨三点,简历写了一多半了,今天上午八点开始还有五节课,怎么也得睡了。看看牛扑的日志,可爱的爬虫们正在欢快地跳跃着。

洗个澡,睡觉。

hoho

还好昨天把niupu.com域名换上了,要不估计只能推迟到下周再换了。这个星期不是一般地忙啊,今天下午,因为SIFE要参加比赛,就饿着肚子排了一下午,然后8点马上就去社联开会,效率超低的会像是在走长征。开完了会才吃晚饭,等回来已经11点了,被告知明天要交三份实验报告,还要交一份给党支部的思想报告。SIFE那边还需要做一个视频,SIFE还要上交一份中英文简历。哇,这哪里是人能做完的事情呢?不过,现在是凌晨两点,我除了那份简历已经都搞定了,思想报告写了好几张。SIFE那边的赞助商都是一些会计师事务所或是汇丰银行这类的,我不大感兴趣,所以我也没必要拿着自己NB的简历给他们。

这周四去上海,晚上回来。周五去参加GoogleCamp的毕业party,打算带上Alone一起去感受下。本来周六有阿里巴巴的网络工程师大会,早就看到Fenng大哥在说,却忘了申请,直到一个学长提醒,我才想起来,不过那时估计已经来不及了。其实我对SIFE的欲望没有对这个网络工程师大会的欲望强啊,错过了好机会。

最近没怎么关注外界,一心在完善牛扑网,想起来浙大要搞校庆了,活动应该相当多。周五去玉泉的时候可以顺便留心一下。

刚刚看到Gmail里未读邮件数是2046,想起了一部两年前看的电影。

今天还是很开心的。奖学金发了,这次没有上次3K那么多了,打了个对折再对折,只剩下几百了,不过也可以救救急。另一方面,牛扑上面的爬虫今天表现很好,很稳定,不停地抓取dangdang的图书数据,现在当当网图书信息已经快积累到10W了。下个学期我肯定会离开SIFE,如果能引入GoogleCamp,相信可以有更好的地方来做我们的沙龙。

V2Read深情谢幕

V2Read从上线到现在已经有1个多月,期间修修补补,修复了不少bug(但还有很多bug),也增加了一些新的功能。但在我看来这一个月基本没有啥发展,流量也只是从0生长到了几十,一个月的IP加起来可能都不如智勇随便一个小网站。

这其中有v2read.cn域名本身的问题,另一方面我也在积极地学SEO方面的东西。V2Read最需要的就是SEO了。 昨天难得上了QQ,和智勇好好聊了一下,终于准备给V2Read更换一个域名,那就是——http://www.niupu.com

我还记得在猫扑收购donews的时候,智勇在blog上亮出了这个域名(什么叫头脑)。昨天也顺便见识了一下他庞大的域名资源。挑来选去还是觉得niupu相当不错,我父母也都属牛。而且也有现成的LOGO,我改了一下颜色,就开张了。

V2Read深情谢幕了——现在访问V2Read,会自动跳转到牛扑。顺便今天学了一下301跳转的东西。现在越来越不喜欢在文章中插上技术的东西了,回头专门整理一下 :)

原来的V2Read只是我一个锻炼手艺的地方,所以会有一些多余的功能出来,比如写给WP的插件。但是换到了牛扑,我用一些技术之外的方法让它壮大的。当然,在这个过程中,我需要Partner。

给在用kijiji频道定制的朋友们一个忠告,还是赶紧停了吧。靠Adsense带不来多少钱,反而把域名给毁了。