Loading...

    AD: 猛买 | 快递查询 | Jobsdigg | 很棒的男装店

nutch or lucene?

可任意转载,但必须在醒目位置以超链接形式标明文章原始出处和作者信息
原文地址:http://www.blogkid.net/archives/882.html

下午和Fenng大哥聊了一下,我一直在为牛扑的搜索效率发愁,往往搜一个书名得好几分钟,因为用的是遍历整个表的“Like”。他说可以做个NutchServer算一下,一听到这个,我马上就去Google翻资料去了。

不是没想过办法,当年也想用Lucene试试,但Livid说它对中文的支持不好,没法做,于是这事就放下了。 今天在查Nutch的时候不小心发现原来Lucene已经出到2.1,对双字节的字符有了支持──其实中文的索引免不了要做分词的体力活儿,谁让咱们中文的句子里没空格呢?但我对Nutch和Lucene的使用一点都不了解。

到底该用Nutch还是Lucene呢?Nutch带着一个爬虫,用来爬内容倒是很合适,但我注意到这两个其实是一家出的,在搜索方面应该差别不大吧。所以最后还是打算花些时间学学Lucene,在网上找到了车东的大作:http://www.chedong.com/tech/lucene.html

现在的问题是考试就要来了,要是花时间去学Lucene实在不合适,但又忍不住。同时,从数据库里把一个多G的东西折腾出来做成索引估计Lucene也得花不少时间。还有一个,我还不知道怎么拿Lucene和PHP交互呢,难道用Zend?

问题多多,好一个下午,即将有一顿丰盛的晚餐等着我们……

0 Responses to “nutch or lucene?”


  1. No Comments

Leave a Reply