nutch or lucene?
原文地址:http://www.blogkid.net/archives/882.html
下午和Fenng大哥聊了一下,我一直在为牛扑的搜索效率发愁,往往搜一个书名得好几分钟,因为用的是遍历整个表的“Like”。他说可以做个NutchServer算一下,一听到这个,我马上就去Google翻资料去了。
不是没想过办法,当年也想用Lucene试试,但Livid说它对中文的支持不好,没法做,于是这事就放下了。 今天在查Nutch的时候不小心发现原来Lucene已经出到2.1,对双字节的字符有了支持──其实中文的索引免不了要做分词的体力活儿,谁让咱们中文的句子里没空格呢?但我对Nutch和Lucene的使用一点都不了解。
到底该用Nutch还是Lucene呢?Nutch带着一个爬虫,用来爬内容倒是很合适,但我注意到这两个其实是一家出的,在搜索方面应该差别不大吧。所以最后还是打算花些时间学学Lucene,在网上找到了车东的大作:http://www.chedong.com/tech/lucene.html
现在的问题是考试就要来了,要是花时间去学Lucene实在不合适,但又忍不住。同时,从数据库里把一个多G的东西折腾出来做成索引估计Lucene也得花不少时间。还有一个,我还不知道怎么拿Lucene和PHP交互呢,难道用Zend?
问题多多,好一个下午,即将有一顿丰盛的晚餐等着我们……


0 Responses to “nutch or lucene?”