Loading...

Tag Archive for 'lucene'

    AD: 猛买 | 快递查询 | Jobsdigg | 很棒的男装店

一周IT播报(2009.3.23~2009.3.29)

本周,几家国内的互联网巨头几乎都有露脸。 1、网易低调推出“网易宝” 与年初高调推出有道购物搜索不同,“网易宝”的推出极为低调。根据网易宝的官方介绍, 网易宝目前的使用范围仅限于网易旗下的藏宝阁和交友中心两大平台,但网易的显然不只有这点儿野心。不过,有10家支付企业刚拿到电子支付牌照,网易宝咋办? 写本文时候搜了一下“网易宝”,发现即使在网易自家的有道上,网易宝也没有出现在结果的第一页。 BTW,国内叫“*宝”的第三方支付真不少,还是支付宝这个名字最正点。 相关链接:http://www.techweb.com.cn/news/2009-03-26/396342.shtml 2、拍拍低调推出B2C 距离淘宝商城上线有些日子了,拍拍本周也推出了B2C商城。不过拍拍B2C的路线和淘宝有区别:B2C部分被叫做“品牌专区”。看来是瞅准了淘宝的软肋准备予以痛击了。据说在腾讯做拍拍的同志们会比较郁闷,不知道做有啊会怎么样。 相关链接:http://brand.paipai.com/index/index.shtml 3、支付宝商家频道改版 近期,支付宝的商家频道也进行了大改版,原来的wow.alipay.com只有几个静态页面,如今打开让人觉得恍若进了淘宝。支付宝正在努力加强与外部商家的协作,这也是一块可以快速成长领域。 不过,新版商家频道有不少瑕疵: 首先,没有favicon。Fenng曾说,“有的时候,判断独立域名的 Blog 是否专业,基本看一下是否有 favicon.ico 就差不多了”。对个人blog都是如此,更别说一个精心打造的网站了。 其次,页面很大,首页打开光图片就超过了1M。要知道,即使是淘宝首页,empty cache时也只有500k。不是@alipay说刚做过前端优化嘛? 最后,有个XSS漏洞,大家发现了么? 相关链接:http://wow.alipay.com/ 4、百度贴吧改版遭抵制,李彦宏出面道歉 本周,百度贴吧短暂地换上了新版,但用户不买账,甚至发起了万人签名的反对活动。之后李彦宏出面,并声明: 看了很多大家对新版贴吧的评论和意见,我们会认真对待,坚决改正! 随后,百度贴吧换上了旧版。 这件事让我想起淘宝前阵子的改版,似乎并没有人道歉,用户抵制的声音也慢慢听不到了。两相比较,淘宝的做法有效仿国家宣传部门的嫌疑:拖、堵、删、等。 相关链接:http://blog.it.sohu.com/baidu/archives/239 5、Pixazza惹关注 Pixazza虽然名字难读,但最近开始被人关注,它甚至得到了Google的投资。Pixazza并不是一个网站,而是让网站上面的所有照片,都变成了商品展示架,于是被媒体称为Google AdSense for Images。但,在公开的信息中,Pixazza是以CPA/CPS的方式而非CPC方式获得收益。 相关链接:http://pixazza.com/ http://blog.163.com/mr6cc/blog/static/77030627200922610502619/ 6、Nutch发布1.0版 Nutch是一个基于Lucene的搜索引擎,已经有多年发展。本周终于发布了1.0版本。Fenng也为此写了篇文章。不过我没用过Nutch,倒是用过Lucene和Sphinx。 相关链接:http://lucene.apache.org/nutch/#23+March+2009+-+Apache+Nutch+1.0+Released

How to perform search in Lucene.Net

I have a .net course this semester, so I have to submit a C# project as the finally examination. I planned to develop a small tool that can index all the PDF files in my computer so that I can easily find any of them by some keywords. To read the content of a PDFFile, [...]

如何让Zend_Search_Lucene支持中文分词

初探Lucene,学习之中。 昨天下雨,我家的百兆宽带突然就不能上了。所幸昨天还写了第1000篇,不然就遗憾了。不能上网也许并不是坏事,虽然我看不到了想看的人,进不去了我的GTD,可是让我得以把精力放在一些感兴趣的技术上。 昨天我ProjectCamel有点阶段性的成果。得益于泛域名和出神入化的URLRewrite,已经可以准确地显示出站点加载时的桥页。所以今天我放下了活儿,把最后一天留给自己,想看一下Zend_Search。我一直很想好好研究中文分词,可是这个暑假下来居然没有看过一下子Lucene,除了在北京和馒头空对空地来过几次分词的讨论,其他真的一点收获都没有。 不过自己也一直庆幸,我越等到后面,Lucene对中文支持就越完美,就不用自己去操心了。怀着这样的心情,我今天开始看Zend_Search_Lucene了。我成功地把自己以前做ACM写的程序编制成了索引,随便查了两下,效果很让人满意。可是当我把一些中文文档索引之后,问题就来了,根本啥都查不出来 。不是说Nutch(一个可以拿来做搜索引擎的开源程序,和Lucene貌似是一个人写的,世间的大牛不是很多哈)和Lucene都完美支持中文了么?我顿时有种被骗的感觉。 可是那也得做。网上搜来搜去,搜到的基本都是06年上半年的文章。不少牛人用自己的方式在Zend_Search_Lucene中实现了中文分词, 可看看都觉得头大,有的甚至还得给Zend_Lucene打Patch。终于搜到一个今年6月的文章,读了之后,感觉作者在PHP上的功底很不错。文章请看此处,可笑的是。查资料的过程中 ,也发现不少人转载从来不标明出处,唉,国内就这情况,重复内容太多。 那篇文章写得很不错,分词的部分逻辑也相当清晰。使用了简单的二元分词,这样生成的索引会相当大,但至少是可以支持中文的。可是我用来索引文档的时候,都只能索引第一行(处理换行有些问题),然后还有一些字母被无情过滤掉了。所以我对程序做了一些修改, 由于太长了,我就不放在这个blog上了,请移步到我的技术blog查看我修改之后的程序。 需要注意的是,这个分词实现只支持UTF-8编码的。如果需要索引内容的是别的编码格式,可以改一下程序中的某些部分。 二元分词在遇到牛扑这样规模的数据时,没有任何实际意义。特别是在Zend_Search_Lucene的索引优化并不完善时。所以在这个方面,还有很深的挖掘的空间。 关于分词的知识,可以看一下这篇文章和这篇文章(希望大家不要像他这样转载不加出处)。 逆向最大匹配,应该是下一个要钻研的了。

ZF

今天在做Camel的时候,对ZF中的Cache的一些初始化选项觉得有些疑惑,于是找来了官方的文档看了看。不看不知道,一看之下才发觉自己之前对ZendCache的使用简直太浅薄了。现在的ZendCache可以对页面某一部分做Cache,也可以对整个页面进行Cache,Cache的保存方式也多种多样,真的很强大。之前我自己对Cache的思考,和他们所做的工作比起来,可以说是微不足道了。 所以牛扑还需要更大的改动。今天我一度动摇,想用Python来重写牛扑,但很快就打消了这个念头。牛扑的架构需要进行更改,我打算大量地使用ZF框架中的组件。这个假期还有些遗憾就是,没有把足够的时间花在看Lucene上。智勇说牛扑啥都搜不出来,这是因为没用全文检索阿。记得那时Tiny还说要送我一个他们在这方面的产品,可那我也得会用阿。 不过,现在做Web开发会觉得顺手很多,因为网络上流行的框架有一大堆,总能找到适合你的一款。若不,说明你已经高超到该自己去写框架了。牛扑几乎所有的方面都需要改进,用户界面、全文检索、缓存算法、数据库结构……回头看自己之前的项目总会觉得千疮百孔。不过,一个一个来吧,我打算把这个拿来做我的毕业设计。 晚上还花了十来分钟,给机器人在互联网的某个角落,安了一个小小的开关。以后机器人掉线,就不需要爬上服务器去改了。只要对那个开关说一个暗语,机器人就会被重新打开。想着你说机器人不见了时可爱的表情,我忍不住就把这个秘密泄漏给了你。

如何解决Mysql中文全文索引

UPDATE:看到有很多朋友搜索mysql中文的全文索引到了这里,想和大家说,用mysql进行中文的全文索引是很难的。我已经找到了用Lucene解决的办法,不过在实际应用中选择了另一个全文检索工具“Sphinx”,我也写了一篇关于Sphinx和Rails协作的文章。请看看下面显示的相关文章里和Lucene有关的内容。左边推荐的这本书是一个详细的关于Lucene的教程。 V2Read是我第一个需要处理海量数据的Project,主要的数据是大量的图书信息。但是对于正在飞速增加的数据,我有点束手无策。现在在V2Read的搜索是使用Like进行简单的匹配,不用说,效率很差。所以现在的搜索只搜书名都很慢。 我下午花了一些时间来找Mysql在中文全文索引方面的内容,可是没找到什么有帮助的。大家提供的近似于Hack的方式倒是满有意思。比如说先进行分词,然后在中间插入空格,搜索的时候就能搜出来了;比如说先把内容转化成拼音(汗一个先),然后存进数据库——实在让我感叹群众的智慧就是伟大啊。 不过搜来搜去还是没有解决这个问题。全文索引难道真的就这么难?不知道Livid的V2EX是怎么做的。想到这里,突然有了去翻Babel程序的冲动,顺便也可以看看PW的源程序,肯定能找到蛛丝马迹的。 今天和zhanghe4聊天,说起V2Read。去年这个时候我在设计店评的时候,他给我看了dianping.com的个人主页,说最好提供这样一个东西。那时的我虽有满腔热情,到底没啥水平,看着那个伪静态的地址,猜测着那边高深莫测的技术,心里没底。但今天的V2Read全部都是伪静态链接,以前觉得那么NB的东西现在也看着稀松平常。很多时候自己都没有察觉,实际上成长了很多。 我正在做一个PPT,为我们新的沙龙做准备。但是在谈问题的深度上,实在不知道该怎么把握。深入到技术的细节,有一大堆内容,退到整体的设计,好像内容也不少,hoho。 不过这个中文全文索引实在是让人发愁啊。 UPDATE: 我去查了PW的程序(“search.php”) 以及Babel的程序,发现它们所使用的全是Like。有些失望。看来只能通过提升服务器性能来提高效率了。