Loading...

Tag Archive for 'nutch'

    AD: 猛买 | 快递查询 | Jobsdigg | 很棒的男装店

一周IT播报(2009.3.23~2009.3.29)

本周,几家国内的互联网巨头几乎都有露脸。 1、网易低调推出“网易宝” 与年初高调推出有道购物搜索不同,“网易宝”的推出极为低调。根据网易宝的官方介绍, 网易宝目前的使用范围仅限于网易旗下的藏宝阁和交友中心两大平台,但网易的显然不只有这点儿野心。不过,有10家支付企业刚拿到电子支付牌照,网易宝咋办? 写本文时候搜了一下“网易宝”,发现即使在网易自家的有道上,网易宝也没有出现在结果的第一页。 BTW,国内叫“*宝”的第三方支付真不少,还是支付宝这个名字最正点。 相关链接:http://www.techweb.com.cn/news/2009-03-26/396342.shtml 2、拍拍低调推出B2C 距离淘宝商城上线有些日子了,拍拍本周也推出了B2C商城。不过拍拍B2C的路线和淘宝有区别:B2C部分被叫做“品牌专区”。看来是瞅准了淘宝的软肋准备予以痛击了。据说在腾讯做拍拍的同志们会比较郁闷,不知道做有啊会怎么样。 相关链接:http://brand.paipai.com/index/index.shtml 3、支付宝商家频道改版 近期,支付宝的商家频道也进行了大改版,原来的wow.alipay.com只有几个静态页面,如今打开让人觉得恍若进了淘宝。支付宝正在努力加强与外部商家的协作,这也是一块可以快速成长领域。 不过,新版商家频道有不少瑕疵: 首先,没有favicon。Fenng曾说,“有的时候,判断独立域名的 Blog 是否专业,基本看一下是否有 favicon.ico 就差不多了”。对个人blog都是如此,更别说一个精心打造的网站了。 其次,页面很大,首页打开光图片就超过了1M。要知道,即使是淘宝首页,empty cache时也只有500k。不是@alipay说刚做过前端优化嘛? 最后,有个XSS漏洞,大家发现了么? 相关链接:http://wow.alipay.com/ 4、百度贴吧改版遭抵制,李彦宏出面道歉 本周,百度贴吧短暂地换上了新版,但用户不买账,甚至发起了万人签名的反对活动。之后李彦宏出面,并声明: 看了很多大家对新版贴吧的评论和意见,我们会认真对待,坚决改正! 随后,百度贴吧换上了旧版。 这件事让我想起淘宝前阵子的改版,似乎并没有人道歉,用户抵制的声音也慢慢听不到了。两相比较,淘宝的做法有效仿国家宣传部门的嫌疑:拖、堵、删、等。 相关链接:http://blog.it.sohu.com/baidu/archives/239 5、Pixazza惹关注 Pixazza虽然名字难读,但最近开始被人关注,它甚至得到了Google的投资。Pixazza并不是一个网站,而是让网站上面的所有照片,都变成了商品展示架,于是被媒体称为Google AdSense for Images。但,在公开的信息中,Pixazza是以CPA/CPS的方式而非CPC方式获得收益。 相关链接:http://pixazza.com/ http://blog.163.com/mr6cc/blog/static/77030627200922610502619/ 6、Nutch发布1.0版 Nutch是一个基于Lucene的搜索引擎,已经有多年发展。本周终于发布了1.0版本。Fenng也为此写了篇文章。不过我没用过Nutch,倒是用过Lucene和Sphinx。 相关链接:http://lucene.apache.org/nutch/#23+March+2009+-+Apache+Nutch+1.0+Released

学习笔记

现在是学习时间。 先摘一段huony的文章: …… 在学习这些课程的时候你可以学通,我发现计算机这个学科真是好,我们学一些技术,但是我们本身就是在学管理。 各门语言课程让你学会如何说话行文,编译原理让你学会如何针对“平台”切换说话方式,离散数学让你学会优化很多的流程,操作系统是一门很好的例子,我觉得是一门系统管理课程。计算机的操作系统是一个非常经典的“系统”,哪个系统不是处理器、进程和进程调度、信息传递机制、I、O组成的?学校是一个系统、自然界也是一个系统、社团是个系统,公司也是个系统。你在用计算机的知识去理解这些系统并学会多进程的合理调度、提升效率,你会发现这就是管理。 …… 上面的文字来自于Ases5周年那天我拿到的Ases文集。读了之后顿觉英雄所见略同,当然我对专业方面的认识和理解跟huony比起来还有很大差距。想想令狐冲学独孤九剑、张无忌学太极剑,学的都是剑意。当然,huony写文章不太多,感觉对标点的使用并不恰当。为了保持原味,我连标点都没改。 还有一段,是《Ajax模式与最佳实践》这本书上的: 置换模式明确规定,对外暴露的URL被看作是组件,它需要使用一个资源,这个URL不会与一个特定的表现(类似jsp)绑定在一起。 这本书不太适合初学者看。说实话,我自己花了一天时间把这本书谈的模式浏览了一次,具体的内容没怎么深入下去,但感觉冲击很大。在讲AJAX的同时,全书也在贯彻着REST,把URL视为可操作的资源。联想起了今年上半年参加阿里巴巴的侠客行大会时,听JavaEye范凯的讲座,用ROR开发REST程序。关于REST的更多东西,得自己找点资料了。 最近感觉视野极大地开阔,在电脑上累了就看书。前些日子借的《Programming Ruby》也看完了,和C/C++/Java这些语言们比起来,Ruby更让人感叹设计者的智慧(当然,发展到后面就是社区的智慧了)。是咱的邻居日本人哦。今天又花了几个小时看完了《AJAX框架解析与实例》,真正用的时候再去查吧。现在开始看厚厚的《代码大全》了,挺没感觉的。 也开始关注Nutch,Java总要好好了解。因为用到很多Java的特性,估计Nutch中爬虫这一块不会有很多其它平台的移植;但在搜索上,也许可以有其他平台上面的实现呢。 还在关注的是牙线(据说用牙线让人更健康),不过我的眼睛实在有崩溃的感觉。