<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>张磊的blog &#187; w3c</title>
	<atom:link href="http://www.blogkid.net/archives/tag/w3c/feed" rel="self" type="application/rss+xml" />
	<link>http://www.blogkid.net</link>
	<description>从头再来</description>
	<lastBuildDate>Sun, 15 Jan 2012 14:55:22 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>sogou的垃圾博客爬虫</title>
		<link>http://www.blogkid.net/archives/851.html</link>
		<comments>http://www.blogkid.net/archives/851.html#comments</comments>
		<pubDate>Sun, 27 May 2007 15:19:40 +0000</pubDate>
		<dc:creator>张磊</dc:creator>
				<category><![CDATA[技术文章]]></category>
		<category><![CDATA[牛扑]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[joyo]]></category>
		<category><![CDATA[robots-txt]]></category>
		<category><![CDATA[w3c]]></category>
		<category><![CDATA[yahoo]]></category>

		<guid isPermaLink="false">http://www.blogkid.net/archives/851</guid>
		<description><![CDATA[晚上开了个小会回来发现blog上不去了，很难刷开。以为是牛扑的程序又有效率的问题了，但是进去数据库发现并没有什么lock掉的进程，Web日志也很正常。后来怀疑到blog来，进去日志才发现sogou的blogspider至少开了3个服务器在抓我blog上的Feed。 WP不是只有一个Feed么，怎么会让sogou开了3个服务器抓那么久？ 其实细心的话会发现WP每篇文章都有一个评论的Feed可以订阅。比如我这个有850篇文章，就有850个Feed。蜘蛛有节奏地抓是不会有问题的，可是最怕就是乱抓一气。抓到后来，在日志里看到居然出现500错误了。而且据说sogou的爬虫并不支持robots.txt文件，我只能在配置文件里干掉这个爬虫──把整个IP段都给封了。 我在想，如果douban那种每个小组都做一个feed订阅地址的话，除非缓存用得很好，要不也是经不起sogou这么发飙的。 不知道为什么，牛扑每天都有很多Google和Yahoo的爬虫，就是没有baidu的爬虫。难道一个新网站需要百度考查这么久的？还是出了什么问题。 今天我开始对牛扑的一些页面努力进行标准化，现在牛扑的首页已经通过W3C的Transitional验证了，但是一些内页因为内容是来自joyo/dangdang，所以不大容易做到全部通过验证，只能尽量减少结构上的错误了。 后来，还看到Fenng大哥的文章，才知道ECSHOP也是高春辉做的。圈子真小啊，做来做去都是那群人。上个学期曾经花很多时间研究过ECSHOP，很不错的一款网店系统，更厉害的是，它是开源的。]]></description>
			<content:encoded><![CDATA[<p>晚上开了个小会回来发现blog上不去了，很难刷开。以为是<a href="http://www.niupu.com" target="_blank">牛扑</a>的程序又有效率的问题了，但是进去数据库发现并没有什么lock掉的进程，Web日志也很正常。后来怀疑到blog来，进去日志才发现sogou的blogspider至少开了3个服务器在抓我blog上的Feed。</p>
<p>WP不是只有一个Feed么，怎么会让sogou开了3个服务器抓那么久？ 其实细心的话会发现WP每篇文章都有一个评论的Feed可以订阅。比如我这个有850篇文章，就有850个Feed。蜘蛛有节奏地抓是不会有问题的，可是最怕就是乱抓一气。抓到后来，在日志里看到居然出现500错误了。而且据说sogou的爬虫并不支持robots.txt文件，我只能在配置文件里干掉这个爬虫──把整个IP段都给封了。</p>
<p>我在想，如果douban那种每个小组都做一个feed订阅地址的话，除非缓存用得很好，要不也是经不起sogou这么发飙的。</p>
<p>不知道为什么，牛扑每天都有很多Google和Yahoo的爬虫，就是没有baidu的爬虫。难道一个新网站需要百度考查这么久的？还是出了什么问题。</p>
<p>今天我开始对牛扑的一些页面努力进行标准化，现在牛扑的首页已经通过W3C的Transitional验证了，但是一些内页因为内容是来自joyo/dangdang，所以不大容易做到全部通过验证，只能尽量减少结构上的错误了。</p>
<p>后来，还看到<a href="http://www.dbanotes.net/mylife/china_internet_developer_conference_2.html" target="_blank">Fenng大哥的文章</a>，才知道ECSHOP也是高春辉做的。圈子真小啊，做来做去都是那群人。上个学期曾经花很多时间研究过ECSHOP，很不错的一款网店系统，更厉害的是，它是开源的。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.blogkid.net/archives/851.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

