<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
<title><![CDATA[Snooda]]></title> 
<link>http://www.snooda.com/index</link> 
<description><![CDATA[Snooda's Blog]]></description> 
<language>zh-cn</language> 
<copyright><![CDATA[Snooda]]></copyright>
<item>
<link>http://www.snooda.com/read/</link>
<title><![CDATA[Soso Spider 不支持base属性]]></title> 
<author>snooda &lt;admin@snooda.com&gt;</author>
<category><![CDATA[默认分类]]></category>
<pubDate>Thu, 27 Oct 2011 11:17:50 +0000</pubDate> 
<guid>http://www.snooda.com/read/</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp;今天博客新迁移，由于对静态化url的改动非常大，难免有遗漏的地方，所以非常关注access日志，看看爬虫们遇到了哪些困扰。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;在看日志的时候发现一个有意思的现象，google和百度的蜘蛛今天很不活跃，对于站点的大规模改变似乎并不感兴趣，对css，js不屑一顾，而soso的spider非常活跃，把每个链接都详细爬了一遍，但发现一个问题：<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; 新博客的url是采用base设置+相对url的模式，soso的spider似乎并不识别base标签，直接把相对url附加到当前url之后进行抓取，导致了很多404请求。查了一下，base属性是html标准属性，soso不支持这个属性应该算是个bug了。<br/><br/><br/><br/><br/><br/>Tags - <a href="http://www.snooda.com/tags/soso/" rel="tag">soso</a> , <a href="http://www.snooda.com/tags/spider/" rel="tag">spider</a> , <a href="http://www.snooda.com/tags/%25E7%2588%25AC%25E8%2599%25AB/" rel="tag">爬虫</a> , <a href="http://www.snooda.com/tags/base/" rel="tag">base</a>
]]>
</description>
</item><item>
<link>http://www.snooda.com/read/#blogcomment</link>
<title><![CDATA[[评论] Soso Spider 不支持base属性]]></title> 
<author> &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Thu, 01 Jan 1970 00:00:00 +0000</pubDate> 
<guid>http://www.snooda.com/read/#blogcomment</guid> 
<description>
<![CDATA[ 
	
]]>
</description>
</item>
</channel>
</rss>