Welcome to Snooda's Blog
    在博客迁移前好几天就把a记录的ttl设成了10分钟,目的是为了减少dns记录在spider处的缓存时间,加快迁移速度,即使是这样,在昨天还有一部分Baidu Spider在爬,到今天还有Yahoo! Slurp China的Spider在爬,处于不一致状态,有的爬虫爬新的,有的爬老的,估计建库模块会比较疑惑,导致不更新网站索引,而Google的很快就都更新到新的上面了。

    差距。






Tags:

Soso Spider 不支持base属性

[| 不指定 2011/10/27 19:17]
    今天博客新迁移,由于对静态化url的改动非常大,难免有遗漏的地方,所以非常关注access日志,看看爬虫们遇到了哪些困扰。

    在看日志的时候发现一个有意思的现象,google和百度的蜘蛛今天很不活跃,对于站点的大规模改变似乎并不感兴趣,对css,js不屑一顾,而soso的spider非常活跃,把每个链接都详细爬了一遍,但发现一个问题:

     新博客的url是采用base设置+相对url的模式,soso的spider似乎并不识别base标签,直接把相对url附加到当前url之后进行抓取,导致了很多404请求。查了一下,base属性是html标准属性,soso不支持这个属性应该算是个bug了。




Tags: , , ,
分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]