通过菏泽做网站日志来终结GZIP压缩抓取的影响
不是不难发现。百度蛛蛛对于我网站首页的爬取率是最高的权重页)这个也不难理解,通过我分析网站的日志。因为做为网站来说更新的最快的而且我做锚文本链接的时候几乎都是以首页为主。那么结合着来说,好些栏目页的蛛蛛爬取大多数是通过我首页给他做的链接诱饵,引导蛛蛛来爬取我栏目从而收录。
知道,请谨慎开启Gzip这句话其实并没有错。蜘蛛抓取页面的过程,实际上是一个客户端行为,而Gzip压缩是一个服务器端的行为;蜘蛛抓取其实和普通人用浏览器浏览网站没什么区别,唯一的区别就是读的不是经过浏览器解析过的页面,直接读的页面源代码。这样,问题就迎刃而解了通过试验我发现,经过Gzip压缩的网页和未经过Gzip压缩的网页,二者的源代码没有任何的区别。既然没有区别,那又怎么可能去影响蜘蛛抓取网页呢?
因为它说的原本就跟蜘蛛抓取没有一毛钱的关系,这句话的原意是指,开启Gzip会消耗一些服务器的资源,换句话说,如果要使用这种压缩技术,服务器的配置一定要中上等的小型的服务器比方虚拟主机,如果开启了Gzip会造成服务器过载,而造成系统缓慢。有的人不知道为什么就把这句话跟搜索引擎抓取联系了起来,从而误导了广大新手站长。这里分享一个不必配置服务器就可以开启Gzip压缩的方法:上面的这个是大家经常会看到网站日志代码,简单的给大家说一下他大概的意思,2010年08月03日00点09分12秒IP为61.135.168.39百度蛛蛛爬虫通过80端口有效的访访问了IP地址为203.171.226.111W3SVC962713505目录的index.html文件。这个是这段日志的译文。当然在日志文件里,类似这样的信息应该会有比较多,如果你站确实比拟受欢迎的那么一个小时内来十几次都是有可能的

