如何读取网络日志的方法

所谓的网络日志就是搜索引擎爬虫爬取网站页面的一种记录,通过查看网络日志我们可以分析蜘蛛爬行有无异常,从而得知网站是否产生对搜索引擎的不友好度。此外还可以查看网友的访问记录。网络日志对网站的安全也起着监管左右,如果某个IP访问量过大,就有可能是想侵入后台系统或者其他危害网站安全的行为。 网络日志是一种存文本形式,在空间商提供的后台就可以下载,一般的命名是ex某年某月某日.log。通过记事本我们就能打开它。那么究竟该如何读取呢?这才是 ZAC今天想要告诉大家的。 就从嘉兴SEO的博客说起。我们先在日志里复制一段出来: 2011-10-19 23:46:34 W3SVC103 175.41.23.4 GET /ZAC/54.html - 80 - 123.125.71.33 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200  1236 0 292 第一段表示的自然是时间. W3SVC103表示万维网不用去管它。 175.41.23.4网站服务器的IP地址 GET:指服务器所作的动作,get的意思是获取 /ZAC/.54html:我博客中的文件 80:东八区 Baiduspider+(+http://www.baidu.com/search/spider.htm) :百度蜘蛛。关于其他爬虫的名字我在之前 如何写robots的博文里说到过。 其他蜘蛛的类型表现形式为: Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 雅虎中国蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) 英文雅虎蜘蛛 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Google蜘蛛 msnbot/1.1 (+http://search.msn.com/msnbot.htm) 微软 Bing蜘蛛 Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛 Sosospider+(+http://help.soso.com/webspider.htm) 搜搜蜘蛛 Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ) 有道蜘蛛 200:指百度蜘蛛成功获取了此文件。这这里要着重说明下: 200:成功抓取了文件 301:永远转向 302:暂时转向 304:未抓取 400:非法请求 401:无法访问 403:禁止访问 500:服务器内部错误 503:服务器没有应答 1236 0 292:这里指的是文件的大小,单位是字节。 这里分析的是百度蜘蛛的爬取,其他搜索引擎跟蜘蛛大体一致。 除了爬去页面之外(上面介绍的是zac/54html这个页面)蜘蛛还会爬行网站系统的文件。比如: 2011-10-19 00:35:23 W3SVC103 175.41.23.4 GET /themes/j-spring/style/j-spring/nav_bg1.gif-80-115.229.31.105 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)+AppleWebKit/534.16+(KHTML,+like+Gecko)+Chrome/10.0.648.205+Safari/534.16 200 0 0 439 453 /themes/j-spring/style/j-spring/nav_bg1.gif:指的是文件,这里是一个gif的图片 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US):用户电脑配置。蜘蛛爬行其实是模拟用户访问的方式来爬行的。这里表示的意思是: Mozilla/5.0+:与Ntescape兼容的Mozilla浏览器 Windows;+U:在美国的Windows系统 Windows+NT+5.1操作系统,这里是Windows XP,因为XP的内核是NT5.1 en-US:语言是美国英语 AppleWebKit:苹果浏览器 KHTML,+like+Gecko:一种代码,我也不太懂,这里不做介绍 Chrome:谷歌浏览器 Safari:Safari浏览器 这里搜索引擎会以各种浏览器的身份去访问网站的文件,这里一共用到了苹果浏览器,谷歌浏览器和Safari浏览器。 当然蜘蛛还会以其他浏览器的身份访问,比如说火狐,IE,360,等等。
本文系嘉兴SEO原创文章,原文地址:http://www.zbseoer.com/ZAC/log.html


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部