如何读取网络日志的方法

2023-11-24 05:10:35

所谓的网络日志就是搜索引擎爬虫爬取网站页面的一种记录，通过查看网络日志我们可以分析蜘蛛爬行有无异常，从而得知网站是否产生对搜索引擎的不友好度。此外还可以查看网友的访问记录。网络日志对网站的安全也起着监管左右，如果某个IP访问量过大，就有可能是想侵入后台系统或者其他危害网站安全的行为。网络日志是一种存文本形式，在空间商提供的后台就可以下载，一般的命名是ex某年某月某日.log。通过记事本我们就能打开它。那么究竟该如何读取呢？这才是 ZAC今天想要告诉大家的。就从嘉兴SEO的博客说起。我们先在日志里复制一段出来： 2011-10-19 23:46:34 W3SVC103 175.41.23.4 GET /ZAC/54.html - 80 - 123.125.71.33 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 1236 0 292 第一段表示的自然是时间. W3SVC103表示万维网不用去管它。 175.41.23.4网站服务器的IP地址 GET：指服务器所作的动作，get的意思是获取 /ZAC/.54html：我博客中的文件 80：东八区 Baiduspider+(+http://www.baidu.com/search/spider.htm) ：百度蜘蛛。关于其他爬虫的名字我在之前如何写robots的博文里说到过。其他蜘蛛的类型表现形式为： Baiduspider+（+http://www.baidu.com/search/spider.htm）百度蜘蛛 Mozilla/5.0 （compatible; Yahoo！ Slurp China; http://misc.yahoo.com.cn/help.html）雅虎中国蜘蛛 Mozilla/5.0 （compatible; Yahoo！ Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp）英文雅虎蜘蛛 Mozilla/5.0 （compatible; Googlebot/2.1; +http://www.google.com/bot.html） Google蜘蛛 msnbot/1.1 （+http://search.msn.com/msnbot.htm）微软 Bing蜘蛛 Sogou+web+robot+（+http://www.sogou.com/docs/help/webmasters.htm#07）搜狗蜘蛛 Sosospider+（+http://help.soso.com/webspider.htm）搜搜蜘蛛 Mozilla/5.0 （compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ）有道蜘蛛 200：指百度蜘蛛成功获取了此文件。这这里要着重说明下： 200：成功抓取了文件 301：永远转向 302：暂时转向 304：未抓取 400：非法请求 401：无法访问 403：禁止访问 500：服务器内部错误 503：服务器没有应答 1236 0 292：这里指的是文件的大小，单位是字节。这里分析的是百度蜘蛛的爬取，其他搜索引擎跟蜘蛛大体一致。除了爬去页面之外（上面介绍的是zac/54html这个页面）蜘蛛还会爬行网站系统的文件。比如： 2011-10-19 00:35:23 W3SVC103 175.41.23.4 GET /themes/j-spring/style/j-spring/nav_bg1.gif-80-115.229.31.105 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)+AppleWebKit/534.16+(KHTML,+like+Gecko)+Chrome/10.0.648.205+Safari/534.16 200 0 0 439 453 /themes/j-spring/style/j-spring/nav_bg1.gif：指的是文件，这里是一个gif的图片 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)：用户电脑配置。蜘蛛爬行其实是模拟用户访问的方式来爬行的。这里表示的意思是： Mozilla/5.0+：与Ntescape兼容的Mozilla浏览器 Windows;+U：在美国的Windows系统 Windows+NT+5.1操作系统，这里是Windows XP，因为XP的内核是NT5.1 en-US：语言是美国英语 AppleWebKit：苹果浏览器 KHTML,+like+Gecko：一种代码，我也不太懂，这里不做介绍 Chrome：谷歌浏览器 Safari：Safari浏览器这里搜索引擎会以各种浏览器的身份去访问网站的文件，这里一共用到了苹果浏览器，谷歌浏览器和Safari浏览器。当然蜘蛛还会以其他浏览器的身份访问，比如说火狐，IE，360,等等。
本文系嘉兴SEO原创文章，原文地址：http://www.zbseoer.com/ZAC/log.html

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 使用ELK收集网络设备日志的案例
下一篇 > rsyslog收集网络设备日志

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

如何读取网络日志的方法

相关文章