服务器日志分析的两类静态与实时工具

    |     2019年2月21日   |   数据分析   |     0 条评论   |    1050

日志文件记录了进出服务器的所有内容。可以将其视为爬虫和真实用户发出的请求。可以确切了解Google在网站上抓取的资源。

还可以查看需要注意的错误。例如,在分析中发现的问题之一是CMS为每个页面创建了两个URL,Google发现了两个。这导致重复内容,因为相同内容的两个URL相互竞争。

分析日志不是火箭科学 – 逻辑与在Excel或Google表格中使用表格时的逻辑相同。最难的部分是导出和过滤数据。

打开一个日志文件时,会看到如下内容:

log-file-415345

分析其中一条是这样的:

66.249.65.107  -   -  [08 / Dec / 2017:04:54:20 -0400]
“GET / contact / HTTP / 1.1”200 11179“ - ”“Mozilla / 5.0(兼容; Googlebot / 2.1;
 + http:// www.google.com/bot.html)”

什么意思呢:
  • 66.249.65.107IP地址(谁)
  • [08 / Dec / 2017:04:54:20 -0400]时间戳(何时)
  • GET方法
  • / contact /请求的URL(什么)
  • 200状态代码(结果)
  • 11179转移字节数(大小)
  • “ – ”是?引荐来源网址(来源) – 它是空的,因为此请求是由抓取工具发出的
  • Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)用户代理(签名) – 这是Googlebot(桌面)的用户代理

两款重要的工具

可以选择许多工具来帮助分析日志文件;要知道静态和实时工具之间的区别。

  • 静态?- 仅分析静态文件。不能延长时间范围。想分析另一个时期的?需要请求新的日志文件。我最喜欢的分析静态日志文件的工具是Power BI
  • 实时?- 可以直接访问日志。我非常喜欢开源ELK Stack?(Elasticsearch,Logstash和Kibana)。允许根据需要更改时间范围,无需开发帮忙。
回复 取消