网站服务器日志高级分析流程指南

    |     2019年2月22日   |   数据分析   |     0 条评论   |    665

上一节我们谈到网站服务器日志的基础概念,以及介绍了两个动态和静态的工具,现在我们要把使用工具进行流程化的操作,这样才可以让我们的数据分析得出来的结论为我们服务。
开始分析

不要只是潜入日志,希望找到一些东西 – 开始提问。如果一开始没有提出问题,将会陷入一个没有方向的无底洞。

以下是我在分析开始之前想到的一些问题例子:

  • 哪些搜索引擎抓取了我的网站?
  • 最经常抓取哪些网址?
  • 最常抓取哪些类型的内容?
  • 返回了哪些状态代码?

如果发现Google正在抓取不存在的网页(404),可以开始查找哪些请求的网址返回了404。

按请求数量排序,评估具有最高的列以查找具有最高优先级的页面(请求越多,优先级越高),并分析是否重定向该URL,还是执行其他操作。

data-analysis-roc-seo1

如果使用CDN或缓存服务器,还需要获取该数据以获得完整数据。

细分数据

将数据分组到段,从而获得全局的信息。通过仅查看单个URL,可以轻松地发现可能错过的一些数据趋势。找到有问题的部分进行深入提取。

有多种方法可以对URL进行分组:

  • 按内容类型分组(单个产品页面与类别页面)
  • 按语言分组(英文页面与中文页面)
  • 店面分组(中国店铺对美国店铺)
  • 按文件格式分组(JS与图像与CSS)

不要忘了按用户代理对数据进行切片。如果没有分开,还是在一起查看Google桌面,Google智能手机和Bing的数据,这样就没法分析了。

监控变化

网站会随着时间而变化,抓取工具的行为也会如此。Googlebot通常会根据页面速度,内部链接结构和抓取陷阱的存在等因素降低或提高抓取速度。

最好在一年中或在执行网站更改时检查日志文件。在发布大型网站的重大变化时,我几乎每周都会查看网站的日志。

通过每年两次服务器日志分析工作,至少可以跟踪到爬虫行为的变化。

垃圾爬虫

Spambots和刮刀不喜欢被封锁,可能会伪造自己的身份 – 利用Googlebot的用户代理来躲避垃圾过滤器。

要验证是否真的是Googlebot,可以运行反向DNS查找,然后运行正向DNS查找。访问Google网站站长帮助中心得到更加清晰的指导。

综合分析

虽然没有必要连接到其他数据源,但这样做可以解锁常规日志分析可能无法提供的另一层面的洞察和上下之间的关联。能够轻松连接多个数据集并从中提取,Power BI是我选择的工具,你也可以使用你熟悉的任何工具(例如Tableau)。

data-analysis-roc-seo3

将服务器日志与多个其他来源(例如Google Analytics数据,关键字排名,站点地图,抓取数据)混合,并开始提出以下问题:

  • sitemap.xml中没有包含哪些页面但是被广泛抓取?
  • Sitemap.xml文件中包含哪些页面但未被抓取?
  • 是否经常抓取获利网页?
  • 大多数抓取的网页是否可跳转?

可以发现一些惊人的数据分析结果。例如,发现几乎70%的Googlebot请求是针对不可索引的网页的,这就必须要采取调整措施了。

data-analysis-roc-seo2

日志调试

日志是一种宝贵的信息源,有助于在技术错误成为更大问题之前查明技术错误。

去年,Google Analytics报告了我们品牌搜索查询的自然流量下降。但是我们的关键字跟踪工具,STAT搜索分析和其他工具都显示没有任何变化下降。那么,问题出在哪里?

服务器日志帮助我们了解情况:流量没有真正下降。新部署的WAF(Web应用程序防火墙)覆盖了引荐来源,导致某些自然流量被错误地归类为Google Analytics中的直接流量。

在STAT中使用日志文件和关键字跟踪帮助我发现并快速诊断此问题。

总结

日志分析是必要的工作,特别是大型站点。

建议是从分段数据开始,随着时间的推移不断监控变化。

回复 取消