第六节: 爬虫数据

除了用户的正常访问以外,我们的网站每周也会有爬虫访问,比如 Googlebot,Baiduspider 等。如果这些爬虫客户端支持 JavaScript 的话,那么 GrowingIO SDK 默认会采集这些爬虫的访问数据,包括会话信息和页面访问信息,但是不会收集页面的元素数据。在 GrowingIO 产品中,你可以通过浏览器维度分辨出有多少是爬虫带来的数据,有多少是正常用户访问的数据。

在判断爬虫数据的时候,GrowingIO SDK 会根据访问用户的 User Agent 是否包含相关关键字来判断是否是爬虫,目前支持的关键字列表有

bot|crawler|spider|scrapy|jiankongbao|slurp|transcoder|networkbench

如果你希望过滤爬虫的数据,可以在集成 SDK 的时候设置一个属性,就可以不采集这些爬虫数据,具体配置项是:

_vds.push(['trackBot', false]);        // 关闭收取爬虫数据

如果爬虫不支持 JavaScript 的话,默认 GrowingIO SDK 不会采集任何数据,一般来说,这个是合理的行为。但是,如果你希望了解自己的网站有多少爬虫在爬取的话,可以通过的特殊的方式来开启采集功能,也就是在现有集成代码之后,添加一个 noscript 标签,具体为:

<script type="text/javascript">
  Load GrowingIO JS SDK
</script>

<noscript><iframe src="//api.growingio.com/nojs/_GrowingIO_Account_ID_/pv" height="0" width="0" style="hidden:true;visibility:true"
></iframe><noscript>

请注意在 src 里面用你的真实 AccountID 替换 _GrowingIO_Account_ID_。目前这个功能是在内测中,如果需要,请联系我们,谢谢。

results matching ""

    No results matching ""