« 上一篇 google analytics问答:怎么查看关键词的搜索来源Google Analytics笔记:GA显示通过移动网络访问的国外用户访问地区十分集中 下一篇 »

Google analytics抽样数据:SEO祥子关于GA数据采样问题解答

 关于采样数据 了解采样的定义以及采样的原因。

Google analytics抽样数据:SEO祥子关于GA数据采样问题解答。Google Analytics(谷歌分析)中的数据采样是指:GA从您的流量中选择部分数据,并根据该样品数据体现的趋势进行报告。因为分析部分数据能取得与分析完整数据集类似的结果,并且能在减轻计算负担和减少处理时间的情况下获得这些结果,所以采样被广泛用于统计分析中,Google Analytics也是这样做的。

 在 Google Analytics(分析)中,采样可以发生在您的报告中和/或数据收集过程中。

1)Google Analytics在报告中采样

如果报告依据的是非常庞大的访问数据,您可能会在报告顶部看到以下说明:此报告基于 N 次访问。 此说明旨在提醒您,报告所依据的只是采样数据。当报告收集的访问次数超过 500,000 次,系统就会自动对报告进行采样,这样,即使是非常庞大的数据集,Google Analytics(分析)也可快速生成报告。如果报告依据采样数据,您可以选择调整采样规模以提高准确性或速度。请注意,对于用户流可视化报告,只有当多渠道路径报告中的访问次数达到 10 万次,转化次数达到 100 万次时,系统才会进行采样。
Google Analytics(分析)专业版帐户用户还可以创建非抽样报告。

2)Google Analytics数据收集采样

如果您每月有几百万的访问次数,则可以考虑将您的跟踪代码配置为对流量进行采样,或从一部分总流量中收集数据。通过对收集的数据进行采样,您不需要降低处理速度即可获得很好的报告结果。
了解如何使用适用于您的环境的开发者指南为不同的跟踪方式设置数据收集采样。
网络跟踪:Universal Analytics(如果使用 analytics.js)和传统的 Google Analytics(分析)(如果使用 ga.js)

选择报告的采样规模

如果您查看的Google Analytics报告所基于的访问次数超过 50 万,则该报告所采用的数据应当经过采样处理。
 在查看采样报告时,您可以选择降低采样规模(50 万次访问为默认值),以便提高报告的加载速度。如果Google Analytics采样规模降低,则报告的准确性也将有所降低。
 要调整采样规模,请按以下步骤操作:
 点击Google Analytics报表右上方的采样率菜单栏最右边的采样图标。
 将滑块向左移动可降低采样规模和准确性,但可以提高报告的加载速度。将滑块向右移动可提高采样规模和准确性,但可能会降低报告的加载速度。

Google Analytics(分析)的采样原理

Google Analytics数据采样的背景信息

Google Analytics(分析)或任何网站分析软件中的采样是指:从您的网站流量中选择部分数据,然后根据该部分样本数据所体现的趋势生成报告。因为分析部分数据能取得与分析所有数据类似的结果,所以采样被广泛用于统计分析中。此外,如果报告的数据量庞大,会造成报告查询速度下降,采用采样方式可以提高报告的处理速度。
会话采样

Google Analytics数据采样标准报告的工作原理

在 Google Analytics(分析)中,每个网络媒体资源都会存储一份包含所有未经过滤的数据的副本,并将其与专属的网络媒体资源 ID 相关联。媒体资源所关联的每个报告视图都会创建一组预先汇总的未采样数据表格,并每天处理这些表格。依赖于这些预先汇总的表格,Google Analytics(分析)的一系列标准报告得以及时生成非抽样报告。
除了标准报告外,用户可能也会向 Google Analytics(分析)发送一些临时的查询。常见的查询包括:向标准报告应用细分、应用次级维度,或者生成自定义报告。当前端发出查询时,Google Analytics(分析)会检查预汇总的表格组,以确定现有的汇总数据能否完全满足该查询。如果不能,Google Analytics(分析)就会返回查看原始的会话数据,处理并计算实时的汇总数据。如果生成的报告为采样报告,报告的顶部总会显示一个包含以下内容的黄色方框:此报告基于 N 次访问。

GA临时报告的采样

如前所述,当现有汇总数据(即预汇总的表格)无法满足报告查询时,Google Analytics(分析)就会返回到原始会话数据以计算所请求的信息。为减少延迟,Google Analytics(分析)可能会针对此类查询对会话数据进行采样。具体而言,Google Analytics(分析)会在网络媒体资源一级检查指定日期范围内的访问次数。如果指定日期范围内网络媒体资源获得的访问次数超过 25 万1,Google Analytics(分析)将借助于采样算法,利用包含 25 万次访问数据的样本集(与选定日期范围内每天的访问次数分布成比例)。因此,每个查询的会话采样率都不相同,具体取决于指定的网络媒体资源在所选日期范围内获得的访问次数。请注意,样本规模可介于1000次至50万次访问之间,默认为25万。

Google analytics 数据抽样 对过滤的数据视图及细分的影响

请注意,会话采样在网络媒体资源一级进行,而不是在数据视图一级。对于临时查询,25 万次访问2的样本集是在网络媒体资源一级确定,然后再在视图一级应用过滤器。如此,对于经过过滤的数据视图,采样计算中纳入的访问次数可能会少一些。同样,细分也是在系统选择好25万次访问样本之后应用,因而计算中包含的访问次数也可能会减少。
 通常情况下,会话采样可以非常有效地减少查询延迟,同时确保较高的准确性。对于快速进行的前 N 次查询及其他在访问之间相对广泛而均匀分布的查询,Google Analytics(分析)的采样方法尤其有效。在以下环境中,会话采样的准确性可能会降低:对象为"大海捞针"式的问题,比如单个关键字分析和长尾分析;维度过滤过于狭小,比如经过重重过滤的视图,或对转化次数不及访问次数零头的媒体资源进行的转化分析。SEO祥子提示:有关这些类型的分析,请参阅关于如何在 Google Analytics(分析)专业版中使用非抽样报告的文章。

Google Analytics数据采样标准报告的工作原理

如前所述,系统会以每天一次的频率处理每个视图的预汇总表格。这些预汇总表格会报告所有会话的数据,但表格中包含的行数/唯一值的数量受到一定的限制3。Google analytics抽样数据:SEO祥子关于GA数据采样问题解答。当一天内一个表格中的数据超过75000行时,Google Analytics(分析)就会对数据进行汇总。换言之,如果指定表格中的值超过75000个,Google Analytics(分析)会采用前面的 N4个值,并为剩下的值创建标记为"(Other)"的汇总条目。

Google Analytics数据采样对多日期请求的影响:

必须要注意的是,"前 N 个条目"每天挑选一次。例如,如果您在"网页"报告中选择了任意一天,您看到的行数最多为75000行;所有其他网页数据都汇总至"(Other)"类别。因此,即使某个网页在某一天归类为"(Other)"类别,但在另外一天并不一定也会归入此类别。所以在针对包含多天的日期范围生成报告时,您可能会看到不一致的数据,因为处于长尾部分的一些网页(或其他维度值)在不同的日期里可能会归入"(Other)"类别,也可能单独占一行。
 另外,对于多日期请求,系统每天读取的行数上限为 (1,000,000/n),其中 n 表示查询的天数。因此,对于任何日期范围超过 14 天的请求,如果每天数据达到 75,000 行,Google Analytics(分析)可能会缩减每天读取的行数。例如:
 过去 30 天的报告每天读取大约 30,000 行(也就是 1,000,000/30)。
 过去 60 天的报告每天读取的行数上限为 16,000 行(也就是 1,000,000/60)。
 因为在给定日期范围内的维度值(如唯一身份网址和广告系列关键字)经常会有重复,所以一般只有包含大量独特内容和/或关键字的网站才会受此阈值的影响。
详细了解数据在"(Other)"项下的汇总方式

Google Analytics数据采样临时报告的工作原理

当出现现有汇总数据(如预汇总的表格)无法满足用户查询时,Google Analytics(分析)就会返回到原始会话数据计算所请求的信息。在这种情况下,Google Analytics(分析)会在查询的样本集中传回最多 100 万个各不相同的维度值。
其他报告

Google Analytics数据采样和多渠道路径报告

多渠道路径报告以100万次转化为基础。如果指定日期范围内的转化次数超过 100 万,Google Analytics(分析)会在视图一级选择最多 100 万次转化的样本。请注意,对于多渠道路径报告,采样在视图(而非网络媒体资源)一级进行。
另外,唯一转化路径数的上限为每天20万。所有其他转化路径将汇总到"(Other)"类别。

采样和用户流可视化报告

用户流可视化报告(包括"访问者流"和"目标流"报告)的生成基础为指定日期范围内的 10 万次访问。与标准报告会话采样类似,10万次访问的采样也是在网络媒体资源一级进行。因此,应用数据视图过滤器或细分可以进一步减少样本集规模。
 因为这个原因,用户流可视化报告(包括进入率、退出率和转化率)的结果可能会与标准的内容报告和转化报告(基于另外一个样本集)中的有所不同。

Google Analytics数据采样数据收集采样

如果您的网站每个月获得的网页浏览量数以百万计,可以考虑使用 _setSampleRate 方法 配置跟踪代码,以对数据进行采样。通过对网站匹配数进行采样,您可以在不超出帐户的匹配数限制的前提下获得可靠的报告结果。标准 Google Analytics(分析)帐户每月可发送的匹配数上限为 1000 万次。Premium 版帐户每月可发送的匹配数上限为超过 10 亿次。在实施数据收集采样时,客户端的匹配数会被剔除,Google Analytics(分析)既不会对其进行收集,也不会处理。因此,无法通过专业版未采样报告恢复剔除的匹配数。此外,与会话采样不同,Google Analytics(分析)不会基于数据收集采样率推断报告结果。这意味着,数据收集采样的另外一项益处是,因为帐户中的数据更少,报告响应时间会更短。
 数据收集采样会持续针对唯一身份访问者进行。因此,一旦选择某用户进行数据收集,该用户的所有访问数据(包括未来的访问)都会发送至 Google Analytics(分析)。对于移动应用,这意味着被选中进行数据收集的应用下载会将所有数据发送至 Google Analytics(分析),而其他应用实例则不会发送任何匹配数数据。
 请注意,即使系统在收集您网站的数据时未进行采样,部分类型的报告仍会遇到其他类型的采样(包括会话采样和维度值汇总),具体视查询的性质而定。请参阅"临时报告如何进行会话采样"。
 1 请参阅调整样本规模。样本规模可以在1000次至50万次访问之间调整。
 2 请参阅 调整样本规模。
 3 表格对应的可能是一个报告,也可能是多个报告。表格可能包含单个维度(如关键字),也可能包含多个维度(如广告组和广告系列)。最详细的报告可以包含 75,000 行数据。表格层级结构中较高的层(如广告组)包含的数据可能会少于75000 行。
4 由报告/表格的相关指标决定(如访问次数、事件数、网页浏览量和交易次数)。

非抽样报告(仅限于专业版帐户)

如果任何报告的访问次数超过 500,000,将自动对数据进行采样。您可以调整采样规模,以更改精确度和广告加载时间。像SEO祥子所任职的这样的苦逼公司只能用GA免费片版了,GA专业版帐户用户还可以访问一些非抽样报告。

非抽样报告的要求和限制

生成非抽样报告需要巨大的处理负载,因此,此功能的访问权限受到一定限制。

如果您在查找或使用非抽样报告时遇到问题,请检查您是否满足帐户要求,是否达到数据限制或是否正在使用与报告不兼容的其他功能:

Google Analytics数据非采样帐户要求

非抽样报告仅适用于专业版帐户。
 请确保您登录的是专业版帐户,或升级到专业版帐户以尝试使用非抽样报告。

Google Analytics非采样数据限制

要导出的数据行不得超过 300 万个
 每个媒体资源的访问次数不得超过125万
如果您试图将更多数据行导入非抽样报告,报告中所有超过限制的行将合并为一行。如果您的访问次数超过限制,而您又尝试获取非抽样报告,将显示一条错误信息提示您这一问题。请尝试请求较短日期范围内的报告以避免达到这一限制。

Google Analytics数据非采样不兼容的高级功能

并非所有报告都可以使用非抽样数据,非抽样数据也不适用于以下高级功能:
 与任何报告中过去日期范围进行比较
 某些 AdWords、费用和社交指标
 当数据包含的转化路径数超过100万时将自动在"多渠道路径"报告中进行采样。
对于某些采用非标准表格和数据视图(如概览报告、饼图、直方图)的报告,其非抽样数据不能用作标准报告,但可能可以用作自定义报告。这些报告附带以下消息:"无法使用非抽样数据,因为此报告不是标准表格报告。"

要针对此类报告请求非抽样数据,请点击自定义标签,然后在菜单选项中点击自定义。自定义或保存报告,然后请求以非抽样报告形式下载报告。

下载Google Analytics 非抽样报告

并非所有报告都可以使用非抽样数据。如果您的报告支持非抽样数据,请执行以下操作:
 点击报告标签。
 从菜单栏的"导出"标签中选择非抽样报告。
 为报告命名并点击请求非抽样报告。请求成功后,屏幕上方将显示通知。
 点击自定义标签。
 从左侧导航栏中点击非抽样报告下载。
 点击概述查看您请求的所有非抽样报告,以及每个报告的可用性状态("待定"或"已完成")。
 当报告完成加载后,请点击 CSV 以下载报告
一旦非抽样报告生成,便不得删除该报告。