AdWords A/B测试和仓鼠的简单统计

仓鼠欢迎你!!所以,你的AdWords测试都已经建立起来了:人们会选择标题“代码审查工具”还是“代码审查工具”?”

哎呀,他们俩都很兴奋!谁可以选择!我知道,我知道,安定下来。这就是这些事情的发展方向。.

不管怎样,第二天你有32次点击变体A(“代码复查工具”)和19次点击B(“代码审查工具”)。.那是定论吗??赢了吗?或者你应该让测试运行更长时间?或者你应该尝试完全不同的文字??

答案很重要。.如果你在测试之间等待太久,那你就是在浪费时间。如果你不等待足够长的时间统计上具有决定性的结果,你可能认为一个变体是更好的,并用错误的假设来创造一个新的变型,等等,所有这些都是徒劳的!这不仅仅是浪费时间,也阻止了你去做。正确事情,这是要解决的全新要测试的文本。.

通常情况下,正式的统计治疗会非常困难,但我来这里是为了拯救你具有统计上合理且非常简单的公式,可以告诉您A / B测试结果是否确实表明存在差异。.

我马上就来,但我不能不包括一个比AdWords更有趣的例子。遇见Hammy the Hamster,这是一种可能偏向但令人难以置信的可爱的有机农产品测试仪(点击观看1分30秒的电影):

在电影中,Hammy选择有机产品8次,常规4次。这是一个A / B测试,就像使用AdWords一样......但更健康。.

如果你像我一样,你可能认为“有机”是明确的赢家 - 毕竟哈米选择了它经常两倍作为传统蔬菜。但是,正如概率和统计经常发生的那样,你错了..

那是因为人类因为直觉而猜测这些东西是出了名的。例如,大多数人更害怕在飞机失事中死亡而不是车祸,尽管后者是六十次更倾向于。另一方面,当CNN“呼吁选举”一位州长时,我们感到惊讶,因为只有1%的州选票在报导。.

好吧,我们数学很差。那么答案是什么?这是你一直在等待的一点:

您确定A / B测试是否显示统计上显着差异的方式是:

  1. 将N定义为“试验次数”。”
    对于哈米来说,这是8 + 4 =十二..
    对于AdWords示例,这是32 + 19 =51..
  2. 把D定义为“赢家”和“失败者”的一半差额。”
    对于Hammy,这是(8-4)÷2 =..
    对于AdWords,这是(32-19)2=6。五..
  3. 如果D,测试结果具有统计学意义比N大.
    对于哈米,D是4,不大于12,所以它是不显著..
    对于AdWords,D是42岁。25,不大于51,所以它是不显著..

(有关数学证明,请参阅帖子的结尾。)

所以你的AdWords测试还没有统计学意义。但是,如果你让测试继续运行怎么办?第二天,你发现总共有62个点击30个变量A,总共点击了40次,点击次数增加了19次。运行公式:n=62+40=102;D =(62-40)÷2 = 11;D= 121大于102,所以现在测得的差异很重要..

然而,很多时候,你一直在运行测试,但仍然没有意义。那时你意识到你没有学到任何新东西;您选择的变体对于您的读者来说并没有什么不同。这意味着是时候提出一些事情了新的..

当你开始将公式应用到真实世界的例子中时,你会注意到当N很小时,很难 - 甚至不可能 - 具有统计意义.例如,假设您有一个广告,点击次数为6,另一个广告为1。那是N = 7,D = 2。5,D是6。因此,即使A击败B六对一,测试仍然没有结果。相信这里的数学 - 只有几个数据点,你真的什么都不知道。.

但是绝大多数没有点击这两个广告的人呢?这就是“广告印象”,并没有引起点击。统计数据不应该以某种方式计算吗??

不,他们不应该;那些是“错误的。“要明白为什么,再考虑一下哈米。该视频已被编辑(当然),很多时候,哈米没有选择任何一种蔬菜,而是选择修饰自己或睡觉。(对于“超载”视频和更多的统计信息,请参见哈米的主页.如果Hammy在特定的试运行期间没有采摘蔬菜,这并不意味着什么 - 并不意味着他喜欢或不喜欢。它只是告诉我们什么都没有。.

由于AdWords“点击率”取决于点击次数和展示次数,你不能使用“点击进入率”统计意义的确定.只有原始点击次数可以用在公式中。.

我希望这个公式可以帮助您在运行A / B测试时做出正确的选择。这很简单,你没有理由不申请它!当谈到这些事情时,人类的直觉很糟糕,所以让数学帮助你得出正确的结论。.

喜欢这个职位吗?点击获取未来188bet手机滚球s通过电子邮件发送要么订阅RSS提要..




对于数学倾向:推导

零假设A / B测试的结果是由于偶然的机会。我们需要的统计测试是皮尔逊的卡方.一般统计的定义如下(其中m =可能的结果数目;;Ø一世=观察到的结果数量#一世;;e一世=结果中的预期结果数一世):

在A/B测试的简单情况下,= 2。从50/50随机过程,预期值是e一世=ñ2在哪里ñ=Ø+Ø.拿一个=Ø成为两个观察值中较大的一个=Ø为了更小,(未简化)的公式是:

平方之间的差异一个ñ/ 2与之间相同ñ/ 2(因为一个+=ñ因此,我们可以用一个新的变量替换这些平方差项。D.的定义D在上面的文字中(一个-)/ 2来代替ñ=一个+进入之内D=一个-ñ/ 2。重写方面D并简化收益率:

现在我们有一种计算卡方统计量的简单方法,但我们必须参考卡方分布来确定统计显着性。具体来说:这个结果偶然发生的可能性是多少??

看着分布1自由度(依赖于取决于一个所以只有一个自由度),我们需要超过3个。8为95%置信度和6。6为99%的信心。出于简化的经验法则,我选择了4作为临界阈值。解决D完成推导:

QED,suckkas!!

P.S.有用的附注:如果D不止一倍ñ,你已经超过了99%的置信水平。.

  • 杰森,伟大的职位。对于那些喜欢这种实用性概率的读者,我强烈推荐这本书:醉汉的行走:随机性如何规范我们的生活.这是一个非常有趣的阅读。.

  • 贾森

    @Louis - 是的,任何让我们看到随机性和巧合力量的东西都有助于对抗我们的可怕本能。.

  • 詹姆斯陈

    杰森,

    好贴。所以,如果我有n(> 2)测试数据,我可以使用“皮尔逊的卡方“根据显着性差异对它们进行排序/排名?是否有其他搜索引擎使用类似的方法??

    谢谢
    -詹姆士

  • 阿米特

    我非常喜欢这篇文章,谢谢

  • 贾森

    @James - 两件事:

    (1)关于“n>2,你可以用卡方。“你不能.这就是你能做的。鉴于不同可能结果桶“和ñ试验,并以一个已知的“预期结果数每桶(为您所期望的均匀分布N/M每桶),你可以使用卡方不订购但是要确定桶是否整个桶中的分布与您对随机过程的期望有很大不同。.

    就是这样订购水桶。它说整个过程是否“看起来是随机的或不。即使它“看起来不是随机的,“你仍然没有订单。您需要进行额外的成对卡方检验,以确定各个桶中是否有任何排序。.

    然而,那里有龙同样,因为一旦你开始“狩猎”对于你不一定期望任何关系的各种成对组中的统计显着性,众所周知你会找到”重大”结果实际上并不重要。.有关更多信息,请参见F检验的文献。.

    所以底线是:放弃尝试。订购,”而是将该组合并为一组。或者,如果你要做成对的东西,你需要高得多比我在这里给出的置信因子。99。对于像这样的猎鸭来说,99不会是不可能的。.

    (2)其他搜索引擎:这项技术适用于任何50/50 A/B测试.甚至Hammy!所以,“对。““

  • 詹姆斯陈

    ......而是把这个小组聚集在一起.知道了。谢谢。.

    詹姆士

  • 你的188bet手机滚球创造了一个桌面 - 非常有趣 - 关于我办公室的统计和统计意义的对话。这总是一件好事:

    我也喜欢你写的188bet手机滚球的方式,一开始非常易读和有趣,然后理性和解释。印象深刻。.

  • 贾森

    @Ina - 谢谢!是的,很容易忽视统计数据并与我们的直觉一致;与此同时,很难适当地应用这些规则,因为这些假设通常难以验证,并且在弯曲假设之后你仍然可以信任这些数字,这对于统计学家来说是最好的艺术。.

  • 这是一篇很棒的文章。耶的数字!!

    我想为评估重要性的下一步做一个PSA,“效应大小.从维基百科

    通过一个例子可以最好地解释一个效果大小:如果你以前没有接触过人类,有一天会去英国,那么在你意识到平均来说男人比女人高的情况下,你需要看多少人?答案与男性和女性平均身高差异的效应大小有关。效果尺寸越大,越容易看到男人更高。如果身高差异很小,那么需要知道许多男性和女性的高度,注意到(平均而言)男性比女性高。.

    详细说明这里这里虽然不像Jason上面对重要性的解释一样简单。.这里有一个实际的例子。.

    上面的D ^ 2测试告诉您是否已经做出足够的测量来自信地断言你已经弄清楚了答案。效果大小告诉你是否有差异。一个谷歌大小的样本可以测量点击之间的统计上的显著差异。41种蓝色.但我会吃我的_副本如何思考奇怪的事物_如果前10名之间存在可操作的效果大小差异。.

    总之,重要的不是找到效果大小的数学机器。如果图片看起来像这个或者更好的分离你发现了一个可行的差异。如果它看起来像这个你应该忽略结果或者开始阅读统计课本末尾的章节。.

  • 贾森

    @Flip-很棒的信息,尤其是把每个人都转到维基百科的网页上——我不知道他们有很好的收藏影响大小的“东西。尼斯。.

    在A/B测试的情况下,给定的数学考虑效果大小,因为我确实在做你正在谈论的重要性测试。.

    然而正如你所说的故事的结尾。统计学没有告诉你答案,他们只是表征数据..

    特别是我的考试真正地只是暗示“结果可以/不能像随机过程那样容易解释,而不是系统过程。“这与“绝对是系统的。“当然,这比猜测要好得多。:-)

    一个很好的例子来支持你所说的安斯科姆四重奏.四个数据集相同统计数据 - 不仅是平均值和方差,还有线性相关性。但显然数据集完全不同。.

    简而言之,统计数据很适合指导我们以及通常表征数据,但我们仍然必须动脑筋才能真正了解我们拥有的内容。.

    这是一个问题'因为我们所有人(我们所有人!)最后一部分不好。:-)

  • 有一段时间我读过的最有用的188bet手机滚球之一。谢谢。.

    顺便说一句,”QED,suckkas!“让我的一天。干杯!!

  • Jason,很好的解释和等待A / B的营销人员的一个很好的经验法则“锅煮沸测试点击率较低的广告和目标网页时。.

  • 阿尔伯特

    为什么你对转换数使用卡方检验而不是两样本t检验的转化率??

  • 贾森

    @George,@ Dale - 谢谢,很高兴这很有帮助。.

    @Albert-t检验是错误的,因为它回答了一个问题:这两个独立的样本分布从同一种群中抽取的可能性有多大??

    在这种情况下,我们有样本-选择过程,它有两个离散的结果。不是两个单独的样本,当然不是独立的。.

    使用双样本t检验e。G.如果我们对男性的身高和另一位女性的身高进行抽样,并想知道这两种方法之间是否存在显著差异。.

    如果您将A / B测试视为一系列硬币翻转,可能会更清楚。我们做了一堆翻转并测量头部和尾部。问题是:硬币是否有偏见?只有一个样本(i。即头和尾)和一个自由度(因为““头”暗示”不尾”)如果“硬币”在A/B测试中,这是公平的,这意味着我们看到的结果和掷硬币没有区别,因此没有理由相信“头”要么”尾巴”是”青睐。“如果硬币是“偏见”这里有一个系统的规则是重要的。.

    请参阅上面我自己的评论,在这里我更进一步地证明了这一点。.

    好问题,谢谢你的要求!!

  • 阿尔伯特

    杰森,

    我认为双样本t检验用于检验两种人口均值是否相等??

    这就是他们在这里所说的:HTTP:// WWW。ITL。NIST。GOV / div898 /手册/ EDA / SECTION3 / eda353。HTM

    引用:”这是一个常见的应用是测试一个新的过程或治疗优于目前的过程或治疗。““

    这不是A/B测试到底是什么吗?你的一个测试是控制治疗,另一个是你的实验治疗??

  • 阿尔伯特

    杰森,

    我想这就是我的想法。你有两种治疗方法,A和B.我们称之为A控件。您想衡量某些操作的转化率(广告的点击率,购买人数的百分比等。).

    这导致了两个随机变量:XIa和XYB。你的零假设是这两个随机变量的平均数相等。.

    这是错误的思考方式吗??

  • 贾森

    @Albert - 如果你使用费率而不是命中数,我认为你是对的。.

    通常只有当样本分布是正态分布时才使用t检验,在这种情况下它们不是。也就是说,如果你正在抽样“点击率,”每项试验的可能结果是一个独立的“0“要么”1"取决于是否有点击。显然这是一个二值离散分布——没有任何类似于正常的分布。.

    然而,即使在N很大时样本不是正态分布的情况下,t检验也可以正常工作(因为我们讨论的是平均值的标准误差,它总是正常地以大N分布)。而在AdWords和点击率的情况下,N确实是典型的大,就像成千上万。.

    作为(不严谨)!)测试您的方法,我使用以下示例进行了t检验和卡方检验:AdWords显示选项A 2000次,B显示2000次。A被挑选20次(点击率为1。0%)和B被选中32次(点击率为1。6%)。.

    这里的x^ 2值是2。77,90%显著。t检验值为1。68也是显着的(双尾),90%。.

    所以在这个小而实际的例子中,两个测试的结果相同。.可能不是巧合,但我没资格说!我将由一些真正的统计学家来管理这个,我会发布他们对此的看法。.

    假设它们是相同的,我的经验法则当然更容易计算。但我同意重要的是要知道它们是否确实相同。.

    再次感谢您的精彩讨论!!

  • 好的188bettermens,有一个陈述性的抱怨:给出一个简单的是/否“统计上有意义”的答案太简单了。即使对于“一个统计上合理但又非常简单的公式”,您需要明确说明(正如您在数学附录中所做的那样),这是在略高于95%置信水平时的统计显着性。这是抽样的非技术性讨论中的普遍问题。一般来说,当记者使用统计显着性时,他们说话似乎在统计确定性和完全不相关之间存在一些神奇的门槛,而(像往常一样)它实际上是一个没有单一银弹的连续统一体。.

  • 贾森

    @Flash - 好批评;我同意。.

    这就是我把数学包含在结尾的一个原因——我确切地知道了我的意思。但是你在正文中提到自信水平可能会更好。.

    平衡试图让人们使用更好技术比他们目前没有关闭细节。.

    令人难过的是人们无法理解细节吗?是。但这是现实,所以为了帮助我尽我所能。底部至少存在精度。.

  • 杰森,与艾伯特的良好讨论。.

    我在复活节周末期间考虑同样的问题,并做了与你相同的事情 - 比较t-test vs.卡方,并为夫妇的例子我尝试,我也得到了同样的答案。所以......我正等着听一些“真正的统计学家”说的话!!

  • 贾森

    @Dale - 我非正式地问了一下,被告知了应该粗略地说出同样的事情,但如果样本之间的差异差异很大,那就不同了。.

    理论是,差异不应该是不同的,当然,但目前还不清楚。必须是相同的。.

    在这两方面的工作似乎都结束了。特定因此,卡方法更实用,因为它更容易。.

  • 伟大的188bet手机滚球。我必须承认仓鼠吸引了我,而伟大的188BET游戏是一个很好的奖励:

  • 贾森

    @Kris - 谢谢!仓鼠很棒。.可爱超载让我成为一名皈依者:-)

  • 莱昂

    你能否提供更多解释:
    “因为AdWords点击率取决于点击次数和展示次数,您不得使用“点击率确定统计学意义。在公式中只能使用原始的点击次数。““
    我不使用AdWords,但我一般对A/B测试感兴趣。这是针对AdWords的,还是针对点击率的一般性评论??
    谢谢。.

  • 贾森

    @leon - 这是针对AdWords的评论。对于一般的A / B测试,只需忽略它并使用经验法则。.

  • 你好杰森,第一次在你的网站上。这是一个神话般的188赌注,我认为这是非常直观的。感谢您与我们分享。我们经常在3个大战役中运行,这将是有用的。.

  • 如果你在一天中间开始新的测试,这似乎有问题。由于adwords仅报告每日点击次数,旧广告将包含点击数据,而新广告的点击次数为0。由于新广告似乎有0次点击,这几乎不会立即产生一种信心,即带有数据的旧广告更好吗??

  • 贾森

    @Rob - 如果一个广告运行24小时而另一个广告运行时间较短,当然你无法比较这两个数字!从实验的角度来看,这很清楚,但是感谢您指出AdWords没有明确说明这个条件,所以您必须格外小心,以免落入这个陷阱。.

    此外,如果一个广告确实没有点击,而另一个广告的数量很大,则表明您的测试(或数据)可能已完全损坏。.

    P.S.将一个测试设为零的数学很好 - 你没有得到除零或任何这样的东西 - 但除非它是真的没有点击它可能意味着它是数据的问题。.

  • 杰森,

    有关何时运行此测试的想法?作为一个例子。.

    测试开始:
    旧广告1000展示了100次点击
    新广告(从中午开始)0次展示0次点击

    第1天午夜
    老广告2000印象200点击
    新广告100次展示50次点击

    所以在中午和午夜之间的某个地方,我可能开始想看看我们是否有赢家,但如果我检查得太快,我可能会认为我有赢家,但不会因为新广告点击次数少而赢。当我开始检查时,有什么好的方法可以告诉我什么??

  • 贾森

    @罗布-当你有不同数量的印象时不能使用测试。.这仅在该人看到广告的几率为50/50时才有效。.

    通常使N为100或更高是好的。.

  • @Jason:当你说(在评论中)时,我担心你在尝试将经典假设检验解释为零假设的概率时,会造成典型的新手错误“t检验是错误的检验,因为它回答了这样一个问题:这两个独立的样本分布是从同一群体中抽取的几率是多少?““

    维基百科统计假设检验的条目提供了一个恰当的定义:假设零假设为真,观察至少与实际观察值一样极端的测试统计的值的概率是多少?“.该定义中的概率是p值。古典统计学家将“拒绝“零假设”如果p值低(通常p <0。05或p <0。01),但请注意,他们永远不会“接受零假设.他们得到的最接近的不是拒绝零假设。.

    差异很微妙,但请注意,测试不是“零假设是真的可能性是什么?(要么”什么是错误的机会“,我们可以很容易地计算出它是真实的概率)。如果你试图把他们的测试解释成假设的概率,那么古典统计学家会很不高兴。.

    很容易看出,t检验不能估计零假设为真(或为假)的概率,因为零假设是一个点,并且给定点在连续密度中的概率总是0。您需要在多个点的连续范围内进行积分(即,具有非零度量的集合),以获得非零概率。.

    关于经典卡方检验的大多数建议也要求每个细胞至少有五个条目;这是因为他们假设独立的正常变量没有被任意低计数数据很好地估计。.

  • 贾森

    @Bob - 从技术上讲,你是正确的,因为零假设(H0)是一个确切的数字,i。即“方法是相同的。“然而,在科学中,限制常常被解除或模糊。例如,如果您的H0仅表示相同且未提及差异(典型情况!),那么实际上这不是单一点。.

    当然,t检验确实是在询问结果的概率“极端“本来可以随机观察。.

    在所有这些文本中,我试图避免在没有受过统计学术语和细节训练的人中断理解时的准确性。.

    准确地说,用外行人的话来说,t检验的一个用途是衡量两个样本是否来自同一群体,特别是两个样本是否可以从一个群体中随机抽取的概率。.

    你的经验法则每单元5个项目是好的;我可能会争论更多的项目,主要是因为人们倾向于在小N的结果中投入太多的重量,所以我喜欢在让测试运行时犯错“太长”并取得重大成果。.

    感谢你的确切定义 - 这对每个想要正确处理问题的人都有好处。.

  • 对于少量点击来说听起来不错。可以说,如果点击数百或数千,DxD可以轻松超过N,即使Dx2在比较中足够小。这个公式仍然适用吗?..
    A = 500
    B = 400
    n = 900
    D = 50
    DxD = 2500> 900。.
    点击次数的差异只有100。或+ - 25%。(不足以丢弃统计上不重要的)
    索尔,我在数学方面很差,无法得到那些公式。.

  • 贾森

    @SEOIndia - 不要道歉!这不是件容易的事。.这个公式仍然是正确的,是的,你是正确的,大量的很容易得到显著的结果。.

    不能使用像+/-这样的东西。25%决定某事是否“意义重大。“如果数字是A = 5,B = 4,这相差20%(或25%,取决于你如何计算),但它完全无关紧要,因为如此少的试验很容易就像基于偶然的那样。.

    我意识到这是违反直觉的,但正如我在课文中指出的,直觉在统计方面是无用的。.

    • 我完全同意。.

      如果您正在使用非常小的数据集,那么通常不可能找到具有统计意义的数据集(或者是个好主意)。.

      当您收集更多数据时,您将能够进行更准确的测试。.
      .查尔斯的最新博客文章:网站所有者不使用A/B测试的3个原因= - 。.

  • 马特B

    @Rob - 如果您的展示次数不等,则无法使用该测试。这仅在该人看到广告的几率为50/50时才有效。.

    通常使N为100或更高是好的。.

    杰森,如果印象数量不同,你会用什么测试?或者,当印象大小不同时,不可能提出任何关于有效性的统计数据吗??

  • 贾森

    @Matt - 当展示次数不相等时,您当然可以这样做。.

    你使用同一根统计检验卡方-你不能用我的简化。因此,在数学部分中使用原始方程,并确定“点击次数“和”预期的点击次数。““

    因此,例如,如果A呈现70次并且B呈现30次,则E1将是70,E2将是30,然后O1和O2将是这些中的每一个的观察数字。研磨出X2的值,然后使用链接到底部附近的卡方分布表I来确定置信区间。.

  • 这必须是我所读过的如此复杂的主题的最佳示范之一。干得好Jason。.
    .Sean Clark的最新博客文章:灯光,相机,行动可以让您的企业成为奥斯卡提名者吗??= - 。.

  • 疯狂的

    关于飞机失事与车祸的统计数据,存活率是多少?我不把飞行的恐惧归咎于成功率,我认为如果发生意外,我就有机会幸存下来。通常微积分不利于飞机。.

    • 我的“从飞机上死亡的可能性增加60倍”的统计数据基于死亡率不是意外事故率。多60倍的人在汽车而不是飞机。当然假设发生了事故你更可能在汽车里生存,但那不是真的。.

  • 我认为Student t是标准的均值差异测试,而不是Pearson。(例如,这就是Mathematica在其函数MeanDifferenceTest中使用的内容。)有没有人有关于一方的好处的任何信息??
    .- = Daniel Reeves的最新博文:什么可以搜索预测??= - 。.

    • 请参阅上面已经讨论过的评论。.

  • wonderer

    知道贝叶斯的评论了吗??

  • 乔恩S..

    看来你从一章超级破碎机并将其应用于A/B测试。优秀的帖子,优秀的书也。.

    • 不,没看过这本书,但现在我很好奇!谢谢你的链接。.

  • 杰森,我认为你应该指出,在你应用卡方检验之前,你需要一个最小的样本量。作为拇指规则,在考虑测试统计显着性之前,每个细胞中需要至少5-10个样品。任何少于此,你可能有严重的机会犯II型错误(当你拒绝它时接受零假设)。.

    看到这个详情。.

    • 同意,谢谢指针。.

  • 皮特奥斯汀

    你的统计数据存在问题。.

    如果你反复检查,“它有意义吗?“,一旦你认为它就停止,你就会偏向于数学。.

    考虑一个固定大小的样本,在结束时进行一次测试,显示A:B测试不显著。现在处理相同的数据,但在添加每个新数据点后进行检查。“A”和“B”是随机到达的,但“A”和“B”的一些随机可能序列在开始时具有更多的“A”,而在以后才被更多的“B”所平衡。这加起来显示最终缺乏重要性,但有时中间的检查*将显示“A”是重要的并且错误地停止测试。.

    这可以与“醉汉的行走”和“醉汉在悬崖边缘附近散步”的不同分布相媲美。在第一种情况下,醉酒者同样有可能四处游荡,如右侧。但在第二种情况下,他更有可能最终走向 - 甚至可能超过 - 悬崖,因为一旦他跌倒,他就没有机会回到安全的地方。.

    • 太棒了!这确实是一个我们需要小心的谬论。.

      但是,通常必须进行A / B测试原位而不是在受控环境中。还有许多变量也可能导致不正确的结果,如一年中的时间,与假期重合,或你或竞争对手的一大块压力。.

      所以在实践中,你只需要选择一个点和度量值。你的观点是,你应该选择一个预先定义的N并且完全消失,我同意!!

      P.S.虽然我一般都同意你的观点,但酒鬼的行走并不是IMO的正确比喻,特别是因为在悬崖上他跌落的可能性是100%,因为N倾向于无穷大。.

  • 很高兴看到188bet手机滚球s,你进入“操作方法”,而不仅仅是为什么。你用什么来生成方程??

    • Microsoft公式编辑器。随附Word。.

  • 伯塞斯库

    杰森,我引述:“如果D2大于N,测试结果具有统计显着性。“我问,这个的置信水平是多少?95%98%??

    • 阅读帖子的底部,我在其中详细说明了置信度。升

  • 6个月后,这是一个愚蠢的问题:

    我能用同样的方法测试两个不同的登陆页面的转换吗?(或者此测试仅适用于测试展示点击次数?)

    假设我正在购买带广告的媒体,我将一半的答题器发送到A页,另一半发送到B页。我关心购买的人数。.

    如果我每页发送1000人,10人在A上购买,20人在B上购买,那么N=30,D=5,并且测试在统计学上不显著(95%置信区间)。.

    它是否正确?如果是这样,那就太糟糕了,因为我认识的大多数人都没有充分测试他们的目标网页。.

    • 是的,这是正确的,而且测试没有意义。.

      这是一个非常常见的谬误,即使用小N也停止测试。我们说“OOO看,一个数是另一个数的两倍,它必须意味着什么”,但它不是真的。.

      这是一个很好的方法来理解为什么10的差异在你给出的例子中并不重要。“学习”中的总人数为每人1000人,但我们预计这些人中只有一小部分人会采取行动(例如,G.在1%和2%之间。因为这个数字很小,仅仅基于随机变化,这次得到“10”的同一侧下次可能得到“15”或“5”,同样,“20”可能很容易得到“25”或“15”。注意,在这两种情况下,“15”是完全可能的,因此没有足够的区别。.

      但另一种方法是再次与1000人进行同样的测试。你还能得到10分和20分吗?如果是,那么它很重要(但当然只是运行2000 /侧也会显示),但我猜测结果不会那么相似。.

  • 我喜欢这个!这是一个简单的工具,任何人都可以在AB测试中得到证据来衡量证据的强度。虽然这绝对是朝着正确方向迈出的一步,但我有两个顾虑。.

    首先,正如Pete Austin已经指出的那样,如果你最初没有选择N,那么使用这种技术肯定会误用这个工具。因为总是有一个非零(可能很大,即使以chisq>4作为截止值)的错误阳性机会,所以随着你检查越来越多的,你几乎肯定会得到重要意义,即使A与B几乎相同。.

    (不过,我喜欢醉汉行走的比喻。如果你每次点击后检查,你发现重要性的几率为1,因为N在无穷大的范围内,即使在H0中也是如此。)

    第二,与杰森的评论有关,你的方法忽略了总体印象。由于A / B决定的要点是影响访问者的行为,因此有一个上下文表示某人没有做某事的次数。如果每页上有1000次展示,那么A和7对B的10次点击肯定不重要,但如果只有10次,则可能是。.

    以简洁的名义,两者都不是真正的致命。选一个N,让它很高,一切都会顺利进行。我对于奇怪的评论很好奇,所以我对贝叶斯技术做了一些小数学/模拟。我会在评论更多之前做一次仔细检查。.

    • 我非常期待你的模拟结果!在此先感谢与我们分享。.

      但是你对醉酒步行的评论是完全错误的。你想到的是:随着时间的推移,醉汉到达任何特定点X的概率变为1。这与任何审判都是独立的经验无关。每个醉汉的试验都依赖于之前的试验。.

      这个实验更像是摇头和尾巴。在这种情况下,由于N - >无穷大,自然会有一个显着性。.

      但我们确实同意我的表述中的基本错误 - 它表明你“只是继续前进”而不是预先选择N..

  • 杰森 - 这是很棒的东西,但大多数时候你肯定没有相同数量的印象?所以无法使用你的简化?通常使用Adwords或着陆页测试,您有一个已经运行了一段时间的预先存在的版本,并且您想要测试新版本是否更好,对吧??

    这不像Hammie的经历,因为他总是看到两个胡萝卜,必须选择一个(或者,就像你说的,什么都不做,洗个澡,随便什么)。因此,根据定义,每个胡萝卜都呈现相同的次数。.

    但是使用Adwords,您不会同时展示这两个广告,并让用户在它们之间进行选择。一些用户看到一个广告,一些用户看到另一个广告,你可能不会有相同数量的印象为每个广告。特别是如果Adwords遵循“优化”您的广告变体的默认行为,i。即显示效果更好的变体的更多印象,让您的新测试版本更少曝光。.

    So in most Adwords situations you’d have to churn through the full formula, I think, which is a lot harder: after a good hour or so, even with the help of Excel’s CHITEST formula, I still haven’t quite got my head around how to do the arithmetic from scratch)..

    (我知道你在评论37中已经解决了这个问题,只是认为可能需要突出显示。)
    .- = Bruce Greig的最新博文:你能向出租车司机解释你的生意吗??= - 。.

    • 这些都很棒,你要小心谨慎。答案:

      RE:“展示次数不会相等。“通过标准的A / B测试,算法通常以基本相同的印象来回切换。对于大N,它应该没问题。.

      R:“AdWords不再显示更糟糕的广告。” This is a非常真实问题并绝对否定了这里所说的一切。使用AdWords使用此技术必须禁用“寻热”显示算法。.

      R:“没有一个人选择。“再次纠正。然而,在这种情况下,我们考虑每个人与其他人“完全相同”,因此跨人的试验与针对一人的多次试验相同。当然,这是一个假设,你可以戳出很多漏洞!该假设的有效性可能取决于您所遇到的具体情况和细分市场。可以肯定地说,这意味着小的,统计上无关紧要的差异甚至更少可能很有趣。.

  • 杰森-首先非常感谢一个辉煌的职位。显示当人们在原始贡献之后仍然讨论一年时有多好!!

    我和我的同事用这个作为指针来开发我们应该评估我们当前的现场A / B测试,给定已知的A / B分割为十进制(i。即70/30将是0。7和0。3等)。它比上述经验法则复杂一点,但仍然令人惊讶地优雅。:)

    然而(我知道上面有过这方面的讨论),我的问题是决定足够大的N来瞄准。.

    例如,如果我们在a/b测试一个页面的两个不同版本,并且希望计算每个版本的商业链接的点击数,我发现很难弄清楚有多少印象或者实际上总共的点击将使得测试根据分割而有效。是否有统计上合理的方法来推导出这个??

    或者是持续监控结果“是/否”有效性的唯一方法,并记下“是”的频率何时超过某个限制??

    非常感谢,
    蒂姆。.

    • 其实都没有!你必须提前选择一个n。看到评论56以上是我的回应。.

      你是正确的,越远离50/50,你就需要更多的N。要了解原因,请考虑1/1000分割。由于您只显示了1/1000次单边,所以实际的“命中率”中的微小变化将导致结果的巨大变化。.

      不幸的是,我没有一个很好的答案,你有多少N就足够了。您可以检查列出的资源。在这个评论中翻转.此外,Flip是一个好人,喜欢数据和数学,所以你甚至可以直接与他联系!!

  • 容器

    这是伟大的188bet手机滚球和一个伟大的辩论。但是,我没有找到我的问题的答案(也许是因为有这么多评论:):

    我有电子商务产品详细信息的A / B测试,没有。访问A的访问与看到B版本的访问不完全相同。我们用唯一的会话ID标记每次访问,但有时由于某种原因这有利于A..
    这就是为什么我宁愿使用列联表来计算A / Bversion和目标完成之间的真实相关性 - 并手动计算chi-sqare。当你假设A-B每次有50%的几率时,我认为你的公式是交叉表的简化。.

    但我的微积分真的是正确的吗?如果我有186000次访问,看到A有2900次转换;和182000次访问,看到B有2800次转换;然后高广场是0,2368即差异。不重要吗??
    所以...转换访问B比A高0,02%,但这仅仅是由于机会,我们无法从中得出任何结论......??

    • 问得好。你不能用我的话是对的。当试验在A和B之间不均匀分布时的公式.

      您的结果陈述是正确的 - 它并不重要。.

      你也应该决不比如说“B转换比A高X%。“原因是:百分比较高的一个来自另一个是不足以知道它是否重要 - 它的数量是不同的试验总数。这就是统计数据为您所做的事情;更大的比例是不相关的。.

  • 麦克风

    嗨,杰森,
    我不是统计专家,但我想挑战你的观点,即在这种情况下印象无关紧要,因为我认为你用hammy设置的实验与ppc情况不相似。在哈米实验中,你可以把CTR排除在外的原因是因为胡萝卜中有两个印象相同,因为它们同时显示出来。在PPC中,一次只能投放一个广告。假设无论出于何种原因,服务费率不是50/50,而Google比另一个更频繁地服务一个广告。只有原始点击次数才有意义??

  • 麦克风

    我的不好对不起,有人已经问了这个问题,我的印象是最新的帖子在顶部,而不是底部!!