如何预测预报的准确性

卡通6106

“今天有30%的机会下雨。“

然后就没有下雨了。那么,预测准确吗??

或者如果下雨了怎么办?这是否意味着预测是不准确的??

当预测仅仅是一种可能性时,你如何把握预测者的责任?答案似乎很棘手,然后简单,然后再狡猾,然后很简单,用谷歌电子表格回答它。.

这是值得一试的旅程,因为建立更好的预测对企业来说是无价的:

以领先得分-把价值放在一个新的销售领先,预测最终价值领先9个月过去后,它或转换或没有。预测是这种转变的机会,或者它的美元价值。就像天气一样,铅会转化,或者不会,如果有的话,它有一个确定的美元值。.

如果你能预测某个客户在未来三十天内可能流失的机会,你可以积极主动地避免损失。.

如果能够预测给定客户能够进行升级的可能性,则可以相应地集中内部消息传递工作。.

但是你如何测量一个预测本身的准确性,它仅仅是一个概率?让我们回到气象学家那里。.

卡通片

建立模型:错误

显然,一个数据点什么都不告诉你。对“30%次机会雨”的正确解释是:把气象学家预言的30%天。如果气象学家是准确的,事实上应该有30%的降雨。类似地,预报员有时会预测0%、10%或50%。所以我们应该“桶”每一个预测,看看那些桶里到底发生了什么。.

什么是正确的数学来确定“预测者有多正确”?正如统计数字中的答案我们可以在预测和实际结果之间取平方差值。.

假设我们有两个预测者,问题是:谁是最准确的?“误差”是由预测和现实之间的平方差值来衡量的。任何误差最小的人都是更好的预报员。假设在某几天里,预报员A总是预测32%的降雨机会,而B总是预测25%的降雨机会,并且假设实际上30%的降雨发生在那些天。然后错误是:

A:预测32%:实际的30%次误差=平方差值=(0)。32-0。30)=0。0004
B:预测25%:实际30%次误差=平方差值=(0)。25-0。30)=0。0025

感觉好像我们已经完成了,但我们没有。.

漫画5221建立模型:识别

假设这些气象学家在一个典型的区域里,在365天之内,110天就会下雨。也就是说,降雨的总体气候平均值为30%。气象学家会知道这一点。所以假设一个气象学家简单地预测“30%的几率下雨”,无论是哪一天。即使现在正在下雨,现在,预测“30%”。“

我们的“错误”度量将证实这个预言家是一个天才——整整一年的预言完全是零!除了预报员不是天才。事实上,这个预报员根本没有预测!她只是在反驳历史平均值。.

很明显,虽然我们确实需要我们的测量。错误还有另一个我们需要衡量的概念:预测者的想法辨别能力.预报员是分段这几天,采取强硬立场,哪天会下雨。.

如果考虑下面的情况,错误和辨别之间的张力是显而易见的。假设预测者总是预测气候平均值;因此A有0的误差,但有0的识别,是无用的。现在考虑预报员B,他经常预测高潮的平均值,但是当他非常确定时,他偶尔会预测0%或100%的降雨。假设当他预测0%时,实际平均值为10%,当他预测100%时,实际平均值为90%。.

B将有更坏的错误分数,但应该有一个更好的辨别分数。You would prefer to listen to forecaster B,尽管他不如A准确。.因此,“辨别力”这个概念不仅仅是一种好奇心,它是衡量一个预报员有多好“的基本概念。.

你如何计算这种“辨别力”?“我们再次使用平方差,但这次我们比较了观测结果气候平均值..

因此,在上面的例子中:

答:每100天预测30%次:实际为30%,误差=(30%–30%)=.辨别=(30%—30%)^=2=..

B:预计30%天为80天;实际值为30%。预测0%天为10天,实际为10%天。预测100%天为10天,实际为90%天。总误差为:

1/100*〔80〕(30%—30%)+10*(0%—10%)+10*(100%—90%)=0。002

这比A稍差,所以很好。全面识别是:

1/100*〔80〕(30%—30%)+10*(10%—30%)+10*(90%—30%)=0。04

正如预期的那样,我们看到,B比A稍有误差,但更多的识别。所以很明显我们的度量是有方向的,但是我们如何将这些数字组合成一个总的“好”分数,这将明确地表明,在这种情况下,B比A“好”??

要回答这个问题,我们需要多一个概念。.

建立模型:不确定性

想想智利安托法加斯塔的预报员的生活一年只有五天下雨。总共1英镑。七毫米总降雨量!)乍一看,似乎很容易成为一个预测者——只是预测“不下雨”每天。.

当然,你认识到,虽然那个预言家会有很低的错误,但她也不会辨别。但是等一下…预报员怎么会呢?曾经在安托法加斯塔有辨别能力吗?要识别,你需要做出不同的预测。But现实不是变化的所以任何预测多变的,会必要地错误的!从某种意义上说,没有辨别能力的“空间”,因为没有区别来区分。首先,这个系统没有太多的不确定性,所以预测者在推测高潮平均值方面没有多少可以改进的地方。.

与美国俄勒冈州波特兰的预报员相比,今年的降雨量为164天,约为45%天。而且没有“雨季”-只是混乱。现在有很多改进的空间,即使只是预测55%到35%,仍然是非常精确的,但是增加识别力。一个世界级的预报员有空间创造大量的辨别力。.

因此,问“预报员有多敏锐”是不公平的。相反,我们应该问“预测者的辨别力如何,与系统内在的不确定性有多大?“

一般来说,高潮平均值越接近0%或100%,就越少不确定性。最大不确定性是当气候平均值为50%时,I。e.硬币翻转。.

这个度量“不确定性”被计算为

A*(1-A)..

其中A是高潮平均值。在30%个例子中,不确定性度量将是0。21。数学解释是最大可能识别率为0。21。(最小值总是0)。以上,预报员B的识别率为0。04仍然远未达到最大可能,因此B不是一个了不起的预言家。不过,B比A好,有0的辨别力!在沙漠的情况下,1%的天有雨,不确定性将是0。0099μ-几乎没有。.

合计:预测“善”的总分

所以现在我们可以把所有三个数字组合在一起,形成一个总的“善良”分数。原来是数学上的声音这样计算:

[善良] = [不确定性] - [识别] + [错误]..

英语口译是:

每个预测者的基线得分都是从系统中固有的不确定性开始的。的确,在预测者猜测高潮平均值的情况下,[辨别]和[误差]都将是0,因此总分正是不确定性。.

预测者可以提高他们的分数(I)。e.通过增加辨别力来降低它。e.消除一些不确定性。预测者通过不准确来降低他们的分数,这显示出较高的[误差]度量。.

一般来说,预报员的识别能力越高,误差也越小。更好的预测者提高识别率大于误差量,从而降低整体得分。.

在一个给定的上下文中,不确定性通常是相当恒定的,因为它是一个长期的平均量。另外两个分数各不相同,这是一个解释这些极端的简便指南:

低误差低识别率无用的。.你只是准确的,因为你只是猜测平均值。.

高误差低识别率失败。.你不是在划分人口,但是你比猜测平均值还要糟糕。.

低误差高识别率理想。.你做的是强有力的,独特的预测,你是正确的。.

高误差和高识别率再试一次。.你做了很强的预测,所以至少你在尝试,但是你并没有正确猜测。.

实践中的实施

让我们假设您想要为您的公司构建一个领先评分算法,预测给定的领先是否最终将转换为付费客户。.

一个自然的地方开始与基线算法,I。e.没用的。让我们先建立这个模型。.

这是一个谷歌的电子表格.复制它得到一个可编辑的你自己的。你把你的预测和实际情况放在第一张工作表里。第二个工作表计算中间结果。(确保第二张纸右边的列被填满得够远了!第三个工作表计算上面的三个数字和总分。.

对于铅球得分练习:在第一张工作表上为每一个引线使用一行。你还没有预测,所以用任何猜测填充列A,比如0。5(硬币翻转)。把实绩放在B栏,I。e.A 1或0取决于它是否转换。您可以使用其他列来获取关于领导的信息,如ID、联系人信息、来源以及您可能需要的其他信息,作为对预测的输入。.

在确保第二个工作表上的列被“填满”后,翻转到第三个工作表。当然你的分数现在会很糟糕!看看高潮平均数的计算,在这个例子中,高潮平均数只是销售团队对你的销售业绩的总体接近率。.

你的基线算法只是猜测那个高潮平均值。因此,您可以在第一个工作表中的列A中输入该数字,然后填写,然后检查这三个度量是否确实有意义:错误应该为零,辨别力应该为零,不确定性应该来自总平均值,并且您的总得分将等于不确定性。.

既然你有一个工作模式,有价值的部分就开始了!!

注意这个基线算法的分数-把它写在某个地方。现在的工作是想到一个更好的算法,并证明这是更好的击败这一得分。.

铅得分的一种常见模式是无效数据往往与较差的收盘率相关。因此,一个简单的想法是检查电话号码字段不是空的,或者至少有八位数字。假设总的高潮平均值是30%,你可能会猜到有效电话号码的人可能转换为40%,而没有接近20%。.

你如何将这个想法应用到电子表格?一种方法是单独运行算法,然后将数据导入到电子表格中。对于那些精通电子表格公式的人来说,您可以在第一个工作表上添加所有领先数据作为附加列,然后使用大型电子表格公式来计算预测。然后你可以快速测试不同的想法。.

第二个工作表可以帮助您更快地迭代以获得更好的结果。看看如何,假设你添加了上面描述的关于电话号码的公式。虽然“40%”和“20%”接近率的具体猜测在方向上可能是合理的,但是这些不太可能是正确的概率。.

因此,在执行该预测之后,您翻转到第二个工作表。你会发现“20%”的每一个猜测都被分组成一行,就像“40%”的猜测一样。“你也会看到,在那里计算,实际的关闭这两行的利率。这些实绩,不管它们是什么不同于高潮平均值,有助于更高的辨别分数,所以这很好。但是,你的猜测和这些事实之间的差异有助于你的错误分数,所以这是不好的。.

解决方法很简单:只需“偷走”这些事实,并将其放入你的公式中!所以应该是“如果电话号码是空的,预测23%,否则预测33%。”“该更新保留了您新发现的识别,但将您的错误最小化。.

在这一点上,你的总分数应该低于基线。正如他们在A/B测试中所说的,你有了一个新的赢家!!

所以现在你将继续迭代,尝试更多的想法来细分和预测你的线索。有时你会觉得你的想法很棒,但事实证明他们实际上增加了总数,而不是一个简单的算法。That’s because sometimes being too fancy just means you incur lots of error..

最后,如果有一天你变得非常复杂,你可以用机器学习来预测。但是你仍然可以应用完全相同的模型来回答这个问题:“哪种算法更好?”“

天空是极限!现在做一些好的预测!!

进一步研究

这里描述的数学模型是Glen Briar于1950发明的。从那时起,它被扩展到不同的评分函数,多变量结果模型,以及更多。这里有一些进一步的阅读:

笔记:

  1. 为什么我们广场错误,而不是使用更简单的东西一样的绝对值的差异?有两个答案。其一是故意夸大差异,夸大项目。非常彼此不同,这是一个有用的度量。另一个是,平方差的数学比使用绝对值更易于处理。具体地说,您可以重构/重写平方差,并且可以使用微分,它们都不能用于绝对值。例如,用最小二乘法计算线性回归线是通过使用微积分来最小化平方差来导出的,但是同样的方法不能应用于线性差。.γ
  • 多么好的读物啊!特别是在一个似乎对基本概率和统计有很多误解的空间里。喜欢气象学家的例子-一个复杂的讨论可以接近。.

    我必须尝试实际的实现。我猜手动优化分数使算法“人类学习”而不是“机器学习”。希望这不仅有助于获得更好的预测,而且有助于消除人类偏见和假设(A)。Ka.公牛)关于什么影响给定的度量。.

    • 哈哈,YUP肯定是“人类学习”。“以及在特定数据集上的机器学习是否优于人的客观度量。在某些情况下,“两者结合”实际上是最好的;事实上,这就是大数据+机器学习中的一些领导者实际工作的方式(E)。G.帕兰蒂尔).

  • Jason,我一直在寻找类似的东西,主要是为了测试我的NFL信心池站点(http://www.信心十足。COM/2014/10/WHO -准确度)我可以算出哪个更准确,但是我有一种唠叨的感觉,如果我选择每场比赛50%的获胜概率,我就会得到一个完美的分数。我希望他们在学校教过这个!!

    (接下来我想弄清楚的是如何确定我的梦幻棒球联赛,我应该用哪些数据来预测我应该从哪些球员开始:15天的历史,30天的历史,或者整个赛季的历史)。有什么帮助吗?)

    • 嗨,戴尔,关于从哪种统计开始,也许正确的做法是简单地尝试不同的统计信息,看看是否有一组统计信息,当然还要结合一个好的算法!-效果更好。.

  • 乔安妮-维莫雷尔

    嗯,概率预测有精确度量,参见http://www.洛卡德COM/连续排序概率得分但是,对于商业计划评估来说,可能过于夸张:-读得很好。.

  • Aniruddha Malpani博士,MD

    不应该[不确定] + [辨别] - [错误]??

    • 基伦沃特金斯

      我不这么认为。这里,当“善”的价值增加时,你的价值就会降低。换句话说,你的目标是一个低的“善良”得分。.

  • 安妮的微笑

    嗯,我试试这个

  • 斯塔奇伯查德

    [roi]=[营销公司]-[分析报告]+[bs]...我的预测大相径庭,因为我的前营销公司发布了bs报告。如果你认为你的公司需要有人来分析一下所有的分析结果,那就奇怪地检查一下。.

  • 吉迪恩阿罗姆

    我对辨别的公式感到困惑。如果它是([实际] - [平均])^ 2,那么它不包含所有的预测,那么它如何反映预测者的辨别力呢??

  • α,α,β,β,α,β,β,α,β,β

    我想计算网站的投资回报率。http://eloCalto.COM/请帮助计算