努力提高我们的判断和预测的准确性——开放的慈善事业卡塔尔世界杯小组赛最新赛程出炉

表的内容

发表:2016年的10月25日 |通过路加福音Muehlhauser

grantmaking决策至关重要的是依赖于不确定的,主观的判断——一些证据的质量,关于我们的受让人的功能,将会发生什么,如果我们做出某些格兰特,如果我们会发生什么不让格兰特,等等。

在某些情况下,我们需要作出判断相对的有形结果相对不久的将来,当我们有支持刑事司法改革的宣传工作。另一方面,我们的工作依赖于投机对更长期预测,例如从先进的人工智能技术潜在的风险。我们经常尝试量化判断以概率的形式——例如,估计前联系20%的成功机会为特定的活动,而后者估计有10%的几率,一种特殊的技术将在未来20年了。

我们认为重要的是要提高我们的判断的准确性,如果我们可以预测。我一直在做一个项目,探索是否有良好的研究普遍的问题,如何充分和准确的预测,和/或专家这个话题可能帮助我们。一些初步的想法。

简而言之:

有一个相对较薄的文献的科学预测。¹在我看来,它的发现是实质性的和有用的,到目前为止,更多的研究在这个领域可以有前途的。
这个文学推荐一组小的“最佳实践”进行准确的预测,我们思考如何融入的过程。在我看来,这些“最佳实践”可能有用,鉴于和惊人的罕见。
在一个案例中,我们承包构建一个简单的在线申请凭证校准培训:培训用户准确地确定相信,他们应该在一个观点,和一致的和量化的方式来表达这种信心。我认为这是一个非常有用的技能在各种各样的领域,可以学到,(似乎)只有几个小时的训练。(更新:这个校准培训程序现在可用。)

我首先讨论最后这些点(凭证校准培训),因为我认为这是一个很好的介绍的各种有形的东西能提高预测能力。

1。校准的培训

精度的一个重要组成部分被称为“校准。精确校准的,“如果你是那意味着语句(包括预测)你有30%的信心是真的约30%的时间,声明你有70%的信心是真的约70%的时间,等等。

没有培训,大部分人都不是精确校准,而是过于自信的。声明他们有90%信心可能是真的只有70%的时间,和声明他们有75%的信心可能只有60%的时间是这样的。²但它是可能的“实践”校准通过分配概率的事实陈述,然后检查语句是否属实,随着时间的推移和跟踪的性能。几小时后,一个人可以练习数以百计的问题和发现模式如“当我80%的确信,我是正确的,只有65%的时间;也许我应该调整我的报告65% internally-experienced信心我之前与80%的水平。”

我最近参加了一个培训研讨会由校准哈伯德决策研究,这本质上是一个缩写版的经典描述的校准训练利希滕斯坦& Fischhoff (1980)。也是从其他组织参加了两个参与者,似乎不熟悉校准的想法,正如所料,非常自信在第一组问题。³但是,继续训练,他们的分数问题集开始改善,直到最后一个问题集,他们都取得了完美的校准。

对我来说,这有点令人鼓舞。这不是通常情况下,一个认知技能有用和domain-general概率校准可以训练,这样objectively-measured戏剧性的改善,在如此短的时间内。

我回顾了广泛的研究支持了这一印象。例如:

Rieber (2004)列表”校准培训反馈”作为他的第一个建议改善校准,并总结了一些研究表明短期和长期改进校准。⁴特别是,几十年前,荷兰皇家壳牌(Royal Dutch Shell)开始提供校准他们的地质学家,他现在(据说)相当精确校准的预测哪些网站什么时候生产石油。⁵
自2001年以来,哈伯德决定研究跨多种行业培训超过1000人。分析数据从这些参与者,道格·哈伯德报告说,80%的人达到完美的校准(小问题)后几个小时的训练。他还声称,根据他的数据和至少一个控制(但不是随机)试验,这种培训预计后续实际预测成功。⁶

我应该注意校准不充分本身好预测。例如,您可以在一组精确校准的正确/错误语句,大约一半的陈述是真实的发生,只要回应“真的,有50%信心”每一个语句。这种性能精确校准的但不是很信息丰富的。理想情况下,一个专家会分配高信心语句可能会是真的,和低信心语句不太可能是正确的。专家可以这样做不仅精确校准,但也展现良好的“决议”(有时称为“歧视”)。如果我们把校准和决议,我们到达一定程度的准确性被称为“合适的评分规则。”⁷上述校准培训有时需要适当的计分规则,和训练人们可能精确校准,至少表现出一些决议,尽管最大的好处他们似乎(基于研究和我的观察)属于校准。

我之前培训的主要来源在校准游戏为了自动化这个过程。现在开放卡塔尔世界杯小组赛最新赛程出炉慈善项目与开发商合作,创建一个更广泛的校准培训游戏培训我们的员工;我们还将做游戏公开可用。

2。进一步的建议为提高判断准确性

下面我列举一些常见的建议为提高判断和预测的准确性(缺乏强有力的因果模型或统计数据),至少有一些支持学术文献,我发现直觉可能是有益的。⁸

火车概率推理:在一个特别引人注目的研究(Chang et al . 2016),一个小时的概率推理训练明显提高预测的准确性。⁹类似的培训提高了判断的准确性在一些早期的研究中,¹⁰和有时包含在校准培训。¹¹
激励的准确性精度:在许多领域,激励是被强大的激励,激励等出现自信,娱乐,或信号组的忠诚。一些研究表明,精度可以提高仅仅通过提供足够强大的激励等精度的钱或同行的批准。¹²
考虑换个工作:一些研究表明可以提高判断的准确性,促使主题考虑替代假说。¹³
分解问题:另一个常见的建议是将问题分解成easier-to-estimate子问题。¹⁴
结合多个判断:通常,加权(有时“extremized”¹⁵)的组合多个受试者判断优于任何一个人的判断。¹⁶
相关的判断准确性:根据一些最引人注目的研究预测的准确性我见过,¹⁷良好的预测能力的关联包括“像狐狸一样思考”(即避开大理论关注很多凌乱的细节),强大的领域知识,一般认知能力,高分”需要认知”,“积极开放的思维,”和“认知反映”。
市场预测:我看到它认为,发现它直观,一个组织可能通过使用提高预测的准确性预测市场。我还没有研究预测市场的表现。
你想学到很多关于现象的预测:这个可能听起来很明显,但是我认为这是重要的标志,以避免留下这样的印象,即预测能力比现在更多的跨域/可概括的。一些研究显示,精度的提高可通过(或获得)专业领域。还有一个很普遍的假设,我发现从直观上看,是校准培训尤其有利于提高校准,并且专业知识有助于提高分辨率。¹⁸

从预测文献另一个有趣的结论是——和一致性的程度——一些专家表现出比别人更好的精度。例如,tournament-level桥玩家倾向于显示可靠精度好,而电视专家,政治科学家,和专业的未来学家似乎不是。¹⁹著名的最近结果比较真实的来自于一系列的准确性IARPA预测比赛,普通人互相竞争,和专业的情报分析人员(他们也有访问expensively-collected机密信息)来预测地缘政治事件。在泰特罗克和加德纳的报道Superforecasting相结合,预测由(以某种方式)表现最好的普通人们的预测(反复)更准确比训练有素的情报分析员。

3所示。通常人们如何寻求改善他们的主观判断的准确性?

当然许多组织,从金融机构(如看到法博齐2012运动队(例如看到《点球成金),使用复杂的定量模型来提高预测的准确性。但我问的问题是:缺乏强有力的模型和/或良好的数据,当决策者必须几乎完全依赖于人的主观判断,它有多普遍对于那些决策者明确投入大量精力改善(objectively-measured)这些主观判断的准确性?

总的来说,我的印象是,这个问题的答案是“有些很少,在大多数行业,即使上面列出的技术是众所周知的专家判断和预测的准确性。”

为什么我认为?在这个问题上很难得到很好的证据,但是我提供一些数据点在一个脚注。^20.

4所示。想法我们探索改善GiveWell准确性和开放慈善项目人员卡塔尔世界杯小组赛最新赛程出炉

下面是一个列表的活动,旨在提高我们的判断和预测的准确性,是持续的,处于开发阶段,或在考虑GiveWell开放慈善项目:卡塔尔世界杯小组赛最新赛程出炉

如上所述,我们有简约的一组软件开发人员创建一个校准培训网络/电话申请员工和公众使用。(更新:这个校准培训程序现在可用。)
我们鼓励员工参与市场预测和预测比赛等PredictIt和良好的判断力开放,一些员工。
开放慈善项目和Gi卡塔尔世界杯小组赛最新赛程出炉veWell最近开始进行概率预测对我们的资助。开放的慈善项目,卡塔尔世界杯小组赛最新赛程出炉例如我们对最近拨款的预测菲利普Tetlock和CIWF。GiveWell,见如预测最近拨款证据的行动和异丙醇。我们也和跟踪一些额外的私下grant-related预测。这里的想法是能够衡量我们的准确性后,这些预测成真或伪造,也许是为了改善我们的准确性从过去的经验。到目前为止,我们仅仅是鼓励预测没有把太多的精力确保他们未来的可测性。
我们将尝试一些预测会议由一位经验丰富的“预测促进者”——人帮助引起预测从人们对他们正在做的工作,以一种试图尽可能翔实和乐于助人的。这可能会提高预测在前面提到的要点。

我目前负责改善预测的主要人开放慈善项目,我很感兴趣进一步的想法我们可以做什么。卡塔尔世界杯小组赛最新赛程出炉

扩大页脚崩溃的页脚

1。从技术上讲,科学预测的研究至少可以追溯到1940年代,或更早。然而,我最感兴趣的研究做以下:

收集有关现象的预测,没有强大的模型和/或大量的数据,
使用适当的评估这些预测的准确性评分规则,
相对于精度通过一些合理的基线或对照组,并
没有其他知名但常见的限制,未能调整等多重比较。

在试图了解我可以预测的文学,我没有依靠专门在研究上面列出的所有特性,但是我希望这个列表的功能有助于澄清这类型的研究我试过最难发现和学习。在这个意义上,科学的预测是一个“薄文学”发表论文虽然有成千上万的预测,追溯到1940年代早些时候。

2。利希滕斯坦et al . (1982);Bazerman &摩尔(2013),ch。2。

3所示。我曾经练习使用在线校准游戏旨在提供一种自动校准培训

4所示。从Russo (2004):

证据表明,校准的判断可以通过反馈大大增强自己的概率判断。在一个实验中,参与者在电脑是工作要求一般知识问题,他们给他们的答案以及他们的主观概率。200件每个会话后,参与者收到的总结他们的表现,他们讨论了实验者。大多数参与者很差校准前的培训;这些,都大大改善。此外,尽管受试者参与十一训练,“所有的改善之间的第一和第二轮反馈。“自第一次训练持续了大约一个小时,和另一个四十五分钟初步指导,似乎与密集的反馈校正可以显著改善大约两个小时。

p·乔治·本森和Dilek Onkal报告同样巨大收益预测任务校准后的反馈。在这项研究中,改进也发生在一个步骤,但它是第二个和第三个训练之间。同样,马克·阿尔珀特和霍华德Raiffa报告,校准后的反馈数量的98%置信区间的问题错过了他们的哈佛MBA学生”从一个令人震惊的41%下降到一个令人沮丧的23%。“虽然23%是远远超过理想的2%,它仍然代表着一个庞大的改进从41%,也就是只有一个回合后的练习。

虽然这些结果发生在实验室环境中,一些证据表明,校准培训在工作场所也可以是有效的。能源公司皇家荷兰/壳牌成功地实现了一个培训计划来提高标定的地质学家发现石油存款。在培训之前,地质学家已经明显过于自信,分配40%的信心的地方,产生了石油不到20%的时间。预测油田的位置显然不同于预测国际事件,用更少的变量和更可靠的数据。但是,它可能是类似于图像情报。

5。Russo &舒梅克(2014):

(地质学家)从他们的档案是文件包含许多因素影响石油储量,但没有实际的结果。为每一个过去的情况下,他们必须提供最佳猜测惊人的石油以及范围的概率为多少可能产生一个成功的好。然后他们被给予反馈实际上发生了什么。培训工作的非常好:现在,当壳牌地质学家预测生产石油的可能性为30%,三公司平均达到十倍…

6。从哈伯德& Seiersen (2016),ch。7:

自[2001],哈伯德在哈伯德和他的团队决定研究训练超过1000人校准方法和记录了他们的表现,他们的预期和实际结果在几个校准测试,给出一个接一个在半天的研讨会。

…

确定谁是校准,我们必须允许一些偏离目标,即使对于一个完全校准的人。同样,一个未校准的人可以得到幸运。占这个统计误差测试,80%的参与者是理想情况下校准后第五校准运动。他们既不underconfident也不自信。他们90%的置信区间有包含正确答案的可能性为90%。

另外10%显示显著改善但不能达到理想的校准。和10%从第一个测试显示没有明显改善他们…

…但是经过验证的性能在训练中反映的能力评估现实的可能性的不确定性?这是一个明确的答案是的。哈伯德跟踪精确校准的人们如何在现实中在多个场合,但是一种特殊的控制实验在IT行业仍然突出。1997年,哈伯德被要求培养IT咨询公司的分析师Giga信息集团(被弗雷斯特研究公司收购以来,Inc .)分配概率不确定的未来事件。吉是一个研究机构,其研究出售给其他公司以订阅为基础。Giga采取了分配事件概率的方法为客户预测,它想确定表现良好。

哈伯德训练16 gb分析师使用前面描述的方法。在培训结束后,分析师有20特定行业预测他们会回答真或假,他们会分配一个信心。测试是在1997年1月,和所有的问题陈述事件发生或未发生的6月1日1997(例如,“真或假:英特尔将在6月1日公布300 MHz奔腾”等等)。控制,相同的预测也给清单16的首席信息官(CIO)客户在不同的组织。6月1日之后的实际结果可以确定。哈伯德将结果十亿世界1997年,他们今年的主要IT行业研讨会…

分析师结果……非常接近理想的信心,容易在容许误差…

相比之下,结果客户没有收到任何校准培训(小三角形)非常自信…所有这些结果符合什么通常被观察到在其他一些校准的研究在过去的几十年里。

我没有看到的细节哈伯德的研究中,和在任何情况下,患有多种设计的局限性——例如,治疗(校准培训)并不是随机分配。

7所示。一个合适的评分规则,应用于一组概率判断或预测,奖项分校准和分辨率,这样做的方式鼓励法官如实报告他们的概率。

这样的措施应该评估对一个适当的基准。Tetlock &加德纳(2015)解释这一点评估预测精度的上下文中使用一个合适的评分规则称为荆棘得分,范围从0到1,较低的数字代表了更好的分数(ch。3):

假设我们发现你有一个荆棘得分为0.2。这是远离的无(0)但很多比chimp-like猜测(0.5),所以它下降的范围如人所愿,说,一个人。但我们能说比这多很多。荆棘分数意味着什么取决于被预测。例如,它很容易想象荆棘得分为0.2的情况下会令人失望。考虑天气在凤凰城,亚利桑那州。每年六月,它变得很热,阳光明媚。预报员跟着一个愚蠢的规则,“总是分配100%热,阳光明媚”可以得到一个荆棘分数接近0,离开0.2在尘土中。在这里,正确的测试技能会比盲目预报员是否可以做得更好预测没有变化。这是一个被低估了的观点。 For example, after the 2012 presidential election, Nate Silver, Princeton’s Sam Wang, and other poll aggregators were hailed for correctly predicting all fifty state outcomes, but almost no one noted that a crude, across-the-board prediction of “no change” — if a state went Democratic or Republican in 2008, it will do the same in 2012 — would have scored forty-eight out of fifty, which suggests that the many excited exclamations of “He called all fifty states!” we heard at the time were a tad overwrought. Fortunately, poll aggregators are pros: they know that improving predictions tends to be a game of inches.

另一个关键指标是其他预测机构。谁能打败其他人?谁能击败普遍预测?他们怎么做到的呢?回答这些问题需要比较荆棘分数,反过来,需要一个公平的竞争环境。预测天气在凤凰城只是纯比预测天气在斯普林菲尔德,密苏里州,那里的天气是出了名的变量,所以比较凤凰气象学家的荆棘分数和斯普林菲尔德的气象学家将是不公平的。0.2欧石南得分在斯普林菲尔德可能是一个信号,表明你是一个世界级的气象学家。这是一个简单的点,大含义:挖掘老预测从报纸很少会产生横向比较,因为在比赛之外,实际很少预报员预测在完全相同的时间相同的发展时期。

8。在下面脚注每一块“共同建议”我为这篇文章列表,我不提供一个全面的评估每个索赔的证据支持,而只是提供了一些指针可用的证据。脱脂这些和其他的研究只是短暂的,而我选择的建议包括这一样依赖我的直觉似乎什么工作——给我预测的研究,心理学等领域,以及我一般对世界的理解,在我点的具体证据的评估。事实上,我怀疑,在最近的一次检测中,发现的一些主要研究上市或引用这些脚注是漏洞百出,说服力不强。

我常见的建议不是一个详尽的列表。额外的建议,如见。Bazerman &摩尔(2013)ch。12日,Rieber (2004),Soll后et al。(2016)。

9。Chang et al。(2016)描述训练模块随机分配到一些好的判断项目预测比赛的参与者:

培训是从1到4年,但从来没有设计一个多小时。常见的概率推理原则包括事件基础概率的理解和使用,信念更新的基本原则,反映了检验的新证据的价值,平均价值的独立证据,校准和解决在荆棘得分之间的区别,使用statistical-mathematical模型的优缺点告知预估,和讨论常见的偏见概率判断。

…训练第一年由两个不同的模块:概率推理训练和场景训练。Scenario-training是四个步骤的过程:1)发展连贯,逻辑概率下的概率求和规则;2)探索和挑战的假设;3)识别关键因果司机;4)考虑最好和最糟糕的情况下,开发一个明智的95%置信区间的可能的结果;和5)避免夹持力的偏见。原则被蒸馏成首字母缩写的追求:问题的观点,使用合理的最坏的和最好的场景,探索的假设,应该考虑几个假设,留心偏见…场景的培训设计的方式非常类似于分析培训已经使用的情报部门,鼓励学员批判性地思考假设,潜在的期货,因果机制,可以在一个给定的预测问题。

概率推理培训包括课程详细的校准和分辨率之间的区别,使用比较类和基准利率(卡尼曼和特沃斯基,1973;特沃斯基&卡尼曼,1981),平均和使用人群智慧原则(Surowiecki, 2005),发现和利用预测的数学和统计模型(柜,1981;卡尼曼和特沃斯基,1982),谨慎使用时间序列和历史数据,典型的认知偏见常见的自我意识在整个人口。培训鼓励预报员记得缩写冠军(表2)的原则…

2年后,概率推理和场景训练被合并成单个模块。学习添加图形和更多的检查。

第3年扩大在第一年和第二年培训交付的内容在一个图形格式(在线通过商业软件)和添加一个字母S冠军,以及一个新的政治科学内容模块所描述的缩写。额外的年代鼓励预测选择正确的问题的答案,寻找对象,他们有一个比较优势。额外的知道模块鼓励预报员理解动力学涉及主要政治人物(Bueno De Mesquita &史密斯,2005;华尔兹,2001),确定规范和国际机构的影响(Finnemore & Sikkink, 1998;>》,2005),寻找其他政治观点和意识到潜在的通配符场景(塔勒布,2010)。最初的冠军指南也稍微修改经验和观察的基础上最好的预测,在一起形成缩写冠军知道下修订的指导方针(表3)。学习(即附加检查。,短测验)也集成到这个版本的培训…

年4培训非常类似于三年级。概率推理训练是通过一个定制的网络平台。几乎所有的信息传达与图形的例子和图片说明。主要冠军知道框架保持完整,保存年代指南的修订“选择正确的问题来回答”“选择正确的努力把每一个问题,”提供了一个更清晰和更清晰的描述执行认知分类预测问题池…

培训取得了显著改善荆棘分数在所有四年比赛(图1),第一年都probability-trained预报员(n = 119, MStd荆棘分数= -0.05,SD = 0.24)和scenario-trained预报员(n = 113, MStd荆棘分数= -0.06,SD = 0.23)优于控制预测(n = 152, M性病荆棘得分= + 0.07,SD = 0.28), F (381) = 12.1, p <措施。的精确性不probability-trained和scenario-trained预测者之间。的改善意味着荆棘分数从probability-training scenario-training是10%和11%,分别相对于控制预测。

第二年,培训提高准确性,与probability-trained个人(n = 205, MStd荆棘分数= -0.10,SD Std = 0.25)优于控制个人(n = 194, M性病荆棘得分= + 0.05,SD Std = 0.25), t (395) = 5.95, p <改进措施,12%的分数。3年后,培训与更好的性能(n = 97训练,MStd荆棘分数= -0.08,SD Std = 0.27,控制n = 116, MStd荆棘分数= 0.00,SD Std = 0.28), t (207) = 2.32, p = .021,再次与训练个人实现精度比控制,成绩提高了6%。最后,在4年,培训也是重要的,(n = 131训练,M性病荆棘分数= -0.01,SD Std = 0.26,控制n = 102, MStdBrierScore = -0.08, SD Std = 0.24), t (225) = 2.20, p = .028,成绩提高了7%。此外,在其他地方,报道培训提高了预测的校准和解决减少过度自信(米勒斯et al ., 2014;摩尔et al ., 2016)。总的来说,个人预测与控制probability-training一贯优于所有四年(表4)。

本文的第1部分还提供了一个简洁的和最新的评论过去的工作去和评判的准确性的训练。

我的判断常et al。(2016)是一个“特别引人注目”的研究大大(但不完全)来自事实,它克服了一些过去工作的局限性,作者总结的:

许多研究已经阐明如何改进的概率估计和判断…然而,过去的工作遭受至少6套限制:1)过度依赖学生受试者往往无论内在还是外在动机主任务…;2)一次性实验任务限制这两个科目的学习和研究的机会机会评估实验诱导获得可持续的随着时间的推移,或他们是否只是短暂地暗示更好的思考…;3)短暂的培训模块,通常10 - 15分钟,提供一些机会重新测试…和探索互动的潜在影响培训和刻意练习…;4)去干预勉强适合一个偏差(如过度自信,后见之明),而不是旨在帮助激活多个偏见…的问题;5)多方面的和漫长的教育干预,如统计课程,在生态效度高,但失去了内部效度的优势积累从随机分配…;和6)有限公司之外的个体差异的调节作用研究认知能力…

我们出发去克服这些问题。我们的研究使用一个高度多样化的横截面的人口,根据提供的赔偿费力,几乎肯定是比标准更内在的动机是大学生样本。这项研究持续了四年,去偏测试内容的方法,研究个体差异版主。我们的研究也代表了去偏的最严格的测试方法之一。开放式的实验任务,预测范围广泛的政治和经济的结果,是公认困难(杰维斯,2010;Tetlock, 2005)…我们的工作并不正确的所有上述概念和方法论的问题,但我们可以解决的一个重要部分。

10。例如,单个组件的训练模块常et al。(2016)检测在早期的研究中,所提到的张et al . (2016):

考虑基准利率还可以提高判断的准确性(卡尼曼和特沃斯基,1973;特沃斯基&卡尼曼,1981)。[和]教人们引用类预测减少基础概率忽略调用注意力偏见本身(多情况下,Fantino &糖果,1999;Fischhoff & Bar-Hillel, 1984;Flyvbjerg, 2008;卡尼曼和特沃斯基,1977;Lovallo克拉克&卡默勒,2012)。

11。例如,道格·哈伯德培训我参加了包括一些培训在概率推理,这在一定程度上是必要的,以确保参与者理解校准的培训应该是如何工作的。

12。据推测,强劲的货币激励措施的主要原因大多数金融市场是有效的,和强劲的货币和/或声誉inventives解释为什么预测市场以及他们所做的工作(沃尔弗斯&兹特维茨2004)。

同理,Tetlock &加德纳(2015)备注:

更好的校准预报员很引人注目的公共IARPA比赛比(Tetlock)早些时候anonymity-guaranteed EPJ比赛。和实验的证据更果断。公开锦标赛创建一个形式的责任,使我们意识到我们可能是错的。比赛起到塞缪尔·约翰逊归因于木架上:他们集中精神(在比赛的情况下,避免声誉死亡)。看到p e . Tetlock和b·a·米勒斯”组织,组织问责制度”在情报分析:行为和社会科学基础,艾德。b . Fischhoff和c Chauvin(华盛顿特区:国家科学院出版社,2011),页249 - 70;j·勒纳和p . e . Tetlock会计责任的影响,”心理学公报》125 (1999):255 - 75。

卡亨(2015)总结了一个新兴的文学在货币激励政治动机推理的准确性:

在一个重要的发展,一些研究人员最近报道,提供mon-etary激励可以减少或消除极化的答案,不同的政治发展观给党派问题导入(卡纳& Sood 2016;之前,Sood & Gaurav 2015;布洛克,嘉宝,Hill & Huber 2015)。

…

如果货币激励措施有效地扭转identity-protective形式的信息处理研究,反映了PMRP政治动机推理范式设计,然后一个合理的推断是,提供奖励“正确答案”是一个足够的干预来召唤求实信息处理风格(至少部分)受试者使用identity-expressive目标域以外的特性。实际上,激励把受试者从identity-protectors知识探测器(2015卡亨),并激活相应的信息处理风格适合这些角色的转变。

是否这将是最好的理解这样的结果,和这样一个结论的实际意义,也很重要,值得进一步的实证检验。

13。在他的评论“去”战略,组成(2004)总结的证据“替代”战略:

的必要性、认知策略往往是上下文相关的规则根据地址狭隘的偏见,例如大数定律或沉没成本法则。这一事实使得简单而通用的策略“考虑相反的”更令人印象深刻的,因为它已经有效地减少过度自信,后见之明偏见,和锚定效应(看到柜,1991;Mussweiler、斯特拉克&普费弗,2000)。策略由无非问自己,“是什么原因,我初步判断可能是错误的?”策略是有效的,因为它直接抵消协会过程的基本问题——过于狭窄的证据样本通过扩大样本,使其更具代表性。同样,促使决策者考虑替代假说被证明能减少确认偏见在寻求和评价新信息。

Soll后和Klayman(2004)提供了一个有趣的“考虑相反的变化。“通常,主观的估计范围表现出高的过分自信。范围的人80%自信捕捉真相30%到40%的时间。Soll后和Klayman(2004)表明,法官产生10和90百分位估计在不同的阶段——迫使他们考虑不同的原因——增加命中率低和高值范围扩大和定心近60%。

“考虑相反的”作品,因为它将注意力转向相反的证据,否则将不会被考虑。相比之下,简单的清单的原因通常不会提高决策因为决策者倾向于产生支持的原因。同时,对于一些任务,理由一代可以扰乱决策准确性的原因如果有一个贫穷的匹配很容易表达和实际因素决定的结果(威尔逊&斯古乐,1991)。最后,问有人列出太多相反原因可能适得其反——生成第十“骗”的困难可以让决策者相信,她最初的判断一定是正确的…

14。摩尔et al。(2016)总结的一些研究问题分解和判断的准确性:

研究人员投入大量精力开发方法来减少overprecision(一种过度自信的)。大多数的研究主要是围绕着三个主要方法…(其中一个是)将响应设置或选择分解为更小的组件,考虑每一项分开…

这种方法…[]利用支持理论的次可加性效应(Tversky &克勒,1994)。这表明抵消overprecision通过焦点的结果,分解成更具体的选择。Fischhoff、Slovic和李奇登斯坦(1978)发现概率的总和分配给的选择集的概率大于分配给一组作为一个整体。因此,当估计可能的可能的结果,法官越类别评估(和我们包括在“其他”)越少越不自信他们将他们所选择的结果是正确的。置信区间的分解也取得了令人鼓舞的结果。Soll后和Klayman(2004)要求被试估计80%的置信区间或单独10和90分(之间的距离应该覆盖80%的参与者的概率分布)。他们发现,高和低价值的考虑单独导致更广泛和更少的overprecise间隔。

一个启发式方法结合考虑更多的信息和问题的分解成更具体的子集。间谍方法(简称主观概率区间估计)(哈兰,摩尔,Morewedge & 2010)置信区间转化为一系列的概率估计为不同类别在整个预测问题集,而是一个区间,应该包括一定程度的信心,正确答案,整个范围的参与者提出了可能的结果。这个范围被分成垃圾箱,参与者的概率估计每一本包含正确答案。例如,预测每日高温在芝加哥5月21日我们可以估计的概率这个温度将低于50°F, 51°F和60°F之间,在61°和70°F,在71°和80°F,在81°和90°F,和91°F或更多。因为这些箱子覆盖所有可能的选项,估计应该相当于100%的总和。从这些我们可以提取一个主观概率区间为任何所需的信心水平。这种方法不仅产生置信区间,不如那些overprecise产生直接但也减少overprecision在后续估计当参与者切换回传统的置信区间法(哈兰,摩尔et al ., 2010)。这种减少,然而,似乎并不源于一个更好的评估过程的概括。相反,最明显的改善估计在间谍实践时间似乎当间谍任务之前法官的注意值被视为最不可能(哈兰,2011)。是可能的,当人们意识到他们的知识的可能性是不完整的(通过直接估计可能的值之前,他们完全无视),增加警告他们的置信区间。

Tetlock &加德纳(2015)据预测比赛的基础上,在那本书中,列表问题分解为一个“有抱负的Superforecasters十诫”:

(2)看似棘手的问题分解成容易处理的子问题。

通道恩里科·费米的顽皮但是自律精神——当他不是世界上第一个原子反应堆设计——爱球场头疼的答案如“外星文明存在于宇宙多少?“把问题分解成其可知与不可知的部分。冲洗无知公开化。暴露并检查你的假设。敢让你最好的猜测是错的。迅速发现错误比背后隐藏他们模糊的废话。

Superforecasters Fermi-izing视为工作的一部分。他们怎么能生成量化对阿拉法特的死因推断看似无法量化的问题的答案,禽流感流行,油价,博科圣地,阿勒颇之战,债券收益率息差。

我们发现这种Fermi-izing精神在工作中甚至在对爱的追求,最终难以量化。考虑彼得巴克斯,一个孤独的人在伦敦,他预估潜在的女性伴侣的数量从附近的伦敦的人口(约六百万)和筛选这一数字下降了女性人口的比例(约50%),通过单打(大约50%)的比例,通过比例在合适的年龄范围(大约20%),由大学毕业生的比例(约26%),由他发现有吸引力的(只有5%),比例的比例可能觉得他有魅力的(只有5%),和比例可能兼容他(大约10%)。结论:约26女性池中,一个令人生畏的,但并非不可能搜索任务。

没有客观的真爱问题的正确答案,但我们可以得分费米估计的准确性superforecasters生成IARPA锦标赛。意外的是频率非常好的概率估计来自于一个非常粗糙的一系列假设和却。

15。Tetlock &加德纳(2015),ch。4,描述“extremizing”这种方式:

当你把一大群人的判断计算“群众的智慧”你收集所有相关的信息分散在所有这些人。但是没有一个人能够访问所有信息。一个人只知道一些,另一个知道更多,等等。会发生什么如果每一个人的所有信息吗?他们会更加自信,提高他们的预测接近100%或零。如果你计算了“群众的智慧”也会更极端。当然不可能给每个人所有的相关信息——所以我们extremize模拟将会发生什么如果我们能。

16。Soll后et al。(2016)其中一些文献简要总结:

当判断所提供的许多人来说,一种非常有效的组合方式是体重同样,如通过简单平均或应用多数规则(例如,这本,1989;Hastie & Kameda, 2005)。利用“群体智慧”的概念被应用到各种各样的情况下,从体育预测市场对国家安全(Surowiecki, 2004)。对于数量估计,平均提供好处的平均个人只要个人猜测托架真相(即。两边,一些猜测),所以,高和低的错误将抵消(& Soll后组成,·曼,2012)。

Tetlock &加德纳(2015)也报告几个“群体智慧”效应在Tetlock et al。预测比赛:

团队的普通预测击败人群10%的智慧。预测市场击败普通团队约20%。和superteams击败预测市场高出15%到30%。

我已经可以听到抗议从我的同事们在金融领域,superteams击败了预测市场的唯一原因是,我们的市场缺乏流动性:真正的钱没有利害关系,我们没有大量的交易员。他们可能是对的。这是一个可测试的想法,值得一试。同样重要的是认识到,尽管superteams击败预测市场,预测市场做了一个很好地预测复杂的全球性事件。

17所示。我指Tetlock预测比赛,这两个报告泰特罗克(2005)特别是那些报道Tetlock &加德纳(2015)。

18岁。(引人注目的)文献相对较少这一假说,,我还没有仔细评估文学,但我的理解是,文学存在倾向于支持假说,包括研究的工作,我发现异常令人信服(由于研究设计的强度)。

Non-Tetlock工作这是综述部分(例如)以前的文学Legerstee &弗兰斯(2014),作者写道:

[一]的反馈是任务属性的反馈,这是有时也称为环境反馈。它涉及为预报员提供统计信息的预测变量。它可以包含数据特征或统计模型预测。注意,它可能认为这不是真实的反馈,因为它提供了评判预测之前,没有反馈的性能评判预报员(看到Bjorkman, 1972)。这任务属性反馈已收到最多的关注在研究反馈判断预测(见桑德斯,1992;Remus et al ., 1996;韦尔奇et al ., 1998;古德温菲尔德斯,1999)。在所有情况下,找到提高预测精度,一般是发现最有效的反馈形式(Lawrence et al ., 2006)。

直觉,似乎“任务属性反馈”——换句话说就是信息现象预测,预测是由前——应特别提高决议的预测,而反馈的预测性能应该改善一个人的校准。这个假设是(弱)支持。Stone &欧宝(2000):

本森和Onkal(1992)表明,环境(即反馈。任务属性的反馈),与绩效反馈,应该有效的改善人们的歧视(即技能。决议],因为环境信息提供关于事件的信息判断。只有少量的工作,然而,对环境的影响反馈与其他类型的反馈判断准确性。利希滕斯坦和Fischhoff(1977,实验2)训练参与者区分欧洲和美国的笔迹通过提供的每种类型的笔迹样本。这笔迹训练作为一种环境的反馈,因为它为参与者提供了任务信息。正如预测的那样,那些接受了培训过程的参与者实现更高的歧视分数比那些没有收到这样的培训。

如果校准和歧视是心理上截然不同的概念,提供特定领域的信息(环境的反馈)应该不影响校准。事实上,利希滕斯坦和Fischhoff确实发现校准评分的改善导致的培训在他们的研究。然而,他们得出的结论是,这种改进校准不能反映真正的改善技能,而是导致弱的效果(cf。利希滕斯坦et al ., 1982;Suantak,博尔格、和法瑞尔,1996年),即困难的问题(回答正确50 - 70%的时间)产生过度自信,简单的问题(回答正确80 - 100%的时间)产生underconfidence,和那些温和的困难(正确回答70 - 80%的时间)产生最好的校准。改善歧视反映利润在实质性的知识主题,可以预见,在歧视会伴随着一个问题回答正确数量的增加。事实上,那些参与者接受了书法培训71%正确回答那些没有接受训练只有51%正确回答。因此,百分比的基础上增加的物品单独回答正确,校准的改善可以归因于弱的效果而不是一个真正的校准能力的改善。

…

前面的评论表明,研究的领域内,绩效反馈改善校准和环境反馈提高了歧视。也有理由相信,绩效反馈不影响环境反馈的歧视和不影响校准;然而,这些结论更模棱两可,在过去发现多种解释。本研究的主要目的,是为了证明这个分离…

…

(新实验的结果在本研究报告)强烈支持这一假说。此外,我们发现两个意想不到的效果:(1)反馈的影响是更大的困难比简单的幻灯片,幻灯片和(2)环境反馈导致过度自信增加简单的幻灯片。

在大预测比赛中描述Tetlock &加德纳(2015),有许多重要的关联预测的准确性,和一些相关的领域知识:“政治知识,”“平均分享的文章数量,”“检查文章的平均数量”等,见表3米勒斯et al。(2015)。但这也是相对较弱的证据,作为领域知识没有操纵实验。

19所示。天气预报通常引用作为一个群体,展示良好的准确性(如看到银2012,ch。4),但他们没有提供准确的判断的一个例子没有相当强劲的模型和丰富的数据。

桥上的球员,看看克伦(1987)。电视上的专家和政治科学家,看到ch。2银(2012)。相关评判预测文学评论,请参阅。Stone &欧宝(2000)和劳伦斯et al。(2006)。

至于专业未来学家:我目前调查的记录远程预报,已由专业”未来学家”。之后我可能会改变主意,但到目前为止,我的印象是,长期(≥10年)预测的准确性备受尊敬,资源丰富专业的未来学家50 - 90年代一直不是很好。这个不应该是一个惊喜:据我所知,专业未来学家这一时期几乎从不从事校准培训、概率和预测长期的未来无疑是更加困难比预测短期的结果。(当然这是可能的,当代未来学家更准确比50年代- 90年代,但我们将不得不等待时间通过之前,我们可以评估他们的长期预报的准确性)。

到目前为止,我只有一个发现我正在进行的调查发表记录的长期预报,有关一些技术预测从一本书叫做2000年。

20.这是一个不完整的数据点的名单,通知我的印象:

至少有“几”公司投资于明确的概率校准培训,例如荷兰皇家壳牌和道格·哈伯德的客户。

1989年代夹克的封面决策陷阱作为它的一个重点,其中包括校准培训建议(页96 - 102),作者声称“改善了成千上万的财富500强企业高管的决策技巧在这本书中描述的程序。他们的客户来自通用汽车(General Motors)等公司,皇家荷兰/壳牌、IBM、(和其他人)。“2001年出版的由同一作者(胜利的决定)说,在致谢,“约翰·奥克斯联手美国在1990年代中期设计一个管理培训计划基于我们的书决策陷阱。”

直到2014年3月,前不久发表的主要论文描述IARPA预测比赛,曼德尔et al。(2014)声称“在稍后描述的工作报告是…我们所知,第一个系统,长期评估质量的分析预测从真正的情报报告,使用适当的计分规则。”

我问罗宾·汉森的创造者首先企业预测市场主要倡导者和预测市场的使用,对他印象一般公司如何利用预测市场。他的邮件回复是“分数使用预测市场非常小,肯定远远小于使用统计等。我很惊讶如果有100家公司使用(预测市场)在任何一个时间。”

Chang et al。(2016)报道称,“一些组织已经接受了去方法开发(Croskerry, 2003;Graber et al ., 2012;Lilienfeld et al ., 2009)。”

回到研究与更新

努力提高我们的判断和预测的准确性

表的内容

1。校准的培训

2。进一步的建议为提高判断准确性

3所示。通常人们如何寻求改善他们的主观判断的准确性?

4所示。想法我们探索改善GiveWell准确性和开放慈善项目人员卡塔尔世界杯小组赛最新赛程出炉

相关项目

如何我们的预测是准确的?

宣布推出我们的新网站

卡塔尔世界杯小组赛最新赛程出炉开放的慈善事业探索奖