grantmaking决策至关重要的是依赖于不确定的,主观的判断——一些证据的质量,关于我们的受让人的功能,将会发生什么,如果我们做出某些格兰特,如果我们会发生什么不让格兰特,等等。
在某些情况下,我们需要作出判断相对的有形结果相对不久的将来,当我们有支持刑事司法改革的宣传工作。另一方面,我们的工作依赖于投机对更长期预测,例如从先进的人工智能技术潜在的风险。我们经常尝试量化判断以概率的形式——例如,估计前联系20%的成功机会为特定的活动,而后者估计有10%的几率,一种特殊的技术将在未来20年了。
我们认为重要的是要提高我们的判断的准确性,如果我们可以预测。我一直在做一个项目,探索是否有良好的研究普遍的问题,如何充分和准确的预测,和/或专家这个话题可能帮助我们。一些初步的想法。
简而言之:
- 有一个相对较薄的文献的科学预测。1在我看来,它的发现是实质性的和有用的,到目前为止,更多的研究在这个领域可以有前途的。
- 这个文学推荐一组小的“最佳实践”进行准确的预测,我们思考如何融入的过程。在我看来,这些“最佳实践”可能有用,鉴于和惊人的罕见。
- 在一个案例中,我们承包构建一个简单的在线申请凭证校准培训:培训用户准确地确定相信,他们应该在一个观点,和一致的和量化的方式来表达这种信心。我认为这是一个非常有用的技能在各种各样的领域,可以学到,(似乎)只有几个小时的训练。(更新:这个校准培训程序现在可用。)
我首先讨论最后这些点(凭证校准培训),因为我认为这是一个很好的介绍的各种有形的东西能提高预测能力。
1。校准的培训
精度的一个重要组成部分被称为“校准。精确校准的,“如果你是那意味着语句(包括预测)你有30%的信心是真的约30%的时间,声明你有70%的信心是真的约70%的时间,等等。
没有培训,大部分人都不是精确校准,而是过于自信的。声明他们有90%信心可能是真的只有70%的时间,和声明他们有75%的信心可能只有60%的时间是这样的。2但它是可能的“实践”校准通过分配概率的事实陈述,然后检查语句是否属实,随着时间的推移和跟踪的性能。几小时后,一个人可以练习数以百计的问题和发现模式如“当我80%的确信,我是正确的,只有65%的时间;也许我应该调整我的报告65% internally-experienced信心我之前与80%的水平。”
我最近参加了一个培训研讨会由校准哈伯德决策研究,这本质上是一个缩写版的经典描述的校准训练利希滕斯坦& Fischhoff (1980)。也是从其他组织参加了两个参与者,似乎不熟悉校准的想法,正如所料,非常自信在第一组问题。3但是,继续训练,他们的分数问题集开始改善,直到最后一个问题集,他们都取得了完美的校准。
对我来说,这有点令人鼓舞。这不是通常情况下,一个认知技能有用和domain-general概率校准可以训练,这样objectively-measured戏剧性的改善,在如此短的时间内。
我回顾了广泛的研究支持了这一印象。例如:
- Rieber (2004)列表”校准培训反馈”作为他的第一个建议改善校准,并总结了一些研究表明短期和长期改进校准。4特别是,几十年前,荷兰皇家壳牌(Royal Dutch Shell)开始提供校准他们的地质学家,他现在(据说)相当精确校准的预测哪些网站什么时候生产石油。5
- 自2001年以来,哈伯德决定研究跨多种行业培训超过1000人。分析数据从这些参与者,道格·哈伯德报告说,80%的人达到完美的校准(小问题)后几个小时的训练。他还声称,根据他的数据和至少一个控制(但不是随机)试验,这种培训预计后续实际预测成功。6
我应该注意校准不充分本身好预测。例如,您可以在一组精确校准的正确/错误语句,大约一半的陈述是真实的发生,只要回应“真的,有50%信心”每一个语句。这种性能精确校准的但不是很信息丰富的。理想情况下,一个专家会分配高信心语句可能会是真的,和低信心语句不太可能是正确的。专家可以这样做不仅精确校准,但也展现良好的“决议”(有时称为“歧视”)。如果我们把校准和决议,我们到达一定程度的准确性被称为“合适的评分规则。”7上述校准培训有时需要适当的计分规则,和训练人们可能精确校准,至少表现出一些决议,尽管最大的好处他们似乎(基于研究和我的观察)属于校准。
我之前培训的主要来源在校准游戏为了自动化这个过程。现在开放卡塔尔世界杯小组赛最新赛程出炉慈善项目与开发商合作,创建一个更广泛的校准培训游戏培训我们的员工;我们还将做游戏公开可用。
2。进一步的建议为提高判断准确性
下面我列举一些常见的建议为提高判断和预测的准确性(缺乏强有力的因果模型或统计数据),至少有一些支持学术文献,我发现直觉可能是有益的。8
- 火车概率推理:在一个特别引人注目的研究(Chang et al . 2016),一个小时的概率推理训练明显提高预测的准确性。9类似的培训提高了判断的准确性在一些早期的研究中,10和有时包含在校准培训。11
- 激励的准确性精度:在许多领域,激励是被强大的激励,激励等出现自信,娱乐,或信号组的忠诚。一些研究表明,精度可以提高仅仅通过提供足够强大的激励等精度的钱或同行的批准。12
- 考虑换个工作:一些研究表明可以提高判断的准确性,促使主题考虑替代假说。13
- 分解问题:另一个常见的建议是将问题分解成easier-to-estimate子问题。14
- 结合多个判断:通常,加权(有时“extremized”15)的组合多个受试者判断优于任何一个人的判断。16
- 相关的判断准确性:根据一些最引人注目的研究预测的准确性我见过,17良好的预测能力的关联包括“像狐狸一样思考”(即避开大理论关注很多凌乱的细节),强大的领域知识,一般认知能力,高分”需要认知”,“积极开放的思维,”和“认知反映”。
- 市场预测:我看到它认为,发现它直观,一个组织可能通过使用提高预测的准确性预测市场。我还没有研究预测市场的表现。
- 你想学到很多关于现象的预测:这个可能听起来很明显,但是我认为这是重要的标志,以避免留下这样的印象,即预测能力比现在更多的跨域/可概括的。一些研究显示,精度的提高可通过(或获得)专业领域。还有一个很普遍的假设,我发现从直观上看,是校准培训尤其有利于提高校准,并且专业知识有助于提高分辨率。18
从预测文献另一个有趣的结论是——和一致性的程度——一些专家表现出比别人更好的精度。例如,tournament-level桥玩家倾向于显示可靠精度好,而电视专家,政治科学家,和专业的未来学家似乎不是。19著名的最近结果比较真实的来自于一系列的准确性IARPA预测比赛,普通人互相竞争,和专业的情报分析人员(他们也有访问expensively-collected机密信息)来预测地缘政治事件。在泰特罗克和加德纳的报道Superforecasting相结合,预测由(以某种方式)表现最好的普通人们的预测(反复)更准确比训练有素的情报分析员。
3所示。通常人们如何寻求改善他们的主观判断的准确性?
当然许多组织,从金融机构(如看到法博齐2012运动队(例如看到《点球成金),使用复杂的定量模型来提高预测的准确性。但我问的问题是:缺乏强有力的模型和/或良好的数据,当决策者必须几乎完全依赖于人的主观判断,它有多普遍对于那些决策者明确投入大量精力改善(objectively-measured)这些主观判断的准确性?
总的来说,我的印象是,这个问题的答案是“有些很少,在大多数行业,即使上面列出的技术是众所周知的专家判断和预测的准确性。”
为什么我认为?在这个问题上很难得到很好的证据,但是我提供一些数据点在一个脚注。20.
4所示。想法我们探索改善GiveWell准确性和开放慈善项目人员卡塔尔世界杯小组赛最新赛程出炉
下面是一个列表的活动,旨在提高我们的判断和预测的准确性,是持续的,处于开发阶段,或在考虑GiveWell开放慈善项目:卡塔尔世界杯小组赛最新赛程出炉
- 如上所述,我们有简约的一组软件开发人员创建一个校准培训网络/电话申请员工和公众使用。(更新:这个校准培训程序现在可用。)
- 我们鼓励员工参与市场预测和预测比赛等PredictIt和良好的判断力开放,一些员工。
- 开放慈善项目和Gi卡塔尔世界杯小组赛最新赛程出炉veWell最近开始进行概率预测对我们的资助。开放的慈善项目,卡塔尔世界杯小组赛最新赛程出炉例如我们对最近拨款的预测菲利普Tetlock和CIWF。GiveWell,见如预测最近拨款证据的行动和异丙醇。我们也和跟踪一些额外的私下grant-related预测。这里的想法是能够衡量我们的准确性后,这些预测成真或伪造,也许是为了改善我们的准确性从过去的经验。到目前为止,我们仅仅是鼓励预测没有把太多的精力确保他们未来的可测性。
- 我们将尝试一些预测会议由一位经验丰富的“预测促进者”——人帮助引起预测从人们对他们正在做的工作,以一种试图尽可能翔实和乐于助人的。这可能会提高预测在前面提到的要点。
我目前负责改善预测的主要人开放慈善项目,我很感兴趣进一步的想法我们可以做什么。卡塔尔世界杯小组赛最新赛程出炉