如何准确做远程(≥10年)预测往往是,和我们应该依靠他们多少钱?
作为一个初步探索这个问题,我试图研究远程预测练习从过去的记录。不幸的是,我的钥匙找到迄今为止,很难从这些练习,学到很多有价值的有以下原因:
- 长期预测也经常说不严密地判断的准确性。(更多的]
- 即使预测准确,可能很难找到需要的信息检查预测的准确性。(更多的]
- 为远程预测很少量化程度的信心。(更多的]
- 在大多数情况下,没有比较“基线法”或“零模式”是可能的,这使得它很难评估最初的预测是多么简单或困难。(更多的]
- 激励预测精度通常不清楚或弱。(更多的]
- 很少的研究设计,让自信推断哪些因素导致了预测的准确性。(更多的]
- 很难知道可比过去预测练习grantmaking预测我们的目的,例如,因为我们所做的预测都是不同类型的,因为我们使用的训练和预测方法是不同的。(更多的]
我们计划继续对我们的工作做出长期量化预测,从长远来看,我们可能了解远程预测的可行性,至少对我们自己的情况。(更多的]
1。挑战从历史学习远程预测练习
大部分观点我看过关于远程预测纯粹是坊间的可行性。如果认为远程预测是可行的,作者列出了几个例子历史预测,事后看来是有先见之明的。但如果认为远程预测是困难的或不可能的,作者列出了几个例子的历史预测失败的严重。我们怎样才能做得更好?
理想的研究长期预测的可行性的方法是进行一系列精心设计的前瞻性实验测试各种预测方法在大量的各种远程预测。然而,这样做会要求我们等待≥10年每一个研究的结果,从错误中学习。
学习一些关于远程的可行性预测更快,我决定尝试评估远程预测从过去的记录。首先,我寻找系统的回顾性收集大量的长期预测的准确性进行评价。我发现一些这样的研究,但发现他们都遭受了许多下面讨论的局限性。[1]如。提醒& Perconti (2018);呸!咄! et al。(2013);奥尔布赖特(2002),我以前讨论的在这里;Parente & Anderson-Parente (2011)。
我还收集了过去长期预测的例子练习我可能评估的准确性,但很快确定,这样做会比结果需要更多的努力可能是值得的。最后,我伸出研究人员负责大规模特别透明的回顾性分析方法,[2]这是呸!咄! et al。(2013)。看到马林斯(2012)一段描述数据的收集和分析过程,并附电子表格的所有包括来源和预测以及他们如何进行评估研究。并委托他们生产的后续研究集中于长期预测。其结果也很难学习,再下面讨论的一些原因(等)。[3]马林斯委托随访研究(2018)。几本研究指出:这项研究是在OSF预注册登记。相对于预先登记,马林斯(2018)提取预测从一个稍微不同的源文件,因为一个计划中的源文件…继续阅读
1.1不严密地说预测
如果预测是一个模糊的措辞或含糊不清,很难或不可能随后判断其准确性。[4]为进一步讨论这一点,看到如Tetlock &加德纳(2015),ch。3。这可能是一个问题甚至非常短程预测,但长期的挑战往往是更大的预测,因为他们通常旨在使预测的情况下,技术,或措施…继续阅读
例如,考虑以下预测:[5]本节从预测的预测表格马林斯(2018)。在某些情况下他们是轻微的迂回的预测报表从源文件。
- 从1975年:“到2000年,跟踪与数据中继卫星系统(tdr)将获取和传递数据以千兆速度”。
- 从1980年:“世界人口将增长55%,从1975年的41亿人增加到63.5亿年的2000。”
- 从1977年:“汽车在美国的平均燃油效率将27至29英里每加仑2000年。”
- 从1972年:“有限公司2含量将达到380 ppm到2000年。”
- 从1987年开始:“在德国,在1990年,52.0%的女性年龄在15 - 64将注册为雇佣。”
- 从1967年:“欧洲经济共同体的装机功率将增长一百倍从1970年设定的3700兆瓦”到2000年的370000兆瓦。
一般来说,这些预测都表示现在有足够精度判断他们是正确或不正确的。
相比之下,考虑这些预测的低精度:
- 从1964年:“中央数据存储设备的操作与广泛的访问一般或专业信息检索将在1971年和1991年之间使用。“什么是”一个中央数据存储设备”?什么是“综合或专业信息检索”?或许最重要的是,什么是“宽”?的稳定增长(我们现在所称的)互联网1960年代末开始,这个预测可能被认为是适用于不同的几十年取决于我们解释“宽访问”指访问数以千计,数百万或数十亿人。
- 从1964年开始:“在2000年,通用免疫接种抵抗细菌和病毒的疾病将是可用的。“是什么意思“一般免疫?“作者的意思是通用流感疫苗了吗?他们的意思是预防一些重要和常见病原体的传播疫苗?他们是单一疫苗预防一些病原体意味着什么?
- 从1964年:“2000年,自动化将进一步拥有先进,从许多的机器人服务复杂,高智商的机器。”什么是“卑微的机器人服务”,多少算是“许多”?需要使用这些服务的广泛如何?一个高智商的机器是什么?将一台机器可以在智商测试中表现良好,但没有其他的算不算?将一台机器,可以超越人类一些经典的“高智商”任务(如国际象棋)算不算?
- 从1964年:“可靠的天气预报将在1972年和1988年之间使用。“准确性分数算得上“可靠的”?
- 从1983年开始:“在1983年和2000年之间,开发和管理的大型企业农场缺席业主不会占大量的农场。”什么是“大”企业农场吗?什么才算是“相当数量”?
在某些情况下,甚至可以判断措辞不准确预测毫无争议或真或假,如果所有合理的解释是正确的(或假)。但是在许多情况下,是不可能确定预测应判断为真或假。
不幸的是,它往往需要大量的技巧和努力把一个不精确的期望转变成一个精确的预测,尤其是对长期预测。[6]从技术上讲,可以将几乎任何精确预测转换成精确的预测使用“人类法官”的方法,但这往往是非常昂贵的。“人类的法官”的方法,人会写下一个不精确的预测,也许还有…继续阅读
在这种情况下,一个可以选择投入大量精力提高精度的预测声明,也许在人的帮助下开发了大量专业知识的方法解决这个困难(例如“团队”问题良好的判断力。)。或者,一个可以预测尽管它不精确,显示一些关于一个人的期望,而理解是不可能随后判断为真或假。
无论如何,历史远程的频繁的不精确预测很难评估的准确性。
1.2实际上uncheckable预测
即使预测准确,可能很难检查准确性如果所需的信息来判断预测非公有制,很难找到,靠不住的,或不可用。这可以成为一个对远程预测尤其常见的问题,例如因为可靠测量的变量(例如,由一个政府机构)预测时可能不再可靠地测量时预测的“截止日期”。
例如,我们最近委托进行的研究中,[7]看到预测表格上马林斯(2018)。以下预测说有相对较高的精度,但它却很难找到可靠的“地面实况”信息来源,可以用来判断最初预测的具体要求:
- 从1967年:“到2000年,美国将包括大约2.32亿人14岁以上。”委托开展的研究发现两个“地面实况”来源这个预测判断,但一些猜测仍是必需的,因为两个来源不同意对方,和一个源信息的人口15及以上但不是14岁及以上。
- 从1980年开始:“在2000年,将有400个城市超过了百万人口。”在这种情况下有一些歧义:如何计算一个城市,但是即使我们一边,委托进行的研究发现两个“真理”来源这个预测判断,但一些猜测仍是必需的,因为这些数据源包括数据几年(暗示特定的平均趋势,可以推断)而不是2000年。
1.3 Non-quantified程度的信心
在大多数预测练习我看过,预报员提供很少或没有指示如何自信他们的预期,这使得它难以评估其总体精度以一种有意义的方式。例如,如果50%的预报员预测是正确的,我们将评估他们的准确性非常不同,如果他们把这些预测有90%的信心比50%的信心。如果程度的信心没有量化,没有办法比较预报员的主观目标频率的可能事件。[8]最近的一个建议推断出预测的概率的精确预测语言雷纳et al。(2012)。我希望看到这个方法验证之前更广泛依赖它。
不幸的是,在我见过的长期预测演习,程度的信心往往没有提到。如果他们提到,预测者通常使用精确的语言,比如“可能”或“可能”,可以用来指非常不同程度的信心。[9]如看到图18在第十二章的豪雅(1999);由Reddit.com用户zonination复制研究在这里;惠顿(2008);Mosteller & Youtz (1990);冒伯新&冒伯新(2018)(原来的结果在这里);表1的曼德尔(2015)。我没有这些研究审查。有时这样的不精确会导致错误的决定,[10]Tetlock &加德纳(2015),ch。3,给下面的(可能的)例子:1961年,当美国中央情报局被着陆计划推翻卡斯特罗政府一小队古巴猪湾侨民,约翰·肯尼迪总统转向军事一个公正的评估。联合…继续阅读这意味着这样的预测不能评估使用校准和解决精度的措施。
1.4没有比较基线或零模型方法是可行的
使大量的正确预测的一种方法是让只有简单的预测,如”。在10年,世界人口将超过50亿。”一个也可以使用这个策略出现惊人的精确校准,如通过预测像“有50%的信心,当我翻这个硬币它将出现。“因为预测困难可以有很大区别,它可以误导比较预测的准确性预测了不同的现象。[11]最近的一个方案来处理这个问题是使用项目反应理论,所述Bo et al .(2017):传统的估计预测的专业知识(例如,他或她的意思是荆棘得分,基于所有事件预测)是内容相关的,所以人们可以转让或高或…继续阅读
例如,预报员预测数据丰富的领域(如运动或天气)可能会更好野蔷薇的分数比预测做出预测分析法逐渐失宠域(如小说社会运动或罕见灾害),但这并不意味着运动和天气预报是更好或更令人印象深刻的“预测者——这可能是他们自己有限easier-to-forecast现象。
评估事前困难的一些预测,一个可以比较的准确性预测练习的努力地预测对预测的准确性产生相同的语句所产生的一些天真的“基线”的方法,例如,一个简单的调查普遍受过教育的人(当时进行最初的预测运动),或者一个简单的线性外推的趋势(如果时间序列数据可供现象问题)。不幸的是,这种幼稚的基线比较经常缺货。
即使没有比较天真的基准方法的准确性是可用的,你可以有时比较一组预测的准确性和精度预测的“零模式”“随机”的预测。例如,对于预测比赛中描述泰特罗克(2005),所有预测问题与答案选项,相互排斥,相互不全面,例如“将(有些人)仍然是总统[日期]?”或“将一些州的边界保持不变,扩张,或合同(一些日期)?”[12]看到的方法论的附录泰特罗克(2005)。
因此,Tetlock知道的几率“玩飞镖黑猩猩”(即随机预测)将每个问题(50%的机会第一个问题,1/3的机会第二个问题)。然后,他可以比较专家预测的准确性random-forecast“零模型的准确性。“不幸的是,长期预测的预测问题练习我看到很少允许建设的一个空模型比较产生的(努力)预测预测运动。[13]这包括零模型中使用呸!咄! et al。(2013)和马林斯(2018),我找不到令人信服。
1.5不清楚或弱激励准确性
对于大多数远程预测练习我见过,要么是不清楚有多少激励是预测者争取准确性,或激励精度似乎很清楚。
例如,在许多远程预测练习,似乎是没有具体的计划检查的准确性研究在特定时间的预测在未来——事实上,即使是最引人注目的远程预测研究的预测我看过是从来没有检查的准确性(据我所知),至少不是任何人都与最初的研究或由相同的资助者或资助者(年代)。没有一个具体的计划检查的准确性预测,多强激励预测精度可以吗?
此外,远程预测练习很少结构化预测比赛,与多个个人、团体,或方法竞争做出最准确的预测相同的预测问题(或严重重叠的预测集的问题)。因此,没有办法比较一个个人或团体或方法的准确性,又不清楚的预报准确率有很多动力去争取。
此外,一些研究是建立最终检查的准确性预测没有使用一个得分规则,可靠地鼓励报告真实的概率,即一个合适的评分规则。
1.6弱因果识别策略
即使一项研究通过上述许多障碍,有明显证明了精度差异不同的预测方法,仍然可以很难了解哪些因素做出了贡献这些精度差异如果不是结构化的学习随机对照试验,没有其他强大的因果关系识别策略是可用的。[14]健壮的因果的棘手挑战识别从观测数据,如见。阿塞& Imbens (2017)和赫尔南&罗宾斯(即将出版)。
1.7不清楚与我们自己的长期预测
我还没有一项研究发现,(1)评估大量的各种的准确性[15]“有所不同”,我的意思是排除研究如局限于预测变量的大量的时间序列数据是可用的,或变量在一个非常狭窄的领域如少数宏观经济指标或少量的环境指标。长期(≥10年)预测,(2)避免上述局限性。请如果你知道这样的研究请让我知道。
泰特罗克的“专家政治判断”项目(EPJ;Tetlock 2005)和他的“良好的判断力项目”(GJP;Tetlock &加德纳2015)可能会接近满足这些标准,这是一个主要的原因我们有优先学习我们可以从Tetlock专门(如看到的预测工作在这里),并支持他正在进行的研究。
泰特罗克的工作没有关注远程预测特别,而是因为Tetlock的工作很大程度上(但不完全)避免上面的其他限制,我将简要地探讨我认为我们能做什么和不能从他的工作了解远程预测的可行性,并用它来探索其他更为普遍的问题,如何不清楚相关的长期预测的研究自己的预测,即使他们在很大程度上避免上面讨论的其他限制。
1.7.1上Tetlock、远程预测和相关性的问题
大多数GJP预测时间范围1 - 6个月,[16]参见图3的2015年12月这个草案最终论文的发表(没有图)弗里德曼et al。(2018)。因此可以告诉我们一些关于远程(≥10年)预测的可行性。[17]尽管如此,我认为我们可以从GJP有点了解远程预测的可行性。判断项目的年4年度报告IARPA(未发表),名为“探索最优预测前沿,”检查预测精度的函数…继续阅读
Tetlock EPJ的研究,然而,预报员预测视野的问各种各样的问题1 - 25年。(预测视野的1、3、5、10日或25年最常见的)。不幸的是,泰特罗克(2005)的时候,只有几个十年预测(和25年的预测)已经到期,所以泰特罗克(2005)只报告结果准确性的预测与预报的视野被他描述为“短期”(1 - 2年)和“长期”(一般3 - 5年,加上一些长期预测,到期)。[18]预测描述视野下“类型的预测问题”的方法论的附录Tetlock (2005)。“短期”和“长期”的定义是通过个人通信提供了研究这一事实是只有几个…继续阅读
短期和长期预测的精度不同分数EPJ有时被用来支持一个声称专家预测的准确性下降到五年的机会。[19]例如Tetlock自己说“没有证据表明地缘政治或经济预测可以预测任何十年超出了极其明显的,会有冲突的,奇怪的幸运来临,是不可避免的时候很多预测使很多…继续阅读
虽然确实精度下降”向“机会五年,泰特罗克(2005)报告的准确性的差异并不是那么大我曾以为在最初听到这一说法(见脚注详情[20]Tetlock(2005)报告两个校准(又名决议)成绩分数和歧视,并解释说:“一台校准分幅表明,预测者的主观概率背离客观频率,平均约10%;.04点分,平均差距…继续阅读)。幸运的是,我们可能很快就能够了解更多关于远程EPJ数据预测,因为大多数EPJ预测(包括大多数25年的预测)将在2022年已经解决。[21]与菲尔Tetlock个人沟通。根据确认部分的研究(2005),所有EPJ预期将在2026年到期。
或许更重要的是,如何预测类似的提问EPJ grantmaker我们面临的预测问题,以及类似的情况是EPJ预测,我们发现自己在吗?
的背景下,一些(转述)代表例子“长期”预测EPJ提出的问题包括:[22]下面是一个简短的总结EPJ预测问题,图纸和引用Tetlock(2005)的方法论的附录:每个专家被要求做短期和长期预测,关于“每四个国家(两个内部和两个专业以外的领域)…继续阅读
- 从现在开始的两次选举中,将当前多数的议会(一些稳定的民主国家)失去多数席位,保留其多数,或加强其多数?
- 在未来五年,将GDP增长率(一些国家)加速,减速,或保持相同的呢?
- 未来十年,将国防开支的比例(一些国家)支出上升,下降,或保持相同的呢?
- 在接下来的10 / 25年,将[状态]部署大规模杀伤性核武器或生化武器(根据美国中央情报局概况)?
几个观察想到我认为类比和非类比EPJ之间的预测和“长期”远程grantmaker我们所做的预测:[23]这些观察重叠与上面列出的其他限制。
- 在我们历史上的大部分时间里,我们已经知道的结果从EPJ GJP和能够应用到我们的预测,这当然不是真的EPJ预测者。例如,我们的许多工作人员知道它是最好开始预期从一个可用的基准利率,这可能很多事情不能有更好的预测精度比机会(比如哪个政党会在大多数从现在开始的两次选举中)。我们的许多员工也做了多个小时的显式校准培训,和我的感觉是,很少(如果有的话)EPJ预测可能做校准培训前预测。一些我们的员工也参加了一个良好的判断力。预测培训班。
- EPJ预测问题是仔细挑选,这样他们(a)所述精确到可以极大的判断准确性,(b)和集体回答互斥的选项和详尽的准备(或连续),(c)是服从基准利率预测(尽管基准利率并没有提供预测),和满足其他条件所需的严格的研究设计。[24]在其他条件,看到Tetlock的方法论的附录(2005)。相比之下,我们的大多数预测问题(1)规定不严密地(因为格兰特的决定因素,最重要的是~不可能或付出巨大代价状态精确),(2)由预报员很快制定时(即,格兰特调查员)填写我们的内部格兰特帐面价值的模板,因此不跟已有的答案选项,和(3)很少有明确的基准利率数据来学习。总的来说,这可能暗示我们应该(忽略其他因素)期望精度低于在EPJ观察,如因为我们制定的问题,使预测对他们如此之快。这也意味着我们不能够从我们的预测,因为他们中许多人说太不严密地判断的准确性。
- 我不确定EPJ问题问及现象”的本质是“容易或难以预测比我们试图预测的现象。如党的控制在建立民主国家经常变化,因此很难预测甚至一个或两个提前选举,而我们的一些grantmaking实质上是基于稳定的长期趋势的延续。另一方面,我们的许多预测(如上所述)现象缺乏明显相关的基准利率数据推断,或者(在某些情况下)没有以前发生的事件。
- 动机是如何EPJ预报员争取准确吗?可能严格的设置和具体的计划来衡量预测精度为精度提供了实质性的奖励,但另一方面,EPJ预测者知道他们的答案和准确性分数将是匿名的。同时,明确的预测是一个相对较小的组件开菲尔的员工的工作,我们不严格设置意味着鼓励准确性可能很弱,而且我们(个人识别)预测可见到许多其他员工。
相似的类比和非类比等也会出现在比较我们的预测情况的预测者参与其他研究的长期预测。不应使用这个借口,以避免当我们应该借鉴研究,但它确实意味着它可能难以评估我们应该了解自己的情况甚至非常精心设计研究的长期预测。
2。我们目前的态度长期预测
尽管我们无法了解多少(到目前为止)远程预测的可行性,因此也对长期预测的最佳实践,我们计划继续对我们的工作做出长期量化预测,从长远来看,我们可能了解远程预测的可行性,至少对我们自己的情况。我们计划在未来多说关于我们学到预测在我们自己的grantmaking背景下,特别是在大量的内部预测到期,然后判断准确性。
脚注
↑1 | 如。提醒& Perconti (2018);呸!咄! et al。(2013);奥尔布赖特(2002),我以前讨论的在这里;Parente & Anderson-Parente (2011)。 | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
↑2 | 这是呸!咄! et al。(2013)。看到马林斯(2012)一段描述数据的收集和分析过程,并附电子表格的所有包括来源和预测以及他们如何进行评估研究。 | |||||||||||||||
↑3 | 委托进行后续研究马林斯(2018)。几本研究笔记:
因为马林斯(2018)是模仿呸!咄! et al。(2013)提前,我们知道它会有一些在这篇文章中描述的局限性,但我们希望能从中学到一些东西,尤其是考虑到计划基础原始数据的可用性。不幸的是,在完成我们发现额外的研究的局限性。 例如,马林斯(2018)隐式地解释所有预测的形式“时间预测事件X将首先发生在大约一年。“这有一些优势(如允许一个实施一些“大约正确”的概念),但它也会导致违反直觉的判断在许多情况下:
还有其他限制马林斯(2018)的数据和分析,我们认为一个不应该得出主要的实质性的结论。然而,它可能是一个有用的长期预测,可以使用替代方法判断和分析的准确性。 谢谢凯瑟琳Finlinson和巴斯蒂安·斯特恩对他们的帮助评估这份报告。 |
|||||||||||||||
↑4 | 为进一步讨论这一点,看到如。Tetlock &加德纳(2015),ch。3。这可能是一个问题甚至非常短程预测,但长期的挑战往往是更大的预测,因为他们通常旨在使预测的情况下,技术,或措施,当时还没有明确的预测。 | |||||||||||||||
↑5 | 本节从预测的预测表格马林斯(2018)。在某些情况下他们是轻微的迂回的预测报表从源文件。 | |||||||||||||||
↑6 | 从技术上讲,可以将几乎任何精确预测转换成精确的预测使用“人类法官”的方法,但这往往是非常昂贵的。“人类法官”的方法,人会写下一个不精确的预测,也许还有一些配套材料的动机和推理和实例,不满足预期的意图,然后指定一个人类法官(或评委的)后来将决定一个人的不精确的预测应该判断真假(或者,每个法官能给利开特式量表评定的“准确”或“如何清晰准确“预测)。然后,一个可以精确的对未来的预测判断法官(s)。精确的预测,将预测这种现象一个愿望来预测,以及法官的心理和行为。当然,一个人的准确预测也必须占到一个或多个法官的可能性将不愿或无法提供判断所需的时间。 这种“人类判断”方法的一个例子是以下Metaculus预测平台发布预测:“将全新的低能核反应技术被证明是有效的在2019年之前?”在这种情况下,精确的(但仍有些不精确)预测声明:“12月31日,2018年,安德里亚·罗西/莱昂纳多/工业加热或罗伯特Godes /布里渊能源产生了相当令人信服的证据(凭证> 50%),他们的新技术[…]生成大量多余的热量相对于电和化学输入?”,因为还有一些模糊如应该算作“令人信服的证据,“问题页面还指定了“赌将定居(Huw)价格和卡尔·舒尔曼在2018年新年前夜,和在分歧的情况下应当听从多数投票的一个由三位物理学家:安东尼•Aguirre Martin Rees,组成。” |
|||||||||||||||
↑7 | 看到预测表格上马林斯(2018)。 | |||||||||||||||
↑8 | 最近的一个建议推断出预测的概率的精确预测语言雷纳et al。(2012)。我希望看到这个方法验证之前更广泛依赖它。 | |||||||||||||||
↑9 | 如看到图18在第十二章的豪雅(1999);由Reddit.com用户zonination复制研究在这里;惠顿(2008);Mosteller & Youtz (1990);冒伯新&冒伯新(2018)(原来的结果在这里);表1的曼德尔(2015)。我没有这些研究审查。 | |||||||||||||||
↑10 | Tetlock &加德纳(2015)、ch。3、给下列例子(可能):
|
|||||||||||||||
↑11 | 最近的一个建议是使用来处理这个问题项目反应理论描述的一样,Bo et al . (2017):
我没有详细评估这种方法,希望看到它由其他专家评论和验证。 对这一普遍的挑战,参见“Difficulty-adjusted概率评分”的讨论的技术附件泰特罗克(2005)。 |
|||||||||||||||
↑12 | 看到的方法论的附录泰特罗克(2005)。 | |||||||||||||||
↑13 | 这包括零模型中使用呸!咄! et al。(2013)和马林斯(2018),我找不到令人信服。 | |||||||||||||||
↑14 | 健壮的因果的棘手挑战识别从观测数据,如见。阿塞& Imbens (2017)和赫尔南&罗宾斯(即将出版)。 | |||||||||||||||
↑15 | “有所不同”,我的意思是排除研究如局限于预测变量的大量的时间序列数据是可用的,或变量在一个非常狭窄的领域如少数宏观经济指标或少量的环境指标。 | |||||||||||||||
↑16 | 参见图3的2015年12月这个草案最终论文的发表(没有图)弗里德曼et al。(2018)。 | |||||||||||||||
↑17 | 尽管如此,我认为我们可以学习一个小从GJP远程预测的可行性。良好的判断力项目的年4年度报告IARPA(未发表),名为“探索最优预测前沿,”检查预测的准确性预测地平线的函数在这个图(与许可复制): 这个图表使用精度统计称为AUC /中华民国(见Steyvers et al . 2014)来表示二进制的准确性,无条件的预测,在不同的时间范围,在年GJP 2 - 4。粗略地说,这张表解决了问题:“在不同的预测地平线,频率(平均)预测在可能的右侧(即超过50%的信心二进制选项,被证明是正确的),在0.5代表“没有比机会”,1代表“总是右边也许”?” 对我们来说,关键结果如上所示,大致说来,(1)常规预测做大约这个指标上没有比机会在每个问题~ 375天前关闭,(2)superforecasters实质上比机会在这个指标~ 375天前每个问题关闭,(3)常规预测和superforecasters都几乎总是“也许右边”立即在每个问题关闭前,和(4)superforecasters大致准确在这个指标在每个问题关闭~ 125天前他们在每个问题~ 375天前关闭。 如果GJP涉及问题大大长时间视野,多快会superforecaster准确性下降时间视野?我们无法知道,但是上面的推断结果至少是兼容的答案“相当缓慢。” 当然仍有其他问题如何类似GJP问题类型的问题,我们和其他演员试图作出长期预测。 |
|||||||||||||||
↑18 | 预测描述视野下“类型的预测问题”的方法论的附录Tetlock (2005)。“短期”和“长期”的定义是通过个人通信提供了研究的是只有几个十年预测可以包含在分析Tetlock (2005)。 | |||||||||||||||
↑19 | 例如Tetlock自己说“没有证据表明地缘政治或经济预测可以预测任何十年超出了极其明显的,会有冲突的,奇怪的幸运来临,是不可避免的时候大量的预测使大量的预测。这些限制可预测性的蝴蝶动态非线性系统的可预测的结果。在我EPJ研究,专家预测的准确性下降对机会五年了”(Tetlock &加德纳2015,p . 243)。 | |||||||||||||||
↑20. | 泰特罗克(2005)报告校准分数和歧视(即分辨率)的分数解释说:“一台校准分幅表明,预测者的主观概率背离客观频率,平均约10%;.04点分,平均20%的差距。歧视分幅表明预测,平均预测大约6%的总变化的结果;.04点分,他们占领了24%”(Tetlock 2005 ch。2)。有关详细信息,请参阅本书的技术附件Tetlock的校准和歧视成绩计算。 鉴于这种评分系统,研究的结果在短期和长期预测的准确性:
从图2.4的数据上面Tetlock (2005)。我已经改名为“业余爱好者”到“非专家”。 另请参阅这个表格,其中包含额外的短期与长期精度比较图3.2的数据点估计Tetlock(2005)使用WebPlotDigitizer。看到ch。3和泰特罗克(2005)的技术附件细节如何解释这些数据点。还要注意,在图3.2的标题有一个错字;我与Tetlock证实这句话读“长期(1、2、5、7…)”应该是“长期(1、3、5、7…)。” |
|||||||||||||||
↑21 | 与菲尔Tetlock个人沟通。根据确认部分的研究(2005),所有EPJ预期将在2026年到期。 | |||||||||||||||
↑22 | 这是一个简短的总结EPJ预测问题,图纸和引用Tetlock(2005)的方法论的附件:
|
|||||||||||||||
↑23 | 这些观察重叠与上面列出的其他限制。 | |||||||||||||||
↑24 | 在其他条件,看到Tetlock的方法论的附录(2005)。 |