如何远程预报是可行的?——卡塔尔世界杯小组赛最新赛程出炉开放的慈善事业

发表:2019年10月10日 |通过路加福音Muehlhauser

如何准确做远程(≥10年)预测往往是,和我们应该依靠他们多少钱?

作为一个初步探索这个问题,我试图研究远程预测练习从过去的记录。不幸的是,我的钥匙找到迄今为止,很难从这些练习,学到很多有价值的有以下原因:

长期预测也经常说不严密地判断的准确性。(更多的]
即使预测准确,可能很难找到需要的信息检查预测的准确性。(更多的]
为远程预测很少量化程度的信心。(更多的]
在大多数情况下,没有比较“基线法”或“零模式”是可能的,这使得它很难评估最初的预测是多么简单或困难。(更多的]
激励预测精度通常不清楚或弱。(更多的]
很少的研究设计,让自信推断哪些因素导致了预测的准确性。(更多的]
很难知道可比过去预测练习grantmaking预测我们的目的,例如,因为我们所做的预测都是不同类型的,因为我们使用的训练和预测方法是不同的。(更多的]

我们计划继续对我们的工作做出长期量化预测,从长远来看,我们可能了解远程预测的可行性,至少对我们自己的情况。(更多的]

1。挑战从历史学习远程预测练习

大部分观点我看过关于远程预测纯粹是坊间的可行性。如果认为远程预测是可行的,作者列出了几个例子历史预测,事后看来是有先见之明的。但如果认为远程预测是困难的或不可能的,作者列出了几个例子的历史预测失败的严重。我们怎样才能做得更好?

理想的研究长期预测的可行性的方法是进行一系列精心设计的前瞻性实验测试各种预测方法在大量的各种远程预测。然而,这样做会要求我们等待≥10年每一个研究的结果,从错误中学习。

学习一些关于远程的可行性预测更快,我决定尝试评估远程预测从过去的记录。首先,我寻找系统的回顾性收集大量的长期预测的准确性进行评价。我发现一些这样的研究,但发现他们都遭受了许多下面讨论的局限性。^[1]如。提醒& Perconti (2018);呸!咄! et al。(2013);奥尔布赖特(2002),我以前讨论的在这里;Parente & Anderson-Parente (2011)。

我还收集了过去长期预测的例子练习我可能评估的准确性,但很快确定,这样做会比结果需要更多的努力可能是值得的。最后,我伸出研究人员负责大规模特别透明的回顾性分析方法,^[2]这是呸!咄! et al。(2013)。看到马林斯(2012)一段描述数据的收集和分析过程,并附电子表格的所有包括来源和预测以及他们如何进行评估研究。并委托他们生产的后续研究集中于长期预测。其结果也很难学习,再下面讨论的一些原因(等)。^[3]马林斯委托随访研究(2018)。几本研究指出:这项研究是在OSF预注册登记。相对于预先登记,马林斯(2018)提取预测从一个稍微不同的源文件,因为一个计划中的源文件…继续阅读

1.1不严密地说预测

如果预测是一个模糊的措辞或含糊不清,很难或不可能随后判断其准确性。^[4]为进一步讨论这一点,看到如Tetlock &加德纳(2015),ch。3。这可能是一个问题甚至非常短程预测,但长期的挑战往往是更大的预测,因为他们通常旨在使预测的情况下,技术,或措施…继续阅读

例如,考虑以下预测:^[5]本节从预测的预测表格马林斯(2018)。在某些情况下他们是轻微的迂回的预测报表从源文件。

从1975年:“到2000年,跟踪与数据中继卫星系统(tdr)将获取和传递数据以千兆速度”。
从1980年:“世界人口将增长55%,从1975年的41亿人增加到63.5亿年的2000。”
从1977年:“汽车在美国的平均燃油效率将27至29英里每加仑2000年。”
从1972年:“有限公司₂含量将达到380 ppm到2000年。”
从1987年开始:“在德国,在1990年,52.0%的女性年龄在15 - 64将注册为雇佣。”
从1967年:“欧洲经济共同体的装机功率将增长一百倍从1970年设定的3700兆瓦”到2000年的370000兆瓦。

一般来说,这些预测都表示现在有足够精度判断他们是正确或不正确的。

相比之下,考虑这些预测的低精度:

从1964年:“中央数据存储设备的操作与广泛的访问一般或专业信息检索将在1971年和1991年之间使用。“什么是”一个中央数据存储设备”?什么是“综合或专业信息检索”?或许最重要的是,什么是“宽”?的稳定增长(我们现在所称的)互联网1960年代末开始,这个预测可能被认为是适用于不同的几十年取决于我们解释“宽访问”指访问数以千计,数百万或数十亿人。
从1964年开始:“在2000年,通用免疫接种抵抗细菌和病毒的疾病将是可用的。“是什么意思“一般免疫?“作者的意思是通用流感疫苗了吗?他们的意思是预防一些重要和常见病原体的传播疫苗?他们是单一疫苗预防一些病原体意味着什么?
从1964年:“2000年,自动化将进一步拥有先进,从许多的机器人服务复杂,高智商的机器。”什么是“卑微的机器人服务”,多少算是“许多”?需要使用这些服务的广泛如何?一个高智商的机器是什么?将一台机器可以在智商测试中表现良好,但没有其他的算不算?将一台机器,可以超越人类一些经典的“高智商”任务(如国际象棋)算不算?
从1964年:“可靠的天气预报将在1972年和1988年之间使用。“准确性分数算得上“可靠的”?
从1983年开始:“在1983年和2000年之间,开发和管理的大型企业农场缺席业主不会占大量的农场。”什么是“大”企业农场吗?什么才算是“相当数量”?

在某些情况下,甚至可以判断措辞不准确预测毫无争议或真或假,如果所有合理的解释是正确的(或假)。但是在许多情况下,是不可能确定预测应判断为真或假。

不幸的是,它往往需要大量的技巧和努力把一个不精确的期望转变成一个精确的预测,尤其是对长期预测。^[6]从技术上讲,可以将几乎任何精确预测转换成精确的预测使用“人类法官”的方法,但这往往是非常昂贵的。“人类的法官”的方法,人会写下一个不精确的预测,也许还有…继续阅读

在这种情况下,一个可以选择投入大量精力提高精度的预测声明,也许在人的帮助下开发了大量专业知识的方法解决这个困难(例如“团队”问题良好的判断力。)。或者,一个可以预测尽管它不精确,显示一些关于一个人的期望,而理解是不可能随后判断为真或假。

无论如何,历史远程的频繁的不精确预测很难评估的准确性。

1.2实际上uncheckable预测

即使预测准确,可能很难检查准确性如果所需的信息来判断预测非公有制,很难找到,靠不住的,或不可用。这可以成为一个对远程预测尤其常见的问题,例如因为可靠测量的变量(例如,由一个政府机构)预测时可能不再可靠地测量时预测的“截止日期”。

例如,我们最近委托进行的研究中,^[7]看到预测表格上马林斯(2018)。以下预测说有相对较高的精度,但它却很难找到可靠的“地面实况”信息来源,可以用来判断最初预测的具体要求:

从1967年:“到2000年,美国将包括大约2.32亿人14岁以上。”委托开展的研究发现两个“地面实况”来源这个预测判断,但一些猜测仍是必需的,因为两个来源不同意对方,和一个源信息的人口15及以上但不是14岁及以上。
从1980年开始:“在2000年,将有400个城市超过了百万人口。”在这种情况下有一些歧义:如何计算一个城市,但是即使我们一边,委托进行的研究发现两个“真理”来源这个预测判断,但一些猜测仍是必需的,因为这些数据源包括数据几年(暗示特定的平均趋势,可以推断)而不是2000年。

1.3 Non-quantified程度的信心

在大多数预测练习我看过,预报员提供很少或没有指示如何自信他们的预期,这使得它难以评估其总体精度以一种有意义的方式。例如,如果50%的预报员预测是正确的,我们将评估他们的准确性非常不同,如果他们把这些预测有90%的信心比50%的信心。如果程度的信心没有量化,没有办法比较预报员的主观目标频率的可能事件。^[8]最近的一个建议推断出预测的概率的精确预测语言雷纳et al。(2012)。我希望看到这个方法验证之前更广泛依赖它。

不幸的是,在我见过的长期预测演习,程度的信心往往没有提到。如果他们提到,预测者通常使用精确的语言,比如“可能”或“可能”,可以用来指非常不同程度的信心。^[9]如看到图18在第十二章的豪雅(1999);由Reddit.com用户zonination复制研究在这里;惠顿(2008);Mosteller & Youtz (1990);冒伯新&冒伯新(2018)(原来的结果在这里);表1的曼德尔(2015)。我没有这些研究审查。有时这样的不精确会导致错误的决定,^[10]Tetlock &加德纳(2015),ch。3,给下面的(可能的)例子:1961年,当美国中央情报局被着陆计划推翻卡斯特罗政府一小队古巴猪湾侨民,约翰·肯尼迪总统转向军事一个公正的评估。联合…继续阅读这意味着这样的预测不能评估使用校准和解决精度的措施。

1.4没有比较基线或零模型方法是可行的

使大量的正确预测的一种方法是让只有简单的预测,如”。在10年,世界人口将超过50亿。”一个也可以使用这个策略出现惊人的精确校准,如通过预测像“有50%的信心,当我翻这个硬币它将出现。“因为预测困难可以有很大区别,它可以误导比较预测的准确性预测了不同的现象。^[11]最近的一个方案来处理这个问题是使用项目反应理论,所述Bo et al .(2017):传统的估计预测的专业知识(例如,他或她的意思是荆棘得分,基于所有事件预测)是内容相关的,所以人们可以转让或高或…继续阅读

例如,预报员预测数据丰富的领域(如运动或天气)可能会更好野蔷薇的分数比预测做出预测分析法逐渐失宠域(如小说社会运动或罕见灾害),但这并不意味着运动和天气预报是更好或更令人印象深刻的“预测者——这可能是他们自己有限easier-to-forecast现象。

评估事前困难的一些预测,一个可以比较的准确性预测练习的努力地预测对预测的准确性产生相同的语句所产生的一些天真的“基线”的方法,例如,一个简单的调查普遍受过教育的人(当时进行最初的预测运动),或者一个简单的线性外推的趋势(如果时间序列数据可供现象问题)。不幸的是,这种幼稚的基线比较经常缺货。

即使没有比较天真的基准方法的准确性是可用的,你可以有时比较一组预测的准确性和精度预测的“零模式”“随机”的预测。例如,对于预测比赛中描述泰特罗克(2005),所有预测问题与答案选项,相互排斥,相互不全面,例如“将(有些人)仍然是总统[日期]?”或“将一些州的边界保持不变,扩张,或合同(一些日期)?”^[12]看到的方法论的附录泰特罗克(2005)。

因此,Tetlock知道的几率“玩飞镖黑猩猩”(即随机预测)将每个问题(50%的机会第一个问题,1/3的机会第二个问题)。然后,他可以比较专家预测的准确性random-forecast“零模型的准确性。“不幸的是,长期预测的预测问题练习我看到很少允许建设的一个空模型比较产生的(努力)预测预测运动。^[13]这包括零模型中使用呸!咄! et al。(2013)和马林斯(2018),我找不到令人信服。

1.5不清楚或弱激励准确性

对于大多数远程预测练习我见过,要么是不清楚有多少激励是预测者争取准确性,或激励精度似乎很清楚。

例如,在许多远程预测练习,似乎是没有具体的计划检查的准确性研究在特定时间的预测在未来——事实上,即使是最引人注目的远程预测研究的预测我看过是从来没有检查的准确性(据我所知),至少不是任何人都与最初的研究或由相同的资助者或资助者(年代)。没有一个具体的计划检查的准确性预测,多强激励预测精度可以吗?

此外,远程预测练习很少结构化预测比赛,与多个个人、团体,或方法竞争做出最准确的预测相同的预测问题(或严重重叠的预测集的问题)。因此,没有办法比较一个个人或团体或方法的准确性,又不清楚的预报准确率有很多动力去争取。

此外,一些研究是建立最终检查的准确性预测没有使用一个得分规则,可靠地鼓励报告真实的概率,即一个合适的评分规则。

1.6弱因果识别策略

即使一项研究通过上述许多障碍,有明显证明了精度差异不同的预测方法,仍然可以很难了解哪些因素做出了贡献这些精度差异如果不是结构化的学习随机对照试验,没有其他强大的因果关系识别策略是可用的。^[14]健壮的因果的棘手挑战识别从观测数据,如见。阿塞& Imbens (2017)和赫尔南&罗宾斯(即将出版)。

1.7不清楚与我们自己的长期预测

我还没有一项研究发现,(1)评估大量的各种的准确性^[15]“有所不同”,我的意思是排除研究如局限于预测变量的大量的时间序列数据是可用的,或变量在一个非常狭窄的领域如少数宏观经济指标或少量的环境指标。长期(≥10年)预测,(2)避免上述局限性。请如果你知道这样的研究请让我知道。

泰特罗克的“专家政治判断”项目(EPJ;Tetlock 2005)和他的“良好的判断力项目”(GJP;Tetlock &加德纳2015)可能会接近满足这些标准,这是一个主要的原因我们有优先学习我们可以从Tetlock专门(如看到的预测工作在这里),并支持他正在进行的研究。

泰特罗克的工作没有关注远程预测特别,而是因为Tetlock的工作很大程度上(但不完全)避免上面的其他限制,我将简要地探讨我认为我们能做什么和不能从他的工作了解远程预测的可行性,并用它来探索其他更为普遍的问题,如何不清楚相关的长期预测的研究自己的预测,即使他们在很大程度上避免上面讨论的其他限制。

1.7.1上Tetlock、远程预测和相关性的问题

大多数GJP预测时间范围1 - 6个月,^[16]参见图3的2015年12月这个草案最终论文的发表(没有图)弗里德曼et al。(2018)。因此可以告诉我们一些关于远程(≥10年)预测的可行性。^[17]尽管如此,我认为我们可以从GJP有点了解远程预测的可行性。判断项目的年4年度报告IARPA(未发表),名为“探索最优预测前沿,”检查预测精度的函数…继续阅读

Tetlock EPJ的研究,然而,预报员预测视野的问各种各样的问题1 - 25年。(预测视野的1、3、5、10日或25年最常见的)。不幸的是,泰特罗克(2005)的时候,只有几个十年预测(和25年的预测)已经到期,所以泰特罗克(2005)只报告结果准确性的预测与预报的视野被他描述为“短期”(1 - 2年)和“长期”(一般3 - 5年,加上一些长期预测,到期)。^[18]预测描述视野下“类型的预测问题”的方法论的附录Tetlock (2005)。“短期”和“长期”的定义是通过个人通信提供了研究这一事实是只有几个…继续阅读

短期和长期预测的精度不同分数EPJ有时被用来支持一个声称专家预测的准确性下降到五年的机会。^[19]例如Tetlock自己说“没有证据表明地缘政治或经济预测可以预测任何十年超出了极其明显的,会有冲突的,奇怪的幸运来临,是不可避免的时候很多预测使很多…继续阅读

虽然确实精度下降”向“机会五年,泰特罗克(2005)报告的准确性的差异并不是那么大我曾以为在最初听到这一说法(见脚注详情^[20]Tetlock(2005)报告两个校准(又名决议)成绩分数和歧视,并解释说:“一台校准分幅表明,预测者的主观概率背离客观频率,平均约10%;.04点分,平均差距…继续阅读)。幸运的是,我们可能很快就能够了解更多关于远程EPJ数据预测,因为大多数EPJ预测(包括大多数25年的预测)将在2022年已经解决。^[21]与菲尔Tetlock个人沟通。根据确认部分的研究(2005),所有EPJ预期将在2026年到期。

或许更重要的是,如何预测类似的提问EPJ grantmaker我们面临的预测问题,以及类似的情况是EPJ预测,我们发现自己在吗?

的背景下,一些(转述)代表例子“长期”预测EPJ提出的问题包括:^[22]下面是一个简短的总结EPJ预测问题,图纸和引用Tetlock(2005)的方法论的附录:每个专家被要求做短期和长期预测,关于“每四个国家(两个内部和两个专业以外的领域)…继续阅读

从现在开始的两次选举中,将当前多数的议会(一些稳定的民主国家)失去多数席位,保留其多数,或加强其多数?
在未来五年,将GDP增长率(一些国家)加速,减速,或保持相同的呢?
未来十年,将国防开支的比例(一些国家)支出上升,下降,或保持相同的呢?
在接下来的10 / 25年,将[状态]部署大规模杀伤性核武器或生化武器(根据美国中央情报局概况)?

几个观察想到我认为类比和非类比EPJ之间的预测和“长期”远程grantmaker我们所做的预测:^[23]这些观察重叠与上面列出的其他限制。

在我们历史上的大部分时间里,我们已经知道的结果从EPJ GJP和能够应用到我们的预测,这当然不是真的EPJ预测者。例如,我们的许多工作人员知道它是最好开始预期从一个可用的基准利率,这可能很多事情不能有更好的预测精度比机会(比如哪个政党会在大多数从现在开始的两次选举中)。我们的许多员工也做了多个小时的显式校准培训,和我的感觉是,很少(如果有的话)EPJ预测可能做校准培训前预测。一些我们的员工也参加了一个良好的判断力。预测培训班。
EPJ预测问题是仔细挑选,这样他们(a)所述精确到可以极大的判断准确性,(b)和集体回答互斥的选项和详尽的准备(或连续),(c)是服从基准利率预测(尽管基准利率并没有提供预测),和满足其他条件所需的严格的研究设计。^[24]在其他条件,看到Tetlock的方法论的附录(2005)。相比之下,我们的大多数预测问题(1)规定不严密地(因为格兰特的决定因素,最重要的是~不可能或付出巨大代价状态精确),(2)由预报员很快制定时(即,格兰特调查员)填写我们的内部格兰特帐面价值的模板,因此不跟已有的答案选项,和(3)很少有明确的基准利率数据来学习。总的来说,这可能暗示我们应该(忽略其他因素)期望精度低于在EPJ观察,如因为我们制定的问题,使预测对他们如此之快。这也意味着我们不能够从我们的预测,因为他们中许多人说太不严密地判断的准确性。
我不确定EPJ问题问及现象”的本质是“容易或难以预测比我们试图预测的现象。如党的控制在建立民主国家经常变化,因此很难预测甚至一个或两个提前选举,而我们的一些grantmaking实质上是基于稳定的长期趋势的延续。另一方面,我们的许多预测(如上所述)现象缺乏明显相关的基准利率数据推断,或者(在某些情况下)没有以前发生的事件。
动机是如何EPJ预报员争取准确吗?可能严格的设置和具体的计划来衡量预测精度为精度提供了实质性的奖励,但另一方面,EPJ预测者知道他们的答案和准确性分数将是匿名的。同时,明确的预测是一个相对较小的组件开菲尔的员工的工作,我们不严格设置意味着鼓励准确性可能很弱,而且我们(个人识别)预测可见到许多其他员工。

相似的类比和非类比等也会出现在比较我们的预测情况的预测者参与其他研究的长期预测。不应使用这个借口,以避免当我们应该借鉴研究,但它确实意味着它可能难以评估我们应该了解自己的情况甚至非常精心设计研究的长期预测。

2。我们目前的态度长期预测

尽管我们无法了解多少(到目前为止)远程预测的可行性,因此也对长期预测的最佳实践,我们计划继续对我们的工作做出长期量化预测,从长远来看,我们可能了解远程预测的可行性,至少对我们自己的情况。我们计划在未来多说关于我们学到预测在我们自己的grantmaking背景下,特别是在大量的内部预测到期,然后判断准确性。

脚注(+)脚注(−)

脚注

↑1

如。提醒& Perconti (2018);呸!咄! et al。(2013);奥尔布赖特(2002),我以前讨论的在这里;Parente & Anderson-Parente (2011)。

↑2

这是呸!咄! et al。(2013)。看到马林斯(2012)一段描述数据的收集和分析过程,并附电子表格的所有包括来源和预测以及他们如何进行评估研究。

↑3

委托进行后续研究马林斯(2018)。几本研究笔记:

这项研究是在OSF注册预注册在这里。相对于预先登记,马林斯(2018)提取预测从一个稍微不同的源文件,因为一个计划中的源文件经审查不符合研究标准,和我们需要找到更多的原始凭证,以确保我们可以达到我们的目标≥400验证远程预测。
三个表格是附加的PDF马林斯(2018):所有源文件的细节,一个细节都评估预测,一个细节的“地面实况证据”用来评估每个预测的准确性。
我选择源文件基于他们看起来有多好(在快速阅读),以满足尽可能多的下列标准(前两个标准是必要的,而其他的则是理想的但不是必需的):
- 作者的主要目标之一是要说说哪些事件/场景的可能性多与少,而不是仅仅为了如“油漆可能的未来”。
- 作者作出预测的事件/场景≥10年,预期与现实有点不同。(如不是“真空吸尘器将继续存在。”)
- 作者对他们的许多表示不同程度的信心预测,定量或至少与术语如“可能”“不可能,”“极有可能”,等等。
- 作者做了一些尝试思考计划给他们的预测是有意义的。(即。,重要决策的股份,或可能面临危险。)
- 作者的语言表明他们有某种程度的自我意识长期预测的难度。
- 作者似乎不仅更好地理解域他们试图预测,而且广泛适用的推理工具,如经济学。
- ~ 1965后作者让他们的预测(所以他们能获得体面的“现代”科学),但在2007年之前(这样我们就会心中有点儿数≥10年预测可评价的准确性)。
- 作者似乎把大量的精力的预测,如大量分析、多行讨论,深思熟虑的警告,参与主题专家等。
- 作者写了一个相当严重的观众很高的期望,如一个领先的国家政府的一个机构。

因为马林斯(2018)是模仿呸!咄! et al。(2013)提前,我们知道它会有一些在这篇文章中描述的局限性,但我们希望能从中学到一些东西,尤其是考虑到计划基础原始数据的可用性。不幸的是,在完成我们发现额外的研究的局限性。

例如,马林斯(2018)隐式地解释所有预测的形式“时间预测事件X将首先发生在大约一年。“这有一些优势(如允许一个实施一些“大约正确”的概念),但它也会导致违反直觉的判断在许多情况下:

似乎在某些情况下,预测的形式将真正“X Y”解释为评价为“事件X Y将首先发生在大约一年。“例如,考虑以下预测1975年:“1985年,地球上的深空通信电台将包括两个64米天线+ 1 26米天线在戈德斯通,加州;马德里,西班牙;堪培拉,澳大利亚”(记录ID # 2001)。这个预测是判断错误,13年的时间预测误差,理由是预测的事态已经真正13年前(1972年),而不是在大约1985来是真实的。
在其他情况下,表单的预测,似乎是“参数P将有大约价值V年Y”解释为评价为“参数P将首先大约值V年Y。”例如,考虑以下预测1978年:“在加拿大,在1990年,55.2%的女性年龄在15 - 64将注册为雇佣”(记录ID # 2748)。预测判断是不正确的,因为真正的价值在1990年是58.5%,而在1985年达到了55%,几乎在“30%以内”的规则判断预测是成功的。在这个例子中,似乎更合理地说,最初的预测是近1990年(但不完全)正确,而不是解释最初的预测主要是对的时机,当女性的劳动力参与率将达到55.2%。(预测是正确地标记为”主要是意识到,“但分析设置没有透露多少房间这个标签对营收产生太大影响定量结果。)
一些预测可以看作没有时间预测,因此不应该包括当比较评估预测的成功率与BryceTech的“零模式”(即随机预测)成功率,哪些假设预测时间的预测。实例预测,不能被解释为时间预测包括消极预测(例如记录ID # 2336:“在2000年,核聚变能量不会是能源的重要来源”),与预测(例如记录ID # 2364:“2000年世界人口将不到七十亿”),和整个周期预测(例如记录ID # 2370:“非洲大陆将有2.7%的人口增长率在1965 - 2000年期间”)。很多这些预测都分配一个时间预测误差可以看作0尽管不是时间的预测。

还有其他限制马林斯(2018)的数据和分析,我们认为一个不应该得出主要的实质性的结论。然而,它可能是一个有用的长期预测,可以使用替代方法判断和分析的准确性。

谢谢凯瑟琳Finlinson和巴斯蒂安·斯特恩对他们的帮助评估这份报告。

↑4

为进一步讨论这一点,看到如。Tetlock &加德纳(2015),ch。3。这可能是一个问题甚至非常短程预测,但长期的挑战往往是更大的预测,因为他们通常旨在使预测的情况下,技术,或措施,当时还没有明确的预测。

↑5

本节从预测的预测表格马林斯(2018)。在某些情况下他们是轻微的迂回的预测报表从源文件。

↑6

从技术上讲,可以将几乎任何精确预测转换成精确的预测使用“人类法官”的方法,但这往往是非常昂贵的。“人类法官”的方法,人会写下一个不精确的预测,也许还有一些配套材料的动机和推理和实例,不满足预期的意图,然后指定一个人类法官(或评委的)后来将决定一个人的不精确的预测应该判断真假(或者,每个法官能给利开特式量表评定的“准确”或“如何清晰准确“预测)。然后,一个可以精确的对未来的预测判断法官(s)。精确的预测,将预测这种现象一个愿望来预测,以及法官的心理和行为。当然,一个人的准确预测也必须占到一个或多个法官的可能性将不愿或无法提供判断所需的时间。

这种“人类判断”方法的一个例子是以下Metaculus预测平台发布预测:“将全新的低能核反应技术被证明是有效的在2019年之前?”在这种情况下,精确的(但仍有些不精确)预测声明:“12月31日,2018年,安德里亚·罗西/莱昂纳多/工业加热或罗伯特Godes /布里渊能源产生了相当令人信服的证据(凭证> 50%),他们的新技术[…]生成大量多余的热量相对于电和化学输入?”,因为还有一些模糊如应该算作“令人信服的证据,“问题页面还指定了“赌将定居(Huw)价格和卡尔·舒尔曼在2018年新年前夜,和在分歧的情况下应当听从多数投票的一个由三位物理学家:安东尼•Aguirre Martin Rees,组成。”

↑7

看到预测表格上马林斯(2018)。

↑8

最近的一个建议推断出预测的概率的精确预测语言雷纳et al。(2012)。我希望看到这个方法验证之前更广泛依赖它。

↑9

如看到图18在第十二章的豪雅(1999);由Reddit.com用户zonination复制研究在这里;惠顿(2008);Mosteller & Youtz (1990);冒伯新&冒伯新(2018)(原来的结果在这里);表1的曼德尔(2015)。我没有这些研究审查。

↑10

Tetlock &加德纳(2015)、ch。3、给下列例子(可能):

1961年,当美国中央情报局被着陆计划推翻卡斯特罗政府一小队古巴猪湾侨民,约翰·肯尼迪总统转向军事一个公正的评估。参谋长联席会议得出的结论是,这个计划有一个成功的“公平机会”。“公平的机会”的人写的词后来说他头脑中3比1对成功的几率。但肯尼迪从未告诉准确的“公平机会”是什么意思,不是不合理的,他把它带到更多的积极评价。当然,我们不能确定,如果首领曾说“我们觉得是3比1入侵会失败”,肯尼迪会叫它,但它肯定会让他想想授权是一个彻头彻尾的灾难。

↑11

最近的一个建议是使用来处理这个问题项目反应理论描述的一样,Bo et al . (2017):

传统的估计预测的专业知识(例如,他或她的意思是荆棘得分,基于所有事件预测)是内容相关的,所以人们可以转让,或“专业知识”的得分越低的函数选择预测的事件。这是一个严重的缺点,因为(a)通常法官不能预测所有的事件和(b)他们的选择事件的预测并不是随机的。事实上,一个可以安全地假定他们的战略选择问题:法官更倾向于对事件做出预测领域,他们相信(或预期)有专业知识或事件他们认为“简单”,高度可预测的,所以他们的荆棘分数可能会受此影响自己挑选,通常情况下,会导致过高的专业知识。因此,所有比较预测中的人截然不同的事件是质量有问题。

解决这个问题是比较直接预测专家仅基于预测的预测事件的常见的子集。但是这种方法也会遇到问题。预测者数量的增加,比较可能是基于小事件回答所有的子集和变得不那么可靠和便捷的。作为一个例子,考虑金融分析人士预测对未来收益的公司在市场上交易。他们倾向于在各领域的专业,所以几乎不可能比较专业的分析师专注于汽车行业,另一个专门从事电信区,因为两个区域之间没有重叠。任何区别他们的荆棘成绩可以反映出可预测的一个行业,相比其他,不一定的分析师的专业知识和预测能力。一个红外热成像模型可以解决这个问题。假设预测样本人口的分布知识,红外热成像模型的一个关键属性的参数不变性(哈姆布赖顿&琼斯,1993):(1)参数描述个体预报员独立于特定事件的估计;(2)参数,描述一个事件是独立分布的预测个体的能力(哈姆布赖顿,Swaminathan &罗杰斯,1991)。换句话说,估计技术参数允许有意义的比较所有的法官从相同的人口,只要事件需要潜在的专业知识(即相同。一个线性的假设)。

…我们描述一个红外热成像框架中一个可以将任何合适的评分规则到模型中,我们展示了如何使用基于事件特性在适当的权重得分规则。这就引出了基于模型的评估方法通过适当的预测评分规则,允许我们为额外的因素,定期账户很少考虑合适的评分规则。

我没有详细评估这种方法,希望看到它由其他专家评论和验证。

对这一普遍的挑战,参见“Difficulty-adjusted概率评分”的讨论的技术附件泰特罗克(2005)。

↑12

看到的方法论的附录泰特罗克(2005)。

↑13

这包括零模型中使用呸!咄! et al。(2013)和马林斯(2018),我找不到令人信服。

↑14

健壮的因果的棘手挑战识别从观测数据,如见。阿塞& Imbens (2017)和赫尔南&罗宾斯(即将出版)。

↑15

“有所不同”,我的意思是排除研究如局限于预测变量的大量的时间序列数据是可用的,或变量在一个非常狭窄的领域如少数宏观经济指标或少量的环境指标。

↑16

参见图3的2015年12月这个草案最终论文的发表(没有图)弗里德曼et al。(2018)。

↑17

尽管如此,我认为我们可以学习一个小从GJP远程预测的可行性。良好的判断力项目的年4年度报告IARPA(未发表),名为“探索最优预测前沿,”检查预测的准确性预测地平线的函数在这个图(与许可复制):

AUC的函数预测地平线和forecaster.png类型

这个图表使用精度统计称为AUC /中华民国(见Steyvers et al . 2014)来表示二进制的准确性,无条件的预测,在不同的时间范围,在年GJP 2 - 4。粗略地说,这张表解决了问题:“在不同的预测地平线,频率(平均)预测在可能的右侧(即超过50%的信心二进制选项,被证明是正确的),在0.5代表“没有比机会”,1代表“总是右边也许”?”

对我们来说,关键结果如上所示,大致说来,(1)常规预测做大约这个指标上没有比机会在每个问题~ 375天前关闭,(2)superforecasters实质上比机会在这个指标~ 375天前每个问题关闭,(3)常规预测和superforecasters都几乎总是“也许右边”立即在每个问题关闭前,和(4)superforecasters大致准确在这个指标在每个问题关闭~ 125天前他们在每个问题~ 375天前关闭。

如果GJP涉及问题大大长时间视野,多快会superforecaster准确性下降时间视野?我们无法知道,但是上面的推断结果至少是兼容的答案“相当缓慢。”

当然仍有其他问题如何类似GJP问题类型的问题,我们和其他演员试图作出长期预测。

↑18

预测描述视野下“类型的预测问题”的方法论的附录Tetlock (2005)。“短期”和“长期”的定义是通过个人通信提供了研究的是只有几个十年预测可以包含在分析Tetlock (2005)。

↑19

例如Tetlock自己说“没有证据表明地缘政治或经济预测可以预测任何十年超出了极其明显的,会有冲突的,奇怪的幸运来临,是不可避免的时候大量的预测使大量的预测。这些限制可预测性的蝴蝶动态非线性系统的可预测的结果。在我EPJ研究,专家预测的准确性下降对机会五年了”(Tetlock &加德纳2015,p . 243)。

↑20.

泰特罗克(2005)报告校准分数和歧视(即分辨率)的分数解释说:“一台校准分幅表明,预测者的主观概率背离客观频率,平均约10%;.04点分,平均20%的差距。歧视分幅表明预测,平均预测大约6%的总变化的结果;.04点分,他们占领了24%”(Tetlock 2005 ch。2)。有关详细信息,请参阅本书的技术附件Tetlock的校准和歧视成绩计算。

鉴于这种评分系统,研究的结果在短期和长期预测的准确性:

样本的预测	校准的分数	歧视的分数
专家短期预测	0。	.027
专家长期预测	.026	.021
非专业的短期预测	.024	0。
非专业长期预测	.020	.021

从图2.4的数据上面Tetlock (2005)。我已经改名为“业余爱好者”到“非专家”。

另请参阅这个表格,其中包含额外的短期与长期精度比较图3.2的数据点估计Tetlock(2005)使用WebPlotDigitizer。看到ch。3和泰特罗克(2005)的技术附件细节如何解释这些数据点。还要注意,在图3.2的标题有一个错字;我与Tetlock证实这句话读“长期(1、2、5、7…)”应该是“长期(1、3、5、7…)。”

↑21

与菲尔Tetlock个人沟通。根据确认部分的研究(2005),所有EPJ预期将在2026年到期。

↑22

这是一个简短的总结EPJ预测问题,图纸和引用Tetlock(2005)的方法论的附件:

每个专家都要求做短期和长期预测”的四个国家(两个内部和两个专业以外的领域)十七个结果变量(平均),这是通常分为三个可能的未来,因此需要三个独立的概率估计。”(不过,专家没有回应所有问题。)
最可能的未来的预测问题~ 60个国家,集群分成九个区域:苏联阵营,Europian联盟,北美、中美洲和拉丁美洲,阿拉伯世界,撒哈拉以南非洲地区,中国、东北亚和东南亚。
大多数预测问题分为四个内容类别之一:
- 国内政治领导层的连续性:“对于建立民主国家,我们应该期待下一次选举(短期)或后接下来的两次选举中(长期)目前最具代表的政党政府的立法部门(es)将保持这个状态,就会失去这个地位,或将加强其位置(独立判断为两院制系统)?对于总统选举的民主国家,我们应该期望在下次大选中或下两次选举中,现任/党将失去控制,将保留控制与减少民众的支持,或将保留控制支持更受欢迎?…与不稳定状态记录的竞争性的选举,应该我们预计,在未来五到十年,个人和(独立的判断)政党/运动目前负责将失去控制,将保留控制但天气主要挑战他们的权威(如政变企图,主要叛乱),或将保留控制没有重大挑战吗?也为不稳定,政治,我们应该期望政治体制的基本特征改变在未来五到十年,如果是这样的话,它将改变的方向增加或减少经济自由,增加或减少政治自由,和增加或减少腐败吗?我们应该期望在未来五到十年,不同种族间的和其他宗派暴力会增加,减少,或保持相同的呢?最后,我们应该期望状态边界——未来10到25年保持不变,扩张,或合同,如果边界变化——它将和平或暴力分裂的结果由地方实体维护独立、和平的结果或暴力吞并另一个国家?”
- 国内政策和经济性能:“关于政策,我们应该期望-未来两到五年增加,减少,或基本上没有边际税率的变化,中央银行利率,中央政府支出占GDP的比例,年度中央政府运营赤字占GDP的百分比,和国有部门的经济规模占GDP的比例?我们应该期望-未来两到五年再次变化占GDP的比例等政府重点致力于教育和卫生保健?对经济表现,我们应该期望-再未来两到五年GDP增长率加速,减速,或保持相同的呢?我们的期望应该是通货膨胀,失业率在未来两到五年?我们应该期望未来五到十年,进入或退出加入自由贸易协定或货币联盟?”
- 国家安全与防务政策:“我们应该期望——在未来五到十年,国防开支占中央政府支出的上升,下降,或保持相同的呢?我们应该期望政策变化在未来五到十年征兵制,对使用武力(或支持叛乱)对国家,对参与国际维和行动(特约人员),对进出联盟或延续现状,和对核武器(收购此类武器,继续试图获取核武器,放弃项目获得这些武器或核武器本身)?”
- 特殊用途的练习:在这八练习,专家预测了:(1)”的可能性25州获得生产能力的大规模杀伤性武器,核或生物,在接下来的五个,十个,或25年的可能性以及状态或地方性的恐怖组织使用这种武器”;(2)“是否会有一场战争(在波斯湾)(如果是这样,它会持续多久,有多少盟军伤亡,萨达姆•侯赛因(Saddam Hussein)是否会继续掌权,,如果没有,是否全部或部分科威特仍将在伊拉克控制)”;(3)的可能性——在未来三、六、或十二年——“经济改革(国有企业剥离率;程度的财政和货币政策符合模板的“休克疗法”)和随后的经济表现(失业、通货膨胀、GDP增长)”;(4)的可能性“人为或促进灾害未来五年,十年,或25年,包括难民流动,贫困,大规模的饥荒,大屠杀和流行病(艾滋病毒流行率)与公共卫生措施不足”;(5)采用欧元和“前苏联国家的前景,加上土耳其,在满足Europian联盟准入要求”;(6)谁将赢得1992年和2000年的美国总统选举和多少;(7)“纳斯达克的整体性能(这是一个泡沫?如果是这样的话,当它会流行吗?)以及收入,收入,和选择的“新经济”的公司的股票价格,包括微软、思科、Oracle、IBM、惠普、戴尔、康柏,世通公司,安然,美国在线时代华纳,亚马逊和ebay”;(8)”公司₂人均排放量(因燃烧化石燃料和水泥制造)的25个州在接下来的25年,实际上和前景的国家批准一项国际协议(京都议定书)调节这样的排放。”

↑23

这些观察重叠与上面列出的其他限制。

↑24

在其他条件,看到Tetlock的方法论的附录(2005)。

如何远程预报是可行的?

表的内容

1。挑战从历史学习远程预测练习

1.1不严密地说预测

1.2实际上uncheckable预测

1.3 Non-quantified程度的信心

1.4没有比较基线或零模型方法是可行的

1.5不清楚或弱激励准确性

1.6弱因果识别策略

1.7不清楚与我们自己的长期预测

1.7.1上Tetlock、远程预测和相关性的问题

2。我们目前的态度长期预测

相关项目

Longtermism

建议:请求帮助打开慈善量化生物风险卡塔尔世界杯小组赛最新赛程出炉

Longtermism

新的grantmaking项目:支持有效的利他主义社会在全球健康和幸福

Longtermism

统计:抗病毒药物研究员,Covid带来大量的关注和机会