引导程序

经过 Cosma Shalizi

统计人员可以重用其数据来量化复杂模型的不确定性

电脑 数学 统计数据

当前的问题

这篇文章从发行

2010年5月至6月

第98卷第3期
第186页

DOI: 10.1511 / 2010.84.186

统计学是应用数学的一个分支,研究从有限和不完善的数据中得出推论的方式。我们可能想知道,当老鼠的一个晶须受到调节时,它的大脑中的神经元会如何反应;在曼哈顿,有多少只老鼠?在布鲁克林大桥下的水会升到多少?一年来的城市。我们在所有这些事情上都有一些数据,但是我们知道我们的数据是不完整的,经验告诉我们,重复我们的实验或观察结果,甚至非常小心地复制条件,每次都会或多或少地给出不同的答案。将仅来自手头数据的任何推论视为肯定是愚蠢的。

如果所有数据源都是反复无常的,那么除了虔诚地用“但我们对此可能是错的”来修饰每个结论,别无他法。统计学的数学科学之所以可行,是因为尽管重复实验会得出不同的结果,但某些类型的结果比其他类型更普遍;它们的相对频率是相当稳定的。因此,我们可以通过概率分布和随机过程来建模数据生成机制-随机序列对事件如何随时间演变具有不确定性,尽管某些路径可能比其他路径更可能。什么时候以及为什么我们可以使用随机模型是一个很深的问题,但是还有另一个问题。但是如果我们 能够 在有问题的情况下使用它们时,诸如此类的数量表示为随机模型的“参数”。换句话说,它们是潜在概率分布的函数。参数可以是单个数字,例如大鼠总数。向量;甚至整个曲线,例如一年中温度的预期时间变化。统计推断归结为估计这些参数或检验关于它们的假设。

这些估计和其他推论是数据值的函数,这意味着它们从潜在的随机过程中继承了可变性。如果我们“重新录制”发生的事件的磁带(正如Stephen Jay Gould所说的),我们将获得具有特定特征分布的不同数据,并且应用固定过程将再次产生具有特定分布的不同推断。统计人员希望使用此分布来量化推断的不确定性。例如,从一次重复实验到另一次重复,我们对参数的估计值通常会有多少变化-确切地说,什么是均方根(均方根的平方根) )估算值与平均值之间的偏差,或者 标准错误? 或者我们可以问,“所有的参数值是多少 可以 是否至少以某种指定的概率生成了此数据?”换句话说,在什么条件下我们的数据不是低概率离群值?这给了我们 置信区 参数-而不是 点估计 保证是真实的参数点位于该区域,还是在任何情况下都不太可能发生的事情,或者我们的随机模型是错误的。

为了获得标准误差或置信区间,我们需要知道估计值围绕真实参数的分布。这些 抽样分布 遵循数据的分布,因为我们的估计是数据的函数。从数学上讲,这个问题定义明确,但实际上 计算 一切都是另一回事。估计值通常是数据的复杂函数,在数学上方便的分布都可能与数据源近似。封闭式地谈论估计的分布是毫无希望的。统计学家的两个经典反应是关注于易处理的特殊情况,并呼吁渐近分析,这是一种近似函数极限的方法。

起源神话

如果您参加了基础统计学课程,则可能会在特殊情况下对您有所了解。从一组可能的解决方案的一端,我们可以将我们使用的估算器的种类限制为具有简单数学形式的估算器,例如,均值和数据的其他线性函数。另一方面,我们可以假设随机模型中的概率分布采用几种形式中的一种进行精确计算。 通过分析或通过特殊功能表可以实现。大多数这样的分布都具有起源神话:高斯钟形曲线是通过平均许多大小相等的自变量(例如,许多影响人类身高的基因)而产生的;泊松分布来自对大量独立事件和个别事件的发生(例如,镭核在给定的秒数内腐烂)进行计数的次数,等等。从两端压缩,估计器的采样分布和数据的其他函数根据上述特殊函数可以精确计算。

这些起源神话引起了各种限制,这绝非偶然。概率论的重大成果(大数定律,遍历定理,中心极限定理等)描述了其中的极限 全部 大类模型中的随机过程显示出相同的渐近行为。例如,中央极限定理(CLT)表示,如果我们对具有共同分布的越来越多的独立随机量求平均,并且如果该共同分布不是太病态,则其均值分布将接近高斯分布。 (分布中的非高斯部分在平均值下会消失,但是两个高斯的平均值是另一个高斯。)通常,如在CLT中一样,限制涉及从源中获取越来越多的数据,因此统计学家使用定理找到其估计值的渐近大样本分布。我们特别致力于将我们的估计值重写为独立数量的平均值,以便我们可以使用CLT获得高斯渐近性。对这种结果的改进将考虑,例如,随着样本量的增加,渐近高斯近似的误差减小的速率。

广告权利

为了说明经典方法和现代替代方法,我将介绍一些数据:标准普尔500指数从1999年10月1日到2009年10月20日的每日收盘价。(我之所以使用这些数据,是因为它们公开发布并为许多读者所熟悉,而不是提供任何财务建议。)专业投资者更关心价格的变化,而不是价格的水平,尤其是价格的变化。 日志返回,今天的价格日志除以昨天的价格。在这个2,529个交易日的时间段内,有2,528个这样的值 (请参见图1)。 金融理论中的“有效市场假设”说,收益不能通过任何公共信息,包括其过去的价值来预测。实际上,许多金融模型都假设这样的序列是独立的,均匀分布的(IID)高斯随机变量的序列。拟合这样的模型会在图1的左下方图表中产生分布函数。

例如,投资者可能想知道回报可能有多糟糕。可以想到的最低对数收益是负无穷大(指数中的所有股票都失去了所有价值),但是大多数投资者对美国资本主义末日的终结的担忧程度不如对大型但仍为典型的损失的担忧-例如每日收益的最小1%?拨打这个电话 q0.01;如果知道的话,我们知道我们会在大约99%的时间里做得更好,并且可以看到我们是否能够处理这种程度的偶然损失。 (一年中大约有250个交易日,因此我们应该预期至少一年中会损失两到三天。)根据拟合分布,我们可以计算出 q0.01= –0.0326,或者取消对数,损失3.21%。这个点估计有多不确定?高斯假设让我们计算的渐近采样分布。 q0.01,结果是另一个高斯 (请参见图1的右下图), 意味着±0.00104的标准误差。 95%的置信区间为(–0.0347,–0.0306): q0.01 处于该范围内,或者我们的数据集是一次fl幸(以20比1的赔率),或者IID-高斯模型是错误的。

拟合模型

从其起源于19世纪到大约1960年代,统计学被划分为以下两个方面:发展关于如何绘制和评估统计推断的一般思想,以及在易处理的特殊情况下(如我们刚刚经历的案例)确定推断过程的性质,或者在渐近近似下。这为非常狭窄和具体的实际公式赢得了非常广泛和抽象的推理理论,这是基本统计类别中经常保留的一种不容易组合。

(相对)便宜和快速的计算机的出现使科学家和统计学家可以记录大量数据并为他们拟合模型。有时,这些模型是常规模型,包括特殊情况的假设,这些假设通常足以证明是可检测的,因此是错误的。在其他时候,科学家们想要更复杂或更灵活的模型,其中一些早在很久以前就提出来了,但是现在已经从理论上的好奇心转变为可以在一夜之间运行的模型。原则上,渐近线可能会处理任何一种问题,但收敛到极限可能会慢得令人无法接受,尤其是对于更复杂的模型。

到1970年代,统计数据面临着量化推理不确定性而又不使用难以置信的有用假设或渐近性的问题。所有解决方案都满足需求 计算。也许最成功的是斯坦福大学统计学家布拉德利·埃夫隆(Bradley Efron)在1977年著名的论文中提出的将估算与模拟相结合的提议。在过去的三十年中,埃夫隆(Efron)的“引导”已经遍及统计的所有领域,萌芽了无穷无尽的细节。在这里,我将坚持其最基本的形式。

请记住,处理参数不确定性的关键是估计量的采样分布。知道重复实验后得到的估计分布会给我们带来数量,例如标准误差。埃夫隆的见解是,我们可以 模拟 复制。毕竟,我们已经为数据拟合了模型,这是对生成数据的机制的猜测。运行该机制会生成模拟数据,根据假设,该数据具有与真实数据几乎相同的分布。通过我们的估算器提供模拟数据,可以从采样分布中得出一幅图;重复多次将产生整体的采样分布。由于该方法本身具有不确定性,因此Efron将此称为“自举”;不像冯·冯·明希豪森男爵(Baron vonMünchhausen)计划通过用靴子把自己拉出来摆脱沼泽一样,它奏效了。

让我们看看这如何与股指收益一起使用。图2显示了整个过程:将模型拟合到数据,使用模型计算参数,然后通过从模型生成新的合成数据并在模拟输出上重复估算来获得采样分布。我第一次重新计算 q0.01 通过仿真,我得到-0.0323。复制了100,000次,得到的标准误差为0.00104,置信区间的95%为(–0.0347,–0.0306),将理论计算与三个有效数字匹配。这个紧密的协议表明我模拟正确!但是引导程序的要点是它不依赖于高斯假设, 我们的模拟能力。

自举

引导程序通过三个近似误差源来近似采样分布。首先有 模拟错误 使用有限的多次复制代表完整的采样分布。聪明的仿真设计可以缩小这一范围,但是蛮力(只要使用足够多的副本)就可以使其任意小。其次, 统计错误: 在我们的拟合模型下,bootstrap重新估计的采样分布与真实数据生成过程中的估计的采样分布并不完全相同。抽样分布随参数而变化,我们的初始拟合并不完全准确。但事实证明,估算值的分布 周围 事实比估计本身的分布几乎不变,因此从引导值中减去初始估计值有助于减少统计误差;同一目的有许多巧妙的技巧。自举的最终错误来源是 规格错误: 数据源完全不符合我们的模型。这样,对模型进行仿真就永远不会完全匹配实际的采样分布。

此处,Efron还有另一个绝妙的主意,即通过用数据重采样代替模型中的仿真来解决规格错误。毕竟,我们最初的数据收集为我们提供了许多有关不同值的相对概率的信息,并且在某种意义上,这种“经验分布”实际上是对潜在分布的最小偏见估计-其他任何带有偏见或先入之见的事物,这可能是准确的,但也可能会产生误导。我们可以估计 q0.01 直接来自经验分布,而无需高斯模型的中介。 Efron的“非参数引导程序”将原始数据集视为一个完整的总体,并从中抽取一个新的模拟样本,以相等的概率(允许重复值)选择每个观察值,然后重新运行估计(如图2所示)。

这种新方法在这里很重要,因为高斯模型是不准确的。真实的分布在零附近更加尖锐,并且在两个方向上都比高斯具有大得多的幅度返回 (请参见图3的顶部图)。 对于经验分布, q0.01= –0.0392。这似乎接近我们之前的估计值–0.0326,但远远超出了置信区间,在高斯模型下,我们应该看到该值仅在0.25%的时间内为负,而不是在1%的时间内为负。进行100,000个非参数复制-即从数据中重新采样并重新估计 q0.01 如此多次-给出了非常非高斯的采样分布(如图3右图所示),产生的标准误差为0.00364,置信区间为95%(–0.0477,–0.0346)。

尽管这比高斯模型更准确,但它仍然是一个非常简单的问题。可以想象,其他一些不错的分布比高斯分布更适合收益,甚至可能具有解析抽样公式。引导程序的真正优势在于,它使我们能够以与此简单案例完全相同的方式处理复杂的模型和复杂的问题。

继续以财务为例,常年关注的问题是预测股市。图4是连续几天的对数收益的散点图,今天的收益在水平轴上,明天的收益在垂直轴上。这主要是一个大问题,因为市场难以预测,但是我在其中划了两条线:蓝色的直线和黑色的曲线。这些线试图预测明天的平均收益是今天收益的函数;他们被称为 回归线 或者 回归曲线。 直线是线性函数,可最大程度地减少均方预测误差或在求解每个方程式时产生的误差的平方和(称为 最小二乘 方法)。它的斜率为负(–0.0822),这表明收益率低于平均水平的日子之后,往往是收益率高于平均水平的日子,反之亦然,这也许是因为人们试图在市场下跌后买入廉价(推高)并卖出亲爱的,当它上升(拉下来)。在所有统计模型中,具有高斯起伏波动的线性回归可能是所有统计模型中最容易理解的模型(其最早的形式可以追溯到两个世纪前),但是它们比可靠的更为古老。

黑色曲线是对回归函数的非线性估计,它来自一个称为 样条平滑: 找到将预测误差最小化的函数,同时将平均值平方二阶导数的值设置为上限。随着约束的收紧,最佳曲线(样条曲线)变直,接近线性回归。随着约束的放松,样条曲线会摆动以尝试通过每个数据点。 (样条线最初是木工匠的柔性长度,用于绘制平滑曲线,将其固定到曲线必须经过的点上并使其弯曲以最小化弹性能;较硬的样条曲线产生的曲线更平坦,在数学上对应于更严格的约束。)

要实际获得样条曲线,我需要选择约束级别。太小了,我得到的曲线不规则,可以记住样本,但不能归纳为新数据;但是过多的平滑会抹去真实且有用的图案。我通过设置约束 交叉验证: 从数据中删除一个点,将具有多个约束值的多条曲线拟合到其他点,然后查看哪条曲线最能预测遗漏点。依次对每个点重复此操作将显示花键需要多少曲率才能正确地泛化。在这种情况下,我们可以看到最终选择了适量的摆动。像线性模型一样,样条曲线可以预测收益的回落,但是却暗示它是不对称的-平均而言,大的负收益的日子里,平均而言,正数要比反之大。这可能是因为人们更倾向于低价买入而不是高价卖出,但是我们应该在深入了解这之前检查一下这是否是真实现象。

关于样条平滑,需要注意三件事。首先,它比只对数据拟合一条直线要灵活得多。样条曲线可以将范围广泛的函数近似为任意公差,因此它们可以 发现 复杂的非线性关系(例如不对称性),而无需事先猜测要寻找的内容。第二,在快速计算机之前,没有希望在大量数据上使用平滑样条,尽管现在,包括交叉验证在内的估计,在笔记本电脑上花费的时间不到一秒钟。第三,估计的样条曲线以两种方式取决于数据:一旦确定要进行的平滑程度,它将尝试在约束内匹配数据;但是我们还使用数据来确定要进行的平滑程度。此处不确定性的任何量化都应考虑到这两种影响。

有多种方法可以使用自举来获得样条曲线的不确定性估计,具体取决于我们愿意对系统进行的假设。在这里,我会保持谨慎,然后退回到最安全,最直接的过程:对散点图的点重新采样(可能会获得同一点的多个副本),然后在这个新数据集上重新运行样条曲线。每次复制都会产生不同程度的平滑,并最终产生不同的曲线。图5显示了来自800个自举程序重复的各个曲线,表明了采样分布以及整个曲线的95%置信度。总的负斜率以及正负收益之间的不对称性仍然存在,但是我们还可以看到,对于小幅幅收益率(其中有大量数据),我们估计曲线的固定性要好于大幅幅收益率,在信息很少且扰动较小的地方可能会产生更大的影响。

平滑事情

自从埃弗隆(Efron)的原始论文以来,自举过程已经产生了极大的影响,而我仅草绘了最粗糙的功能。尽管我希望我已使这一结论合理,但我在这里所做的任何事情均未证明其确实有效。实际上,引导有时会失败;例如,它对有关估计分布的最大值(或最小值)的问题给出了非常差的答案。了解这种情况与 q0.01例如,事实证明它涉及相当微妙的数学。参数是生成数据的分布的函数,而估计是数据或经验分布的函数。为了使引导程序起作用,经验分布必须迅速收敛于真实分布,并且参数必须平滑地依赖于分布,以便没有异常值最终会不适当地影响估计。精确地定义“影响力”意味着要在概率分布函数的无穷维空间中取导数,而自举理论是功能分析与概率论的巧妙结合。对于开发用于解决新问题的新引导程序(例如正在进行的关于空间数据重新采样的工作)或基于模型的引导程序(模型随数据的复杂性在不断增长),此类理论至关重要。

引导程序之所以在统计学家的工具包中占据一席之地,是因为在处理复杂模型中的不确定性的所有方法中,引导程序是最直接,最灵活的。只要拥有大数据和快速计算的时代,它就不会失去这个位置。

参考书目

  • 埃弗隆(Efron),B。1979年。引导程序方法:又看了折刀。 统计年鉴 7:1–26.

美国科学家评论政策

保持话题。尊重。我们保留删除评论的权利。

请阅读我们的 评论政策 before commenting.