关于平均数的说法(关于平均数的概念)

今天我们就和朋友们聊聊平均符号。希望以下观点能帮助您找到您想要的百科全书。

大数据特征对统计应用的遭遇和影响

关于平均数的说法(关于平均数的概念)

大数据的独特性挑战了传统统计方法,并刺激了适合大数据分析的新统计方法的发展。本文提到的一些遭遇和问题是作者自己的观点,还有一些摘自其他文章((范,韩,刘,2014)(王旺,2014)。

相比统计文章的专业写作手法,作者试图用更通俗易懂的语言来介绍这些问题,让普通读者对其有一定的了解并产生兴趣。一般来说,传统数据的样本量远大于感兴趣的因素。例如,如果一个数据有200条关于某个人是否患有心血管疾病的记录,则可能的相关因素是性别、年龄和血压。这里只有4个因素,但样本量为200(2004)。

大数据样本量大,因素多。仍然以心血管为例,现在我们有数万条记录的样本量,但我们也有数百个因素。收集了以前无法收集的各种因素,例如是否运动、运动量、运动类型、饮食习惯、饮食内容、是否喝酒、喝什么、喝酒频率这给统计学中数据的研究和应用带来了新的机遇和挑战。

数据异构性

数据异质性可以简单理解为大样本数据中有很多小样本,每个小样本具有不同的数据特征。例如,小样本的平均值可能高或低,分散程度可能密集或稀疏,就像海洋中存在各种不同温度、不同密度的洋流。我们不能简单地在大样本层面进行统计分析。这样得到的结果如果用来估计或者预测小样本或者样本中的个体就会有偏差,因为每个小样本可能还有一些其他的特征。自己独特的特点。

当数据样本较小时,里面的小样本也相应较小。在这种情况下,小样本中可能只有一两条数据记录,只能将其视为异常值,无法进行分析。在大数据中,收集的具有独特特征的数据记录越多,就越有条件进行统计分析,使我们能够更好地探索特定因素的相关性并了解这些数据的异质性。比如,对于一些极其罕见、只发生在特定人群的疾病,大数据可以让我们研究其病因和危险因素;了解为什么某些治疗方法对某些人群有益,而相同的方法对另一人群有害,等等。

同样,由于大数据存在海量的样本和众多的因素,信息的复杂性也会增加很多。受复杂度的影响,可能会导致统计过拟合。过拟合是指我们建立了一个复杂的统计模型,可以很好地描述现有的数据,但是当我们想应用这个模型来预测新的数据时,它的性能就相当差了。例如,如图9所示:

图9

图9左侧的曲线是我们为蓝点制作的模型(作为现有数据)。基本上可以很好的描述蓝点的分布,并且曲线与蓝点的吻合度很高。用这条曲线来描述黄点(作为新数据),一致性非常好。图9右侧的曲线完全穿过了每个蓝点,吻合度非常高,充分描述了蓝点的复杂特征。但当它描述黄点时,一致性就差很多了,偏差也比左边的曲线大很多。简单地说,数据越复杂,需要考虑的因素就越多,建立普遍有效的统计模型就越困难。

偏差累积

在分析数据时,我们需要估计或测试许多参数以建立可靠的统计数据模型。这个时期难免会出现偏差。这些估计中偏差的累积在很大程度上受到数据大小和参数数量的影响。在数据一般较小的情况下,这个问题可能并不显着。但在大数据的情况下,这个问题就变得相当值得注意。我们用一个简化的例子来说明这个问题。

假设我们有两组数据A和B。A组数据的收集和估计没有偏差,所有样本值为1000。B组数据中,所有样本的实际值也为1000,但是存在偏差,并且偏差随着采集样本数量的增加呈指数增长(为了说明情况,偏差的指数增长是一个非常极端的例子)。每增加一条记录,偏差增长公式为:

这样,B组第一条记录的偏差为1.001=1.0011。B组的第一个值为.001=1001。B组的第二条记录包含偏差1.=1.0012。B组的第一个值为.=1002.001。B组的第十个值为.=1010.045。这样,如果是小数据n=10,那么A组的数据与B组的数据实际上相差不大。B组内的每个数字并没有添加足够明显的偏差,如果偏差在2%以内的话可以接受。

然而,当我们收集到条数据记录时,情况发生了巨大的变化。我们来看一下最近10个数据。差距已经相当大了。

在海量数据样本的情况下,A组数据和B组数据的差异已经是千里之差。图10显示了偏差如何随着样本量的增加而变化。在样本量约为4236时,偏差的增加尚不显着。一旦超过4236,偏差就会急剧增加。

图10

所以据此判断,我们可以说,当数据样本量在4000左右时,A组和B组的差异可能不会很大。但当数据样本量大于4000时,比较A组和B组,可能会有很大差异。这个例子充分说明了大数据比小数据更容易识别数据偏差,从而可以发现和改进数据收集过程中的问题。

虚假相关性

假相关,我们用一个例子来解释。这里还是以前面提到的心血管数据为例。仅收集了200条记录,但每条记录包含100种不同因素的信息。通过这种方式,我们想看看这100个因素是否与“心血管疾病的存在”有关。这样我们就进行了两两测试:是否有心血管疾病,测试因子一,是否有心血管疾病,测试因子二……是否有心血管疾病,测试因子一百。

每项检验结果只有两种情况:统计显着和统计不显着。

具有统计学意义,简单来说就是心血管疾病与这个因素有关。统计上不显着意味着心血管疾病与该因素无关。在这个过程中,你可能会发现,大约有5倍的统计上被认为与心血管疾病相关的因素实际上根据常识和现实没有任何关系,这意味着它们具有统计显着性。这是错误的。这是一种错误的相关性。

为了让我们知道发生了什么以及为什么发生,这里我们需要解释一下“具有统计意义”是如何定义的。一般在做检验测试的时候,我们会定义一个值,叫做第一类统计错误率。这个错误率通常设置为5%,这意味着每100次检验测试,我们允许有5次实际上统计上不显着的错误被判断为统计上显着(如果不允许存在统计错误率,那就是100%)正确,意味着不存在不确定性。如果有这样的数据,就不需要做任何统计假设检验)。

也就是说,如果实际上不存在相关性,那么我们在100个假设检验中允许5个错误相关性。这就是示例中出现虚假相关的原因。当面对海量数据和超多维因素时,同时对一个数据进行多次检验,难免会出现虚假关联。如何处理这个问题还有待统计学进一步研究。

无意义的意义

还有一种情况我们称之为无意义的显着性(Lin,Lucas,Shmueli,2013)。当我们分析比较两组数据时,如果A组和B组各只有1000条数据记录,我们测试两组数据的平均值是否相同,结果告诉我们,它们具有统计学意义微不足道。换句话说,这两组数据的平均值之间不存在统计差异。但当数据记录达到数万或数百万时,测试结果告诉我们,它具有统计显着性。

这是怎么回事?我们回溯本源,看看为什么要对两组数据进行统计分析和比较?我们不能计算两组的平均值,看看它们是否相同吗?当然不是,因为我们确实希望分析比较的结果是客观现象,能够100%反映整体定量数据。简单地孤立地比较两组1000条记录的平均值只是一个比较。比较得出的结论不能概括为100%总体定量数据的客观现象。

但这两组数据就相当于100%的总量数据吗?当然不是,即使是海量的大数据也并不100%等同于整体的量化数据。这样,我们分析总结的这两组数据的一些统计指标就会与整体定量数据的统计指标存在一定的偏差。这种偏差一般有一个下限和一个上限,我们称之为置信区间。真实人口数量数据的统计指标落在样本数据统计指标左侧或右侧一定范围(置信区间)内。

那么,我们实际上想看的是A组总体数量数据和B组总体数量数据的平均值是否相同。也就是说,A组总体数量数据的平均值减去B组总体数量数据的平均值是否为零:现在我们只有A组样本量数据的平均值和B组样本量数据的平均值,表达符号为sum。我们需要看的是A组样本量数据的平均值减去B组样本量数据的平均值的差是否等于0:但是我们已经知道,由于存在样本均值差,样本均值之间的差值不一定为零。并且这种差异有一定的置信区间。

那么我们其实更精准的看0是否落在样本差值的置信区间内(置信区间的上下限与上面提到的第一个统计错误率一致,里面有一个5%的概念,这里就不详细介绍了,反正是否落入置信区间也可以用来判断统计是否显着)。如果落入其中,我们就说它没有统计意义,即两组数据的平均值相同。如果不在其中,我们就说它具有统计显着性,也就是说两组数据的平均值是不同的。如图11所示:

图11

那么为什么样本数据量为千条和千万条时结果会不同呢?这里我们要进一步讨论的是样本量和置信区间之间的关系。随着样本数量的增加,样本差异将接近真实总体数据差异(不一定为0)。同时,不确定性会降低,置信区间会缩短。事实上,估计的差异会变得越来越准确。在这种情况下,即使样本差异是一个非常接近0的数字(即我们都认为两组数据的平均值是相同的),0仍然会因为收缩而落在置信区间之外。置信区间。(如图11下半部分2所示)。

这样,结果将具有统计显着性:两组数据的均值不同。现有的统计方法应用于大数据时会带来此类错误信息。这是因为现有的传统统计方法都是针对小数据的。当它们被提出时,他们没有面对或想到数据量会如此巨大。如何解决和改善这样的数据特性带来的问题,我们仍然走在研究的路上。

羊群效应

在大数据时代,我们的社会越来越数字化和聚合个人意见,并依靠它们做出决策(例如根据收集的评级推荐产品或服务)。这种现象在医学领域逐渐变得普遍。很多辅助医疗应用在移动平台上都有用户评分,人们会根据评分来选择是否使用。对于一些医疗网络平台推出的在线问诊等服务,用户还可以对提供该服务的医务人员的满意度进行评分,从而影响其他人是否选择该医务人员进行会诊的决定。

利用这种“群体智慧”的一个关键要求是个人意见的独立性。然而,在现实世界中,收集到的集体意见很少是由彼此无关的独立个人意见组成的。最近的实验研究表明,收集到的先前存在的意见可能会扭曲随后的个人决策以及对质量和价值的看法。这凸显了我们从集体意见中感知到的价值与产品本身固有的价值之间的根本区别。

造成这种差异的原因是“羊群效应”。羊群效应简单描述就是个体追随羊群的心理和行为。羊群是一个非常分散的组织。它们在一起时通常会盲目地左冲右撞,但一旦其中一只羊开始移动,另一只羊就会不假思索地向前冲去,完全不管前面或不远处是否有狼。到处都有更好的草。因此,“羊群效应”是羊群效应的隐喻,很容易导致盲从,而盲从往往会导致认知偏差和决策偏差。

IBMWatson研究中心(WangWang,2014)使用大规模纵向客户评级数据集(Amazon的)并构建了统计模型来证明评级和意见的生成不是一个独立、统一的过程,而是创建了一个环境这会影响未来。评级或意见的生成。这种社会化的顾客评分体系体现的“羊群效应”是:高评分往往会产生新的高评分,同时抑制低评分的产生。

接下来的问题是:如果能够消除“羊群效应”,真正符合产品真实品质的分数是多少?通过应用IBMWatson研究中心开发的统计模型可以部分回答这个问题。他们对亚马逊的四类产品数据(书籍、电子产品、影视、音乐)进行了内部评分(消除“羊群效应”)和外部(不消除“羊群效应”)测试。在所有四个类别中,50%的产品评分相差大于0.5。这种差异说明了我们从集体评级中得出的看法与产品的真实价值之间存在显着差异。

更进一步,考虑到产品当前的评级,如果我们施加一定的人为操纵,“羊群效应”将如何影响未来的评级?这种预测分析在许多领域都很有价值,包括市场利润估计、广告预算和欺诈操纵检测。例如,在决定是否促销产品之前,市场分析师可能希望估计促销造成的短期高评级对产品的长期影响。

通过在两类产品(电影、电视和音乐)中插入50个人工5星评级,研究中心预测,虽然这两种产品在受欢迎程度方面经历了相似的短期高收视率,但从长远来看,促销它对影视产品产生更持久的影响(高收视率消退得更慢)。这为市场分析决策提供了宝贵的情报。

通过适当的统计方法,可以消除和利用此类大数据中的“羊群效应”,产生更有价值的信息用于决策分析。

种种例子充分说明,在大数据时代,数据库的建立等操作虽然需要专业计算机人才的贡献,但统计专业人员的参与也是不可或缺的。数据管理和分析不仅仅是提取、检索、简单的总结、总结。数据本身的复杂性使得分析过程充满了陷阱和误解。如果没有一定的统计理论知识结构,就会出现分析出现偏差或者数据利用效率低下的情况。学会在计算机算法的基础上理解数据统计的本质,将算法与统计分析相结合,是未来大数据分析的一个主要方向。

结论与展望

本文简要介绍了什么是大数据,选择性地描述了大数据的一些特征、医疗大数据及其在北美医疗系统中的现状,并揭示了大数据分析将为医疗保健领域带来什么。影响和影响巨大。大数据提供了前所未有的见解,并通过临床和其他数据存储库的数据管理和分析实现更明智的决策。

在不久的将来,大数据分析的应用将在医疗机构和医疗行业中迅速广泛地出现。本文描述的数据管理框架和数据统计分析表明,大数据的有效应用是一个系统工程,需要一系列专业技能来保证大数据分析的成功,包括:处理、整合、分析复杂数据和能够帮助客户充分了解数据分析的结果。要做到这一点需要各种专业技能和属性,包括:

计算机科学/数据开发专业技能:扎实的计算机科学基础和应用能力,了解大数据的基本框架。分析和建模能力:在理解数据的基础上快速分析并建立有效的统计模型。这不仅需要扎实的统计数据,还需要敏锐的思维和洞察力。好奇心和创造性思维能力:这需要对数据的渴求以及全面敏锐的思考和探索问题的能力。有些组织寻找人才只是为了看看谁能在讨论数据时表现出色。出色的沟通能力:将数据与结果融为一体的分析报告,能够清晰明了地用非专业语言帮助客户或公众正确理解数据分析结果并做出决策。

当然,我们很难找到一个全能的人,但通过团队分工协作建立高效的大数据团队是目前一个可行的方向。因此,在这个大数据分析越来越主流的时代,抓住机会脱颖而出或者取得进一步的进步。

珍珠粉怎样去黑头(珍珠粉怎样去黑头粉刺)
上一篇 2024-09-12 08:37:58
不长肌肉的运动方式(不长肌肉怎么办)
下一篇 2024-09-12 08:49:08

相关推荐