BI 中位数企业平均数数据

excel怎么删除脏数据平均数的历史故事？

[更新]

日期：2023-06-24 18:26:08

分类：行业

4264 阅读

excel怎么删除脏数据

平均数的历史故事？

平均数的历史故事？

(一)
1906年，伟大的科学家兼恶心的人种改良倡导者高尔顿(Francis Galton)参加了年度西英格兰家畜展，即兴做了个数学实验。
在集会上闲逛的他碰到了一个猜重量竞赛。人们猜测一只的公牛的重量，猜的最准的人将获得大奖。
高尔顿曾公开鄙视过普通大众的愚笨。他相信只有专业人士才能做出准确的估测。787位猜测者中根本没几个专业人士。为了体现群众的无知，他算出了所有猜测的平均数(而不是当时统计学家常用的中位数)：1197磅。得知实际重量后他吓了一跳：1198磅。
在如今的世界里，我们只能见到平均数的身影：纽约4月均温为52华氏度；库里场均拿到30分……只有在某些统计里(美国家庭年收入中位数为51939美金)中位数才会露下头角。
那么，中位数是如何消失的？平均数又是如何成为了当今世界最流行的量数？
(二)
俗称的平均数(average)在数学上的其实是“算数平均数”(arithmetic mean)，意为所有数据之和除以数据的个数。算数平均数中的“平均数”(mean)一词源自拉丁语的“中间”(medianus)。Mean这一概念最初由希腊数学家毕达哥拉斯提出。
毕达哥拉斯时代的mean并不具有表征作用，它指的只是三个数字中间的那个数字，那个数字必需与两头的数字呈“相等的关系”。这三个数字可以是等距(如2，4，6)，也可以是等比(如1，10，100)。
花了十年时间探寻average和mean起源的统计学家Churchill Eisenhart表示，与现代人依赖于大量数据进行计算不同，早期科学测量非常不准，科学家们需要借助理论来选出多个数据中最好的一个。
正是借助mean这一理论的力量，古希腊天文学家托勒密从极少数的观测中，选择出了3120作为月球的角直径。如今我们知道根据所在地点的不同，月球的角直径为2920到346不等。
在英语中，average一词在1500年左右开始出现，指代船只或船上货物受损所带来的经济损失。如果因为船只受损，船员们必需扔掉一些货物来减轻重量，那投资者就会用arithmetic mean的方式来计算出总体经济损失。渐渐地，这两个概念融合在了一起，称为了我们通常所说的平均数。
多年之后，科学家才会开始使用一种集中量数来表征一组数据。但首先站上历史舞台的，不是平均数，也不是中位数，而是中列数。
(三)
科学工具往往是为了解决某些学科内特定问题而创造出来的。在集中量数的寻找过程中，人们希望解决的问题是为导航而进行的地理测量。
11世纪波斯知识界巨匠比鲁尼是集中量数已知最早的使用者之一。他尝试测量了古城伽兹尼的经度。那个时代的人们在拿到一组测量数据之后，会去掉两头之间的数据，取最大值和最小值中间的算术平均数。我们今天把这个数称为中列数(midrange)。
Eisenhart发现，17和18世纪时中列数依然盛行。牛顿和其它航海家为了计算地理位置都使用过中列数。但近几百年来，在这被平均数占领的世界中，中列数已经下落不明。
(四)
19世纪早期，算术平均数已经成为了一种常用的集中量数。那个时代最杰出(也最暴躁)的数学家高斯在1809年写道：
如果要在同一情况下用同种方式，从几次直接观测中选出一个数，那这些数的算术平均数便是最接近真值的数。习惯上，这假设已经已经被当成一个公理。
史书上并没有明确的记载。Eisenhart发现，算术平均数可能在地理大发现时代被探索磁偏角(磁北方向与正北方向之间的夹角)数学家们首次采用。
直到16世纪后期，大部分科学家都在使用某种特定的算法来取测量中的最佳值。但在1580年，William Borough用了一种新算法，把8个数据“结合在了一起”，宣称磁偏角在11°15至11°20之间。虽没有明确记载，但他可能用了算术平均数。
1635年时，英国天文学家Henry Gellibrand称为了已知最早使用平均数作为集中量数的人。一天早上，他测出磁偏角为11°，当天下午则测出11°32。然后他写道：
“如果我们取算术平均数，我们或许能确定，正确的测量为11°16。”
这可能便是人类在使用平均数来估测真值的路上走出的第一步。
(五)
在数学界，中位数几乎是与平均数在同一时间出现。1599年，数学家Edward Wrights首次在记录中推荐了中位数。
“许多支箭射向一个标记，标记被移走，想找出标记原来所在位置的人，或许能想到这样一种方法。他应该找到箭头最集中的地方：在那么多次观测中，最中央的地方离真值最近。”
19世纪时，中位数仍是数据分析中不可或缺的一部分。在较小的数据集中比较容易计算出中位数。而且那个时代的人认为中位数比平均数更具普遍性。
(六)
然而由于平均数独特的统计学性质以及与正态分布的关系，中位数自始至终都被平均数在人气上所压制。
当数据呈正态分布，平均数往往处在钟型曲线的最高点，而绝大部分数据都会处在中位数的旁边。通过标准差，我们还能计算出距离平均数某段距离内数据的个数。
标准差，即数据内数值与平均数之间距离的平方的平均数的平方根，让平均数在分析实验数据和统计推断方面具有突出的价值。没有此类特性的中位数渐渐在科学和统计用上失去了光芒。
计算机的出现也让平均数变得更加普及。编写计算平均数的电脑程序要比编写中位数的程序容易得多。以至于在Excel中，计算某些数据的中位数都要多下一番功夫。渐渐地，平均数成为了最被人熟知，但不一定是最好的代表值。
因为平均数容易受到极端值的影响，所以很多情况下，中位数才是帮助找到分布中心的最好的数值。许多分析师相信，不分黑白地使用平均数损害了我们对定量信息的理解。
回想一下最近读到过的房屋均价、人均收入等数据，你就能发现，中位数才是最能反映普遍性的代表值。最富有的1%能极大地改变平均数所处的位置。正因如此，美国人口普查局决定使用中位数来衡量美国家庭年收入。
中位数同时也很难受到脏数据(dirty data)的影响。随着统计学家需要应对的互联网数据越来越多，当工作人员遇到不准确的数据，或者是打字时多加了一个零，中位数便显现出了自己的优越性。
(七)
随着数据收集和分析在我们的日常生活中的作用不断凸显，我们必需重新审视用来代表这些数字的集中量数。在一个理想的世界里，分析师会同时使用平均数、中位数和众数，配以图像来展现数据。
但我们生活在精力有限、时间仓促的社会里。如果只能选择一个数字，我们应该选择中位数。
中位数还是平均数之间的抉择有着重要的意义。选择了平均数，心理学家容易做出错误的诊断，金融家可能误估市场的发展。平均数已经统治了人类世界数百个春秋，或许是时候让我们做出一些改变了。

什么是BI？

互联网时代信息技术的飞速发展使得企业的信息化程度不断提高，企业数据呈现出爆发式增长的态势。相应地，企业数据量越大，数据问题就暴露得越明显，数据驱动决策的需求也愈发强烈。在这样的时代背景下，商业智能（Business Intelligence，简称BI）成为了信息化热词，我们经常能听到企业说“上BI”、“建设BI系统”、“构建BI决策平台”等内容。
那么BI到底是什么呢？相信除了相关的研究学者，绝大部分的人很难给出一个确定的答案。其实早在1958年，IBM的研究员Hans Peter Luhn就将“智能”定义为“对事物相互关系的一种理解能力，并依靠这种能力去指导决策，以达到预期的目标。”
在1996年，加特纳（Gartner）集团一锤定音，正式将商业智能定义为：商业智能描述了一系列的概念和方法，通过应用基于事实的支持系统来辅助商业决策的制定。
而我们之所以无法给出准确的商业智能定义，主要有两个方面的原因。一方面，随着信息技术的发展，20多年来商业智能的内容也发生了一些变化，但是商业智能的定义仍然停留在上个世纪；另一方面，与欧美发达国家相比，我国的信息化水平较为落后，除去互联网和各行业龙头企业，国内真正兴起BI热潮也是在近几年。因此，业内对BI没有统一的定义认知也在情理之中。
那么对于今天的商业智能，大众有着怎样的理解和认知呢？围绕这一疑问，帆软数据应用研究院对770多家企业的1400多名从业人员进行了调研。通过对调研数据的整理、清洗和分析，我们发现了一些有价值的结论，下面将对分析过程和结论进行详细的介绍。
分析过程首先我们利用python对调研得到的数据进行了整理和清洗，去除掉脏数据后，最终得到了890条数据。
接着，我们根据被调研人员职位的不同，将被调研人员分为IT部门从业人员和业务部门从业人员两类，并打上数据标签。
最后，我们通过python的分词库jieba和词云库wordloud生成了三幅被调研者对BI定义认知的词云图，即整体认知、IT部门从业人员认知和业务部门从业人员认知。
整体认知被调研人员对BI定义的整体认知可以理解为“数据”、“分析”、“数据分析”、“报表”、“业务”、“企业”、“决策”、“智能”、“工具”、“展示”、“可视化”等关键词。
首先，关键词“企业”、“决策”和“工具”说明大众对于BI的作用和目的有着比较准确的理解，就是辅助企业决策的工具。
其次，“数据”、“分析”、“数据分析”等关键词则体现了大众对BI认知的侧重点在于数据分析这一功能上，甚至将BI等同于数据分析工具。其实BI还包含了数据仓库、数据ETL等功能，覆盖了数据处理到展示的整个流程。而且底层的数据仓库建设也非常重要，能为后续的数据分析提供强有力的支持，能让数据分析结果更为准确。
另外，关键词“展示”和“可视化”也揭示了BI的另一项重要功能，即数据可视化。通过数据可视化将数据分析结果以更直观明了的方式进行展示，能为决策者提供更清晰更深入的见解。
最后，一个比较独特的关键词“报表”也从某种程度上反映了我国的BI建设现状。按照BI的定义，报表工具也是BI的一部分，不过并不能完全代表BI。但是我国企业信息化水平整体偏低，很多企业的决策支撑仍然以报表为主，所以报表也是BI在我国企业内的一个主要表现形式。
图1 整体认知IT部门业务部门从业人员认知被调研人员中，IT部门和业务部门从业人员对BI定义认知的关键词与整体认知类似，核心都是“数据”、“决策”和“数据分析”，这里我们主要来看这二者之间的差异。
第一，从词云图中关键词的大小来看，IT部门从业人员对BI的认知更为统一，业务部门从业人员则较为分散。这一结果也和业务部门的多样性有关，不同业务部门的人员有着不同的理解。
第二，IT部门重技术，业务部门重价值。IT部门从业人员认知词云图中，出现了“技术”、“挖掘”、“应用”等词，并且“智能”一词并没有和“商业智能”捆绑在一起，而是作为单独的关键词出现的。在业务部门从业人员认知词云图中，“价值”、“可视化”、“整合”等关键词是IT部门从业人员认知图中出现较少的。所以说IT部门更倾向于将BI定义为技术，而业务部门则更注重商业价值。
第三，IT部门从业人员认知词云图中出现了关键词“暂无”，这说明有一小部分的IT从业人员对BI的定义没有明确的理解和认知，或者企业并没有进入BI系统建设阶段，因此IT人员没有深入接触过BI。
第四，IT部门和业务部门从业人员认知词云图中都提到了“数据挖掘”，不过出现的次数都非常少。数据挖掘作为更深入的数据分析方法，在面对大量数据时，能提供更具洞察力的见解，也是BI的一项重要功能。然而就当前国内情况来看，数据挖掘仍处于泡沫和技术炒作阶段，并没有得到实质的应用。但是不可否认，数据挖掘是未来的一个主要趋势。
最后，值得注意的是，业务部门从业人员认知词云图中，出现了“帆软”一词。作为国内专业的大数据BI和分析平台提供商，帆软专注商业智能和数据分析领域，致力于为全球企业提供一站式商业智能解决方案。帆软推出的商业智能产品FineBI的一个核心优势就是业务人员自助分析，所以业务人员接触的较多，说起BI也就很自然地想到帆软了。
图2 IT部门从业人员认知图3 业务部门从业人员认知以上分析结论可以总结为两点：
整体上来说，国内企业人员对BI的认知处于宏观的目标层面，对BI功能的认知集中在数据分析和数据可视化上；部门工作内容和工作性质的差异使得IT部门和业务部门的从业人员对BI的认知存在一定区别。根据大众认知调研结果和分析结论，结合现有的BI定义，我们可以来重新定义商业智能：
商业智能（BI）是利用技术手段或方法，将数据转化为知识，用以支撑企业决策、发掘商业价值的一套解决方案。以数据为中心，BI的核心功能主要有数据仓库、数据ETL、数据分析、数据挖掘和数据可视化。
调研表明大众对BI的理解集中在数据分析和数据可视化层面，因此，报表制作与展示和业务人员自助分析是BI在国内企业中的两大主要应用场景。而数据挖掘只能说是未来的一个趋势，目前对国内企业来说仍是泡沫。
那么中国企业需要做的，便是重视底层数据仓库的建设，逐步提升数据分析和可视化的水平，向更深层次过渡，从而构建完整的BI体系，让数据成为生产力，产出更大的价值。

excel怎么删除脏数据 平均数的历史故事？

平均数的历史故事？

什么是BI？

excel怎么删除脏数据平均数的历史故事？