Skip to content

统计

概率和统计像一对性格迥异的兄弟,概率是理想主义的“文艺青年”;统计是务实精干的“普通青年”。概率喜欢提出很多“假设”和“近似”;统计则只顾着搜集数据,分析数据,寻找数据中隐藏的秘密

加权平均值

平均值这种指标有一个“兄弟”,就是加权平均值。权指的是权重,也就是所占的“比重”或“重要”程度。计算全班每个人每学科的平均值,是把每个样本值直接加和,然后除以学生数再除以学科数量来得到。这里一视同仁地把所有学生和所有学科进行同等看待,没有丝毫的偏倚,分数直接相加直接平均。然而这种方法并非在所有的场景里都是合理的。

  • 混合物定价

例如,有一种什锦糖是 4 种单品糖按照 1: 1 : 1 : 1 的比例混合而成的,它们分别定价为:水果糖 15 元一斤,奶糖 25 元一斤,牛轧糖 30 元一斤,巧克力糖 40 元一斤

均匀混合以后,可以认为,理想状态下,一位客户如果正好称 4 斤糖就恰好为 1 斤水果糖,1 斤奶糖,1 斤牛轧糖和 1 斤巧克力糖。那这 4 斤糖一共应该是多少钱呢?也就是平均一斤为 27.5 元。如果这几种糖的混合比例为 1: 2: 3: 4,那么也容易得出,在混合均匀的情况下,10 斤糖里有 1 斤水果糖,2 斤奶糖,3 斤牛轧糖和 4 斤巧克力糖。15元\times1+25元\times2+30元\times3+40元\times4=315元,也就是平均 31.5 元才为合理。这其实就是一种加权平均的算法了,因为每种糖的价格在什锦糖的均价上体现出来的是不同的比重。如果不按照这种方法定,还是按照非加权平均的方式去算会怎么样呢?按照前面的例子那就是 27.5 元一斤,而 10 斤的什锦糖为 275 元,比应售价低 40 元,显然是亏本的买卖。

  • 决策权衡

例如,在股东大会上投票决议是否通过某一决定的情况下,以所持股作为投票单位,那么这种情况显然大股东对决策意见的左右能力就要强很多。控股的大股东拥有超过 50% 的股份,这种情况显然是一家说了算。这是一种典型的加权均值的概念,权重就是股份比例。

标准差

标准差公式:\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^n(X_i - \bar{X})^2}

我们以一年级一班所有 40 个学生为例,那么 3 门考试的情况下全班就有 120 个分数参与统计,也就是 n=120。把每个学生每门课的成绩减去全班的 3 个学科总的平均分 80 分,这样得到 120 个差值,再把这些差值分别平方(主要是为了去掉负数,因为在分数差距里面,不管是比平均值多,还是比平均值少,都被视为偏差),将这些平方的结果再加和,之后除以参与统计的学科数量 120,最后开平方,这个数字只可能是一个大于零的数字。

这个数字表示的是什么含义?从这个数字得到的过程其实不难看出来。如果所有人的所有课程成绩都是和平均分一样,那么算出来的标准差就是0;反之,如果所有的人的课程成绩与平均分的差距都很大,好的很好,差的很差,那么结果就是这个值会很大。如果一个班级成绩标准差比另一个班级成绩的标准差小,说明学生之间的考试成绩水平差不多,标准差大则说明学生之间的考试成绩水平相差比较大

欧式距离

在刚刚讲述的标准差的例子里其实我们还用到一个概念,就是欧式距离。回想一下计算标准差的过程,“把每个学生每门课的成绩减去平均分,再把这些差值分别平方,将这些平方的结果再加和,之后除以学生数量,最后开平方”。这其实就是在求“欧式距离”的过程。

欧式距离的定义大概是这样的:在一个 N 维度的空间里,求两个点的距离,这个距离肯定是一个大于等于 0 的数字,那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开平方

一维的应用:如在地图上有一条笔直的东西向的路,在上面有两个点,怎么量取它们在地图上的距离?用其中一个点的读数减去另外一个点的读数,不管结果正负,将它平方后再开方,还是一个非负的值。

二维的应用:最典型的莫过于“勾股定理”。

推广到三维的应用,还是可以使用勾股定理的思路进行计算。每个点都向 3 个平面各做一条垂线段,可以看出,两个点的距离其实就是一个长方体的对角线长度。最后得到距离为 3 个维度的坐标差值分别平方和再开平方,这只是在两个平面空间中用了两次勾股定理而已

同比和环比

在看一些公司的财务报告或者看新闻的时候,常常会听到“今年 7 月销售额 1000 万元,同比去年增加 100%,环比增加 25%”诸如此类的说法

何为同比?就是“与相邻时段的同一时期相比”的意思,在这个例子里,今年 7 月同比增长 10% 的意思就是今年 7 月的销售额和去年 7 月的销售额相比增长 10%,这样推断来看,去年 7 月销售额应该是 500 万元

何为环比?就是直接和上一个报告期进行比较,在这个例子里,环比增长 25% 的意思就是今年 7 月的销售额和今年 6 月的销售额相比增长 25%,这样推断来看,今年 6 月的销售额为 800 万元

但是,在真实应用的时候通常是不会这样来反推前值的,而是先得到前值和当期值然后做比较得出同比和环比

这种比对其实也是天然形成的,要知道在公司或或组织运营中通常喜欢用周期性单位来做计划,不管是预算计划,还是工作任务分派计划,用周、月、季度、年都是可以的,选取的周期大小完全取决于工作场景中这个周期是不是容易把握和调整。在一个周期结束的时候,通常要对这个周期的工作内容进行总结,这种总结的目的就是对比和经验归纳,手段通常就用同比和环比

举个生产中常见的例子,例如,互联网公司用周和月甚至天做短期的运营时间单位,因为可以在比较短的时间内看到反馈和周期性变化的规律特点,用年做单位则显得有些笨重,反馈慢。互联网公司常用的同比环比的对象有什么呢?日/月活跃用户数,简称“日活”和“月活”,这是经常用来做同比和环比的对象;还有日 PV 数(Page View),也就是俗称的点击量,一个用户发生一次网页访问就算一个 PV,很多互联网公司在做运营时把 PV 数当成一个网站活跃程度重要的指标