阅读量:
对于双变量相关性的研究在S1和S3中都有涉及,属于A-Level基础数学和进阶数学的必考题型,所以需要引起我们足够重视。在S1中,积矩相关系数(PMCC,r)作为双变量之间线性相关强度的度量,然而在相关性非线性的情况下,或者在非连续型数据的情况下,PMCC可能不是一个很好的测量两个变量之间相关性的方法。例如,假设一个茶叶制造商生产了许多不同的混合茶; 你可以品尝每一种混合物,并将混合物按最喜欢到最不喜欢的顺序排列。然而,排名是无法用一个连续的数字刻度来进行衡量的,那么在这种情况下,我们就需要使用斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient)。
斯皮尔曼的等级相关系数用rs表示,它是PMCC的一种特殊情况,在计算系数之前先将数据转换为排名。那么在什么情况下我们可以用斯皮尔曼相关系数来替代PMCC呢?一共可以分成三类:
1.其中一个或两个数据组不是来自正态分布
2.其中一个或两个数据组已经代表排名
3.两个数据组之间存在非线性关系
只要满足其中任意一种,我们就可以认定使用斯皮尔曼等级相关系数而非PMCC。
斯皮尔曼等级相关系数的公式:
*注意:此公式只适用于no tied ranks
rs取值范围在-1和1之间,若rs=1,说明rankings are in perfect agreement;若rs=-1,说明rankings are in exact reverse order;若rs=0,说明there is no correlation between the rankings.
那什么情况说明是tied rank,以及若出现tied rank又应该如何来解题呢?
如果在对数据进行排名时,出现两个或两个以上的数据值相等,那么这些数据值就是tied rank。这个时候我们就无法再使用rs,而需要用PMCC公式来解题,且相等的数据值应分配这些并列等级的平均值的等级。