1、聚类分析(cluster ana,,,,
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
2、因子分析
因子分析是指研究从变量群中提取共性因子的统计技术。
3、相关分析
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。
4、对应分析
5、回归分析
6、方差分析
一、离散与离散变量之间的相关性
1、卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
2、信息增益和信息增益率
在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。
信息熵,就是一个随机变量的不确定性程度。
条件熵,就是在一个条件下,随机变量的不确定性。
二、连续与连续变量之间的相关性
1、协方差
协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。
协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。
2、线性相关系数
也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。
r=cov(X,Y)/(D(X)D(Y))
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。
三、连续与离散变量之间的相关性
1、连续变量离散化
将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。
2、箱形图
使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。