分类数据的统计分析技巧精选知识 - 统计师

分类数据的统计分析技巧

来源：文萃屋 2.39W 次

你知道分类数据的统计分析技巧有哪些吗?你知道什么是分类数据的统计分析吗?下面是yjbys小编为大家带来的关于分类数据的统计分析技巧的知识，欢迎阅读。

　　分类数据的统计分析

　　1. 样本数据与总体比较

1)二分类资料：

(1)小样本数据：用二项分布进行确切概率法检验;

(2)大样本数据：用U检验;

2)多分类数据：用Pearson检验(又称拟合优度检验)。

　　2. 四格表(2×2表)数据

1)完全随机设计的四格表数据的分析

(1)当样本量n>40，并且4个格子理论数均大于5时，则用Pearson 检验;

(2)当样本量n>40，并且4个格子理论数均大于1且至少存在一个格子的理论数<5时，则用校正检验或用Fisher’s精确概率法检验;

(3)当样本量n£40或存在任一格子理论数<1，则用精确概率法检验;

2)配对设计的四格表数据的.分析

(1)b+c≥40，则用McNemar配对检验;

(2)b+c<40，则用二项分布确切概率法检验;

　　3. 2×C表或R×2表数据的统计分析

1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则可以采用行平均得分差(Row Mean Scores Differ)的CMH 或成组的Wilcoxon秩和检验;

2)列变量为效应指标并且为二分类，行变量为有序多分类变量，则可采用普通的Pearson 检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。

3)行变量和列变量均为无序分类变量：

(1)当样本量n>40，并且理论数小于5的格子数少于行列表中格子总数的25%，则用Pearson 检验;

(2)当样本量n£40，或理论数小于5的格子数多于行列表中格子总数的25%，则用Fisher’s确切概率法检验;

　　4. R×C表数据的统计分析

1)完全随机设计的R×C表数据的统计分析

(1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则CMH 或Kruskal Wallis的秩和检验;

(2)列变量为效应指标，并且为无序多分类变量，行变量为有序多分类变量，则采用普通的Pearson 检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义;

(3)列变量和行变量均为有序多分类变量，可以作Spearman相关分析或者非零相关(none zero correlation)的CMH ;

(4)列变量和行变量均为无序多分类变量：

i. 当样本量n>40并且理论数小于5的格子数少于行列表中格子总数的25%，则用Pearson 检验进行分析;

ii. 当样本量n£40或理论数小于5的格子数多于行列表中格子总数的25%，则用Fisher’s 确切概率法检验;

2)配对设计的C×C表数据：

(1)配对比较：用McNemar配对检验;

(2)一致性检验(Agreement)：用Kappa检验;

　　Poisson分布数据

1. 单样本数据与总体比较：

1)当观察值较小时：可以用确切概率法进行检验。

2) 当观察值较大时：可以用正态近似的U检验。

2. 两个样本数据的比较：可以用正态近似的U检验。

　　两个变量之间的关联性分析

1. 两个变量均为连续型变量

1)当两变量为小样本并且两个变量服从双正态分布时，可以用Pearson相关系数来衡量两个变量之间的关联性;

2)当两变量为大样本或两个变量不服从双正态分布，则用Spearman相关系数来衡量两个变量之间的关联性;

2. 如果两个变量均为有序分类变量，可以用Spearman相关系数来衡量两个变量之间的关联性;

3. 如果一个变量为有序分类变量，另一个变量为连续型变量，可以用Spearman相关系数来衡量两个变量之间的关联性。

分类数据的统计分析技巧