shapiro wilk正态检验_正态性检验的图示方法及其应用
11卷第3期1996年9月
数理统计与应用概率
MathematicalStatisticsandAppliedProbability
Vol.11,No.3Sep. 1996
正态性检验的图示方法及其应用
王斌会
(第一军医大学,广州,510515)
3
徐勇勇
(第四军医大学,西安,710032)
摘 要 用图示方法进行正态性检验,不需要作复杂的运算,简单直观.近年来,正态性
的图示方法又有了许多发展.本文在这些发展的基础上,给出了一些图形的接受区间,提高了使用效率,排除了对图形解释的直观性,并且适合在计算机上作图.MonteCarlo模拟结果和两个实例也说明了这些方法是用的.
关键词 概率图 Michael检验 接受区间 MonteCarlo模拟
1 引言
许多统计方法要求数据呈正态分布,如t检验、方差分析、相关分析和—性模型拟合效果的残差分析等.目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro2Wilk法(W检验)[1]、D′Agostino法(D检验)[1]、Shapiro2Francia法(W′检验)[1].二是正态分布的拟合优度检验,如χ2检验[1]、对数似然比检验[1]、Kolmogorov2Smirov检验[1].三是图示法(正态概率图NormalProbabilityplot),如分位数图(QuantileQuantileplot,简称QQ图)[1]、百分位数(PercentPercentplot,简称PP图)[5]和稳定化概率图(Sta2blizedProbabilityplot,简称SP图)[2]等.在以上三类方法中,图示方法计算量最小,也最为直观,但对结果的判定易受主观性因素的影响,为了克服图示法这一缺点,本文在QQ图、PP图和SP图的基础上,参照Michael拟合优度检验方法[2]给出了这些图形的接受区间,
为结论的解释给出了一定的标准.
2 原理与方法
一般的二维概率图是这样一种散点图,其中一个坐标为原始数据排序后的数据,而另
一个坐标来自标准分布的期望有序统计量.如果来自某一总体的数据的分布只与标准分布仅差一位置或尺度常数,那么最终概率图将近似为一条直线,极端偏离直线表明该资料不是来自所指定的分布.随着概率图的不断发展,目前已发展了许多新型的概率图,如SP图等.
设X(1)≤X(2)≤…≤X(n)是分布函数F(X)的有序随机样本,假设存在连续位置尺
3 收稿日期:94年3月.
度函数F0{(X-μ)/σ}(本文假定F0(X)为正态分布),其中μ和σ分别为总体均值和标
[2]准差,通常可用样本的极大似然估计μ^和σ^代替.
要检验F=F0,等价于下列散点图中点近似在一条直线上.
(1)QQ图就是作q1与X(1)的散点图.
(2)PP图就是作ti与ui的散点图.(3)SP图就是作ri与si的散点图.
-1
其中,ti=(i-1/2)/n,ui=F0[(X(1)-μ^)/σ^],qi=F0(ti)
/2
)arcsin{t1ri=(2/πi},
/2
)arcsin{u1si=(2/πi}, i=1,2,…,n.
将上述作图公式总结如下,见表1所见
这里QQ图较为常用,而SP图效率最高,因为SP图相当于对统计量进行方差稳定
化转换(反正弦变换).
此外,由于人们对概率图中点偏离直线的看法不同,因而在作结论时带有人为主观因素,所以给它们加上接受区间是十分必要的,本文采用Michael拟合优度检验方法[2]给出了这些图形的接受区间.
Michael拟合优度统计量Dsp[2]是一种类似于Kolomgrov2Smirnov拟合优度统计量
D[1,2]的统计量,
Dsp=max|r1-s1|
(1)
通过它可在以上概率图上加100(1-α)%接受区间,如果图中所有点落在这些区间之间(见表2),那么就可认为在α水准上接受假设,其中da为Dsp在显著性水准α处的界值,见表3.
表1 作概率图公式图形形式横坐标纵坐标
QQPPSP
qitiri
X(i)uisi
)%接受区间计算公式表2 三种图形的100(1-α
图形形式
QQPPSP
接受区间界线
/2
πX=μ+σF0-1{sin2{arcsin[F1/2da}}0(qi)]±
πu=sin2{arcsin(t1/2)±/2da}
s=r±da
关于Dsp在α处的界值,Michael[1]本人应用MonteCarlo方法只给出很少一部分界值,文献[4]中也给出了部分界值,本文给出其较为详细的界值(模拟10000次结果),其结果与文献[2]和[4]的一致.
3 效率研究
为了考察统计量Dsp检验正态分布的效率,分别对16个对称分布和16个非对称分布共32个备择分布进行了MonteCarlo模拟研究,取样本含量n分别为20,50,100,每种组合重复1000次(n=100时的结果限于篇幅未列出).所有效率模拟比较都是在I型错误率a=0105水准上进行的,它们包括了偏度从-0157到6118,峰度从-115到∞的广
范围的分布,见表3.
表3 Michael正态检验Dsp界值表
样本含量
(n)
显著性水平α
015
[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0214
[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0248
[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0271
[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0323
[***********][***********][***********][***********]
[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]
252数理统计与应用概率
表4 检验正态分布时的模拟百分效率(α=0105)
第11卷第3期
编号
[***********][***********][***********]2
分布形式
LoConN(015,10)
LoConN(015,3)LoConN(015,1)Beta(015,015)Uniform(0,1)Beta(2,2)Triangle(1)Weibull(316)t(10)Laplace(0,1)ScConN(011,3)ScConN(011,5)ScConN(011,7)t(2)t(1)Cauchy(0,1)Beta(2,1)Beta(3,2)Weibull(4)Weibull(2)HalfN(0,1)LoConN(012,5)LoConN(012,7)LoConN(011,5)LoConN(011,7)LoConE(011,3)LoConE(011,5)Gumbel(0,1)Chi(4)Exp(011)Chi(1)
Lognormal(0,1)
偏度0100
[***********][***********][***********]000100-0157-0129-[***********][***********][***********]18
峰度-1185
-0196-0108-1150-1120-0186-0160-[***********]15018150
例数
[***********][***********][***********][***********][***********][***********][***********]Dsp[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][**************]Kks[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][1**********]1rqq[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][1**********]116D[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]7512∞∞∞
-0160-0164-[***********][***********][***********]1319
第11卷第3期王斌会等:正态性检验的图示方法及其应用253
分布1,2和3是三个位置污染正态分布,它们是对称的有较低峰值的分布,符号Lo2ConN(p,a)表示观察值是从概率为1-p的标准正态分布和概率为p均值为a,方差为1的正态分布中随机抽取,即x~(1-p)N(0,1)+pN(a,1).分布7Triangle(c)表示密度函数为f(x)=1/c-|x|/c2(|x|
值是从概率为1-p的指数分布和概率为p位置参数为a的指数分布中随机抽取,即x~(1-p)Exp(0,1)+pExp(a,1).
这里还考虑了其它三种常用的正态性检验统计量,统计量D表示R.B.D′Agostino检验统计量[1]
D=
(i-(n+1)/2)X(i)n[
3
统计量Dks表示Kolomgrov2Smirnov检验统计量[2]
Dks=max|ti-ui|+1/(2n)统计量rqq表示QQ图相关性检验统计量[1,5]
rqq=
(Xi-X