SPSS 10.0高级教程七:描述性统计分析详解

2012-04-12 生物谷 生物谷

描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Cross

描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,williamhill asia 常用的X2 检验也在其中完成。

本章讲述的四个过程在9.0及以前版本中被放置在Summarize菜单中。

§6.1 Frequencies过程

频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。

和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到williamhill asia 所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。

6.1.1 界面说明

Frequencies对话框的界面如下所示:

该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:

【Display frequency tables复选框

确定是否在结果中输出频数表。

Statistics钮

单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。

现将各部分解释如下:

  • Percentile Values复选框组 定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for   equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。
  • Central tendency复选框组 用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
  • Dispersion复选框组 用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。
  • Distribution复选框组 用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。
  • Values are group midpoints复选框 当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。

众数(Mode)指所有数值中出现频率最高的一个值,在国内用的非常少。

Charts钮

弹出Charts对话框,用于设定所做的统计图。

  • Chart type单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(With normal curve)。
  • Chart Values单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。

Format钮

弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。

  • Order by单选钮组 定义频数表的排列次序,有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。
  • Multiple Variables单选钮组 如果选择了两个以上变量做频数表,则Compare variables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organize output by variables则将结果在不同的频数表过程输出结果中显示。
  • Suppress Tables more than...复选框 当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。

6.1.2 分析实例

例6.1 某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5(卫统第三版p233 1.1题)。

4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05

解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为X,具体解法如下:

  1. Analyze==>Descriptive Statistics==>Frequencies
  2. Variables框:选入X
  3. 单击Statistics钮:
  4.  选中Mean、Std.deviation、Median复选框
  5.  单击Percentiles:输入2.5:单击Add:输入97.5:单击Add:
  6.  单击Continue钮
  7. 单击Charts钮:
  8.  选中Bar charts
  9.  单击Continue钮
  10. 单击OK

得出结果后手工计算出CV。

上面做出的直方图分组太多,需要进一步编辑。

6.1.3 结果解释

上题除直方图外的的输出结果如下:

Frequencies

最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。

系统对变量x作频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Valid percent为各组频数占总例数的有效百分比,Cum Percent为各组频数占总例数的累积百分比。

§6.2 Descriptives过程

Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。

6.2.1 界面说明

Save standardized values as variables复选框

确定是否将原始数据的标准正态评分存为新变量。

Options钮

弹出Options对话框,大部分内容均在前面Frequences过程的Statistics对话框中见过,只有最下方的Display Order单选钮组是新的,可以选择为变量列表顺序、字母顺序、均数升序或均数降序。

6.2.2 结果解释

下面是一个典型的Descriptives过程结果统计表:

一望可知,这里的大部分内容都在上一节见过,因此就不再多解释了。

讲了两个过程,也许大家已经发现了:结果中的统计专业单词多数在对话框中就已经出现,因此williamhill asia 以后会详细解释对话框的内容,结果中相同的单词不再重复解释。

§6.3 Explore过程

Explore过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如枝叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案。

6.3.1 界面说明

Display单选钮组

用于选择输出结果中是否包含统计描述、统计图或两者均包括。

Dependent List框

用于选入需要分析的变量。

Factor List框

如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。

Label cases by框

选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。

Statistics钮

弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项:

  • Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。
  • M-estimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。
  • Outliers复选框:输出五个最大值与五个最小值。
  • Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。

Plot钮

弹出Plot对话框,用于选择所需要的统计图。有如下选项:

  • Boxplots单选框组:确定箱式图的绘制方式,可以是按组别分组绘制(Factor levels together),也可以不分组一起绘制(Depentends together),或者不绘制(None)。
  • Descriptive复选框组:可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。
  • Normality plots with test复选框:绘制正态分布图并进行变量是否符合正态分布的检验。
  • Spread vs. Level with Levene Test单选框组:当选择了分组变量时,绘制spread-versus-level图(我还没有找到他的中文名字该叫什么),设置绘图时变量的转换方式,并进行组间方差齐性检验。

Options钮

用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值。

6.3.2 结果解释

以例6.1的数据为例,按默认方式下的选择,Explore过程的输出如下:

Explore

首先是例行的处理记录缺失值情况报告,可见101例均为有效值。

上表详细列出了常用的描述统计量,如果有标准误也会列出(如偏度和峰度系数)。

X

X Stem-and-Leaf Plot

Frequency Stem & Leaf

     1.00        2 .  7
     8.00        3 .  00123334
     9.00        3 .  556689999
    24.00        4 .  000001111222333333344444
    25.00        4 .  5555556666677777777788899
    17.00        5 .  01111111222333334
     9.00        5 .  556778889
     6.00        6 .  112333
     1.00        6 .  5
     1.00 Extremes    (>=7.2)

 Stem width:    1.0000
 Each leaf:       1 case(s)

以上是茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布范围及形态,在国外非常流行。

以上是箱式图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。

§6.4 Crosstabs过程

Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。统计推断则包括了williamhill asia 常用的X2检验、Kappa值,分层X2(X2M-H)。如果安装了相应模块,还可计算n维列联表的确切概率(Fisher's Exact Test)值。

Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。

6.4.1 界面说明

【Rows框】

用于选择行*列表中的行变量。

【Columns框】

用于选择行*列表中的列变量。

【Layer框】

Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。Layer在这里用的比较少,在多元回归中williamhill asia 将进行详细的解释。

【Display clustered bar charts复选框】

显示重叠条图。

【Suppress table复选框】

禁止在结果中输出行*列表。

Exact

针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算(Exact)。蒙特卡罗模拟默认进行10000次模拟,给出99%可信区间;确切计算默认计算时间限制在5分钟内。这些默认值均可更改。

如果你在安装SPSS时没有安装EXACT模块,则此处对话框中不会出现Exact钮。

在3*3及以上的行*列表中,确切概率的精确计算是极为漫长的过程。我曾经用SAS 6.12在P133机上计算过一个12格表的确切概率,整整跑了两个小时后,SAS告诉我说机器内存不足:(。SPSS的计算速度比SAS要慢许多倍,因此一般只需要选用蒙特卡罗模拟算出概率值的99%可信区间就行了,精度完全可以满足需要,而速度极快(10000次模拟一般耗时在10秒左右)。

【Statistics钮】

弹出Statistics对话框,用于定义所需计算的统计量。

  • Chi-square复选框:计算X2
  • Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。
  • Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。
  1. Contingency coefficient复选框:即列联系数,其值界于0~1之间;

  2. Phi and Cramer's V复选框:这两者也是基于X2值的,Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer's V 则界于0~1之间;

  3. Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差;

  4. Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

  • Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标,很少使用。
  1. Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;

  2. Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;

  3. Kendall's tau-b复选框:界于-1~1之间;

  4. Kendall's tau-c复选框:界于-1~1之间;

  • Eta复选框:计算Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例;
  • Kappa复选框:计算Kappa值,即内部一致性系数;
  • Risk复选框:计算比数比OR值;
  • McNemanr复选框:进行McNemanr检验(一种非参检验);
  • Cochran's and Mantel-Haenszel statistics复选框:计算X2M-H统计量(分层X2,也有写为X2CMH的),可在下方输出H0假设的OR值,默认为1。

【Cells钮】

弹出Cells对话框,用于定义列联表单元格中需要计算的指标:

  • Counts复选框组:是否输出实际观察数(Observed)和理论数(Expected);
  • Percentages复选框组:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);
  • Residuals复选框组:选择残差的显示方式,可以是实际数与理论数的差值(Unstandardized)、标化后的差值(Standardized,实际数与理论数的差值除理论数),或者由标准误确立的单元格残差(Adj. Standardized);

【Format钮】

用于选择行变量是升序还是降序排列。

6.4.2 分析实例

例6.2 某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两种方法治疗效果有无差别(医统第二版P37 例3.10)?

处 理

愈 合

未愈合

合计

呋喃硝胺

54

8

62

甲氰咪胍

44

20

64

合 计

98

28

126

解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量,然后用Weight Cases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。假设三个变量分别名为R、C和W,则数据集结构和命令如下:

R

 C

W

1.00

 1.00

 54.00

1.00 

2.00

 44.00

2.00 

1.00

 8.00

2.00 

2.00

 20.00

  1. Data==>Weight Cases
  2. Weight Cases by单选框:选中
  3. Freqency Variable:选入W
  4. 单击OK钮
  5. Analyze==>Descriptive Statistics==>Crosstabs
  6. Rows框:选入R
  7. Columns框:C
  8. Statistics钮:Chi-square复选框:选中:单击Continue钮
  9. 单击OK钮

6.4.3 结果解释

上题的结果如下:

Crosstabs

首先是处理记录缺失值情况报告,可见126例均为有效值。

上面为列出的四格表,实际使用时可以在其中加入变量值标签,使看起来更清楚。

上表给出了一堆检验结果,从左到右为:检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(Exact Sig.2-sided)、单侧精确概率(Exact Sig.1-sided);从上到下为:Pearson卡方(Pearson Chi-Square即常用的卡方检验)、连续性校正的卡方值(Continuity Correction)、对数似然比方法计算的卡方(Likelihood Ratio)、Fisher's确切概率法(Fisher's Exact Test)、线性相关的卡方值(Linear by Linear Association)、有效记录数(N of Valid Cases)。另外,Continuity Correction和Pearson卡方值处分别标注有a和b,表格下方为相应的注解:a.只为2*2表计算。b.0%个格子的期望频数小于5,最小的期望频数为13.78。因此,这里无须校正,直接采用第一行的检验结果,即X2=6.133,P=0.013。

如何选用上面众多的统计结果令许多初学者头痛,实际上williamhill asia 只需要在未校正卡方、校正卡方和确切概率法三种方法之间选择即可,其余的对williamhill asia 而言用处不大,可以视而不见。

版权声明:
本网站所有内容来源注明为“williamhill asia 医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于williamhill asia 医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“williamhill asia 医学”。其它来源的文章系转载文章,或“williamhill asia 号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与williamhill asia 联系,williamhill asia 将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关威廉亚洲官网

SPSS 10.0高级教程二:数据文件的管理(2)

2.2.1.2 从原有变量计算新变量 从头定义变量的情况多数在建立数据集时出现。但是,当数据集已经建立,需要整理、转换变量时,碰到的更多情况是需要根据某种条件从原有变量计算新变量。下面williamhill asia 将按菜单条目的顺序依次讲解他们的功能。但是,首先williamhill asia 需要了解一下所用的对话框界面的情况。 【SPSS对话框元素介绍】 下面是williamhill asia 在第一章曾经见过的两样本t检验对话框: 这是一个非常典型的SPSS对话框

SPSS 10.0高级教程四:程序编辑窗口用法详解

某年某月的某一天,你和你的另一半正在街上为地球表面的平整而贡献自己的绵薄之力。突然(也许是必然),你觉得有些饿了。这是一个问题,当然,不用说大家也知道解决问题的方法就是--吃。不过就是吃也有讲究,可以随便找个面馆简单的填饱肚子;要求高的话还可以去几星级的地方享受一下;当然还有的人觉得自己回去做口味也合适,花费也不多;更有些超级美食家,星级水准也不满意,需要亲自给一级厨师露一手,指点他们一下,才会吃

SPSS 10.0高级教程五:SPSS结果窗口用法详解

§4.1 结果窗口元素介绍 SPSS实际上提供了两个结果窗口--结果浏览窗口和结果草稿浏览窗口。前者最为常用,显示美观,但非常消耗系统资源;后者实际上是一个RTF格式文档,显示简单朴素,但节省资源。williamhill asia 可以根据所用计算机的情况选择使用哪一种窗口。 结果草稿浏览窗口的内容虽然是RTF格式,但由于中、英文兼容性的问题,其中的表格读入WORD以后会变的面目全非,因此对williamhill asia 不是很适用。 4.1.1

SPSS 10.0高级教程六:SPSS统计绘图功能详解

在常用的统计软件中,SAS绘制的统计图不太美观;而SPSS绘制的统计图较为美观,可以满足大多数情况下的要求;STATA绘制的统计图形最为精美,但由于它采用命令行方式操作,美观的图形需要添加大量选项,普通人不易掌握;而S-PLUS、MATHLAB等偏数理统计的软件虽然绘图能力也非常强,但由于自身的定位问题,并不为大多数人所熟悉。因此,在各种统计软件中,以SPSS制作的统计图应用最为广泛。 EXE

SPSS 10.0高级教程一:SPSS概览--数据分析实例

欢迎加入SPSS使用者的行列,首先祝贺你选择了权威统计软件中界面最为友好,使用最为方便的SPSS来完成自己的工作。由于该软件极为易学易用(当然还至少要有不太高的英语水平),williamhill asia 准备在课程安排上做一个新的尝试,即不急于介绍它的界面,而是先从一个数据分析实例入手:当你将这个例题做完,SPSS的基本使用方法也就已经被你掌握了。从下一章开始,williamhill asia 再详细介绍SPSS各个模块的精确用法。 williamhill asia 教学时是以SP

SPSS 10.0高级教程二:数据文件的管理(1)

不言而喻,一切统计分析都是以数据为基础的,因此统计软件的数据管理能力非常重要。SPSS以其豪华的界面为依托,为用户提供的便捷的数据管理功能,下面williamhill asia 就来具体看一下。 §2.1 建立与保存数据文件 和大多数应用软件相同,SPSS中数据文件的管理功能基本上都集中在了File菜单上,该菜单的组织结构和WORD等也极为相似,因此这里williamhill asia 只介绍比较有特色的几个菜单项。 SPSS 10.0有三个主要窗