面向分析化学教学的数理统计软件的开发和应用
Developing a Software Package for Statistical Applications in the Course of Chemical Analysis
Received: 2019-05-9 Accepted: 2019-05-16
Fund supported: |
|
针对分析化学教材中统计数值表不够全面、抽象难懂的不足,开发了基于Matlab和Android平台的数理统计软件。该软件具有简洁的界面、直观的图像和自然的人机交互等优点,提供数理统计应用中的概率计算和统计检验所需的临界值,分布类型包括正态分布、t分布、χ2分布和F分布。该软件旨在辅助分析化学师生提高解题效率,从而将学习重点集中在数理统计知识的深入理解和结果的合理阐释;也为此后专业统计软件的使用提供平稳过渡。本文介绍了该软件的主要特点,结合例题详细说明了软件的使用方法。
关键词:
A statistical software package is developed for the course of chemical analysis. The software calculates cumulative distribution functions and inverse cumulative distribution functions of normal, t, χ2, and F distributions; it also provides critical values for tests of statistical significance. The software is designed to substitute for traditional data tables that are insufficient and obscure. Statistical problems can be solved more efficiently with the software than with traditional data tables, which enables students to focus on understanding statistical principles and interpreting results. The software provides information through an intuitive interface, a graph, and natural interactions. Both Matlab and Android versions are presented, and free of charge.
Keywords:
本文引用格式
邵利民.
Shao Limin.
分析化学传统课程体系中,数理统计应用的模式为:计算→查表→结论。其中“查表”是指在统计数值表中查找所需数值。限于篇幅,教材中的统计数值表只能列出常用数值,因此在应用中存在一定限制。下面以t分布和F分布为例进行说明。
统计数值表实际上是累积分布函数(cumulative distribution function,CDF)和逆累积分布函数(inverse cumulative distribution function,ICDF)的计算结果[3],然而相关计算对于简单计算器来说过于复杂。所以,统计分布表尽管存在限制,使用起来也不太方便(表的形式有很多种,为了区别,一般在表头绘有示意图),但是在计算工具欠发达年代必不可少。
当前计算机技术高度发展,硬件普及、软件丰富,可以方便高效地计算累积分布函数和逆累积分布函数。例如,相当普及的Excel软件就能够计算常见统计函数(在“插入函数”对话框中的“统计”类别中),更不必说专业统计软件(用户输入原始数据,即可得到结果)。实际上,当前数理统计应用已经不再依赖统计数值表。
专业统计软件尽管方便,但是这种“黑箱”模式并不适用于旨在理解概念、掌握原理的教学活动中。非专业统计软件(如Excel或者教材[3]中提供的Matlab程序),虽然可以完成有关计算,但是没有结合图像,致使本来就很抽象的统计知识更难理解。针对这些问题,我们开发了名为Statistical Tool for Analytical Chemistry (stac)的软件,发布了Matlab和Android两个版本,分别运行于PC机和智能手机。
stac软件能够计算正态分布、t分布、χ2分布和F分布的累积分布函数和逆累积分布函数;提供显著性检验所需要的临界值(即替代传统的统计数值表),计算显著性检验的P-值(为专业统计软件广泛采用),并提供图像以帮助学生加深理解数理统计知识。这些功能设定与软件服务与教学的目的相一致,只起辅助作用,计算主体仍然是学生。
1 软件介绍
在Matlab环境下开发stac软件。软件从底层设计,仅使用Matlab基本运行环境和基础库函数,不需要任何可选工具箱(Toolbox)中的函数,用户因此不必另外购买任何Matlab工具箱。软件保留版权,非商业使用免费。
1.1 软件安装
用户从http://staff.ustc.edu.cn/~lshao/misc.html下载stac软件安装程序。安装程序是一个zip压缩包,通过解压即可完成安装;软件可以安装在任意文件夹,但是其文件操作权限可能受限(如果权限不够,软件给出提示和解决方法)。为了避免权限方面的麻烦,建议将软件安装在当前用户的桌面。
上述文件操作权限是指软件stac在自身文件夹中创建和删除数据文件,不会对其他文件进行操作。
stac要求Matlab的最低版本是7.10.0.499 (R2010a)。如果Matlab版本太低,软件会给出相应提示。
软件安装成功后,需要在Matlab中输入相应命令来运行。运行方式在The First Running.pdf中有详细说明。这种略显繁琐的手动运行方式仅需一次。首次运行时,stac会提示用户创建快捷方式。此后用户通过点击快捷方式按钮,即可方便地运行该软件。
我们还开发了该软件的Android版本,用户通过智能手机扫描上述网页上的二维码下载apk文件,然后安装使用。
1.2 软件使用
软件的主界面如图1所示。主界面划分为三个功能区,上部功能区是各种计算模式;左侧功能区显示概率密度函数的图像;右侧功能区计算不同分布的累积分布函数、逆累积分布函数,或者计算显著性检验所需的临界值。
图1
在“CDF < > ICDF”计算模式下,用户先从Type下拉列表中选择分布类型,并输入该分布的参数。计算临界值时,在Cumulative Probability编辑框输入累积概率,回车或者单击Calculate按钮,结果显示在Critical Value编辑框中;计算累积概率时,则在Critical Value编辑框输入临界值,结果显示在Cumulative Probability编辑框中。坐标系显示相应的概率密度曲线,并以阴影部分面积表示(输入的或者计算出的)累积概率。如果在Critical Value编辑框输入检验统计量的取值,软件还计算单侧检验的P-值,双侧检验的P-值(是单侧检验P-值的2倍)通过文本One-sided P-Value的提示信息给出。所以,这种计算模式也可用于显著性检验,具体用法参见例题。
在另外3种计算模式下,用户也是首先确定分布类型、输入相应参数。然后,在Significance Level编辑框输入显著性水平,回车或者单击Calculate按钮就可以计算出显著性检验所需的临界值;坐标系显示相应的概率密度曲线,并以阴影部分面积表示显著性水平。
按钮“Update”和“Webpage”分别用于查询新版本和访问软件主页。如果发现新版本,在得到用户允许后,软件会自动完成更新。
2 软件应用
下面通过分析化学课程中的一些常见例题,介绍stac软件在数理统计问题中的应用。
2.1 概率相关计算
例1已知测量结果服从正态分布N (20.02, 0.112),计算测量值落入[19.80, 20.20]的概率。
解:N (20.02, 0.112)的概率密度函数示意图如下:
图中两个端点分别是19.80和20.20,阴影部分面积就是测量值落入[19.80, 20.20]的概率。通过stac软件计算这一概率。
图2
2.2 置信区间计算
分析化学中,置信区间通常指双侧置信区间,计算所需要的临界值就是双侧检验中的临界值,所以在软件中选择“Two-sided Test”计算模式。如果计算单侧置信区间,那么根据具体问题选择“Left One-sided Test”或者“Right One-sided Test”模式。
例2相同条件下的10次测量值:7.5, 7.4, 7.7, 7.6, 7.5, 7.6, 7.6, 7.5, 7.6, 7.6。计算95%置信度下平均值的置信区间。
解:总体方差未知,所以使用t分布,置信区间的计算式如下:
95%置信度对应的显著性水平为0.05。本题计算的是双侧置信区间,所以在stac软件中选择“Two-sided Test”计算模式。从Type下拉列表中选择t,然后在Degrees of Freedom编辑框输入9,回车或者单击Calculate按钮,软件显示临界值为2.26,即t0.025, 9 = 2.26。软件运行界面如图3所示。将t0.025, 9代入上式后计算出置信区间为[7.5, 7.6]。
图3
2.3 右侧单侧检验
例3一新建分析实验室按照测试标准,对标样进行了9次分析,标准偏差为0.07。该测试标准规定,标样分析结果的标准偏差不得超过0.05。在0.05显著性水平下,能否认为该实验室结果的标准偏差显著偏大?
解:根据问题描述,使用χ2检验,属于右侧单侧检验。先计算检验统计量的取值:
图4
该题也可以通过P-值完成检验。如图4b所示,在软件中选择“CDF < > ICDF”计算模式,从Type下拉列表中选择Chi2,在Degrees of Freedom编辑框输入8;在Critical Value编辑框输入检验统计量取值15.7,回车或者单击Calculate按钮,软件显示单侧检验的P-值为0.047 (软件还计算出累积概率,不过这里不需要),小于显著性水平0.05,所以该实验室结果的标准偏差显著偏大。
2.4 左侧单侧检验
例4某分析人员连续两天使用同一方法分析同一样品,结果如下:
在95%置信度下,第一天数据的精密度是否显著优于第二天数据的精密度?
解:本题是判断第一天数据的样本方差是否显著小于第二天数据的样本方差,使用F检验,属于左侧单侧检验,95%置信度对应0.05显著性水平。先计算检验统计量的取值:
图5
该题也可以通过P-值完成检验。如图5b所示,在软件中选择“CDF < > ICDF”计算模式,从Type下拉列表中选择F,在1st Degrees of Freedom和2nd Degrees of Freedom编辑框均输入5;在Critical Value编辑框输入检验统计量取值0.079,回车或者单击Calculate按钮,软件显示单侧检验的P-值为0.0073 (软件还计算出累积概率,不过这里不需要),小于显著性水平0.05,所以第一天数据的样本方差显著小于第二天数据的样本方差。
值得指出的是,传统教材中的F检验统计量定义为“大方差除以小方差”。目的是将左侧单侧检验等效转化为右侧单侧检验,这样只需要提供一个右侧单侧检验的统计数值表。F分布的性质允许这种等效转化[3],χ2检验分布没有这种性质,所以传统教材中的χ2统计数值表有两个,分别用于左侧单侧检验和右侧单侧检验。使用stac软件,可以避免这些问题,而且提供图形,直观且便于理解。
2.5 双侧检验
例5设计了一种测Zn的新方法。通过该方法测定锌含量为34.33%的标准合金试样,5次测定结果为34.38%,34.26%,34.29%,34.38%,34.37%。在95%置信度下判断新方法是否有系统误差。
解:由于总体标准偏差未知,所以使用t检验,属于双侧检验,95%置信度对应0.05显著性水平。先计算检验统计量的取值:
然后计算临界值-t0.025, 4和t0.025, 4。如图6a所示,选择“Two-sided Test”计算模式,从Type下拉列表中选择t,在Degrees of Freedom编辑框输入4;在Significance Level编辑框输入0.05,回车或者单击Calculate按钮,软件显示临界值为两个临界值分别是-2.7764和2.7764。检验统计量的取值0.24介于两个临界值之间,所以新方法测定的平均值与标准值没有显著性差异。也可以说新方法测定的平均值与标准值的差异源自随机因素,所以新方法没有系统误差。根据题中的信息,无法确定该结论的可靠性。
图6
该题也可以通过P-值完成检验。如图6b所示,在软件中选择“CDF < > ICDF”计算模式,从Type下拉列表中选择t,在Degrees of Freedom编辑框输入4;在Critical Value编辑框输入检验统计量取值0.24,回车或者单击Calculate按钮,软件显示单侧检验的P-值为0.41,所以双侧检验的P-值为0.82 (将鼠标悬停在One-sided P-Value上,提示信息就是双侧检验的P-值),大于显著性水平0.05,所以新方法测定的平均值与标准值没有显著性差异。
3 结语
开发了面向分析化学教学的数理统计软件,以替代传统的统计数值表。该软件以简洁的界面、直观的图像和自然的人机交互,辅助教学并提高效率,从而将学习重点集中在数理统计知识的深入理解和结果的合理阐释。当前数理统计应用几乎全部通过软件完成,所以本软件也为知识学习到实际应用提供一个较为平稳的过渡。
参考文献
/
〈 |
|
〉 |
