大学化学, 2020, 35(2): 107-113 doi: 10.3866/PKU.DXHX201905031

自学之友

面向分析化学教学的数理统计软件的开发和应用

邵利民,

Developing a Software Package for Statistical Applications in the Course of Chemical Analysis

Shao Limin,

通讯作者: 邵利民, Email: lshao@ustc.edu.cn

收稿日期: 2019-05-9   接受日期: 2019-05-16  

基金资助: 安徽省重点教学研究项目.  017jyxm0028

Received: 2019-05-9   Accepted: 2019-05-16  

Fund supported: 安徽省重点教学研究项目.  017jyxm0028

摘要

针对分析化学教材中统计数值表不够全面、抽象难懂的不足,开发了基于Matlab和Android平台的数理统计软件。该软件具有简洁的界面、直观的图像和自然的人机交互等优点,提供数理统计应用中的概率计算和统计检验所需的临界值,分布类型包括正态分布、t分布、χ2分布和F分布。该软件旨在辅助分析化学师生提高解题效率,从而将学习重点集中在数理统计知识的深入理解和结果的合理阐释;也为此后专业统计软件的使用提供平稳过渡。本文介绍了该软件的主要特点,结合例题详细说明了软件的使用方法。

关键词: 数理统计 ; 软件开发 ; Matlab ; 安卓

Abstract

A statistical software package is developed for the course of chemical analysis. The software calculates cumulative distribution functions and inverse cumulative distribution functions of normal, t, χ2, and F distributions; it also provides critical values for tests of statistical significance. The software is designed to substitute for traditional data tables that are insufficient and obscure. Statistical problems can be solved more efficiently with the software than with traditional data tables, which enables students to focus on understanding statistical principles and interpreting results. The software provides information through an intuitive interface, a graph, and natural interactions. Both Matlab and Android versions are presented, and free of charge.

Keywords: Mathematical statistics ; Software development ; Matlab ; Android

PDF (1117KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

邵利民. 面向分析化学教学的数理统计软件的开发和应用. 大学化学[J], 2020, 35(2): 107-113 doi:10.3866/PKU.DXHX201905031

Shao Limin. Developing a Software Package for Statistical Applications in the Course of Chemical Analysis. University Chemistry[J], 2020, 35(2): 107-113 doi:10.3866/PKU.DXHX201905031

数理统计应用是高校分析化学课程的重要内容,也是课程特色。应用数理统计,不仅可以在更高层次上阐释分析结果,而且可以进一步发掘信息。正因为如此,理工农医类的分析化学教材都会包含数理统计应用方面的知识[1-8]

分析化学传统课程体系中,数理统计应用的模式为:计算→查表→结论。其中“查表”是指在统计数值表中查找所需数值。限于篇幅,教材中的统计数值表只能列出常用数值,因此在应用中存在一定限制。下面以t分布和F分布为例进行说明。

教材[1,2,7]中的t分布表列出置信度分别为90%、95%和99%的临界值,而且是“双边值”。这种“双边值”可以直接用于计算置信区间或者进行双侧t检验;也可以用于单侧t检验,但是置信度变为95%、97.5%和99.5%。显然,如果在其他置信度下进行t检验,这些统计数值表不再适用。教材[8]的t分布表增加了98%和99.9%两个置信度,但是限制仍然存在。

教材[1,2,7,8]中的F分布表列出置信度为95%的临界值,而且是“单边值”。这种“单边值”可以直接用于单侧F检验;也可以用于双侧F检验,但是置信度变为90%。显然,如果在其他置信度下进行F检验,这些统计数值表不再适用。

统计数值表实际上是累积分布函数(cumulative distribution function,CDF)和逆累积分布函数(inverse cumulative distribution function,ICDF)的计算结果[3],然而相关计算对于简单计算器来说过于复杂。所以,统计分布表尽管存在限制,使用起来也不太方便(表的形式有很多种,为了区别,一般在表头绘有示意图),但是在计算工具欠发达年代必不可少。

当前计算机技术高度发展,硬件普及、软件丰富,可以方便高效地计算累积分布函数和逆累积分布函数。例如,相当普及的Excel软件就能够计算常见统计函数(在“插入函数”对话框中的“统计”类别中),更不必说专业统计软件(用户输入原始数据,即可得到结果)。实际上,当前数理统计应用已经不再依赖统计数值表。

专业统计软件尽管方便,但是这种“黑箱”模式并不适用于旨在理解概念、掌握原理的教学活动中。非专业统计软件(如Excel或者教材[3]中提供的Matlab程序),虽然可以完成有关计算,但是没有结合图像,致使本来就很抽象的统计知识更难理解。针对这些问题,我们开发了名为Statistical Tool for Analytical Chemistry (stac)的软件,发布了Matlab和Android两个版本,分别运行于PC机和智能手机。

stac软件能够计算正态分布、t分布、χ2分布和F分布的累积分布函数和逆累积分布函数;提供显著性检验所需要的临界值(即替代传统的统计数值表),计算显著性检验的P-值(为专业统计软件广泛采用),并提供图像以帮助学生加深理解数理统计知识。这些功能设定与软件服务与教学的目的相一致,只起辅助作用,计算主体仍然是学生。

1 软件介绍

在Matlab环境下开发stac软件。软件从底层设计,仅使用Matlab基本运行环境和基础库函数,不需要任何可选工具箱(Toolbox)中的函数,用户因此不必另外购买任何Matlab工具箱。软件保留版权,非商业使用免费。

1.1 软件安装

用户从http://staff.ustc.edu.cn/~lshao/misc.html下载stac软件安装程序。安装程序是一个zip压缩包,通过解压即可完成安装;软件可以安装在任意文件夹,但是其文件操作权限可能受限(如果权限不够,软件给出提示和解决方法)。为了避免权限方面的麻烦,建议将软件安装在当前用户的桌面。

上述文件操作权限是指软件stac在自身文件夹中创建和删除数据文件,不会对其他文件进行操作。

stac要求Matlab的最低版本是7.10.0.499 (R2010a)。如果Matlab版本太低,软件会给出相应提示。

软件安装成功后,需要在Matlab中输入相应命令来运行。运行方式在The First Running.pdf中有详细说明。这种略显繁琐的手动运行方式仅需一次。首次运行时,stac会提示用户创建快捷方式。此后用户通过点击快捷方式按钮,即可方便地运行该软件。

我们还开发了该软件的Android版本,用户通过智能手机扫描上述网页上的二维码下载apk文件,然后安装使用。

1.2 软件使用

软件的主界面如图1所示。主界面划分为三个功能区,上部功能区是各种计算模式;左侧功能区显示概率密度函数的图像;右侧功能区计算不同分布的累积分布函数、逆累积分布函数,或者计算显著性检验所需的临界值。

图1

图1   基于Matlab开发的统计工具软件stac

(a)计算累积分布函数(CDF)和逆累积分布函数(ICDF)时的界面;(b)计算显著性检验临界值时的界面


stac的主要功能分为两类:①计算累积分布函数(CDF)和逆累积分布函数(ICDF);②计算显著性检验所需的临界值。第一类功能的界面如图1a所示,用户在Mode功能区选择“CDF < > ICDF”即可开始计算;第二类功能的界面如图1b所示,用户在Mode功能区选择“Two-sided Text”“Left One-sided Test”和“Right One-sided Test”其中一个即可开始计算,这3种模式分别用于计算双侧检验、左侧单侧检验和右侧单侧检验的临界值。

在“CDF < > ICDF”计算模式下,用户先从Type下拉列表中选择分布类型,并输入该分布的参数。计算临界值时,在Cumulative Probability编辑框输入累积概率,回车或者单击Calculate按钮,结果显示在Critical Value编辑框中;计算累积概率时,则在Critical Value编辑框输入临界值,结果显示在Cumulative Probability编辑框中。坐标系显示相应的概率密度曲线,并以阴影部分面积表示(输入的或者计算出的)累积概率。如果在Critical Value编辑框输入检验统计量的取值,软件还计算单侧检验的P-值,双侧检验的P-值(是单侧检验P-值的2倍)通过文本One-sided P-Value的提示信息给出。所以,这种计算模式也可用于显著性检验,具体用法参见例题。

在另外3种计算模式下,用户也是首先确定分布类型、输入相应参数。然后,在Significance Level编辑框输入显著性水平,回车或者单击Calculate按钮就可以计算出显著性检验所需的临界值;坐标系显示相应的概率密度曲线,并以阴影部分面积表示显著性水平。

按钮“Update”和“Webpage”分别用于查询新版本和访问软件主页。如果发现新版本,在得到用户允许后,软件会自动完成更新。

2 软件应用

下面通过分析化学课程中的一些常见例题,介绍stac软件在数理统计问题中的应用。

2.1 概率相关计算

1已知测量结果服从正态分布N (20.02, 0.112),计算测量值落入[19.80, 20.20]的概率。

解:N (20.02, 0.112)的概率密度函数示意图如下:

图中两个端点分别是19.80和20.20,阴影部分面积就是测量值落入[19.80, 20.20]的概率。通过stac软件计算这一概率。

图2a所示,在软件中选择“CDF < > ICDF”计算模式,从Type下拉列表中选择Normal,在Population Mean和Population SD编辑框分别输入20.02和0.11;在Critical Value编辑框输入19.80,回车或者单击Calculate按钮,软件显示累积概率为0.02275。如图2b所示,在Critical Value编辑框输入20.20,回车或者单击Calculate按钮,软件显示累积概率为0.94912。所以,所求概率为0.94912 - 0.02275 = 0.93。

图2

图2   stac软件计算正态分布累积概率时的界面

(a)临界值为19.80;(b)临界值为20.20


2.2 置信区间计算

分析化学中,置信区间通常指双侧置信区间,计算所需要的临界值就是双侧检验中的临界值,所以在软件中选择“Two-sided Test”计算模式。如果计算单侧置信区间,那么根据具体问题选择“Left One-sided Test”或者“Right One-sided Test”模式。

2相同条件下的10次测量值:7.5, 7.4, 7.7, 7.6, 7.5, 7.6, 7.6, 7.5, 7.6, 7.6。计算95%置信度下平均值的置信区间。

解:总体方差未知,所以使用t分布,置信区间的计算式如下:

95%置信度对应的显著性水平为0.05。本题计算的是双侧置信区间,所以在stac软件中选择“Two-sided Test”计算模式。从Type下拉列表中选择t,然后在Degrees of Freedom编辑框输入9,回车或者单击Calculate按钮,软件显示临界值为2.26,即t0.025, 9 = 2.26。软件运行界面如图3所示。将t0.025, 9代入上式后计算出置信区间为[7.5, 7.6]。

图3

图3   stac软件计算t分布临界值时的界面


2.3 右侧单侧检验

3一新建分析实验室按照测试标准,对标样进行了9次分析,标准偏差为0.07。该测试标准规定,标样分析结果的标准偏差不得超过0.05。在0.05显著性水平下,能否认为该实验室结果的标准偏差显著偏大?

解:根据问题描述,使用χ2检验,属于右侧单侧检验。先计算检验统计量的取值:

然后计算临界值$ \chi _{0.05, 8°}^2$。如图4a所示,选择“Right One-sided Test”计算模式,从Type下拉列表中选择Chi2,在Degrees of Freedom编辑框输入8;在Significance Level编辑框输入0.05,回车或者单击Calculate按钮,软件显示临界值为15.5073。检验统计量的取值15.7超出临界值$ \chi _{0.05, 8}^2$(落入图4a中的阴影区),所以该实验室结果的标准偏差显著偏大,该结论的可靠性为95%。

图4

图4   stac软件用于χ2检验时两种检验方式的界面

(a)计算右侧单侧检验的临界值;(b)计算P-值


该题也可以通过P-值完成检验。如图4b所示,在软件中选择“CDF < > ICDF”计算模式,从Type下拉列表中选择Chi2,在Degrees of Freedom编辑框输入8;在Critical Value编辑框输入检验统计量取值15.7,回车或者单击Calculate按钮,软件显示单侧检验的P-值为0.047 (软件还计算出累积概率,不过这里不需要),小于显著性水平0.05,所以该实验室结果的标准偏差显著偏大。

2.4 左侧单侧检验

4某分析人员连续两天使用同一方法分析同一样品,结果如下:

  

第一天9.569.569.609.579.589.62
第二天9.339.519.499.519.499.34

新窗口打开| 下载CSV


在95%置信度下,第一天数据的精密度是否显著优于第二天数据的精密度?

解:本题是判断第一天数据的样本方差是否显著小于第二天数据的样本方差,使用F检验,属于左侧单侧检验,95%置信度对应0.05显著性水平。先计算检验统计量的取值:

然后计算临界值F0.95, 5, 5。如图5a所示,选择“Left One-sided Test”计算模式,从Type下拉列表中选择F,在1st Degrees of Freedom和2nd Degrees of Freedom编辑框均输入5;在Significance Level编辑框输入0.05,回车或者单击Calculate按钮,软件显示临界值为0.19801。检验统计量的取值0.079超出临界值F0.95, 5, 5= 0.19801 (落入图5a中的阴影区),所以第一天数据的样本方差显著小于第二天数据的样本方差,即第一天数据的精密度显著优于第二天,该结论的可靠性为95%。

图5

图5   stac软件用于F检验时两种检验方式的界面

(a)计算左侧单侧检验的临界值;(b)计算P-值


该题也可以通过P-值完成检验。如图5b所示,在软件中选择“CDF < > ICDF”计算模式,从Type下拉列表中选择F,在1st Degrees of Freedom和2nd Degrees of Freedom编辑框均输入5;在Critical Value编辑框输入检验统计量取值0.079,回车或者单击Calculate按钮,软件显示单侧检验的P-值为0.0073 (软件还计算出累积概率,不过这里不需要),小于显著性水平0.05,所以第一天数据的样本方差显著小于第二天数据的样本方差。

值得指出的是,传统教材中的F检验统计量定义为“大方差除以小方差”。目的是将左侧单侧检验等效转化为右侧单侧检验,这样只需要提供一个右侧单侧检验的统计数值表。F分布的性质允许这种等效转化[3]χ2检验分布没有这种性质,所以传统教材中的χ2统计数值表有两个,分别用于左侧单侧检验和右侧单侧检验。使用stac软件,可以避免这些问题,而且提供图形,直观且便于理解。

2.5 双侧检验

5设计了一种测Zn的新方法。通过该方法测定锌含量为34.33%的标准合金试样,5次测定结果为34.38%,34.26%,34.29%,34.38%,34.37%。在95%置信度下判断新方法是否有系统误差。

解:由于总体标准偏差未知,所以使用t检验,属于双侧检验,95%置信度对应0.05显著性水平。先计算检验统计量的取值:

然后计算临界值-t0.025, 4t0.025, 4。如图6a所示,选择“Two-sided Test”计算模式,从Type下拉列表中选择t,在Degrees of Freedom编辑框输入4;在Significance Level编辑框输入0.05,回车或者单击Calculate按钮,软件显示临界值为两个临界值分别是-2.7764和2.7764。检验统计量的取值0.24介于两个临界值之间,所以新方法测定的平均值与标准值没有显著性差异。也可以说新方法测定的平均值与标准值的差异源自随机因素,所以新方法没有系统误差。根据题中的信息,无法确定该结论的可靠性。

图6

图6   stac软件用于t检验时两种检验方式的界面

(a)计算双侧检验的临界值;(b)计算P-值


该题也可以通过P-值完成检验。如图6b所示,在软件中选择“CDF < > ICDF”计算模式,从Type下拉列表中选择t,在Degrees of Freedom编辑框输入4;在Critical Value编辑框输入检验统计量取值0.24,回车或者单击Calculate按钮,软件显示单侧检验的P-值为0.41,所以双侧检验的P-值为0.82 (将鼠标悬停在One-sided P-Value上,提示信息就是双侧检验的P-值),大于显著性水平0.05,所以新方法测定的平均值与标准值没有显著性差异。

3 结语

开发了面向分析化学教学的数理统计软件,以替代传统的统计数值表。该软件以简洁的界面、直观的图像和自然的人机交互,辅助教学并提高效率,从而将学习重点集中在数理统计知识的深入理解和结果的合理阐释。当前数理统计应用几乎全部通过软件完成,所以本软件也为知识学习到实际应用提供一个较为平稳的过渡。

参考文献

武汉大学. 分析化学, 第5版 北京: 高等教育出版社, 2006.

[本文引用: 3]

李龙泉; 朱玉瑞; 金谷; 江万权; 邵利民. 定量化学分析, 第2版 合肥: 中国科学技术大学出版, 2005.

[本文引用: 2]

邵利民. 分析化学, 北京: 科学出版社, 2016.

[本文引用: 3]

华东理工大学; 四川大学. 分析化学, 第7版 北京: 高等教育出版社, 2018.

王运; 胡先文. 无机及分析化学, 第4版 北京: 科学出版社, 2016.

胡育筑. 分析化学, 第4版 北京: 科学出版社, 2015.

华中师范大学等6校合编.分析化学.第4版.北京:高等教育出版社, 2011.

[本文引用: 2]

王玉枝; 张正奇. 分析化学, 第3版 北京: 科学出版社, 2016.

[本文引用: 3]

/