河南师范大学 第7章分析化学中的数据处理 教学目的:用数理统计的方法处理实验数据,将会更好地表达结果,既能显示出测量的 精密度,又能表达出结果的准确度;介绍显著性检验的方法,用于检验样本 值与标准值的比较、两个平均值的比较和可疑值的取舍。 教学重点:总体平均值的估计:t检验法 教学难点:对随机变量正态分布的理解;各种检验法的正确使用,双侧和单侧检验如何 查表。 1.总体与样本 总体:在统计学中,对于所考察的对象的全体,称为总体(或母体)。 个体:组成总体的每个单元。 样本(子样):自总体中随机抽取的一组测量值(自总体中随机抽取的一部分个体)。 样本容量:样品中所包含个体的数目,用n表示。例题: 分析延河水总硬度,依照取样规则,从延河取来供分析用2000m1样品水,这2000▣1样品 水是供分析用的总体,如果从样品水中取出20个试样进行平行分析,得到20个分析结果, 则这组分析结果就是延河样品水的一个随机样本,样本容量为20。 2。随机变量来自同一总体的无限多个测量值都是随机出现的,叫随机变量, ∑x,4=m∑x(总体平均值,6=-小(单次测量的平均偏差) n 7.1标准偏差 7.1.1总体标准偏差(无限次测量) 2(x- n一测量次数 7.1.2样本标准偏差(有限次测量) 2x-或 s= (n-1)一自由度 n-1 7.1.3相对标准偏差 相对标准偏差(变异系数)CV=三×100% 相对平均偏差-10 7.1.4标准偏差与平均偏差 当测定次数非常多(n大于20)时,6=0.797g≈0.8o,但是d≠00.8S 7.1.5平均值的标准偏差 统计学可证明平均值的标准偏差与单次测量结果的标准偏差存在下列关系: 交三会,今=。(无限次测量)增加测定次数。可使平均值的标准偏差减少, 测定次数增加到一定程度时,这种减少作用不明 显,因此在实际工作中,一般平行测定34次即可: 万(有限次测量)当要来较高时,可适当特加平行测量次数 <例
河南师范大学 第7章 分析化学中的数据处理 教学目的:用数理统计的方法处理实验数据,将会更好地表达结果,既能显示出测量的 精密度,又能表达出结果的准确度;介绍显著性检验的方法,用于检验样本 值与标准值的比较、两个平均值的比较和可疑值的取舍。 教学重点:总体平均值的估计;t 检验法 教学难点:对随机变量正态分布的理解;各种检验法的正确使用,双侧和单侧检验如何 查表。 1.总体与样本 总体:在统计学中,对于所考察的对象的全体,称为总体(或母体)。 个体:组成总体的每个单元。 样本(子样):自总体中随机抽取的一组测量值(自总体中随机抽取的一部分个体)。 样本容量:样品中所包含个体的数目,用 n 表示。例题: 分析延河水总硬度,依照取样规则,从延河取来供分析用 2000ml 样品水,这 2000ml 样品 水是供分析用的总体,如果从样品水中取出 20 个试样进行平行分析,得到 20 个分析结果, 则这组分析结果就是延河样品水的一个随机样本,样本容量为 20。 2.随机变量 来自同一总体的无限多个测量值都是随机出现的,叫随机变量。 1 x xi n = ∑ , 1 lim i n x n μ →∞ = ∑ (总体平均值), x n μ δ − = ∑ (单次测量的平均偏差) 7.1 标准偏差 7.1.1 总体标准偏差(无限次测量) ( )2 1 n i i x n μ σ = − = ∑ n-测量次数 7.1.2 样本标准偏差(有限次测量) 2 1 ( ) 1 n i i x x S n = − = − ∑ (n-1)-自由度 7.1.3 相对标准偏差 相对标准偏差(变异系数) 100% s CV x = × 100% d x 相对平均偏差 = × 7.1.4 标准偏差与平均偏差 当测定次数非常多(n 大于 20)时,δ = 0.797 0.8 σ ≈ σ ,但是 d S ≠ 00.8 7.1.5 平均值的标准偏差 统计学可证明 平均值的标准偏差与单次测量结果的标准偏差存在下列关系: x n σ σ = , x n δ δ = (无限次测量) 增加测定次数,可使平均值的标准偏差减少,但 测定次数增加到一定程度时,这种减少作用不明 显,因此在实际工作中,一般平行测定 3-4 次即可; x 当要求较高时,可适当增加平行测量次数 s s n = , x d d n = (有限次测量) <例> 1
河南师范大学 7.2随机误差的正态分布 7.2.1频数分布 频数:每组中数据的个数。 相对频数:频数在总测定次数中所占的分数。 频数分布直方图:以各组分区间为底,相对频数为高做成的一排矩形。 特点: 1.离散特性:测定值在平均值周围波动。波动的程度用总体标准偏差σ表示。 2.集中趋势:向平均值集中。用总体平均值μ表示。在确认消除了系统误差的前提下, 总体平均值就是真值。 7.2.2正态分布(无限次测量) 1.正态分布曲线:如果以xμ(随机误差)为横坐标,曲线最高点横坐标为0,这时表示的 是随机误差的正态分布曲线。 y==cg,记为:N,g2. o2元9 μ一决定曲线在X轴的位置 。一决定曲线的形状,σ小→曲线高、陡峭,精密度好:。→曲线低、平坦,精密度差。 随机误差符合正态分布:()大误差出现的几率小,小误差出现的几率大: (2)绝对值相等的正负误差出现的几率相等: (3)误差为零的测量值出现的几率最大。 (4)Xu时的概率密度为y。2元 2.标准正态分布N(0,1) 令u=二业,y== 1 o√2π 7.2.3随机误差的区间概率 所有测量值出现的摄幸总和应为1。即国国左上。云在= 求变量在美区同出现的餐案,加忘广品在 概率积分表,p248。注意:表中列出的是单侧概率,求±u间的概率,需乘以2。 随机误差出现的区间 测量值出现的区间 概率 u=±1 x=u+lo 0.3413×2=68.26% u=2 X=H+20 0.4773×2=95.46% u=±3 X=u+3o 0.4987×2=99.74% 结论: 1.随机误差超过3σ的测量值出现的概率仅占0.3%。 2.当实际工作中,如果重复测量中,个别数据误差的绝对值大于3σ,则这些测量值可舍去。 <例>例:己知某试样中Fe的标准值为3.78%,σ=0.10,又己知测量时没有系统误差, 求1)分析结果落在(3.78±0.20)%范围内的概率:2)分析结果大于4.0%的概率。 解.1D-号-器-20查表,求得概率为20956=9546 2)分析结果大于40%的概率,M-叫_40-378-22,查表求得分析结果落在 0.10 3.78-4.00%以内的概率为0.4861,那么分析结果大于4.00%的概率为0.5000-0.4861=1.39% 2
河南师范大学 7.2 随机误差的正态分布 7.2.1 频数分布 频数:每组中数据的个数。 相对频数:频数在总测定次数中所占的分数。 频数分布直方图:以各组分区间为底,相对频数为高做成的一排矩形。 特点: 1. 离散特性:测定值在平均值周围波动。波动的程度用总体标准偏差σ表示。 2. 集中趋势:向平均值集中。用总体平均值μ表示。在确认消除了系统误差的前提下, 总体平均值就是真值。 7.2.2 正态分布(无限次测量) 1.正态分布曲线:如果以 x-μ(随机误差)为横坐标,曲线最高点横坐标为 0,这时表示的 是随机误差的正态分布曲线。 ( )2 2 2 1 ( ) 2 x y fx e μ σ σ π − − = = , 记为:N(μ,σ2), μ-决定曲线在 X 轴的位置 σ-决定曲线的形状,σ小→曲线高、陡峭,精密度好;σ→曲线低、平坦,精密度差。 随机误差符合正态分布:(1) 大误差出现的几率小,小误差出现的几率大; (2) 绝对值相等的正负误差出现的几率相等; (3) 误差为零的测量值出现的几率最大。 (4) x=μ时的概率密度为 1 2 yx μ σ π = = 2.标准正态分布 N(0,1) 令 x u μ σ − = , ( ) 2 2 2 2 1 1 ( ) 2 2 u u y fx e y u e σ π π − − = = ⇒ =Φ = 7.2.3 随机误差的区间概率 所有测量值出现的概率总和应为 1,即 2 2 2 1 (, ) 1 2 u P e σ π +∞ − −∞ −∞ +∞ = dx = ∫ 求变量在某区间出现的概率, 2 2 2 1 (,) 2 u b a P a b e dx σ π − = ∫ 概率积分表,p248。注意:表中列出的是单侧概率,求±u 间的概率,需乘以 2。 随机误差出现的区间 测量值出现的区间 概率 u=±1 x=μ±1σ 0.3413×2=68.26% u=±2 x=μ±2σ 0.4773×2=95.46% u=±3 x=μ±3σ 0.4987×2=99.74% 结论: 1.随机误差超过 3σ的测量值出现的概率仅占 0.3%。 2.当实际工作中,如果重复测量中,个别数据误差的绝对值大于 3σ,则这些测量值可舍去。 <例>例:已知某试样中 Fe 的标准值为 3.78%,σ=0.10,又已知测量时没有系统误差, 求 1)分析结果落在(3.78±0.20)%范围内的概率;2)分析结果大于 4.0%的概率。 解:1) 0.20 2.0 0.10 x u u σ − = == 查表,求得概率为 2*0.4773=0.9546 =95.46% 2)分析结果大于 4.0%的概率, 4.00 3.78 2.2 0.10 x u u σ − − == = ,查表求得分析结果落在 3.78-4.00%以内的概率为 0.4861,那么分析结果大于 4.00%的概率为 0.5000-0.4861=1.39% 2
河南师范大学 7.3少量数据的统计处理 7.3.1t分布曲线(有限次测量中随机误差服从t分布) 有限次测量,用S代替o,用t代替u 1==业=-业6 置信度(P):表示的是测定值落在u士S范围内的概率,当f→o,t即为u 显著性水平(α)=1-P:表示测定值落在u±心范围之外的概率。 t值与置信度及自由度有关,一般表示为/,见p250,表7-3(双侧表) 73.2平均值的置信区间4=x±1S 意义:表示在一定的置信度下,以平均值为中心,包括总体平均值型的范围。 从公式可知只要选定置信度P,根据P(或a)与f即可从表中查出,f值,从测定 的x,s,n值就可以求出相应的置信区间。 <例>分析某固体废物中铁含量得如下结果:x=15.78%,s=0.03%,=4,求 1)置信度为95%时平均值的置信区间:2)置信度为99%时平均值的置信区间解:置信 度为95%,查表得1005,33.18,那么4=x1 /万=1578±3.18x003 =1578±005% 置信度为99%,查表得0.05,3-5.84,那么4=x社1S 1578±584x00-=1578t09% √4 对上例结果的理解: 1.正确的理解:在15.78±0.05%的区间内,包括总体平均值的μ的概率为95% 2.错误的理解:a.未来测定的实验平均值有95%落入15.78±0.05%区间内 b.真值落在15.78±0.05%区间内的概率为95% 从该例可以看出,置信度越高,置信区间越大。 例1下列有关置信区间的定义中,正确的是: a.以真值为中心的某一区间包括测定结果的平均值的几率: b.在一定置信度时,以测量值的平均值为中心的包括总体平均值的范围 c.真值落在某一可靠区间的几率;d.在一定置信度时,以真值为中心的可靠范围。 例2某试样含C1的质量分数的平均值的置信区间为36.45%士0.10%(置信区间90%),对此 结果应理解为: a.有90%的测量结果落在3645%士0.10%范围内:b.总体平均值μ落在此区间的概率为90%: c.若再作一次测定,落在此区间的概率为90%:Vd.在此区间内,包括总体平均值μ的把握 为90% 7.3.3显著性检验 判断是否存在系统误差。 1。t检验:不知道o,检验与4,X与x2
河南师范大学 7.3 少量数据的统计处理 7.3.1 t 分布曲线(有限次测量中随机误差服从 t 分布) 有限次测量,用 S 代替σ,用 t 代替 u x x x t n s s − − μ μ = = 置信度(P):表示的是测定值落在 x μ ± tS 范围内的概率,当 f→∞,t 即为 u 显著性水平(α)=1-P:表示测定值落在 x μ ± tS 范围之外的概率。 t 值与置信度及自由度有关,一般表示为 , f tα ,见 p250,表 7-3(双侧表) 7.3.2 平均值的置信区间 S x t n μ = ± 意义:表示在一定的置信度下,以平均值为中心,包括总体平均值μ的范围。 从公式可知只要选定置信度 P,根据 P(或α)与 f 即可从表中查出 t α,f 值,从测定 的 x ,s,n 值就可以求出相应的置信区间。 <例>分析某固体废物中铁含量得如下结果: x =15.78%,s=0.03%,n=4,求 1)置信度为 95%时平均值的置信区间;2)置信度为 99%时平均值的置信区间解:置信 度为 95%,查表得 t 0.05,3=3.18,那么 0.03 15.78 3.18 15.78 0.05% 4 S x t n μ =± = ± × = ± 置信度为 99%,查表得 t 0.05,3=5.84,那么 0.03 15.78 5.84 15.78 0.09% 4 S x t n μ =± = ± × = ± 对上例结果的理解: 1.正确的理解:在 15.78±0.05%的区间内,包括总体平均值的μ的概率为 95%。 2.错误的理解:a.未来测定的实验平均值有 95%落入 15.78±0.05%区间内 b.真值落在 15.78±0.05%区间内的概率为 95% 从该例可以看出,置信度越高,置信区间越大。 例 1 下列有关置信区间的定义中,正确的是: a.以真值为中心的某一区间包括测定结果的平均值的几率; √b.在一定置信度时,以测量值的平均值为中心的包括总体平均值的范围 c.真值落在某一可靠区间的几率;d.在一定置信度时,以真值为中心的可靠范围。 例 2 某试样含 Cl-的质量分数的平均值的置信区间为 36.45%±0.10%(置信区间 90%),对此 结果应理解为: a.有 90%的测量结果落在 36.45%±0.10%范围内;b.总体平均值μ落在此区间的概率为 90%; c.若再作一次测定,落在此区间的概率为 90%;√d.在此区间内,包括总体平均值μ的把握 为 90% 7.3.3 显著性检验 判断是否存在系统误差。 1。t 检验:不知道σ,检验 x与 , 与 μ x x 1 2 3
河南师范大学 (D比较平均值与标准值,统计量,压-小后(s=s)P,有显若差异,否则无。 (2)比较元与x 统计量店-习A42 32-鱼-0S2+m2-S SV%+% m+2-2 2.F检验:比较精密度,即方差S1和S2,F表为单侧表 2 绕计量F=琴P>F,有显若差异,否则无· <例>一碱灰试样,用两种方法测得其中Na2CO3结果如下方法1: 元=4234,3=0.10,m=5方法2:元=42.44,3,=0.12,m=4 买02=14 解:先用F检验s1与s2有无湿若差异:Fm年010 查表7-4,得F表=6.59,因F计算<F表,因此s1与s2无显著差异用t检验法检验X与x -5-国告-.2 5V%+ 0.10 V5+4 =1.49 查表73,仁5+42=7,P=95%,得:【表=2.36,则t计算<t表,因此,无显若差异。 7.3.4异常值的取合 1.4d法(简单,但误差大) 依据:随机误差超过3的测量值出现的概率是很小的,仅占0.3%。=0.80c,3G46 偏差超过46的个别测定值可以含去。 方法:a.求出x与平均偏差d。->4d,则测定值×可以合去。 2.格鲁布斯(Grubbs)法 步骤:(1)数据由小到大排列,求出x与5。, (2②)统计量TT=-三(x为可疑值)T=三(x为可疑值) (3)将T与表值Ta,n比较,T>Ta,n,合去。 3.Q拾验法 步骤:(1)数据由小到大排列。 (2)计算统计量Q=- 生学号化为可碳们Q-要要为可诞值(C:型) Xa一Xn (3)比较Q计算和Q表(Q即,n),若Q计算Q表,舍去,反之保留。<例10、11> 分别用三种检验法来判断140这个数据是否应该保留
河南师范大学 (1)比较平均值与标准值,统计量 x t S − μ = n (s=s小) t>t表,有显著差异,否则无。 (2)比较 x x 1与 2 2 2 2 2 1 2 1 2 1 2 ( 1) ( 1) 2 n S S n n n n − − +− = + + 1 2 1 1 2 x x n n n 统计量 t= S S − 2.F检验:比较精密度,即方差S1和S2,F表为单侧表 统计量 2 2 s F s = 大 小 F>F表,有显著差异,否则无。 <例>一碱灰试样,用两种方法测得其中 Na2CO3 结果如下 方法 1: x sn 1 1 = = 42.34 0.10 5 , , 1 = 方法 2: x sn 2 2 = 42.44 0.12 4 , , = =2 解:先用 F 检验 s1 与 s2 有无显著差异: ( ) ( ) 2 2 2 2 0.12 1.44 0.10 s F s == = 大 计算 小 查表 7-4,得 F 表=6.59,因 F 计算< F 表,因此 s1 与 s2 无显著差异用 t 检验法检验 x x 1 2 与 1 2 1 2 1 2 42.34 42.44 5 4 1.49 0.10 5 4 x x n n t s s s nn − − × = = = + + 计算 ( )小 = 查表 7-3,f=5+4-2=7,P=95%,得:t 表=2.36 ,则 t 计算< t 表,因此,无显著差异。 7.3.4 异常值的取舍 1. 4d 法(简单,但误差大) 依据:随机误差超过 3σ的测量值出现的概率是很小的,仅占 0.3%。δ=0.80σ,3σ≈4δ。 偏差超过 4δ的个别测定值可以舍去。 方法:a. 求出 x 与平均偏差d 。 x − > x 4d ,则测定值 x 可以舍去。 2.格鲁布斯(Grubbs)法 步骤:(1)数据由小到大排列,求出 x 与s。x1,x2.xn x (2) 统计量T x1 T s − = (x1为可疑值) xn x T s − = (xn为可疑值) (3)将 T 与表值 Ta,n 比较,T>Ta,n,舍去。 3.Q 检验法 步骤:(1)数据由小到大排列。 (2)计算统计量 1 2 1 1 1 ( x n n n n n x x x x Qx Q x x x x − − − = = − − 为可疑值) ( 为可疑值) 1 ( max min x x Q x x − = − 可疑 邻近 计算 ) (3)比较 Q 计算和 Q 表(QP,n),若 Q 计算>Q 表,舍去,反之保留。 <例 10、11> 分别用三种检验法来判断 1.40 这个数据是否应该保留。 4
河南师范大学 7,4误差的传递 分析结果通常是经过一系列测量步骤之后获得的,其中每一步骤的测量误差都会反映到 分析结果中去。设分析结果由测量值小、C计算获得,测量值的系统误差分别为D4 DR.DG,标准偏差分别为s引、B、S℃.为常数 7.4.1系统误差的传递 1.加减法 2.乘除法 ①Y=k+kA+k,B+k.C, △Y=k△M+k△B+k△C @r=m畏兴兴+曾瓷 3.指数关系 4.对数关系 3)y=mf.A-nM ④Y=mg4N-0434hr4 7.4.2随机误差的传递 1加减法 2.乘除法 (1)Y=k+kgA+kpB-keC. s子=k22+k2品+k2品 Or-m想=身+,足 3.指数关系 4.对数关系 @y、是-手 ④y=ng4=043r 7.4.3极值误差 Y=k+k A+kB-k.C 8-ke+k,5+2 o发多图 75回归分析法 7.5.1一元线性回归方程 式中x,y分别为x和y的平均值,a为直线的截矩,b为直线的斜率,它们的值确定之后, y;=a+bx,+e (y.-a-bx.) 25 =y-bx n 累-空0-0-)-0 2x-x0y-y b= 2研 一元线性回归方程及回归直线就定了
河南师范大学 7.4 误差的传递 分析结果通常是经过一系列测量步骤之后获得的,其中每一步骤的测量误差都会反映到 分析结果中去。设分析结果 Y 由测量值 A、B、C 计算获得,测量值的系统误差分别为 DA、 DB、DC,标准偏差分别为 sA、sB、sC。ki 为常数。 7.4.1 系统误差的传递 1.加减法 2.乘除法 3.指数关系 4.对数关系 7.4.2 随机误差的传递 4.对 7.5 回归分析法 7.5.1 式中 的平均值,a 为直线的截矩,b CkBkAkY CkBkAkkY cba cba Δ+Δ+Δ=Δ 1)( +++= , C C B B A A Y Y C AB mY Δ− Δ+ Δ= Δ )( = ,2 1.加减法 2.乘除法 3.指数关系 数关系 7.4.3 极值误差 一元线性回归方程 x,y 分别为 x 和 y 为直线的斜率,它们的值确定之后, 一元线性回归方程及回归直线就定了。 xby xby a n i i n i i −= − = ∑∑=1 =1 n i ii += + ebxay ∑ ∑ = = − −− = n i i n i ii xx yyxx b 1 2 1 )( ))(( Q y a bx i i i n = −− = ∑ ( ) 2 1 ∑ ∂b i=1 =−−−= n ii bxayx i Q 0)(2 ∂ ∑= =−−−= n i i i bxay a Q 1 (2 0) ∂ ∂ A A n Y mAY n )( = ,3 = Y ΔΔ A A mYAmY Δ )( =Δ= 434.0,lg4 1)( += + − cba CkBkAkkY , 222 2 2222222 CcBbAaY ++= sksksks 2222 2 , C s B s s Y A AB s BAY C ++= C )( =mY 2 2 2 2 2 ,3 A s n Y s AY mAY = n )( = A s msAmY A )( = Y = 434.0,lg4 CcBbAaY cba kkk CkBkAkkY ++= εεεε −++= max 1)( , CBAYC AB mY BAY C εεε ε )( = ,2 ++= 5