环境科学学报  2014, Vol. 34 Issue (2): 473-480
基于多元统计和水质标识指数的辽阳太子河水质评价研究    [PDF全文]
富天乙, 邹志红 , 王晓静    
北京航空航天大学经济管理学院, 北京 100191
摘要:以太子河辽阳段为例,通过因子分析从16个水质评价基础指标中筛选出8个作为水质评价重要指标.在利用方差分析(ANOVA)对各监测断面多年水质指标数据进行时间与空间尺度上显著差异性检验的基础上,通过层次聚类分析将2009—2012年3个断面的144个样本点分成11组.同时,以各组的样本均值为基础,采用水质标识指数方法得到各组的水质评价结果,并将其分解到各组对应的水质样本点,以实现对多断面、长时间大量样本的水质评价.实证结果表明:2009—2012年间太子河辽阳段干流的水质状况大部分处于Ⅲ级以上,从上游到下游,水质状况呈恶化趋势.研究表明,本文提出的基于多元统计分析和水质标识指数的水质评价方法可用于多断面、长时间大量样本的水质评价工作.
关键词太子河    水质评价    水质标识指数    
Water quality assessment for Taizi River watershed in Liaoyang section based on multivariate statistical analysis and water quality identification index
FU Tianyi, ZOU Zhihong , WANG Xiaojing    
School of Economics and Management, Beihang University, Beijing 100191
Abstract: In order to conduct water quality assessment for large-scale and long-term monitoring samples, a new approach was proposed based on multivariate statistical analysis and water quality identification index. Taking Taizi River watershed in Liaoyang section as an example, eight indicators were selected out of sixteen as water quality evaluation indicators through factor analysis. Based on the results of analyzing the temporal and spatial differences of water quality monitoring data according to analysis of variance (ANOVA), 144 samples were divided into 11 groups by hierarchical cluster analysis. Using sample mean of each group as input, water quality identification index of each group was calculated. The evaluation result of each group was then fed back to every original sample. The empirical results showed that the water quality condition of Taizi River watershed in Liaoyang section was mostly worse than Class Ⅲ from 2009 to 2012. From upstream to downstream, water quality condition had a deteriorating trend.
Key words: Taizi River    water quality assessment    water quality identification index    
1 引言(Introduction)

水质评价是通过对水体的一些物理、化学、生物指标的监测和调查,根据不同的目的和要求,使用一定的方法对水体质量优劣程度做出的定量描述.评价的目标是获取水体的污染程度,划分其污染等级,为水体的科学管理和污染防治提供依据,这也是水资源合理开发、充分利用及水环境管理中不可缺少的重要内容.

基于环境系统的复杂性,目前应用较多的水质综合评价方法主要有指数评价法(陈润羊等,2008)、模糊综合评价法(潘峰等,2002)、灰色评价法(赖坤荣等,2010)、人工神经网络评价法(邹志红等,2007)等.水质评价方法的普遍思路是把各时期、各断面独立开来依次评价,较少考虑水体污染物在时间、空间上的差异性与相似性,尤其是用于大尺度、多断面、长时间的大量样本评价时,可能会导致不必要的重复计算且过程繁杂.为了解决这一问题,因子分析、方差分析、聚类分析等多元统计分析方法开始应用于这一领域(王晓鹏等,2010).因此,本文以太子河辽阳段为例,在采用因子分析筛选出水质评价重要指标的基础上,利用方差分析(ANOVA)对各监测断面多年水质指标数据进行时间与空间尺度上的显著差异性检验,通过层次聚类按样本点之间的相似程度进行聚类分组.同时,以各组的样本均值为基础,采用水质标识指数方法得到各组的水质评价结果,并将其分解到各组对应的水质样本点,以实现对多断面、长时间大量样本的水质评价.

2 原理及方法(Principle and methods) 2.1 基于因子分析的评价指标的筛选

评价指标的筛选是水质评价工作中非常重要的一部分,如果评价指标过多,且彼此之间存在较大的相关性,用这些指标进行水质评价时,由于各个指标反映的信息有一定程度的重叠,这不仅会增加评价的工作量,还会掩盖水体的一些重要特征.而因子分析能较好地解决这一问题,因子分析是一种用于提取多个变量潜在公共因子的统计方法,它是从众多可观测的变量中综合和抽取少数潜在的公共因子,并使这些因子能够最大程度地概括和解释原有观测变量的信息,从而解释事物的本质.因子分析的基本思想就是通过观测变量之间相关性的大小对其分组,使得各组内观测变量之间的相关性较高,不同组之间观测变量的相关性较低,每组观测变量代表一种基本结构,并可以用这些变量的潜在公共因子来表示.

因子分析适用于相关性较强的多个指标的简化,而对于相互间独立性较强的指标则无需进行简化,因此,需要对数据进行KMO检验,以判别其是否适合进行因子分析.利用因子分析筛选评价指标的原则是在按一定标准(特征值大于1)确定好公因子个数的基础上,选取旋转成分矩阵表中每个公因子对应的有最高因子载荷的两个指标变量.这样选取变量的原因在于各公因子对应的有最高因子载荷的变量对其有最强的解释能力.

2.2 基于方差分析的指标数据时空尺度差异性检验

在水质评价过程中,考虑到水体污染物在时间、空间上的差异性与相似性,采用方差分析的方法对各评价指标分别进行年际间和空间上的显著差异性检验,以判断各水质评价指标在同一监测断面不同年度间以及同一年度不同监测断面间是否存在显著性差异.

方差分析用于对两个或两个以上的数据样本进行差异性检验,其基本思想是将数据的变异量分解为由控制变量引起的变异和由误差因素引起的变异.如果由控制变量产生的变异显著多于误差造成的变异,就能够判断控制变量确实对因变量产生了影响.公式表示为:SSt=SSw+SSb,其中,SSt表示总变异,SSb表示组间变异即控制变量引起的变异,SSw表示组内变异即误差造成的变异.根据控制变量的个数,方差分析分为单因素方差分析和多因素方差分析两种.本研究中的控制因素主要为时间或空间,属于单因素方差分析.

式中,k代表数据组的个数,n代表第j个组内数据的个数, x2ij代表全体数据的平方之和,( xij)2代表全体数据之和的平方,(=1 xij)2代表第j个组内数据之和的平方,(=1 xij)2代表将j个组所求得的(=1 xij)2相加.

组间变异与组内变异分别除以各自的自由度,得到组间方差与组内方差.方差分析的关键步奏是对组间方差与组内方差的比值进行F检验.显著性检验公式如下:

2.3 基于层次聚类分析的样本点分组

聚类分析是根据事物本身的特征,通过统计方法对事物进行分类的多元统计方法,其中,层次聚类分析应用的最为广泛,其实质在于通过研究对象之间的亲疏关系将相似的对象划分为一类,不相似的对象划分到不同的类别.考虑到水质样本点之间的差异性与相似性,本文采用层次聚类的方法对样本点进行分组.亲疏程度的计算包括样本间距离和组间距离两类,前者的测量方法有欧氏距离平方、切比雪夫距离、绝对距离等,后者的测量方法有最邻近法、最远距离法、重心法、离差平方和法(Ward法)等.本研究中采用的是离差平方和法.

离差平方和法(Ward法)以差异度作为衡量标准来进行对象(组)之间的合并,在聚类过程中将与上一合并阶段的差异度相比变化最小的对象(组)合并起来,形成新的组.Ward法的目的在于使合并后同一类内各样本间的差异度最小,不同类之间样本的差异度较大.其中,差异度是用组内样本间的离差平方和来表示的,对于组g样本间离差平方和Vg的算法如下:

式中,xijg是组g中对象i中变量j的观察值,jg为组g中变量j的观察值的平均值.

2.4 水质标识指数评价法 2.4.1 单项指标水质标识指数的确定

单项指标水质标识指数Pi由一位整数和小数点后两位有效数字组成,其中,整数部分代表水质指标的水质类别,小数部分代表监测数据在此类水质变化区间中所处的位置(徐祖信,2005).单项指标水质标识指数公式表示如下:

式中,Ki表示第i项水质指标所处的水质类别,可以通过与《地表水环境质量标准》(GB3838—2002)的比较来确定,取值为1,2,…,6;ρi为第i项指标的实测质量浓度,ρik下≤ρi≤ρik上,ρik下为第i项水质指标第Ki类水区间质量浓度的下限值,ρik上为第i项水质指标第Ki类水区间质量浓度的上限值.在《地表水环境质量标准》(GB3838—2002)中列示的水质指标中,只有溶解氧为递减性指标,其水质标识指数用公式(7)来计算;其余的递增性水质指标用公式(6)来计算.

当水体质量劣于Ⅴ类水时,递增性水质指标和溶解氧指标的水质标识指数分别用公式(8)和公式(9)来计算.

2.4.2 综合水质标识指数的确定

由于受到自然因素和人文因素的双重影响,部分水体存在如下情况:某一项或两项水质指标相对于水环境功能区设定的类别标准严重超标,其余指标相对正常.《地表水环境质量标准》(GB3838—2002)中采用的单因子评价法忽略了其他指标对水质的影响,难以全面反映水体的综合状况,可能会造成水体水质评价等级偏低.为了克服单因子评价法以偏概全的缺点,综合水质标识指数既考虑了污染最严重的指标,又综合考虑了所有单项指标以全面反映水体的水质状况.综合水质标识指数P由单项指标水质标识指数的平均值和最大值两部分构成,用公式表示如下:

式中,PMAXn项单项指标水质标识指数中的最大值.

通过综合水质标识指数P可以判断水体的水质级别和污染程度:当1.0≤P≤2.0时,水质状况为Ⅰ级;当2.0<P≤3.0时,水质状况为Ⅱ级;当3.0<P≤4.0时,水质状况为Ⅲ级;当4.0<P≤5.0时,水质状况为Ⅳ级;当5.0<P≤6.0时,水质状况为Ⅴ级;当P>6.0时,水质状况为劣Ⅴ级.

3 应用与讨论(Application and discussion) 3.1 研究区域及数据

太子河发源于抚顺,全长约413 km,流域面积约13883 km2.太子河辽阳段位于太子河中游,经本溪市进入辽阳市境内,入口与参窝水库相接,出口进入鞍山境内,境内流程142.8 km,流域面积约4000 km2,约占全市总面积的85%.太子河辽阳段及其支流汤河、北沙河和柳壕河与参窝水库和汤河水库构成了辽阳地表水监测体系.太子河是辽阳市人民的母亲河,其水质状况深受各级政府和人民的关注.因此,正确评价太子河的水质情况,对辽阳市社会、经济的可持续发展、生态环境的良性循环都具有重要意义.太子河辽阳段干流上共设有3个监测断面,分别为入市断面参窝坝下断面、国控断面下王家桥断面和出市断面下口子断面.图 1显示了太子河流经的区域及各监测断面的地理位置.

图 1 研究区域及采样点(1.参窝坝下,2.下王家桥,3.下口子) Fig. 1 Studying area and monitoring networks

针对太子河辽阳段的具体情况,在综合考虑了影响太子河水质的各种自然及人文因素的基础上,结合重要性原则本文选取了包括溶解氧、高锰酸钾指数、氨氮在内的16个水质监测指标作为太子河水质评价的基础指标.研究中采用的水质数据为2009—2012年参窝坝下、下王家桥、下口子3个断面16个水质指标的月度监测值,水质样本共144个(数据来源于辽阳市环保局).数据分析采用的软件为SPSS18.0.表 1显示了2009—2012年太子河辽阳段干流各断面16个水质指标的年度平均值(12个月度监测值平均值).

表 1 2009—2012年太子河辽阳段干流各断面各水质指标年平均值 Table 1 The annual average of each water quality indicator at different sites on the Taizi River basin in Liaoyang section during 2009 to 2012
3.2 水质评价指标的筛选

为了筛选出用于综合评价水质级别的重要指标,对现有的16个水质基础指标(除流量和pH两个指标,即14个变量)在2009—2012年每个月3个断面的共144个监测样本进行因子分析.因子分析结果显示:KMO检验值为0.773,表明原始数据适用于因子 分析进行简化;前4个公因子的特征值大于1,这4个公因子在旋转成分矩阵表中对应的有最高因子载荷的两个变量分别为化学需氧量和高锰酸钾指数、氨氮和铜、溶解氧和粪大肠菌群、挥发酚和六价铬,即选取这8个变量作为水质评价的重要指标.

3.3 指标数据时空尺度差异性检验

表 2表 3分别显示了对各个水质评价重要指标进行同一断面不同年度间月度监测值和同一年度不同断面间月度监测值单因素方差分析的结果.由表可见:化学需氧量、氨氮、六价铬及粪大肠菌群4个水质评价指标在同一断面不同年度间均不存在显著性差异,挥发酚和铜两个指标对于3个断面在不同年度间均存在显著性差异,CODMn和溶解氧两个指标对于部分断面在不同年度间存在显著性差异;氨氮、铜、溶解氧、挥发酚和六价铬5个水质评价指标在同一年度不同断面间均不存在显著性差异,化学需氧量和高锰酸钾指数两个指标对于4个年度在不同断面间均存在显著性差异,粪大肠菌群指标对于部分年度在不同断面间存在显著性差异.

表 2 同一断面年际间方差分析Sig值 Table 2 ANOVA of temporal variation among 2009,2010,2011 and 2012

表 3 同一年度断面间方差分析Sig值 Table 3 ANOVA of spatial variation among S1,S2 and S3

从方差分析结果可以看出,在8个水质评价指标中,有4个指标在同一断面不同年度间不存在显著性差异,其余4个指标对于全部或部分监测断面在不同年度间存在显著性差异;有5个指标在同一年度不同断面间不存在显著性差异,其余3个指标对于全部或部分年度在不同断面间存在显著性差异.这说明水体中的污染物浓度在空间和时间尺度上不仅存在着差异性,更存在着相似性.在这种情况下,把各时期、各断面独立开来依次评价可能会导致不必要的重复计算且过程繁杂,可以根据样本点之间的相似性对样本进行分组,对每一组进行评价,再把每一组的评价结果分配给各自对应的样本点.

3.4 样本点分组

采用Ward法对144个样本进行层次聚类分析.在Ward法中,离差平方和是决定聚类过程的重要指标.通过观察SPSS18.0生成的聚类表可以看出,离差平方和系数从11类变化到10类时出现了一个大幅度的增加(从296.1增加到320.9);若在坐标系统(类数为横轴,离差平方和系数为纵轴)中形成曲线可以看出,从11类变化到10类时曲线的斜率出现了一个明显的增加,在这种情况下应该把144个样本聚成11组(分别编号G1~G11).表 4显示了通过层次聚类得到的11个组各自对应的水质样本点.

表 4 11组样本各对应的水质样本点 Table 4 The corresponding samples of 11 groups

聚类分析的过程实质上就是在计算各样本点各水质指标之间的距离,把距离较近的样本点分为一组,距离较远的样本点分到不同的组;而距离越近,两个样本点水质指标浓度之间的差距就越小,水质状况就越相似,属于同一水质级别的可能性也就越大.因此,通过聚类得到的在同一组中的样本的水质状况是相似的,从某种程度上说它们处于同一水质级别,可以作为整体统一进行评价.各组样本的数据特征用组内样本的均值来表示(表 5),并以此进行各组的水质评价,再把每一组的评价结果根据表 4分配给各自对应的样本点.

表 5 11组样本各项水质指标均值 Table 5 The mean of each water quality indicator of 11 groups

表 5可见,11个组中,G1聚集了有较低溶解氧和较高粪大肠菌群浓度的水质样本点,G2聚集了有较高高锰酸钾指数和化学需氧量的样本点,G3聚集了有较高氨氮和铜浓度的样本点,G4聚集了有较高氨氮浓度的样本点,G5聚集了有较高氨氮、挥发酚、铜和粪大肠菌群浓度的样本点,G6聚集了有较高六价铬浓度的样本点,G10聚集了有较高挥发酚和粪大肠菌群浓度的样本点,G7、G8、G9、G11中没有明显浓度较高或较低的水质评价指标.

3.5 水质标识指数评价结果 3.5.1 各组样本的水质标识指数评价结果

把通过层次聚类得到的各组水质样本各项指标的均值带入水质标识指数计算公式(6)~(11)中,得到各组水质样本的单项指标水质标识指数及综合水质标识指数(表 6).

表 6 11组样本单项指标和综合水质标识指数评价结果 Table 6 Assessment results of 11 groups based on single factor and comprehensive water quality identification index

表 6可以看出,11组样本的水质状况主要分布在Ⅱ级到Ⅴ级之间,其中有3组属于Ⅱ级水质(G6、G8、G11),5组属于Ⅲ级水质(G2、G3、G7、G9、G10),2组属于Ⅳ级水质(G4、G5),1组属于Ⅴ级水质(G1).这11组样本中,水质状况最好的是G6,组中的3个样本点均取自2010年;水质状况最差的是G1,组中9个样本中有6个取自2012年,2个取自2009年,剩余1个取自2011年.从评价结果来看,综合水质标识指数评价方法既综合考虑了各项水质评价指标,又突出了最差指标的影响,避免了单因子评价方法以偏概全的缺点,反映了水质样本的总体特征;对于处于同一水质级别的水质样本,综合水质标识指数方法可以比较其优劣(例如,G8和G6都是Ⅱ级水质,但G8水质劣于G6水质);另外,综合水质标识指数方法还可以判断劣Ⅴ级水体的污染程度.

3.5.2 多断面、长时间的水质评价

把以各组样本均值作为输入计算得到的各组样本的水质标识指数评价结果根据表 4分配到各组对应的水质样本点,即实现了对多断面、长时间大量样本的水质评价.图 2显示了太子河辽阳段参窝坝下、下王家桥和下口子3个断面2009—2012年的综合水质标识指数评价结果.

图 2 太子河辽阳段3个断面2009—2012年的水质评价结果 Fig. 2 Results of water quality assessment of the three sites from 2009 to 2012

从横向来看,太子河辽阳段的水质状况从上游到下游逐渐变差,3个断面中水质状况最好的是入市断面参窝坝下断面(平均综合水质标识指数为3.23),国控断面下王家桥断面次之(平均综合水质标识指数为3.48),出市断面下口子断面最差(平均综合水质标识指数为3.51).综合考虑太子河辽阳段所处的人文环境,可以分析出影响中下游断面水质状况的一些人文因素.下王家桥断面至下口子断面入河排污口相对集中,河水在径流中难以形成自身降解.国控断面下王家桥断面的水质状况受到军工企业辽宁庆阳化工有限公司的影响,该厂南排口位于下王家桥断面上游约10 km处,受厂区排污影响,下王家桥断面水质较差.出市断面下口子断面的水质状况则受到从下王家桥断面下游汇入太子河干流的支流柳壕河的影响,柳壕河的污染源排放口比较集中,辽阳市城市生活污水大多排入柳壕河内,受其影响下口子断面的水质状况较为恶劣.

从纵向来看,这4年中水质状况相对较差的是2009年和2012年,相对较好的是2010年和2011年.从季节来看,夏季水质状况最好,春秋两季次之,冬季水质状况最差.辽阳太子河为雨污合流,在工业废水和生活污水排放量变化不大的情况下,太子河的污染状况受降水量的多少影响,每年的枯水期(1、2、3、4、11、12月)为污染最严重的时期,平水期(5、6、9、10月)次之,丰水期(7、8月)最好.

4 结论(Conclusions)

1)提出了基于多元统计分析和水质标识指数的水质评价方法,研究发现,该方法适用于多断面、长时间大量样本的水质评价工作.其特点在于:从多个相关性较强的水质指标中筛选出水质评价因子,降低主观因素对评价结果的影响;充分利用了水质指标数据的时间和空间特征,识别出监测样本的内在差异性和相似性,减轻了水质评价的工作量;在水质评价过程中综合考虑了各项水质评价指标,又突出了最差指标的影响,避免了单因子评价方法以偏概全的缺点,反映了水质样本的总体特征.

2)太子河辽阳段2009—2012年干流的水质状况分布在Ⅱ级到Ⅴ级之间,其中大部分处于Ⅲ级以上.从评价结果来看,太子河辽阳段水质状况相对于水功能区划分标准仍存在超标状况.在今后的太子河水环境治理和保护工作中,一方面要加强对辖区内所有企业排污状况的监管力度,使企业污水全部达标后排放;另一方面要在加快建设县区污水处理厂的同时,提高现有处理厂的污水处理技术,使污水处理厂在太子河水质改善中发挥更大作用.

参考文献
[1] 陈润羊, 花明, 涂安国.2008.长江流域水质评价的几种方法[J].东华理工大学学报, 31(2):146-151
[2] 韩晓刚, 黄廷林, 陈秀珍.2013.改进的模糊综合评价法及在给水厂原水水质评价中的应用[J].环境科学学报, 33(5):1513-1518
[3] 韩晓刚, 黄廷林, 陈秀珍.2010.基于主成分分析的原水水质模糊综合评价[J].人民黄河, 32(9):62-65
[4] 赖坤荣, 周维博.2010.灰色关联分析在延安市宝塔区沿河段水质评价中的应用[J].成都理工大学学报, 37(5):570-573
[5] 李文生.2011.基于因子分析的水质综合指标评价法及其应用[J].中北大学学报, 32(2):207-211
[6] 李波, 濮培民, 韩爱民.2003.洪泽湖水质的因子分析[J].中国环境科学, 23(1):69-73
[7] 潘峰, 付强, 梁川.2002.模糊综合评价在水环境质量综合评价中的应用[J].环境工程, 20(2):58-61
[8] Shrestha S, Kazama F. 2007. Assessment of surface water quality using multivariate statistical techniques: A case study of the Fuji river basin, Japan[J]. Environmental Modeling & Software, 22:464-475
[9] 王晓鹏, 曹广超, 丁生喜.2010.基于多元统计的水质动态评价模型研究与应用[J].环境工程, 28(10):90-93
[10] 王晓鹏.2001.多元统计分析在河流污染状况综合评价中的应用[J].系统工程理论与实践, 9:118-123
[11] Wang X J, Zou Z H, Zou H. 2008. Using discriminant analysis to assess polycyclic aromatic hydrocarbons contamination in Yongding New River[J]. Environmental Monitoring Assessment, 185: 8547-8555
[12] 徐祖信.2005.我国河流单因子水质标识指数评价方法研究[J].同济大学学报(自然科学版), 33(3):321-325
[13] Zhang X, Wang Q S, et al. 2011. Application of multivariate statistical techniques in the assessment of water quality in the Southwest New Territories and Kowloon, Hong Kong[J]. Environment Monitor and Assessment, 173:17-27
[14] 张红坡, 张海锋.2012.SPSS统计分析实用宝典[M].北京:清华大学出版社
[15] 周丰, 郭怀成, 刘永.2007.基于多元统计分析和RBFNNs的水质评价方法[J].环境科学学报, 27(5):846-853
[16] 邹志红, 王学良.2007.基于随机样本的BP模型在水质评价中的应用[J].环境工程, 25(1):69-71