环境科学学报  2014, Vol. 34 Issue (10): 2540-2546
基于t-SNE的晋北矿区地下水水质评价    [PDF全文]
冯蕊1, 袁瑞强2     
1. 煤炭工业太原设计研究院,太原 030001;
2. 山西大学环境与资源学院,太原 030006
摘要:将t-Distributed Stochastic Neighbor Embedding (t-SNE)技术引入水质评价领域,探讨了基于t-SNE的水质评价方法,并对晋北矿区地下水水质进行评价.结果发现,相对于传统水质评价方法,基于t-SNE的水质评价方法降低了评价过程对经验值的依赖.地下水水质标准中某些指标(如氨氮、锰、挥发性酚类和大肠杆菌等)对不同的水质类别采用了相同的阈值,这导致采用传统方法评价时产生不确定性,而新方法基于"距离"概念识别不同水样在这些指标上的差异,从而提高了评价结果的精确度.此外,新方法通过高维数据向量可视化直观地表达数据间的内在分类特点.评价结果表明,晋北矿区开采排水和生活排污引起了地下水水质恶化,主要超标项目有硫酸盐、总硬度、细菌总数和大肠杆菌群数等.水质恶化影响的深度局限在200 m以浅,在空间上主要局限在靠近左云县和山阴县的部分地区,深层岩溶水水质未见明显改变.
关键词晋北矿区    地下水    水质评价    t-SNE    
Groundwater quality assessment based on the t-SNE method in the north coal field of Shanxi
FENG Rui1, YUAN Ruiqiang2     
1. Taiyuan Design Research Institute for Coal Industry,Taiyuan 030001;
2. College of Environmental & Resource Sciences,Shanxi University,Taiyuan 030006
Abstract: The t-distributed Stochastic Neighbor Embedding (t-SNE) method is introduced to water quality assessments.The process of assessment based on t-SNE is explored.Groundwater quality in the north coal field of Shanxi is evaluated using the new method.Compared to traditional water quality evaluation methods,the new method decreases the dependence on empirical values.The same threshold value is applied for different water quality levels with respect to some water quality indexes (e.g.,ammonia nitrogen,manganese,volatile phenols and coli-form) in the quality standard of groundwater,which causes uncertainty by using traditional water quality evaluation methods.The new method can identify the difference in those indexes between samples using distance and offer an improved result.Besides,the new method presents the clustering of data points by high-dimensional vector visualization.The assessment results show that mine drainage and domestic sewage discharge induce water quality degradation.The major contaminants include sulfate,total hardness,bacteria count and coli-forms number.Water degradation appears within the depth of 200 m underground in some areas close to Zuoyun County and Shanyin County.Water in the deep karstic aquifer is not obviously influenced.
Key words: the north coal field of Shanxi    groundwater    water quality assessment    t-SNE    
1 引言(Introduction)

矿井水是由于采矿活动造成采动区域及其周边区域水文地质单元隔水构造被破坏,地下水及地表水径流方向和途径被改变,最终在采空区或采动场所汇集,并在汇集过程中发生水质退化的水体,通常交替性较差(李喜林等,2012).煤矿生产中会产生大量的矿井水,一些矿区矿井水外排到地表后,又重新渗透进入含水层,大大增加了区域地下水遭受矿井水中的酸性、毒性、重金属和微生物等污染的威胁(邢爱国等,1999).

矿区水资源和水环境一直是矿区十分关注的问题之一(向刚等,2011),然而,煤矿区由于不合理的开采造成的水质严重污染事件层出不穷.未能对矿区水资源进行合理的水质评价,对其水质进行分类,是导致水资源污染且利用率低的原因之一(胡伟伟等,2011).为了更好地了解地下水水质状况、提高水资源利用率,必须先进行地下水环境质量的综合评价以确定水质现状,再分区域制定相应的措施,防止水质的进一步恶化及提高水资源利用率.

水质综合评价的难点在于:水质系统是由多维变量(各种污染物含量指标)组成的高维、非线性系统,单个指标仅能从某一方面反映水质,直接依据它们作综合评价有一定难度(冯娜娜等,2012).目前,常规的水质评价方法有综合指数法、模糊综合评价法、层次分析法、灰色聚类法与神经网络法等.这些方法并没有很好地解决评价因子与水质等级间复杂的非线性关系,评价过程中的效用函数、权重需要人为设计,有着极大的不确定性和随机性(郑景华等,2011).模糊综合评价法适宜于随机性和模糊性问题,但隶属函数和权重矩阵难于确定(尹国勋等, 2005陈淼等,2012).神经网络模型属于人工智能算法,其模型构建需要输入大量的样本进行自组织、自学习、自适应,才能达到适宜的泛化能力,而一般的环境评价调查难以满足人工智能算法对大样本量的要求.

随着监测资料的丰富和计算技术的发展,通过统计计算实现分类定量化的各种数学方法不断被应用到环境质量评价中.Li等(2010)指出,基于熵权的密切值法是众多密切值法中最合理的评价方法.韩晓刚等(2013)利用主成分分析的降维原理筛选评价因子,并结合模糊综合评价模型进行水质评价,降低了主观因素对评价结果的影响.余勋等(2013)研究证明,较均值模型、三角模糊数模型和传统贝叶斯模型而言,基于三角模糊数的贝叶斯水质评价模型对不确定性的表达更为全面、更符合实际.李伟等(2013)利用自组织映射与哈斯图方法对水质监测数据集进行分类、解释与评估.丁昊等(2013)引入云模型对我国14个代表性湖库的富营养化程度进行评价.Van der Maaten等(2008)提出了t-SNE算法,指出该方法既能较好地保留数据自身的结构特点,又能揭示数据集的全局结构特点,证明了该算法可以表达高维变量之间的非线性关系,通过降维揭示数据内在的分类特点,实现数据可视化直观地表达数据间的相似性程度.该算法在信息处理、模式识别和生物医学领域得到了大量的应用(Amir,2013).

因此,本文建立了基于t-SNE技术的水质评价模型,将该模型用于晋北矿区地下水水质评价中,并与传统的综合评价法的评价结果进行对比讨论.以期为推动水质评价发展,增强煤炭开采对地下水环境影响的认识提供参考.

2 研究区概况(Study area)

晋北大型煤炭基地是国家批准的“晋陕蒙宁”调出区内重点建设的8个大型煤炭基地之一,地处山西省北部.大同矿区、平朔矿区和朔南矿区为晋北煤炭基地的主要开发区,其中,大同矿区位于大同市西南20 km,资源范围涵盖整个大同煤田,平朔矿区和朔南矿区地跨朔州市平鲁区、朔城区,位于宁武煤田北部.

大同矿区和平朔矿区为侵蚀、剥蚀中山和黄土(或红土)梁状中低山丘陵地貌,梁峁起伏,沟壑纵横.矿区东南是大同盆地,北部为山区,西北部丘陵、山地交错.朔南矿区内西、南、北三面环山,整个地势由西向东倾斜,西部山地海拔在1750~2000 m之间,南部和北部山区海拔超过2000 m,中东部为平原.

大同矿区主要地层有太古界、古生界寒武系、奥陶系、石炭系、二迭系、中生界侏罗系、新生界第三系和第四系,主要含煤地层为侏罗系和石炭二叠系山西组和太原组.侏罗系含煤地层总厚度234 m,属于内陆盆地河湖沼泽相沉积,煤系地层煤层总厚度22.5 m.山西组地层平均厚度81.3 m,煤层平均厚约1.2 m.太原组地层平均厚度70 m,煤层平均厚22.0 m.平朔矿区和朔南矿区地层由老到新依次有下古生界奥陶系、上古生界石炭系、二迭系及新生界第三、四系地层,该区域含煤地层有山西组、太原组和本溪组3段,煤系地层总厚度124~210 m左右,北薄南厚.平朔矿区主要开采太原组煤层,山西组和太原组为朔南矿区主要开采煤层,其中,太原组煤层平均厚度18.6 m,山西组煤层平均厚度6.3 m.

研究区内发育有新生界松散沉积物孔隙含水层、碎屑岩裂隙含水层和碳酸盐岩类岩溶裂隙含水层.松散沉积物孔隙含水层底板埋深介于100~300 m,主要接受大气降水补给和侧向径流补给.岩溶裂隙水主要分布于煤系地层底部,埋深一般500~600 m,局部较浅,水头压力高,水文地质条件复杂.对煤矿开采有直接影响的为煤系碎屑岩类裂隙水,含水层主要为山西组和太原组砂岩.

3 采样和分析(Sampling and analysis)

依据《中华人民共和国环境影响评价法》和《中华人民共和国环境保护法》分别于2011年9月、2012年3、4和6月对研究区大同矿区、平朔矿区和朔南矿区进行了地下水环境现状调查与评价.在各矿区内对不同类型、不同层位的地下水近似均匀地设置监测点共59个(图 1).其中,浅层松散沉积物孔隙水采样点有31个,基岩裂隙水采样点有11个,深层岩溶水采样点有17个.每个点连续监测3 d,每天采样1次.根据《地下水质量标准》及建设项目排污特征,确定的监测项目为:pH、总硬度、氟化物、氨氮、硝酸盐、亚硝酸盐、硫酸盐、铁、锰、挥发酚、高锰酸盐指数、细菌总数、总大肠菌群等14个项目,并记录井深、水位、水温,调查所属含水层.水样的采集、保存依据《环境监测技术规范》进行,分析方法采用《生活饮用水标准检验方法(GB5750—85)》,地下水现状评价采用《地下水质量标准(GB/T14848—93)》.

图 1 研究区域位置和采样点分布图(高程数据来自SRTM V4 DEM) Fig. 1 Location of the study area and distribution of sampling sites(Elevation data is SRTM V4 DEM)
4 t-SNE技术(the t-SNE method)

t-Distributed Stochastic Neighbor Embedding(t-SNE)技术是基于Stochastic Neighbor Embedding技术(SNE)(Hinton and Roweis, 2002)改进而来.应用t-SNE技术可以基于高维数据的内在结构,将其在三维空间内显示出来,揭示数据内在的分类特点,并通过数据可视化直观地表达数据间的相似性.t-SNE技术较原方法更易于优化,并减小数据集中的问题.目前,t-SNE技术是同类方法中效果最好的(Van der Maaten and Hinton, 2008).

SNE技术将高维欧式距离转化为表示数据点相似性的条件概率.定义数据点xixj之间的相似性为条件概率pj|i,符合高斯概率分布.相互近邻的点有较高的pj|i,相互远离的点pj|i可以几乎无限低.条件概率pj|i按式(1)计算:

式中,σi是以数据点xi为中心的高斯函数的方差.

t-SNE方法采用了对称的SNE,即以高维空间数据点对和对应的低维空间模拟数据点对之间的联合概率来代替条件概率.同时,为了解决SNE方法中数据点“拥挤”的问题,高维空间采用高斯概率分布,低维空间采用自由度为1的t分布.这种处理减弱了模拟的低维空间中映射点之间的吸引力.高维空间数据点对和低维空间数据点对之间的联合概率分别表示为pijqij,并按式(2)计算:

低维空间映射点对之间的qij对高维空间数据点对之间的pij模拟正确性的自然测度是Kullback-Leibler散度.利用梯度下降方法最小化所有数据点的Kullback-Leibler散度,得到最佳模拟点.目标函数C定义为公式(3),梯度可以表示为公式(4).

t-SNE技术的核心步骤是降维,这类似于主成份分析方法(PCA).然而,PCA将高维变量之间的相关关系假定为线性关系,这是对高维变量之间的复杂非线性关系的一种近似.相比PCA的方法,t-SNE可以更好地表达高维变量之间复杂非线性关系(Van der Maaten and Hinton, 2008).

5 结果和讨论(Results and discussion) 5.1 基于t-SNE的水质评价和评价结果

基于t-SNE的水质评价模型的核心是利用了t-SNE算法,评价过程包括如下步骤:①选择参与水质评价的变量,pH值以取值不同范围作为评级的依据,其余变量以取值的大小作为评级的依据,本文选择除pH值以外的13个变量建立水质评价模型;②向量化5个水质级别,现有的水质标准规定的5个水质级别为5个取值区间,建立模型时需要在各个区间内选定一个“居中”点作为该类别的中心,所有的变量均选择这样的点代替原有的取值区间,由此得到5个水质级别的分级向量(表 1);③标准化分级向量和水样向量,标准化的数据采用各变量取值除以相应Ⅳ类水质阈值的方法得到,数据经过这样标准化后可以消除各变量由于取值的数量级差异造成的权重差异,同时这样的标准化方法可以保留各水质变量值高于Ⅴ类水质的程度;④利用t-SNE算法对实际的高维数据降维并投影到三维空间中,实现数据可视化,直观地揭示数据间的相关性;⑤最后,计算各水样向量投影点离开各分级向量投影点的距离,将水样归于距离最近的分级向量投影点代表的水质级别.

表1 应用于t-SNE水质评价的分级向量 Table 1 Classification vectors in the t-SNE water quality assessment

将t-SNE技术应用于水质评价的一个问题是如何确定能代表各个水质类别的分级向量.如果不能确定分级向量,就无法得到代表 5类水质的5个投影点,更无从利用t-SNE技术揭示水样数据点和这5个投影点之间的相关性.考虑到t-SNE在对数据投影时以高维欧式距离为相似性度量的基础,因此,可通过“距离”的概念将已有的5个水质类别区间转化成各分级向量的取值.例如,I~V类地下水中总硬度(以CaCO3计,mg · L-1)的分类分别为≤150、≤300、≤450、≤550和>550作为界限.当I~V类分级向量中总硬度的取值分别为75、225、375、525和575时,可以得到当水样总硬度≤150时(如149),水样总硬度距离I类水的取值75距离最近(相差74),与II类水的取值225距离略远(相差76),该水样仍然划分入I类水.通过类似的例子可以发现,将水质标准中的指标分级区间转化为区间内某个“居中”点的变换没有改变原来的分类结果.

对分级向量和矿区地下水水质向量标准化.利用t-SNE算法对水质高维数据进行降维和投影,结果如图 2所示.图中实心点表示分级向量投影点,旁边的罗马数字表示其代表的水质类别,空心点表示水样向量的投影点.若空心投影点与实心投影点的颜色相同表示相应的水样向量属于该分级向量代表的水质级别.利用t-SNE水质评价模型得到的评价结果如表 2所示.评价结果表明,待评价的地下水样品大部分属于Ⅱ类和Ⅲ类水,分别占全部水样的45.8%和25.4%;Ⅰ、Ⅳ和Ⅴ类水占全部水样的28.8%.

图 2 利用t-SNE对分级向量和水样向量投影和分类结果(相同颜色的为一类,各坐标轴为投影值,无量纲) Fig. 2 Projection and clustering results of classification vectors and sample vectors based on t-SNE(Same colors mean same groups,the coordinate axes present values of projection without dimension)

表2 晋北煤田地下水水质评价结果 Table 2 Results of groundwater quality assessment in north coal field of Shanxi
5.2 t-SNE水质评价结果与综合评价结果对比

综合评价法是我国地下水水质评价推荐使用的方法,其评价过程包括如下步骤:①根据水质标准,对各个评价指标进行评价,划分其类别;②根据各个评价指标所属的类别为其赋值Gi;③按式(5)计算水样综合评价分值G;④根据水样的G值查表得到水样属于的水质类别.

式中,n为评价指标数,Gmax为各个评价指标分值Gi中的最大值.综合评价法突出了评价指标中取值最大的指标,确定水质类别时明显存在对“经验”的依赖,比如,各评价指标的各个水质级别的赋值及不同水质级别的综合评价分值的区间界限都依赖“经验”确定.

对比t-SNE法和综合评价法的评价结果(表 2)发现,有25个水样(约占42%)评价结果相同,有23个水样(约占38%)t-SNE的评价结果为水质偏好,剩下的水样(约占20%)t-SNE的评价结果为水质偏差.t-SNE评价结果为水质偏好的水样的个别水质指标评价略差,但整体上水质较好.因此,t-SNE方法从总体角度将这些水样归于较好的水质类别.由于目前的水质指标中对细菌总数、大肠菌群数和氟化物等指标的前几级分级没有区分,由此导致综合评价法不能反映水质在这几个指标上的实际差异情况,而出现评价结果偏好的情况.相比之下,t-SNE法克服了这种缺点,使得部分水样分级结果较综合评价法的结果偏差.

与综合评价法相比,基于t-SNE的水质评价在分类过程中不刻意突出某个水质参数取值对评价结果的影响,依据水质整体特点进行评价.基于t-SNE的水质评价不包含“经验性”的评价赋值和确定阈值过程,基本摆脱了对“经验”的依赖.评价指标中氨氮、锰和挥发性酚类等对Ⅰ类和Ⅱ类水取相同阈值而不做区分,类似地氟化物、大肠杆菌和细菌总数等对Ⅰ类、Ⅱ类和Ⅲ类水不做区分.因此,当这些指标取值小于阈值时,综合评价法不能反映水样的相对差异程度.然而,基于t-SNE的水质评价以高维欧式距离为相似性度量的基础,将上述参数的具体取值在水质分级评价过程中以距离的概念来体现差异程度,进而可以改进评价结果.

5.3 晋北矿区地下水水质评价

总体上看,晋北煤田地下水,包括浅层松散沉积物孔隙水、基岩裂隙水和深层岩溶水,水质尚可.仅局部浅层松散沉积物地下水出现水质恶化情况.

浅层松散沉积物孔隙水的水质类别复杂,涵盖了各种水质类别.基岩裂隙水水质大部分在Ⅲ类以上,没有出现Ⅴ类水.深层岩溶水水质全部在Ⅲ类以上,大部分为Ⅱ类水.结合各类型地下水赋存深度和监测井深度可以推断,人类进行的煤炭开采导致水质恶化在垂向上局限于200 m以浅的范围内.

Ⅴ类水(表 3)集中分布在山阴县偏岭、魏家沟和青杨岭一带,以及左云县北杏庄和南周窑一带.Ⅴ类水全部属于浅层松散沉积物孔隙水,这类地下水赋存于与大气连通性较好的松散沉积物中,水位埋深较浅,极易受到人类排污活动的影响而导致水质退化.Ⅴ类水主要超标的项目是细菌总数和大肠杆菌群数,与人类生活排污行为密切相关.Ⅳ类水(表 3)主要分布在左云县南杏庄、水泉村和武家沟,与Ⅴ类水分布区相邻.Ⅳ类水主要超标项目是硫酸盐和总硬度,与煤矿开采排水有直接关系.在空间分布上,晋北煤田大同矿区和朔南矿区由于煤炭开采导致的水质恶化主要集中在左云县和山阴县局部.

表3 Ⅳ类和Ⅴ类地下水水质情况 Table 3 Groundwater quality of class Ⅳ and Ⅴ
6 结论(Conclusion)

本文建立了基于t-SNE的水质评价模型,并利用该模型对晋北矿区大同煤田、平朔煤田和朔南煤田不同类型地下水的水质进行评价.结果表明:晋北矿区煤矿开采排水和生活排污分别导致硫酸盐、总硬度、细菌总数和大肠杆菌群数等超标,引起水质恶化.水质恶化影响的深度局限在200 m以浅,在空间上主要分布在左云县和山阴县的部分地区,深层岩溶水水质未见明显改变.基于t-SNE的水质评价通过数据可视化直观地表达数据间的聚类特性,基本摆脱了传统方法在评价过程中依赖经验的部分,改进了传统方法对某些指标(如氨氮、锰、挥发性酚类和大肠杆菌等)评价时存在不确定性的缺点.

参考文献
[1] Amir E D,Davis K L,Tadmor M D,et al.2013.viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia [J].Nature Biotechnology,31(6):545-552
[2] 陈淼,吴永贵.2012.贵州水城大井铅锌矿废矿区矿井水重金属污染监测及模糊综合评价[J].桂林理工大学学报,32(2):208-211
[3] 丁昊,王栋.2013.基于云模型的水体富营养化程度评价方法[J].环境科学学报,33(1):251-257
[4] 冯娜娜,高良敏,卓利玲.2012.主成分分析法在煤矿塌陷水域水质评价的应用[J].安徽理工大学学报,32(2):54-58
[5] 韩晓刚,黄廷林,陈秀珍.2013.改进的模糊综合评价法及在给水厂原水水质评价中的应用[J].环境科学学报,33(5):1513-1518
[6] Hinton G E,Roweis S T.2002.Stochastic neighbor embedding// Advances in Neural Information Processing Systems[M].Cambridge,MA,USA:The MIT Press
[7] 胡伟伟,李婷,马致远,等.2011.模糊综合评价法与综合评价法在矿区水质评价中的对比研究[J].地下水,33(3):143-144
[8] Li P,Wu J,Qian H.2010.Groundwater quality assessment based on entropy weighted osculating value method[J].International Journal of Environmental Sciences,1(4):621-630
[9] 李伟,姚笑颜,梁志伟,等.2013.基于自组织映射与哈斯图方法的地表水水质评价研究[J].环境科学学报,33(3):893-903
[10] 李喜林,王来贵,刘浩.2012.矿井水资源评价——以阜新矿区为例[J].煤田地质与勘探,40(2):49-54
[11] Vander Maaten L,Hinton G.2008.Visualizing Data using t-SNE [J].Journal of Machine Learning Research,9:2579-2605
[12] 向刚,张华湘.2011.四川老河坝磷矿区水化学特征及水质评价[J].南水北调与水利科技,9(4):125-129
[13] 邢爱国,胡厚田,刘涌江.1999.煤矿区水环境质量现状评价研究[J].环境工程,17(4):72-74
[14] 尹国勋,李振山.2005.地下水污染与防治——焦作市实证研究[M].北京:中国环境科学出版社
[15] 余勋,梁婕,曾光明,等.2013.基于三角模糊数的贝叶斯水质评价模型[J].环境科学学报,33(3):904-909
[16] 郑景华,王李,刘志斌.2011.RBF与Elman在露天矿区地下水水质评价与预测中的应用[J].水资源与水工程学报,22(5):130-133