荧光溶解性有机质EEMs的新旧自组织映射图解析方法比较研究

引用本文

聂泽宇, 邬剑宇, 吴小东, 等. 2017. 荧光溶解性有机质EEMs的新旧自组织映射图解析方法比较研究[J]. 环境科学学报, 37(1): 357-369. 复制到剪切板

NIE Zeyu, WU Jianyu, WU Xiaodong, et al. 2017. Comparative study on the interpretation of EEMs of fluorescent dissolved organic matter using the new and traditional self-organizing map methods[J]. ACTA SCTENTIAE CIRCUMSTANTIAE, 37(1): 357-369. 复制到剪切板

荧光溶解性有机质EEMs的新旧自组织映射图解析方法比较研究

[PDF全文]

聂泽宇^1,2, 邬剑宇^1,2, 吴小东^1,2, 黄皓旻^1,2, 施积炎^1,2

1. 浙江大学环境与资源学院环境工程系, 杭州 310058;
2. 浙江省水体污染控制与环境安全技术重点实验室, 杭州 310058

收稿日期: 2016-03-08; 修回日期: 2016-04-09; 录用日期: 2016-04-09

基金项目: 国家水体污染控制与治理科技重大专项（No.2014ZX07101-012）；浙江省公益性技术研究项目（No.2013C33003）；杭州市科技发展计划社会发展科研专项（No.20130533B66）

作者简介: 聂泽宇(1985-),男,E-mail:niezeyu@zju.edu.cn

通讯作者（责任作者）: 施积炎(1976—)，男，博士，教授，主要从事土水污染物迁移转化与修复研究. E-mail:shijiyan@zju.edu.cn

摘要: 目前，对地表水体荧光溶解性有机质（Fluorescent Dissolved Organic Matter，FDOM）三维激发发射矩阵（Excitation-Emission Matrices，EEMs）数据的解析仍旧存在挑战.本文结合原始EEMs和从中分离的荧光平行因子分析（Parallel Factor Analysis，PARAFAC）组分，利用自组织映射图（Self-Organizing Maps，SOM），开展了基于传统EEMs-SOM和新型PARAFAC-SOM神经网络模型的复杂荧光数据解析能力对比研究，以此探索和改进EEMs多元解析方法技术体系.模型以已发表论文原始数据为基础构建，研究对象为南太湖重要入湖河流东苕溪水系.结果显示：EEMs-SOM模型需依赖常规“摘峰法”对各荧光峰做出主观判断，不能有效识别重叠荧光峰，且人为割裂多激发共发射荧光物质峰之间的联系，从而弱化分析结果的实际环境意义，但神经元的模式荧光光谱可视化效果较佳，且操作简便，耗时较少；PARAFAC-SOM模型克服了上述缺陷，可清除EEMs中的噪声或无用信息，大幅降低输入变量数（从1742个降至4个），缩减运算时间，较大地改善了输出结果的准确性，获得无损可靠且实际环境意义较强的结果，但该法的PARAFAC预处理要求较高，工作量较大；两类模型解析结论大体一致，对前期研究进行了全新的阐述和补充，且生动揭示了FDOM在多级河流水体中的空间赋存变化规律及河流的动态污染过程.综上，推荐在今后研究中综合使用两类优势互补的模型以实现对EEMs的深度解析.

关键词: 荧光溶解性有机质自组织映射图 EEMs-SOM PARAFAC-SOM 东苕溪

Comparative study on the interpretation of EEMs of fluorescent dissolved organic matter using the new and traditional self-organizing map methods

NIE Zeyu^1,2, WU Jianyu^1,2, WU Xiaodong^1,2, HUANG Haomin^1,2, SHI Jiyan^1,2

1. Department of Environmental Engineering, College of Environmental and Resource Sciences, Zhejiang University, Hangzhou 310058;
2. Key Laboratory for Water Pollution Control and Environmental Safety, Zhejiang Province, Hangzhou 310058

Received 8 Mar 2016; received in revised from 9 Apr 2016; accepted 9 Apr 2016

Supported by the National Major Science and Technology Program for Water Pollution Control and Treatment(No. 2014ZX07101-012), the Public Welfare Research Project of Zhejiang Province(No. 2013C33003) and the Special Fund for Social Development Research in Hangzhou City(No. 20130533B66)

Biography: NIE Zeyu (1985—), male, E-mail: niezeyu@zju.edu.cn

^*Corresponding author: E-mail:shijiyan@zju.edu.cn

Abstract: Nowadays, there remains a challenge in analyzing the three-dimensional excitation-emission matrices (EEMs) data of fluorescent dissolved organic matter (FDOM) in surface water. The self-organizing map (SOM) method, as a classical artificial neural network, has been recently introduced to explore and improve the diverse analytical technique system for EEMs. Based on the raw EEMs and its fluorescent components separated by parallel factor analysis (PARAFAC), the traditional EEMs-SOM and the newly proposed PARAFAC-SOM neural network models were built. Afterwards, their ability to resolve the complex fluorescent data of EEMs was compared. The previously published dataset of water samples collected from the East Tiaoxi River (ETR) watershed in southern Taihu Lake was used as the original input data. The results showed that for EEMs-SOM, this method was simple to use and less time-consuming. It could provide us with the intuitive contour plots of reference EEMs in the interesting neurons. However, the identification of different fluorescence peaks by the "peak-picking" method only depended on the people's subjective judgment and experience, so this method might not effectively identify the overlapping fluorescent peaks, leading to artificially dissevered connections between multiple peaks of one fluorophore at similar emission wavelengths. Thus, all above shortcomings could influence the reliability and environment significance of the results to some extent. For PARAFAC-SOM, the pretreatments of EEMs by PARAFAC could address the above-mentioned problem. This model could effectively remove the noise signals or useless fluorescence information, and then greatly reduce the input variables of EEMs from 1742 excitation-emission wavelength pairs into 4 PARAFAC fluorescent components. Moreover, this model could not only save the running time, but also generate the nondestructive and easily interpretable results. However, the requirements of data pretreatment for PARAFAC preprocessing were much rigid. Thus, the workload was much higher. The results calculated by these two methods were consistent, which made the new and complementary explanations to our previous studies. It also proved that the SOM maps were capable of revealing the spatial occurrence of FDOM in typical multistage rivers at watershed scale and the relevant dynamic processes of pollution along rivers. Compared to single method, the coupling of the two models had synergistic effect and greatly facilitated the interpretation and visualization of the discrepancy of FDOM in multistage rivers. Therefore, we strongly recommended these coupling methods to handle the three-way fluorescence data (EEMs) to make a more robust description for the FDOM's biogeochemical transformations.

Key words: fluorescent dissolved organic matter(FDOM) self-organizing maps(SOM) EEMs-SOM PARAFAC-SOM East Tiaoxi River

1 引言(Introduction)

目前，地表水体荧光溶解性有机质(Fluorescent Dissolved Organic Matter，FDOM)的环境化学行为已成为生态环境领域的研究热点.其中，激发发射矩阵(Excitation-Emission Matrices，EEMs)常被用于表征FDOM的含量、构成及其环境功能特性(Ishii et al.，2012).常见的EEMs解谱方法包括主成分、聚类分析和平行因子分析(Parallel Factor Analysis，PARAFAC)等，但上述方法均各具优劣(Bieroza et al.，2012; Ejarque-Gonzalez et al.，2014).故FDOM生物地球化学行为规律研究亟需荧光图谱解析技术的丰富与创新.

近年来，基于人工神经网络的EEMs图谱解析研究逐渐流行，其中，由芬兰Kohonen教授提出的自组织映射图(非监督算法)(Self-Organizing Map，SOM)(Bieroza et al.，2011;2012;Kohonen，1998)，被有效地应用于EEMs的模式分类(Ejarque-Gonzalez et al.，2014)、特征识别和数据降维分析中(Bieroza et al.，2012).该法可将复杂的三维EEMs经非线性转化映射到可视化程度较高的二维空间，但仍保留其全部拓扑和度量属性(Kohonen，1998).相对于主成分和PARAFAC分析(分别为非监督和监督算法)，该法对样本数量要求低，自稳定性高、耗时少、抗噪声干扰能力强、结果可视化效果好(Bieroza et al.，2012; Ejarque-Gonzalez et al.，2014; Kohonen，1998)，其分析原理基于原始数据本身而非其分析过程，且不需提前设定输出结果的荧光属性等(Bieroza et al.，2012).

然而，目前利用SOM法的FDOM三维荧光数阵研究尚不普及(Bieroza et al.，2011; Yu et al.，2014)，已有研究多以少量模拟样本为基础开展(Astel et al.，2007).对于传统EEMs-SOM(简称为ESOM)分析法(Bieroza et al.，2012; 于会彬等，2015)，该法对重叠荧光峰的分离能力有限，人为割裂多激发共发射荧光峰的内在联系(Li et al.，2013)，弱化了各荧光组分的生态环境意义，且上千对激发发射波长的组分面可视化分析难度较高(Cuss et al.，2014).因此，可利用PARAFAC法从EEMs中提取若干有效荧光组分(Nie et al.，2016).然而，目前利用PARAFAC法预降维以压缩SOM分析输入变量数(定义为新型PARAFAC-SOM法，简称PSOM法)的研究极少(Cuss et al.，2015; Cuss et al.，2014; Zhang et al.，2015)，且无文献报道指出这两类耦合模型的分析过程差异与结果优劣势，以及不同荧光组分输入形式对解析结果的影响等.

综上，本研究拟利用EEMs图的激发发射波长对(Excitation-Emission Wavelength Pair，P_Ex-Em)(Bieroza et al.，2012)和PARAFAC荧光组分分别构建传统ESOM和新型PSOM神经网络，从而研究新旧模型的EEMs解析能力差异并创新使用方法.方法论的构建与研讨是本研究唯一目的，为便于与常规分析结论之间的比对，研究的原始数据体系均来自课题组前期已发表论文(Nie et al.，2016)，即利用SOM工具解析农业流域多级河流中FDOM的空间赋存规律及其环境行为.

2 材料与方法(Materials and methods) 2.1 研究区域及水样荧光信息回顾

为便于读者对原始数据体系的理解，此处对本文的背景资料进行简要回顾(图 1)，具体内容请参阅已有文献(Nie et al.，2016)：苕溪是太湖南部的主要入湖河流，包括东、西苕溪两大支流，研究区域位于东苕溪流域的上、中游地区(图 1).境内土地利用类型主要为林地(竹林和茶园)和农田(水稻田).农村经济的快速增长，使农业废水和农村生活污水成为该区域的主要污染源.

图 1 研究区域及采样点位分布(6种水样类型及缩写：污染源(SP，畜禽水产养殖和分散式农村生活废水等)；主干流，即东苕溪(ETR)；主支流，含北苕溪(NTR)、中苕溪(MTR)和南苕溪(STR)；各主支流隶属的次级支流，分别记为NTR′、MTR′和STR′；雨水(RW)；河流源头清洁水(CW)) Fig. 1 Study area and distribution of sampling sites

水样FDOM原始EEMs的激发发射波长范围分别为250~500 nm和300~550 nm，步长均为5 nm.EEMs在经过预处理(Nie et al.，2016)以满足PARAFAC分析要求后，可叠加成原始三维荧光数阵X(N×I×J=89×51×51)，其中，N、I和J分别为有效样本、激发和发射波长维度. 前期研究表明(Nie et al.，2016)，X矩阵经PARAFAC降维分析可得到4类荧光组分(简称为C1、C2、C3和C4，荧光峰位置分别为λ_Ex/λ_Em=255(360)nm/455 nm、<250(320)nm/395 nm、275 nm/335 nm和<250 nm/305 nm)，分别代表类腐殖质(A+C峰)、海洋源类腐殖质(A+M峰)、类色氨酸(T峰)和类酪氨酸物质(B峰).其中，C1~C3可能主要受陆源输入影响，但C4主要在河道内部原位产生(Nie et al.，2016).

2.2 SOM神经网络模型构建

EEM图共包括51×51=2601个P_Ex-Em新变量(如λ_Ex/λ_Em= 250 nm/480 nm为某个新变量)，故可将X展开为以P_Ex-Em为新变量的二维矩阵Y(维度为89×2601).通过删除Y中与散射和无用三角区域信号相关的变量后，有效变量数可精简至1547个，最终得到89×1547的二维矩阵Z.因此，研究构建的两大类SOM神经网络(Bieroza et al.，2012)信息如下(表 1)：①ESOM模型，以Z矩阵为基础构建，其输入层连接1547个P_Ex-Em变量；②PSOM模型，以C1~C4组分的含量(得分)为基础构建，即89×4的二维输入矩阵(89为样本数，4指全部荧光组分).

根据荧光组分得分的不同输入形式可将PSOM模型再分为PSOM和PSOM%两类(表 1)，两者的输入数据集均为89×4的二维矩阵，其中，前者以荧光组分原始得分值，但后者则以相对贡献率为基础构建.对于某样本，相对贡献率的计算公式为[Ci]/∑([C1]+[C2]+[C3]+[C4])(其中，[Ci]表示某一荧光组分的荧光强度，i=1~4).为描述各水样较清洁水源的污染轻重，可将清洁水源里畈水库水作为基准样(C1~C4组分峰强分别为2.8、2.9、1.0和0 QSUs)(Nie et al.，2016)，其中，某水样荧光组分的增大倍数计算公式为[Ci₍_水样₎]/[Ci₍_里畈水库₎](i=1~4).

神经网络的构建借助基于MATLAB 2010b(MathWorks，Natick，MA)的SOM工具箱(版本号2.0)(Vesanto et al.，2000)进行，其输入数据需进行标准化处理(方差为1，均值为0)，并以缺省设置运行.其中，模型的训练算法为批训练，邻域核函数为高斯函数，初始邻域搜索半径为2，学习类型为逆函数，初始网络采用线性初始化，并经过粗训练和精训练两个阶段，最终将原始输入向量映射在输出层的各神经元上.此外，采用非层次k-means聚类算法进行聚类分析(Bieroza et al.，2011)，该算法以输入向量与权向量之间的相似性(欧氏距离)为基础，通过计算最小欧氏距离确定某类神经元的中心，并采用多次计算比对的最小Davies-Bouldin(DBI)指数确定最佳聚类数(Astel et al.，2007).SOM网络的荧光属性及变量间的相关关系，可利用SOM工具箱的组分面和自相似分析手段予以揭示(Astel et al.，2007; Tsakovski et al.，2011).

3 结果与讨论(Results and discussion) 3.1 新旧SOM神经网络模型的构建

通常，按照量化误差(QE)和拓扑图形误差(TE)取最小值的原则(表 1)及M=5N^0.5的规律(M为输出神经元数量，N为样本数)确定SOM神经元的数量(朱艺峰等，2012;Vesanto et al.，2000).SOM网络的长宽神经元数量比，则取决于数据集协方差矩阵的两个最大特征根的比值(Astel et al.，2007;Vesanto et al.，2000).表 1汇总了在缺省或定制模式下运算而得的不同SOM网络拓扑结构信息.其中，ESOM模型的QE和TE值均低于已有教程案例的相应值(Bieroza et al.，2012)，此外，利用PARAFAC法对EEMs进行预降维可让PSOM模型的QE和TE值显著下降，故上述模型的可信度较高.此外，通常缺省运行可得到最佳的SOM拓扑结构，如ESOM网络(表 1)，但PSOM和PSOM%网络的缺省运行结果略有差异(10×5的拓扑结构).由于定制与缺省网络的QE和TE值差异较小(表 1)，其中，PSOM网络的QE值甚至更低，故将上述SOM网络统一为12×4的拓扑结构，以便运行结果间的比较.

表 1 各神经网络图的最终量化误差和最终拓扑图形误差 Table 1 The final quantization error(QE)and final topographic error(TE)of SOM maps

3.2 传统ESOM神经网络模型 3.2.1 水样映射分布及聚类分析

图 2a以数字和不同大小的紫红色正六边形展示了基于全部样品的神经元映射样本数，各样本均匀地分布在SOM网络中，说明该网络的构建合理可行.按从上到下再从左到右的计数顺序对神经元进行编号后，可发现部分神经元的映射样本数较高，如第12和37号神经元(分别记为N12和N37)，其映射样本数分别达6和5个.为展示水样在SOM网络中的映射位置关系，图 2b和图 2c分别展示了各神经元内全部和关键映射样本的类型和数量信息，如1a、6b和4b等样本主要分布在下部区域，10f和9e等主要分布在右上角区域.因此，SOM网络根据荧光光谱特征对所有样本进行了有效的分类与映射.

图 2 基于水样EEMs的SOM视觉化输出图(a.Hits图(数字指竞争胜利次数)，b.全部样本的映射分布图(水样编号规则，以单个数字及字母组合表示，括号内数字指该类样本重复次数，记为：污染源(1a)，北、中和南苕溪附属次级支流(分别为2b、4b和6b)，北、中和南苕溪(主支流，分别为3c、5c和7c)，东苕溪(主干流，8d)，雨水(9e)和清洁源头水(10f))，c.关键样本的映射分布图(数字及字母组合含义同图 2b)，d.统一距离矩阵图(图例数据为相邻神经元间的距离，无量纲)，e.DBI指数，f.最佳样本聚类图(数字为聚类编号)，g.不同类型水样映射图(映射样本的类型及数量以不同颜色和大小的正六边形表示，最大着色正六边形代表各神经元内某类水样的最大映射数量(Max值)) Fig. 2 SOM visualization based on EEMs of water samples(a. hit histogram，b. distribution of water samples in SOM map including the whole，c. distribution of water samples in SOM map including the representative samples，d.unified distance matrix(U-matrix，e. DBI indices，f. optimal clusters，g.multiple hits and comparisons for different kinds of water samples)

相对于图 2a，统一距离矩阵图(图 2d)以额外的正六边形单元描述了神经元之间的相似程度(以欧氏距离衡量)(Bieroza et al.，2012).图中颜色越红(距离数值越大)表示神经元之间的荧光性质差异越大，反之则表示越类似，因此，可用于SOM网络聚类边界的划分.该图大体反映出SOM网络上下两部分的荧光属性差异较大，下部分则可细分为两类.然而图 2d所展示的聚类边界较为模糊，故可根据k-means算法确定最佳神经元的聚类数和边界线，根据DBI指数取最小值的原则可将样本划分为4大聚类(图 2e)，具体分类边界如图 2f所示.最后，图 2g描述了水样在SOM网络中的映射数量和位置差异，尽管各类水样的映射位置部分重叠，但仍可直观揭示不同水样的聚类分布情况及其荧光属性差异.

3.2.2 典型神经元三维荧光光谱特性解析

为充分说明SOM网络中各神经元的荧光光谱属性，利用上述SOM工具箱将典型神经元(图 2c中以浅灰底色标记)的参考向量进行去标准化并重组成模式EEMs和相应等高线图(图 3)，由此展示SOM网络不同神经元间的荧光光谱特征差异.通常，映射在相同神经元中实际样本(图 2b~c)的荧光光谱属性(荧光峰位置和强度等)，均与该神经元的参考EEMs等高线图(图 3)类似.

图 3 典型神经元的参考EEMs荧光光谱图(图中N36: 24.4/43.2/30.3/13.1表示在第36号神经元的EEM图中，传统“摘峰法”识别的类腐殖质(C峰与A峰)和类蛋白质物质(T峰与B峰)的荧光峰强分别为24.4、43.2、30.3和13.1 QSUs，以此类推) Fig. 3 Fluorescence spectrum of reference EEMs in typical neurons

对于FDOM而言，当其EEM中荧光峰的发射波长λ_Em>380 nm时代表疏水性更强的类腐殖质物质，当λ_Em<380 nm时代表亲水性更强的类蛋白质物质(Ishii et al.，2012).故从图 3中可识别出4类荧光峰，即类腐殖酸(C峰)、类富里酸(A峰)、类色氨酸(T峰)和类酪氨酸峰(B峰)，其荧光峰的位置分别为λ_Ex/λ_Em=340 nm/425 nm、<250 nm/420 nm、280 nm/340 nm和<250 nm/305 nm，各荧光峰未见明显的红移或蓝移现象.

4 类荧光峰的峰强(图 3)在SOM网络中的分布特征详述如下：①类腐殖质峰(C与A峰)：其最大荧光强度(Maximal Fluorescence Intensity，FI_max)值大体沿左下方向向右上方向衰减.由于图 3选取的后两列代表神经元相互临近(图 2c)，故其EEMs图中相应的类腐殖质峰荧光强度差异较小；②T峰：其FI_max值在垂直方向上的大小变化规律与C和A峰一致，但水平方向则反之(神经元N1、N25和N37除外)，即各神经元T峰的峰强自右下方向向左上方向逐渐衰减；③B峰：其FI_max值在垂直与水平方向上的大小变化规律与前述荧光峰存在较大差异，该值沿垂直方向向上呈先增大后降低的趋势，且仅在第2和第3行EEMs中可观测到明显的B峰(图 3).此外，B峰与T峰较为类似，其FI_max值在图 3中大致呈从左向右递增的趋势(前两行神经元除外).

3.2.3 关键激发发射波长对(P_Ex-Em)的组分面分析

由于EEM中的P_Ex-Em变量过多(1547个)，故选取上述4类荧光峰(图 3)所对应的关键P_Ex-Em进行组分面分析(图 4a).与传统观察法不同(图 3)，图 4a可更加清晰地获取到相似的结论.具体包括：①A和C峰自左下向右上方向逐渐衰减，T峰则由右下向左上方向逐渐衰减，因此，SOM网络右下角的样本富含亲水性的类色氨酸物质，而靠左下角的样本则富含类腐殖质物质，其映射水样FDOM的腐殖化程度亦越高，这意味着FDOM的腐殖化(老化)将使水样的映射位置从右向左移动(图 2)；②就B峰而言，SOM网络右中部的映射水样均富含类酪氨酸物质，但该荧光峰在外围神经元的强度分布呈放射性衰减规律.简言之，ESOM网络在垂直方向上可反映神经元及映射样品的FDOM含量水平，在水平方向上可反映FDOM的芳香化水平(腐殖化程度)，这与前人研究结论(Bieroza et al.，2012)一致.

此外，从图 4b可知：①A和C峰的组分面图高度相似，仅存在荧光强度大小的差异，这可能归因于多激发共发射荧光组分的存在(Li et al.，2013)，即EEMs图中A和C峰可能由具有双激发共发射荧光属性的某类荧光组分产生；②尽管T与类腐殖质峰(A和C峰)之间的组分面相似度有所下降，但仍遵循荧光强度从上至下递增的规律，这可能与上述荧光物的来源相似有关；③B峰的组分面与众不同，说明类酪氨酸与其余物质的来源差异较大.事实上，前期研究表明(Nie et al.，2016)，类酪氨酸物质(B峰)可能主要在河道内部原位产生，但类色氨酸(T峰)和类腐殖质物质(A和C峰)可能均主要受外源输入的影响.

图 4 关键P_Ex-Em的组分面(a)与自相似(b)分析(λ_E_m/λ_E_x表示“发射波长/激发波长”，如“305/250”表示“发射波长为305 nm，激发波长为250 nm”，以此类推) Fig. 4 Component planes(a)and similarity pattern(b)analysis for key P_Ex-Em

综上可知，首先，ESOM网络形象对比了4大聚类水样之间的显著荧光特性差异(图 2f).其中：①第1和第4聚类水样的FDOM含量均较高，但前者富含类色氨酸物质，为新鲜FDOM，后者富含类腐殖质物质，为老化FDOM；②第③聚类水样的FDOM含量整体为中等水平，其中，右中部位映射样本的类酪氨酸物质含量高于其余区域；③第②聚类水样的FDOM含量整体保持在较低的水平. 其次，相对于表现能力较弱的传统分析法(Nie et al.，2016)，图 2g生动展示了FDOM在多级河流水体中的空间赋存变化规律及河流的污染过程，具体将结合新型PSOM模型的解析结果，在3.4节统一描述.

3.3 新型PSOM神经网络模型 3.3.1 基于荧光组分原始得分的水样映射、聚类、组分面与自相似分析

利用PARAFAC法对输入变量进行降维操作究竟对SOM模型的输出结果产生多大影响？比较图 2和图 5可知，样本在PSOM网络的主要位置均有分布，亦存在映射不均匀的现象，而且PSOM网络里空神经元的数量多于ESOM网络(图 5a~c)，这可能是因为PSOM网络的拓扑结构未采纳缺省运行的结果所致(定制模式，表 1).重要的是，新旧SOM网络的样本映射和聚类分析结果存在明显差异，即两者在垂直和水平方向上的荧光强度渐变规律截然相反(建议参考后续组分面图进行综合判断)，这可能归因于两类模型输入数据之间的差异，具体原因有待后续研究予以解释.此外，PSOM网络将水样细分为5大聚类(图 5e~f)，而图 5g亦生动对比展示了6种水样的分布特征，其位置分布与ESOM模型亦大体相反.

图 5 基于水样荧光组分原始得分的SOM视觉化输出图(各子图及符号含义与图 2相应部分相同) Fig. 5 SOM visualization based on the scores of PARAFAC components of water samples

对水样聚类与映射结果(图 5e~g)的理解，有必要事先对PSOM网络自身的荧光属性加以分析，此举可借助C1~C4的组分面分析图(图 6a)得以实现.图 6a有效揭示了PSOM模型各神经元及相应映射样本的综合荧光特性.具体包括：①C1和C2的荧光峰强均由右上方向向左下方向递减(与图 4中A和C峰相反)，其在N37神经元中分别为28.9和34.6 QSUs，较里畈水库水样相应组分峰强分别高出10.3和11.9倍，此时该神经元C3和C4的峰强分别为14.7和1.9 QSUs，但这仍大大超出里畈水库水的相应组分含量；②C3的荧光峰强由左上方向向下部递减(与图 4中T峰相反)；③C4的荧光峰强在右中部位置达到峰值，并呈放射性形式向四周衰减(与图 4中B峰基本一致). C3与C4的描述可参照C1和C2进行.

综上，5大聚类水样的荧光性质(图 5f)可归纳为：①除C4外，第1、5聚类水样均富含C1~C3组分，其中，前者以C3为主导，后者则以C1和C2为主导，代表性水样包括污染源和部分次级支流，因此得知，多级河流水体中C4组分的主要来源并非污染源水样；②第3聚类水样富含C4，而C1和C2的含量中等，但C3含量较低，代表性水样包括部分次级支流、主支流和主干流，这佐证了C4组分在多级河流内部原位产生的事实；③第2聚类水样FDOM的含量整体呈中等水平，其中，类蛋白质组分(C3和C4)含量较低，类腐殖质物质含量水平中等，代表性水样包括主支流等；④第4聚类水样属于相对清洁水体，其FDOM及相应荧光组分的含量均较低，代表性水样包括雨水、源头水及部分主干流和主支流水样；⑤FDOM在多级河流中的空间赋存及河流污染过程，将在3.4节结合ESOM模型统一描述.

图 6 基于水样荧光组分原始得分的组分面(a)与自相似(b)分析 Fig. 6 Component planes(a)and similarity pattern(b)analysis for fluorescence components

此外，根据各荧光组分在SOM网络中的颜色分布规律，可半定量揭示组分间的相关性(Zhang et al.，2015).由于C1~C3组分，特别是C1和C2间的荧光强度变化规律自相似性较高，故均被分配在图 6b的上部区域，但C4组分以其独特的组分面特征(图 6a)而独立成组(图 6b).上述结果完美支撑了传统分析法所得如下结论(Nie et al.，2016)：①C1、C2和C3主要受陆域外源输入影响，各组分间呈显著相关关系(p<0.05)，但C1与C2之间的相关系数r高达0.974(回归分析时其可决系数R²=0.949)；②C4与众不同，主要由河流水体藻类等内源生物活动产生，故C4与其余组分间无显著性相关关系(p>0.05).

3.3.2 基于荧光组分构成比例的水样映射、聚类、组分面与自相似分析

为深度挖掘各类水样FDOM的构成情况，利用荧光组分的构成比例数据，构建了全新的PSOM%神经网络模型.总之，水样FDOM荧光组分构成情况较为复杂，3大聚类区域水样的贡献率特征分析如下(图 7a)：①第3聚类水样FDOM(图 7b)主要由C1和C2构成，两者的贡献率最高分别达40%左右，C3的贡献率则为中等水平(约20%)，但C4的贡献率极低(图 7d)，说明这类水样的腐殖化程度较高，但C4的内源产生能力较弱，在该聚类区域内，各类型水样均有映射分布(图 7c)；②第2聚类水样的荧光组分构成特征与第3聚类恰好相反，即其FDOM主要由C4组分构成，该聚类区域的映射样本仅为次级支流、主支流和主干流水样，这再次证实了C4组分主要在多级河流内部产生的推论(Nie et al.，2016)；③第1聚类水样FDOM中，类色氨酸组分C3的贡献率极高(最高达40%)，表明水样的腐殖化程度较低，代表性水样包括农村生活污水和水产养殖废水等.

图 7 基于水样荧光组分构成比例的SOM视觉化输出图(a.DBI指数，b.最佳样本聚类图，c.不同类型水样映射图，d.组分面分析图，e.自相似分析图;各子图符号含义与图 2相应部分相同) Fig. 7 SOM visualization based on the percentage of PARAFAC components of water samples.(a.DBI indices，b.optimal clusters，c.multiple hits and comparisons for different water samples，d. component planes analysis，e. similarity pattern analysis)

此外，从荧光组分面的自相似关系(图 7e)可知，仅C1与C2距离最近，这表明两者在荧光强度及其组分贡献率上均高度相似(Astel et al.，2007; Tsakovski et al.，2011)，这也合理解释了前述研究所得结论(Nie et al.，2016)，即4组分中仅C1与C2显著相关且呈现较好的线性回归关系(r=0.974，p<0.05；R²=0.949).综上，PSOM%神经网络对研究者深入理解水样FDOM之间的荧光属性差异具有较好的辅助判别功能.

3.4 多级河流水体FDOM演变规律的全新阐述

相对于传统分析法(Nie et al.，2016)，本研究利用新、旧神经网络(图 2和图 5)对多级河流水体中FDOM的空间赋存规律及其环境行为进行了全新阐述，两类模型分析结果相互支撑，可靠性强，具体包括：①污染源水样FDOM含量最高，均映射在新、旧SOM网络的高浓度区，且腐殖化程度由于采样的异质性影响差异较大(新鲜和老化FDOM样本共存)，各荧光峰(A、C和T峰)峰强或荧光组分(C1、C2和C3)含量构成各异，且主要以外源输入为主.然而，类酪氨酸物质(B峰或C4组分)的含量极低，其影响可忽略；②次级支流水样的映射位置紧邻污染源，FDOM总量及内含荧光物质(类酪氨酸物质除外)在河水稀释和水体自净作用下衰减;然而，部分次级支流水样映射在SOM网络的类酪氨酸物质高浓度区，这说明外源输入FDOM在衰减的同时，类酪氨酸物质仍可由水体内源生命活动产生；③主支流水样FDOM含量进一步衰减，其映射位置向清洁水源低浓度区靠近，充分反映了FDOM受微生物和光降解作用等的继续衰减或腐殖化进程，但仍有较多水样分布在新、旧SOM网络的中浓度区，这可能主要归结于主支流中形成的类酪氨酸影响；④随着河水流动，主干流水样FDOM的含量相对于主支流出现明显回弹和积累效应，主要为中低浓度水平，这可能是由于FDOM已衰减至稳定水平，但河道内源产生的类酪氨酸物质对FDOM的含量起到了补充作用(Nie et al.，2016)，个别特例可能受采样点位的异质性影响；⑤雨水与清洁水源的FDOM荧光属性较为类似，含量均较低，但映射在N33(图 2g)和N5(图 5g)神经元的初期雨水富含FDOM，危害较大；⑥ 清洁源头水FDOM含量极低，均映射在新、旧SOM网络的低浓度区.

3.5 基于新、旧神经网络的水样聚类映射情况对比和方法优劣势分析 3.5.1 水样聚类与映射情况对比总结

将ESOM(图 2f、图 4a和图 2g)、PSOM(图 5f、图 6a和图 5g)和PSOM%模型(图 7b、d、c)的解析结果汇总后(表 2)，可对3类模型的EEMs解谱结果和解析能力进行对照，主要结论如下：

表 2 基于传统ESOM和新型PSOM神经网络模型的水样聚类与映射情况比较 Table 2 Comparisons of the clustering and mapping results of water samples by traditional ESOM and PSOM neural network models

1) ESOM和PSOM模型聚类分区关联性较好，但因方法原理的不同，其结果之间存在差异.由表 2和组分面分析结果(图 4a，图 6a)可知：①ESOM模型第4、1和2聚类分别与PSOM模型第5、1和4聚类具有相近荧光属性，但PSOM模型聚类分辨能力更强，其第2和3聚类可分别对应ESOM模型第3聚类的左右区域；②组分面分析时，除B峰与C4组分基本相似外，T峰与C3组分(均为类色氨酸)，以及A、C峰与C1、C2组分(均为类腐殖质)之间的荧光强度呈相反的衰减渐变趋势，上述原因可用于解释为什么ESOM和PSOM模型在垂直方向上代表的荧光强度截然相反这一现象(图 2g、图 5g)；③PSOM%可作为PSOM模型的有效补充，即利用FDOM中类腐殖质、类色氨酸和类酪氨酸的贡献差异对样本进行了深度聚类，但模型对C1和C2的区分能力不够.此外，3类模型不同聚类间存在较好关联，如ESOM和PSOM模型的第1聚类主导成分均为类色氨酸，故PSOM%模型第1聚类应与前两者紧密关联.

2) 水样在ESOM和PSOM模型上的映射结果基本一致，但由于方法原理的不同其结果之间存在差异.从表 2可知：①污染源和源头水在两类模型上的映射情况几乎一致；②对于其余类型水样，可将ESOM模型第3聚类的水样拆解后用于对应PSOM模型的第2和3聚类，前者第3聚类的左右区域差异即为佐证；③利用PSOM%模型，可对水样FDOM中3类荧光物质的贡献率差异做出直观判断.例如，污染源水样的类酪氨酸物质贡献率极低，雨水和源头水FDOM中主要以类腐殖质为主，然而多级河流水体中类酪氨酸的贡献率较高.

综上，有必要对产生上述现象的原因进行阐述.事实上，在本案例EEM的三线性分解过程中，T和B峰可分别分配至C3和C4组分峰中，但A和C峰则作为整体，被拆分为两类双激发共发射的双峰型荧光物质(C1和C2).因此，PARAFAC荧光组分的提取过程，可用于合理解释上述“和而不同”的解析结论.

3.5.2 方法优劣势分析

传统ESOM模型：该法可实现水样的有效聚类分析，但各神经元参考EEMs中仍存在较多重叠荧光峰，且需依赖传统“摘峰法”(图 3)对各荧光峰做出主观判断，人为割裂了EEMs中多激发共发射荧光峰的联系，如A和C峰可能由同一荧光组分产生(Li et al.，2013)，从而削弱荧光峰的实际环境意义.加之P_Ex-Em变量数多达上千，故人为选定的P_Ex-Em组分面分析结果存在较大人为误差(图 4a).此外，EEMs预处理仍难彻底清除干扰或散射等残余无用信息，因此，将影响ESOM模型的准确性.总之，该模型反映的关键荧光信息存在人为主观选择和EEMs固有噪声信号的影响.但是，相对于PSOM模型，该法可直接利用EEMs开展SOM分析，总体操作简便，耗时较少，且可直观展示每个神经元(图 3)的参考EEMs等高线全貌，从而直观表征映射样本的激发发射矩阵荧光光谱特征.

新型PSOM模型：该法较传统ESOM模型的分析可靠性和准确性有较大改善，且其结果更易理解.具体包括：①各神经元及其映射样本FDOM中，其全部荧光组分的种类、含量和构成信息，以及样本间的荧光属性差异均可得到直接展示(图 5与图 6)，而且可对FDOM的组分构成比例进行补充描述(图 7)；②前置PARAFAC预处理可有效排除EEMs的干扰和散射等无用信息，其原始输入数据为精炼的PARAFAC荧光组分，模型的QE和TE误差值(表 1)大幅下降；③传统“摘峰法”常忽视EEMs图中荧光峰之间的联系(图 3)，但PARAFAC预处理科学地保留了各荧光组分的多激发共发射属性，如C1和C2组分；④该法可有效分离EEMs中高度重叠或微弱的荧光峰，如对C1和C2的分离，以及微弱C4组分信号的提取；⑤直接利用荧光组分进行组分面分析，避免从上千对P_Ex-Em中遴选关键组分面的难题.SOM模型的运行速度主要受变量数而非样本数的影响(Bieroza et al.，2012)，故本法在SOM分析阶段的耗时较省.然而，新型PSOM法对前期PARAFAC预处理的要求极为苛刻，即分离的PARAFAC组分必须真实可靠，能够充分完整反映FDOM的基本荧光属性，因此，工作量明显多于ESOM法，耗时亦相应延长.

4 结论(Conclusions)

1) 传统ESOM模型需依赖常规“摘峰法”主观判断各类荧光峰，其重叠荧光峰的识别能力较弱，且人为割裂EEMs中多激发共发射荧光峰之间的联系，因此，弱化了分析结果的实际环境意义.此外，该法的P_Ex-Em组分面分析结果易受上述固有缺陷的影响，且EEMs的无用噪声信号一定程度上影响着ESOM模型的准确性.但是，该法总体操作简便，耗时较少，且可直观展现各神经元及映射样本的EEMs等高线全貌.

2) 相对于前者，PSOM模型可获得相似的研究结论，较大改善输出结果的准确性，且各神经元及映射样本的FDOM构成及丰度信息简单易懂.该法克服了EEMs常规“摘峰法”存在的上述固有缺陷，清除了EEMs的噪声或无用信息，大大降低SOM模型输入变量数(维度)，从而节省运行时间，有效分离高度重叠和微弱的荧光物质峰;同时，利用提取的全部荧光组分开展准确和综合的组分面分析，从而从总体上直观评价水样的综合荧光特性，且科学合理揭示各荧光组分的实际环境意义，因此，是一种无损可靠的分析手段.但是，基于PARAFAC法的荧光组分分离过程要求严格，故该法存在工作量较大的缺点.

综上，联用上述两类优势互补的SOM模型有助于对FDOM的EEMs三维荧光数据进行深度解析，因此，推荐作为FDOM生物地球化学行为研究的重要方法. 致谢：感谢桂林理工大学聂瑾芳博士和本校徐辰博士在论文写作修改及EEMs高维数据解析中提供的帮助.

参考文献

[${referVo.labelOrder}]	Astel A, Tsakovski S, Barbieri P, et al. 2007. Comparison of self-organizing maps classification approach with cluster and principal components analysis for large environmental data sets[J]. Water Research, 41(19) : 4566–4578. DOI:10.1016/j.watres.2007.06.030
[${referVo.labelOrder}]	Bieroza M, Baker A, Bridgeman J. 2011. Classification and calibration of organic matter fluorescence data with multiway analysis methods and artificial neural networks:An operational tool for improved drinking water treatment[J]. Environmetrics, 22(3) : 256–270. DOI:10.1002/env.v22.3
[${referVo.labelOrder}]	Bieroza M, Baker A, Bridgeman J. 2012. Exploratory analysis of excitation-emission matrix fluorescence spectra with self-organizing maps-A tutorial[J]. Education for Chemical Engineers, 7(1) : e22–e31. DOI:10.1016/j.ece.2011.10.002
[${referVo.labelOrder}]	Cuss C W, Gueguen C. 2015. Relationships between molecular weight and fluorescence properties for size-fractionated dissolved organic matter from fresh and aged sources[J]. Water Research, 68 : 487–497. DOI:10.1016/j.watres.2014.10.013
[${referVo.labelOrder}]	Cuss C W, Shi Y X, McConnell S M, et al. 2014. Changes in the fluorescence composition of multiple DOM sources over pH gradients assessed by combining parallel factor analysis and self-organizing maps[J]. Journal of Geophysical Research G:Biogeosciences, 119(9) : 1850–1860. DOI:10.1002/2013JG002598
[${referVo.labelOrder}]	Ejarque-Gonzalez E, Butturini A. 2014. Self-organising maps and correlation analysis as a tool to explore patterns in excitation-emission matrix data sets and to discriminate dissolved organic matter fluorescence components[J]. PLoS One, 9(6) : e99618. DOI:10.1371/journal.pone.0099618
[${referVo.labelOrder}]	Ishii S K, Boyer T H. 2012. Behavior of reoccurring PARAFAC components in fluorescent dissolved organic matter in natural and engineered systems:A critical review[J]. Environmental Science & Technology, 46(4) : 2006–2017.
[${referVo.labelOrder}]	Kohonen T. 1998. The self-organizing map[J]. Neurocomputing, 21(1/3) : 1–6.
[${referVo.labelOrder}]	Li W T, Xu Z X, Li A M, et al. 2013. HPLC/HPSEC-FLD with multi-excitation/emission scan for EEM interpretation and dissolved organic matter analysis[J]. Water Research, 47(3) : 1246–1256. DOI:10.1016/j.watres.2012.11.040
[${referVo.labelOrder}]	Nie Z Y, Wu X D, Huang H M, et al. 2016. Tracking fluorescent dissolved organic matter in multistage rivers using EEM-PARAFAC analysis:Implications of the secondary tributaries remediation for watershed management[J]. Environmental Science and Pollution Research, 23(9) : 8756–8769. DOI:10.1007/s11356-016-6110-x
[${referVo.labelOrder}]	Tsakovski S, Simeonova P, Simeonov V. 2011. Classification and modeling of different fractions of aerosol monitoring data[J]. Journal of Environmental Science and Health,Part A, 46(2) : 157–169. DOI:10.1080/10934529.2011.532427
[${referVo.labelOrder}]	Vesanto J,Himberg J,Alhoniemi E,et al. 2000. SOM Toolbox for Matlab 5[R]. Report A57. Helsinki:Helsinki University of Technology. 1-59
[${referVo.labelOrder}]	Yu H B, Song Y H, Liu R X, et al. 2014. Identifying changes in dissolved organic matter content and characteristics by fluorescence spectroscopy coupled with self-organizing map and classification and regression tree analysis during wastewater treatment[J]. Chemosphere, 113 : 79–86. DOI:10.1016/j.chemosphere.2014.04.020
[${referVo.labelOrder}]	于会彬, 宋永会, 杨楠, 等. 2015. 三维荧光与神经网络研究城市河流沉积物孔隙水有机物有机物组成与结构特征[J]. 光谱学与光谱分析, 2015, 35(4) : 934–939.
[${referVo.labelOrder}]	Zhang Y X, Liang X Q, Wang Z B, et al. 2015. A novel approach combining self-organizing map and parallel factor analysis for monitoring water quality of watersheds under non-point source pollution[J]. Scientific Reports, 5 : 16079. DOI:10.1038/srep16079
[${referVo.labelOrder}]	朱艺峰, 施慧雄, 金成法, 等. 2012. 象山港海域水质时空格局的自组织特征映射神经网络识别[J]. 环境科学学报, 2012, 32(5) : 1236–1245.


环境科学学报 2017, Vol. 37 Issue (1): 357-369