文章信息
- 鄢文苗, 任东, 黄应平, 熊彪, 董方敏
- YAN Wenmiao, REN Dong, HUANG Yingping, XIONG Biao, DONG Fangmin
- 基于SVM土壤重金属污染评价的训练数据集构建
- Training Dataset Construction for SVM Soil Heavy Metal Pollution Assessment
- 武汉大学学报(理学版), 2019, 65(3): 316-322
- Journal of Wuhan University(Natural Science Edition), 2019, 65(3): 316-322
- http://dx.doi.org/10.14188/j.1671-8836.2019.03.013
-
文章历史
- 收稿日期:2018-08-24

2. 湖北省农田环境监测工程技术研究中心, 湖北 宜昌 443002
2. Hubei Engineering Research Center for Farmland Environmental Monitoring, Yichang 443002, Hubei, China
近年来,土壤重金属污染问题已引起国内外的广泛关注[1, 2]。土壤重金属污染主要来源于人类活动,如矿产资源开发、金属加工冶炼、化学生产、工厂排污、污水灌溉以及农药化肥滥用等[3~5]。重金属进入土壤环境后,不能自然分解,不但会破坏土壤的功能及结构[6],还可能通过食物链直接或间接威胁人类健康[5]。如果能够在重金属污染发生后及时把握污染动态并加以控制,问题将得到缓解。因此,客观、准确地评价土壤重金属的污染情况,能够为治理土壤重金属污染提供科学依据,具有重要意义。
传统的土壤重金属污染评价方法如单因子指数法、地累积指数法、内梅罗综合污染指数法、潜在生态危害指数法等[2, 7, 8],均存在一定的局限性。随着现代计算机技术和统计学理论的发展,多种机器学习方法被广泛用于环境评价领域:Farzaneh等[9]用加速回归树、多元判别分析、支持向量机(support vector machine,SVM)等3种机器学习方法对地下水污染进行评估;Li等[10]用径向基神经网络和SVM预测草原的碳、氮、磷含量;Wu等[11]用6种机器学习模型预测堆肥改良土壤中多环芳烃的生物利用度。SVM模型是Vapnik[12]于1995年提出来的一种针对线性不可分问题的机器学习方法,它不仅没有神经网络结构复杂、样本容量影响大、泛化能力低的弊端,而且也不存在模型选择、维数灾难以及局部极小的问题[13]。Sujay等[14]全面研究了SVM在水文建模中的可行性;Liu等[15]利用SVM分类技术,结合土壤重金属含量及土壤肥力,综合评价了太原市土壤质量;García Nieto等[16]将粒子群算法与SVM结合,用于预测河流的浊度。上述评价结果均表明SVM适用于环境评价领域。
SVM模型的可靠性基于两个方面,一是选取适当的核函数并优化参数,二是选择合适的训练样本,两者缺一不可。目前,将SVM引入土壤重金属综合污染评价的研究大都是关于核函数的选择及参数的优化[17, 18],较少讨论训练数据集的构建对模型准确率的影响。按土壤环境质量国家标准生成数据集训练模型是目前常用的数据集构建方法[15, 19, 20],能够有效解决训练样本的问题,为SVM模型在土壤重金属污染评价中的运用奠定基础。但按此方法生成的数据集较为理想化,该数据集每一个样本点包含的所有重金属元素含量值均未超过该样本点标签所对应的国家标准上限值,不符合实际样本点的测量情况。刘彦姝等[19]在研究土壤镉污染分级时,适当地简化地累积指数标准,将指数划分为5个等级作为类标签赋予135个样本。
延续此种思路,本文提出将实测数据与内梅罗指数结合得到训练数据集的改进策略,综合考虑训练样本规模对模型准确率的影响以及按实测法生成训练样本成本较高的问题,然后进一步尝试混合两种数据集用于训练SVM模型,希望为SVM方法更好地用于土壤重金属污染评价的后续研究提供参考。
1 数据集构建数据集包括训练集和测试集,合适的训练集应能够反映实际研究情况。本文采用3种方法构建数据集,其中,实测数据来源于三峡库区香溪河流域消落带及库岸土壤测定值。
1.1 根据国家标准构建土壤环境质量标准[21]按土壤应用功能和保护目标,将每种重金属元素在土壤中的含量划分为3个等级:一级标准为保护区域自然生态、维持自然背景的土壤质量限制值;二级标准为保障农业生产、维护人类健康的土壤限制值;三级标准为保障农林生产和植物正常生长的土壤临界值。因本文实测数据仅包含Cu、Pb、Cd、Cr 4种重金属元素,故选取相应分级标准如表 1所示。
| mg · kg-1 | |||
| 重金属元素 | 一级标准 | 二级标准 | 三级标准 |
| Cu | (0, 35] | (35, 50] | (50, 400] |
| Pb | (0, 35] | (35, 250] | (250, 500] |
| Cd | (0, 0. 2] | (0. 2, 0. 3] | (0. 3, 1] |
| Cr | (0, 90] | (90, 250] | (250, 400] |
SVM训练样本除了需要提供各特征值的数据外,还需要确定样本点的类标签。本方法以4种重金属元素的含量为特征值,国家标准等级为类标签。使用Matlab工具中的rand函数,在各级标准取值范围内随机生成200个数据,若4种元素的含量均低于一级标准上限值,则该样本点的土壤质量属于一级类别,将这200个样本的类标签均设为1。根据同样的方法,分别得到200个类标签为2的样本、200个类标签为3的样本,共计600个样本。按照分层采样原则,从每个等级选取80%样本为训练集、剩余20%为测试集(样本集A)。
1.2 根据实测数据构建选定内梅罗综合污染指数作为土壤实测样本的类标签。内梅罗综合污染指数计算方法[7]如下:
|
(1) |
其中,Pc为所求污染指数,Ci为各重金属元素实测值,Si为各重金属元素参考值[21](本文使用一级标准上限值),(Ci /Si)max为各重金属元素中污染指数最大的项,(Ci /Si)av为各重金属元素污染指数的算术平均值。一般情况下,内梅罗综合污染指数的评价标准划分为5个等级。为便于对比国标法和实测法训练模型的分类准确性,需要设置一个公共样本集进行检测,因此,由实测数据生成的样本标签也要分为3类。通过计算上文中600个随机样本的内梅罗综合污染指数,发现在国家一级标准范围内的样本点内梅罗指数均小于1,二级标准范围内的样本点指数大部分位于(1, 3]区间,三级标准范围内的样本点指数均大于3。基于这一统计规律,将内梅罗综合污染指数重新划分为3个等级,得到如表 2所示的分级标准。
| 污染等级 | 综合污染指数 | 污染程度 |
| 1 | Pc ≤ 1.0 | 清洁 |
| 2 | 1.0 < Pc ≤ 3.0 | 污染 |
| 3 | 3.0 < Pc | 严重污染 |
本文根据实测数据生成的实测法样本共计345个,计算每个样本的内梅罗综合污染指数并按表 2标准生成类标签,构成实测法样本集。随机选取其中45个样本作为公共集样本(样本集B),按照分层采样原则,将剩余300个样本中的80%划分为训练集、20%划分为测试集(样本集C)。
1.3 混合构建土壤重金属元素测定方法复杂,获取足够的实测数据构建训练SVM的样本集比较困难,探索在实测数据有限的条件下提高模型准确率的方法也很重要。根据理论研究,其他条件相同,训练集越大,模型准确率越高,因此考虑在实测法样本中添加国标法样本,实现训练集的扩大。
从国标法生成的480个训练样本中分层选取240个样本(80个/级),与实测法生成的240个训练样本混合,构成包含480个样本的混合训练集,训练所得模型称为混合法模型。检验混合法模型的分类效果,设计3个对比测试样本集:1)样本集C,用于测试混合法模型对实测法样本的分类效果;2)从样本集A中分层选取60个样本(20个/级),称为样本集D,用于测试混合法模型对国标法样本的分类效果;3)将样本集D与样本集C组合起来,构成混合集1,用于测试混合法模型对混合样本的分类效果。为了验证混合法模型分类样本的结果所呈现的规律并非特殊情况,根据同样思路再设计一组对比测试样本集:1)样本集B;2)从样本集A中分层选取45个样本(15个/级),称为样本集E;3)将样本集E与样本集B组合起来构成混合集2。
2 研究方法 2.1 模型基本原理SVM用于土壤环境质量评价等非线性分类问题,通过引入核函数,将低维空间中的线性不可分问题转化为高维空间的线性可分问题处理。选取合适的训练样本集T = (xi, yi),i=1,2,…,n;x为输入向量;y= {1,- 1},yi为xi的类标签,超平面方程如下[22]:
|
(2) |
其中,ω为法向量,决定超平面的方向,b为位移项,决定超平面与原点之间的距离。
将对应的优化问题转化为:
|
(3) |
引入拉格朗日乘子α得到对偶问题,通过核函数κ (xi, xj)将原始数据映射到高维空间:
|
(4) |
求解得到训练样本最优解的核函数展开式:
|
(5) |
本文的实现在Matlab 2016b环境中进行,联合使用libsvm-3.22软件包构建模型。具体构建步骤如下:
1) 数据归一化处理
采用(6)式将数据归一化至[0, 1]之间:
|
(6) |
其中,XNi为归一化后数据,Xi为原始数据,Xmax为样本数据的最大值,Xmin为样本数据的最小值。
2) 选定核函数
核函数的选择依赖具体应用情况,是建立模型的重要步骤。SVM评价重金属元素的综合污染,一般涉及到的元素不超过10种[7, 15],对于样本数大于维数的情况,选用RBF核函数较适合[13]。本文中所有模型均使用RBF核函数。
3) 参数选择
惩罚因子c影响函数的平滑度和训练时间,γ为RBF核函数中的核参数,控制模型的拟合程度,选取合适的c值与γ值对模型的生成至关重要。综合考虑实际情况,本文选择基于网格搜索的交叉验证算法寻找最优参数对(c, γ)。
4) 模型建立
在Matlab平台编写程序,将搜索到的最优c和γ代入,通过学习训练样本,建立评价模型。
将设计的对比数据集输入评价模型,得到模型的分类准确率。
3 结果与讨论 3.1 国标法模型按1.1节所述方法生成数据集,对数据进行归一化处理后,将480个国标法样本训练输入SVM中,筛选SVM的惩罚参数c和核参数γ,获取最佳参数c = 0.047 366、γ = 21.112 1,通过学习得到国标法模型。检验国标法模型,让其分类包含120个国标法样本的样本集A,得到图 1所示结果。从图 1中可以看出,国标法模型预测的类标签与这120个样本的真实类标签完全一致,分类准确率达到100%,由此可见,国标法模型分类同样按国标法生成的样本,结果非常可靠。
|
| 图 1 国标法模型对样本集A的评价结果 Fig. 1 Evaluation result of sample set A by standard method |
按1.2节所述方法生成数据集,对数据进行归一化处理后,将240个实测法样本输入SVM中,筛选SVM的惩罚参数c和核参数γ,得到最佳参数c = 21.112 1、γ = 0.757 86,学习得到实测法模型。检验实测法模型,让其分类样本集C,得到图 2所示结果。从图 2中的结果详情可以看出,60个实测样本中53个分类正确,准确率达到88.33%,模型分类结果优良。实测法模型分类实测法样本有较高的分类准确率,可以用于进行下一步的评价。
|
| 图 2 实测法模型对样本集C的评价结果 Fig. 2 Evaluation result of sample set C by actual measurement method |
分别使用国标法模型和实测法模型分类包含45个实测法样本的样本集B,得到图 3所示结果。由图 3(a)可知,国标法模型正确分类24个样本,准确率为53.33%;由图 3(b)可知,实测法模型正确分类34个样本,准确率为75.56%。实测法模型的训练样本有240个,国标法模型的训练样本有480个,在其他条件等同的情况下,理论上训练样本越多,模型学习越充分,对未分类样本的评价也会越准确,但分析结果发现,国标法模型对实测样本的分类准确率低于实测法模型,预测结果可信度不佳。两种模型选用了同样的方法处理数据、选择模型参数,因此,造成模型准确率偏低的原因只能是:训练样本与待分类样本差异较大,无法通过学习训练样本对待分类样本做出可靠评价。实验结果表明,通过学习理想化的国标法样本,生成的国标法模型对实测法样本的评价准确率不高。
|
| 图 3 两种模型对样本集B的评价结果 Fig. 3 Evaluation results of sample set B by two methods |
按1.3节所述方法生成数据集,对数据进行归一化处理后,将480个混合样本输入SVM中,筛选SVM的惩罚参数c和核参数γ,得到最佳参数c = 36.758 3、γ = 0.435 28, 经过学习得到混合法模型。用混合法模型分类样本集C、样本集D、混合集1,得到图 4所示结果。其中,样本集C中48个样本分类正确,分类准确率为80%;样本集D中49个分类正确,准确率为81.67%;混合集1中119个样本分类正确,整体分类准确率为99.17%。
|
| 图 4 混合法模型分类样本集C、样本集D以及混合集1的评价结果 Fig. 4 Mixed model evaluation results of sample set C, sample set D and mixed set 1 |
在未混合扩大训练样本前,实测法模型对样本集C(图 2)的分类准确率为88.33%,扩大训练样本后,混合法模型对样本集C(图 4(a))的分类准确率降至80%,与希望通过混合训练样本提高模型准确率的目的背道而驰。同样地,利用混合法模型对单独的国标法样本进行评价,准确率也由国标法模型的100%(图 1)降至81.67%(图 4(b))。混合集1为样本集C和样本集D的组合,其中1~60号样本为样本集D的国标法样本,61~120号为样本集C的实测法样本。图 4(c)可以明显看出样本的组合方式,拆开分析混合集1,发现国标法样本分类完全正确,该部分准确率为100%,与国标法模型的准确率相同;60个实测法样本中有1个分类错误,准确率为98.33%,高于实测法模型的88.33%。
|
| 图 5 混合法模型分类样本集B、样本集E以及混合集2的评价结果 Fig. 5 Mixed model evaluation results of sample set B, sample set E and mixed set 2 |
在实测法样本不变的条件下,想要通过混合样本扩大训练集达到提高模型准确率的目的,需要将待分类样本也进行同样的混合处理。如果用混合法模型直接分类单独的国标法样本或实测法样本,分类准确率不但没有提高,反而会降低,但是将待分类样本进行同样处理后,模型对两个单独部分的分类准确率均有所提高。由于SVM通过学习训练样本生成超平面实现分类,故推测得到上述结果的原因是国标法样本的添加调整了模型的分类超平面所致。假如先输入实测法训练样本,生成能有效分类实测法样本的超平面a,再输入国标法训练样本,超平面会调整为b,然后用超平面b去分类样本。如果待分类样本仅包含实测法样本,超平面b会“误认为”一部分样本更像国标法样本,从而导致更高的错误率;而在待分类的实测法样本中混入一定的国标法样本,降低模型“误认为”的可能,则训练样本越多,模型的准确率越高。
3.4.2 混合法模型评价结果对比2用混合法模型分类样本集B、样本集E、混合集2,得到图 5所示结果。样本集B中24个样本分类正确,准确率53.33%;样本集E中39个样本分类正确,准确率86.67%;混合集2中81个样本分类正确,准确率90%。混合集2中,国标法样本部分44个分类正确,准确率97.78%;实测法样本部分37个分类正确,准确率82.22%,较实测法模型的准确率75.56%(图 3(b))有明显提高。该结果与图 4相似,证明混合法确实能提高模型的分类准确率。
4 结论合理构建训练样本是SVM模型准确的关键,因此,本文从训练样本的生成方法上展开研究。本文将SVM模型用于土壤重金属污染评价,提出改进后的实测法生成训练样本,并在此基础上混合扩大训练样本,达到提高模型准确率的目的。根据对比试验的结果,得出以下结论:
1) SVM用于土壤重金属污染评价,根据实测数据生成训练数据集更为合适。按国标法生成的数据集训练所得国标法模型,分类同样按国标法生成的数据集准确率很高,但分类实测法样本却不太理想。改进训练样本后,生成的实测法模型对实测样本的分类更准确,更适用于评价真实的污染问题。
2) 通过混合法扩大训练样本集,能有效提高模型的分类准确率。在实测法样本中添加国标法样本,扩大训练数据集,训练所得混合法模型能在实测法模型的基础上进一步提高对实测样本的分类准确率,但待分类实测法样本中必须添加一定比例的国标法样本。如果直接分类实测法样本,混合法分类准确率反而会低于原本的实测法模型。
本文在进行扩大训练数据集的研究时,对国标法样本与实测法样本的混合比例进行了多种尝试,初步发现国标法样本占比不宜低于30%,占比50%的情况较为合适,但最佳比例的确定还有待进一步实验。此外,下一步的研究工作也可考虑结合实际问题特征,对实测数据进行插值等处理。
| [1] |
LIU G N, WANG J, ZHANG E X, et al. Heavy metal speciation and risk assessment in dry land and paddy soils near mining areas at Southern China[J]. Environmental Science and Pollution Research, 2016, 23(9): 8709-8720. DOI:10.1007/s11356-016-6114-6 |
| [2] |
GUAN Y, SHAO C F, JU M T. Heavy metal contamination assessment and partition for industrial and mining gathering areas[J]. International Journal of Environmental Research and Public Health, 2014, 11(7): 7286-7303. DOI:10.3390/ijerph110707286 |
| [3] |
CHEN K, HUANG L, YAN B Z, et al. Effect of lead pollution control on environmental and childhood blood lead level in Nantong, China: An interventional study[J]. Environmental Science & Technology, 2014, 48(21): 12930-12936. DOI:10.1021/es502994j |
| [4] |
LIU W H, ZHAO J Z, OUYANG Z Y, et al. Impacts of sewage irrigation on heavy metal distribution and contamination in Beijing, China[J]. Environment International, 2005, 31(6): 805-812. DOI:10.1016/j.envint.2005.05.042 |
| [5] |
LU Y L, SONG S, WANG R S, et al. Impacts of soil and water pollution on food safety and health risks in China[J]. Environment International, 2015, 77: 5-15. DOI:10.1016/j.envint.2014.12.010 |
| [6] |
ACOSTA J A, FAZ A, MARTINEZ MARTINEZ S, et al. Multivariate statistical and GIS based approach to evaluate heavy metals behavior in mine sites for future reclamation[J]. Journal of Geochemical Exploration, 2011, 109(1-3): 8-17. DOI:10.1016/j.gexplo.2011.01.004 |
| [7] |
ZHANG P Y, QIN C Z, HONG X, et al. Risk assessment and source analysis of soil heavy metal pollution from lower reaches of Yellow River irrigation in China[J]. Science of the Total Environment, 2018, 633: 1136-1147. DOI:10.1016/j.scitotenv.2018.03.228 |
| [8] |
RUKEYA S, NIJAT K, BALATI M, et al. Pollution characteristics and health risk assessment of heavy metals in the vegetable bases of Northwest China[J]. Science of the Total Environment, 2018, 642: 864-878. DOI:10.1016/j.scitotenv.2018.06.034 |
| [9] |
FARZANEH S -H, ARASH M, BAHRAM C, et al. A novel machine learning-based approach for the risk assessment of nitrate groundwater contamination[J]. Science of the Total Environment, 2018, 644: 954-962. DOI:10.1016/j.scitotenv.2018.07.054 |
| [10] |
LI Y F, LIANG S, ZHAO Y Y, et al. Machine learning for the prediction of L.chinensis carbon, nitrogen and phosphorus contents and understanding of mechanisms underlying grassland degradation[J]. Journal of Environmental Management, 2017, 192: 116-123. DOI:10.1016/j.jenvman.2017.01.047 |
| [11] |
WU G Z, KECHAVARZI C, Li X G, et al. Machine learning models for predicting PAHs bioavailability in com post amended soils[J]. Chemical Engineering Journal, 2013, 223: 747-754. DOI:10.1016/j.cej.2013.02.122 |
| [12] |
VAPNIK V.The Nature of Statistical Learning Theory [M].New York: Springer, 1995.DOI: 10.1007/978-1-4757-2440-0.
|
| [13] |
LU W Z, WANG D. Learning machines: Rationale and application in ground level ozone prediction[J]. Applied Soft Computing, 2014, 24: 135-141. DOI:10.1016/j.asoc.2014.07.008 |
| [14] |
SUJAY R N, DEKA P C. Support vector machine applications in the field of hydrology: A review[J]. Applied Soft Computing, 2014, 19: 372-386. DOI:10.1016/j.asoc.2014.02.002 |
| [15] |
LIU Y, WANG H F, ZHANG H, et al. A comprehensive support vector machine-based classification model for soil quality assessment[J]. Soil and Tillage Research, 2016, 155: 19-26. DOI:10.1016/j.still.2015.07.006 |
| [16] |
GARCÍA NIETO P J, GARCÍA-GONZALO E, ALONSO FERNÁNDEZ J R, et al. Hybrid PSO-SVM-based method for long term forecasting of turbidity in the Nalón River Basin: A case study in Northern Spain[J]. Ecological Engineering, 2014, 73: 192-200. DOI:10.1016/j.ecoleng.2014.09.042 |
| [17] |
尹娟, 李国祥, 王晓飞, 等. 基于GA-SVM的土壤重金属污染评价研究[J]. 江西农业学报, 2017, 29(6): 116-120. YIN J, LI G X, WANG X F, et al. Evaluation of soil heavy metal pollution based on GA -SVM[J]. Acta Agriculturae Jiangxi, 2017, 29(6): 116-120. DOI:10.16258/j.cnki.1674-5906.2012.07.031 (Ch). |
| [18] |
吴蕾.基于支持向量机的环境数据分析与处理[D].长沙: 中南大学, 2013.DOI: 10.7666/d.y2423144. WU L.Environment Data Analysis and Processing Based on Support Vector Machine [D].Changsha: Central South University, 2013.DOI: 10.7666/d.y2423144(Ch). http://cdmd.cnki.com.cn/Article/CDMD-10533-1014149782.htm |
| [19] |
刘彦姝, 潘勇. 基于高光谱技术的土壤镉污染分级评价研究[J]. 生态环境学报, 2012, 21(7): 1361-1365. LIU Y S, PAN Y. Research of soil cadmium pollution grading evaluation based on hyperspectral technology[J]. Ecology and Environmental Sciences, 2012, 21(7): 1361-1365. DOI:10.16258/j.cnki.1674-5906.2012.07.031 (Ch). |
| [20] |
姜雪, 卢文喜, 杨青春, 等. 应用支持向量机评价土壤环境质量[J]. 中国环境科学, 2014, 34(5): 1229-1235. JIANG X, LU W X, YANG Q C, et al. Application of support vector machine in soil environmental quality assessment[J]. China Environmental Science, 2014, 34(5): 1229-1235. DOI:10.3969/j.issn.1000-6923.2014.05.027 (Ch). |
| [21] |
环境保护部, 南京环境科学研究所.GB15618-1995土壤环境质量标准[S].北京: 国家环境保护局, 1995. Nanjing Institute of Environmental Sciences, MEP.GB15618-1995 Environmental Quality Standard for Soils [S].Beijing: National Environmental Protection Agency, 1995(Ch). |
| [22] |
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 121-133. ZHOU Z H. Machine Learning[M]. Beijing: Tsinghua University Press, 2016: 121-133. (Ch). |
2019, Vol. 65


