在全球气候变化持续加剧的背景下,航运业作为国际贸易的重要支柱,其碳排放量已成为全球温室气体增长的重要来源。据国际海事组织(IMO)统计数据(全球航运排放量数据集(2013,2016-2021年),Global shipping emissions for the years 2013 and 2016-2021),2021年全球航运产生二氧化碳(CO2)排放超过8.4亿吨,占全球人为排放总量的2.3%。随着航运规模的不断扩大,科学预测并有效控制船舶碳排放已成为推动航运业绿色低碳转型的核心问题。传统碳排放估算方法通常依赖燃料消耗数据与经验公式存在精度不高、船舶个体特征难以体现等局限。近年来机器学习因其在处理高维、非线性与多源异构数据方面的优势逐渐成为环境建模与能耗预测的重要工具。构建融合多源数据的智能碳排放预测模型已成为航运碳管理领域的研究热点与发展方向。
国内研究多依托港口级、航线级数据开展排放分析,如针对主要港口的排放特征展开统计分析与模型构建,但在全球尺度及长时序数据的碳排放预测方面尚缺乏深入研究[1-2]。不同污染物间存在高度协同变化特性,例如NOx与CO2排放之间的统计相关性以及颗粒物(PM)排放与船龄等变量的关联性[3-4]。然而目前缺乏系统融合多类变量特征、构建集成模型进行航运碳排放预测与优化的研究[5 − 6]。郭文俊等[7]开发了数据驱动模型实现船舶主机NOx排放的实时预测与优化;崔秀芳等[8]融合AIS数据与机器学习技术,在船舶能效分析与航线优化方面取得了显著进展;郭瑞芳等[9]通过数值模拟揭示了舰船尾流多污染物的扩散特性并提出了相应减排策略;梅冠军等[10]系统综述了面向“双碳”目标的混合动力船舶能量管理策略。
基于上述分析,本研究将围绕“多源数据融合与建模优化”聚焦以下关键问题:
1)如何从真实航运排放数据中提取结构化、多源变量用于模型构建;
2)不同回归模型在碳排放预测任务中的性能差异;
3)如何通过集成回归方法融合各模型优势,进一步提升预测效果。
本研究通过提取船型、船龄、污染物排放量与时间等多维结构化特征,分别构建随机森林、极端梯度提升树与堆叠集成回归模型,系统评估各模型在碳排放预测任务中的表现。结果表明引入污染物协变量后,模型预测精度显著提升,其中堆叠集成回归模型表现最优,该研究为船舶碳排放的精准建模提供了方法论支持,也为绿色航运政策制定与船舶系统优化提供了数据依据与技术支撑。
1 数据概述与特征构造 1.1 数据来源研究选用的《全球航运排放量数据集》由国家冰川冻土沙漠科学数据中心发布(CSTR:11738.11.NCDC.ZENODO.DB6617.2024),涵盖2013年、2016年至2021年全球船舶每日排放数据。数据由先进的SEIMv2.2航运排放模型计算,依据AIS轨迹、船舶技术参数、燃油类型和实时速度等模拟出船舶的排放量,具有高时空分辨率,数据采集时间频率为“每日”。模型构建需采用的特征有船舶特征、船型、船龄、时间特征以及多污染物各项指标,其中多污染物指标包含NOx、SOx、PM2.5、CO、HC、N2O、CH4、BC等,反映船舶排放的综合污染特征,可以辅助CO2排放预测。
1.2 特征构造结合航运领域的专业知识与原始数据结构,系统提取了13个关键输入特征,涵盖多个维度:
1)类别特征,主要包括船型信息,采用LabelEncoder编码实现数值化处理;
2)时间特征,深入挖掘年、月、日、星期及节假日等多层次时间属性,捕捉排放时序规律;
3)污染物协变量,体现不同污染物间的内在关联性;
4)船舶技术特征,重点涵盖船舶建造年代等指标,反映船舶技术演进对排放的影响。
输入特征为:
| $ X=\left\{{x}_{1},{x}_{2},\cdots ,{x}_{13}\right\}\in {\mathbb{R}}^{n\times 13} 。$ | (1) |
式中:
基于多维结构化特征构建了随机森林回归模型以预测船舶CO2排放量,通过系统的参数调优,模型有效提升了对排放波动的拟合能力,为后续集成模型的构建奠定了基础。上述特征可表示为式(2)的形式:
| $ {y}_{i}=\left\{{x}_{i1},{x}_{i2},{x}_{i3},{x}_{i4},{x}_{i5}\right\}。$ | (2) |
式中:
随机森林模型的预测形式为:
| $ {\widehat{y}}_{i}=\frac{1}{T}\sum\limits_{t=1}^{T}{h}_{t}({x}_{i})。$ | (3) |
式中:
相比于传统的随机森林方法极端梯度提升树(XGBoost)在优化精度与模型效率之间提供了更优解。XGBoost 是一种基于梯度提升框架的集成学习方法,能够在前一轮弱模型的残差基础上,通过不断拟合并迭代提升整体预测能力。在本研究中,XGBoost 被用于构建对CO2排放量的精细预测模型,其性能优越,计算效率高,适用于复杂关系的拟合场景。构建过程中输入特征仍为4类结构性变量:船型、船龄、时间特征等,目标变量为碳排放量。XGBoost 的核心思想是将模型表示为一组加权的回归树,公式为:
| $ {\widehat{y}}_{i}=\sum\limits_{t=1}^{T}{f}_{t}({x}_{i}), {f}_{t}\in F。$ | (4) |
式中:
| $ {L}^{(t)}=\sum\limits_{i=1}^{n}l({y}_{i},{\widehat{y}}_{i}{}^{(t-1)}+{f}_{t}({x}_{i}))+\Omega ({f}_{t})。$ | (5) |
为了实现较好的预测性能,设置XGBoost的关键超参数如下:弱学习器数量为100,学习率为0.1,最大树深为6。模型训练完成后,在测试集上进行预测,并利用与随机森林模型一致的评估指标进行效果验证。XGBoost模型通过逐步学习残差与梯度方向迭代优化,适应了碳排放值随不同船型、船龄及时间特征的非线性变化规律,验证了其在碳排放预测中的应用潜力。
上述2种模型在测试集上的评估结果显示:随机森林模型的RMSE为
|
图 1 单一模型碳排放实际值与预测值散点对比图 Fig. 1 Scattered comparison chart of actual and predicted carbon emissions of a single model |
为进一步提升模型对船舶碳排放量的预测精度与泛化能力,在初始建模基础上引入了多源污染物协变量,构建融合结构化信息与环境特征的增强型回归模型。前期建模主要依赖船舶类型、建造时期以及时间维度变量等结构性特征,虽具备一定的预测能力,但难以全面刻画航运过程中复杂的燃料消耗与污染排放机制。考虑到碳排放与其他污染物之间存在显著的物理和化学关联,尤其是在船舶燃油燃烧过程中多个排放物通常协同生成,本研究从数据集中进一步选取了八类典型污染物指标,包括碳氢化合物、氮氧化物、硫化物、一氧化钛、PM2.5,将其作为辅助输入特征,扩展模型特征空间。为定量评估各污染物变量与碳排放之间的关联性,分别引入皮尔逊相关系数与斯皮尔曼等级相关系数进行变量筛选与验证。
皮尔逊相关系数用于衡量2个连续变量之间的线性相关性,在航运碳排放研究中,可用于评估污染物与碳排放量之间是否具有稳定的线性依赖关系。其计算公式为:
| $ r=\frac{\displaystyle\sum\limits_{i=1}^{n}({x}_{i}-\overline{x})({y}_{i}-\overline{y})}{\sqrt{\displaystyle\sum\limits_{i=1}^{n}{({{x}_{i}}-\overline{x})}^{2}}\sqrt{\displaystyle\sum\limits_{i=1}^{n}{({{y}_{i}}-\overline{y})}^{2}}}。$ | (6) |
式中:
当某排放量与CO2的皮尔逊系数r > 0.8就说明二者具有很强的正线性关系,可作为回归模型中有效的预测特征。
斯皮尔曼等级相关系数用于衡量2个变量的单调关系,无论该关系是线性还是非线性。在航运数据中,部分污染物与碳排放之间可能不呈线性关系,但仍保持一致的增减趋势,此时斯皮尔曼系数更具解释力。其计算公式为:
| $ \rho =1-\frac{6\displaystyle\sum d_{i}^{\text{2}}}{n ({n}^{2}-1)}。$ | (7) |
式中:
当N2O与CO2的斯皮尔曼系数为
基于1.2节构造的特征,为进一步评估各特征对碳排放预测的贡献程度,利用优化后的随机森林与 XGBoost 模型,分别计算了各类特征的重要性得分。特征重要性评估采用基于不纯度减少的平均贡献度方法,并通过归一化处理得到相对重要性百分比。分析结果如图2所示。
|
图 2 特征重要性排序图 Fig. 2 Feature importance ranking chart |
从排序结果可知,污染物协变量在2种模型中均占据主导地位,表明其与CO2排放之间存在强关联性,对提升预测精度具有关键作用。船舶年龄与时间特征也表现出较高重要性,反映船舶技术状态与时间趋势对碳排放的影响。类别特征虽重要性相对较低,但仍为模型提供了必要的结构性信息。本研究进一步结合特征重要性结果,在建模中进行了特征筛选与权重调整,以提升模型效率与解释性。
2.4 堆叠集成回归模型构建与优化在集成回归建模过程中,通过构建基学习器捕捉非线性和交互特征,并引入岭回归作为次级集成器(meta-learner)进行高维特征加权组合有效提高模型的泛化能力和收敛速度。此外集成学习结构通过基模型输出作为新特征再次学习,充分挖掘了多源特征间的协同效应,显著优于单一模型预测结构。堆叠集成模型(Stacking Regressor)融合多个弱学习器输出,并通过一个二级回归模型进行最终预测,从而增强泛化能力。预测结构为:
| $ \widehat{y}_{i}^{\text{Stack}}={\beta }_{0}+{\beta }_{1}\widehat{y}_{i}^{\text{RF}}+{\beta }_{2}\widehat{y}_{i}^{\text{XGB}}。$ | (8) |
式中:
在构建舰船碳排放预测模型过程中,模型的预测精度与泛化能力往往面临一定的权衡。图3为基于此舰船碳排放预测模型的优化原理图。图3从偏差-方差分解的角度出发,剖析随机森林与 XGBoost 模型的误差来源,并通过集成学习方法加以优化。根据偏差-方差理论误差可分解为:预测误差=偏差2+方差+不可约误差,其中,偏差反映的是模型拟合能力的强弱,方差则体现模型对训练数据的敏感程度,而不可约误差源于数据本身的随机性,基于此方法对模型进行优化提升了预测精度。
|
图 3 舰船碳排放预测模型及优化原理图 Fig. 3 Ship carbon emission prediction model and optimization schematic |
本实验比较了3种模型在舰船碳排放预测任务中的表现,分别为仅包含时间和船型特征的原始模型、融合多种污染物特征后的优化模型及基于随机森林和XGBoost的集成(Stacking)模型。结果显示,原始模型由于特征维度较为单一,预测性能有限。引入污染物特征及船龄等重要变量后,模型性能显著提升,表明这些因素对碳排放具有重要影响。集成模型综合了随机森林和XGBoost的优势,实现了最优的预测效果。
由图4预测残差分布的箱型图可知,集成模型的残差分布最为集中且对称,箱体高度最小,异常值较少,表明该模型预测误差波动范围最小,预测结果稳定且精准。优化后的随机森林模型残差同样集中于零附近,误差波动较小,表现优异。相比之下,优化后的XGBoost模型残差分布较宽,异常值较多,尽管如此其整体表现仍显著优于原始模型。此外残差分析图与实际-预测对比图进一步验证了集成模型在不同航运场景下的稳定性与泛化能力,误差分布均衡且无明显偏态,具备较强的可解释性和推广价值。
|
图 4 预测残差分布的箱型图 Fig. 4 Box plot for predicting residual distribution |
如图5所示,3种模型的实际值与预测值对比图清晰呈现,Stacking集成模型的预测值几乎沿45°斜线分布,几乎无明显离散点,体现出预测结果的高度精准性和稳定性。
|
图 5 3种模型实际值与预测值对比图 Fig. 5 Comparison chart of actual and predicted values of three models |
结合具体的模型性能指标来看,如表1所示优化后的随机森林在均方根误差(RMSE)和平均绝对误差(MAE)上表现最佳,分别为259.55和92.97,决定系数R2达到
|
|
表 1 各模型评估指标对比 Tab.1 Comparison of evaluation indicators for various models |
实验结果充分证明引入多源特征并优化模型参数显著提升了碳排放预测的准确性和稳定性,集成模型作为最终方案实现了误差最小化与性能最优的平衡,具备良好的实际应用潜力。
虽然Stacking集成模型在测试集上表现出极高的拟合优度,但如此高的决定系数也可能引发对模型过拟合的担忧。过拟合通常表现为模型在训练集上表现优异,而在未见数据上性能显著下降。为此,为进一步验证模型的泛化能力,本研究采用5折交叉验证对 Stacking 模型进行稳健性评估。各折性能指标如表2所示。
|
|
表 2 Stacking集成模型5折交叉验证结果 Tab.2 Stacking integrated model 5-fold cross validation results |
交叉验证结果显示,Stacking 模型在各折之间性能波动较小,且R2均值稳定在
本文针对航运领域碳排放预测问题提出一种基于多源异构数据融合的建模方法。以全球尺度的航运排放数据集为基础,构建了基于随机森林、XGBoost及其堆叠集成模型的预测体系,实现了高精度的碳排放预测。实验结果表明,集成模型在引入多种污染物特征后表现最佳,具备良好的鲁棒性和泛化能力,为海事减排政策的科学制定提供了坚实的技术支撑。
本研究不仅关注模型的预测精度,同时重视模型的可解释性,建议监管部门在优化船舶能效设计和减排策略时重点关注老龄船舶的淘汰与技术改造,并加强对相关度高的污染物的排放监控。基于特征重要性分析与建模结果,本研究为航运减排实践提供两方面指导:1)聚焦老龄船舶治理。船龄与碳排放显著正相关,建议建立基于实际排放性能的船舶分级管理体系,优先推动高排放老旧船舶的技术改造或有序退出,并将能效提升作为船舶检验与营运许可的重要参考。2)强化污染物协同监控。NOx、SOx、PM2.5等污染物与CO2排放具有强相关性,可作为碳排放间接监测的关键指示变量。建议在现有监测体系中嵌入多污染物协同分析模块,依托“污染物-碳排放”映射关系,支撑单船碳强度评估与区域排放精细化管控。
未来研究可从以下几个方向进一步拓展:
1)引入时间序列建模方法,捕捉碳排放的长期趋势和周期性变化;
2)探索基于深度学习的模型架构,如Transformer和长短期记忆网络以挖掘更深层次的特征关系;
3)融合空间地理信息与气象变量,提升模型的预测颗粒度和适用范围;
4)将预测模型集成至船舶调度系统,推动智能航运与绿色航运控制的实现。
| [1] |
蔡欣宇, 陈焱明, 陈奕恒, 等. 基于AIS数据的长三角沿海地区船舶碳排放估算与分析[J]. 环境科学学报, 2024, 44(8): 83-97. CAI X Y, CHEN Y M, CHEN Y H, et al. Estimation and analysis of ship carbon emissions in the coastal areas of the Yangtze River Delta based on AIS data[J]. Acta Scientiae Circumstantiae, 2024, 44(8): 83-97. |
| [2] |
栾建霖, 冯胤伟, 李海江, 等. 基于深度学习模型的船舶碳排放时空预测研究[J]. 科研管理, 2023, 44(3): 75-85. LUAN J L, FENG Y W, LI H J, et al. Research on spatiotemporal prediction of ship carbon emissions based on deep learning models[J]. Science Research Management, 2023, 44(3): 75-85. |
| [3] |
章强, 陈万响. 船舶排放控制区政策对城市空气质量影响的异质性分析[J]. 上海海事大学学报, 2022, 43(3): 69-74+82. ZHANG Q, CHEN W X. Heterogeneity analysis of the impact of ship emission control area policies on urban air quality[J]. Journal of Shanghai Maritime University, 2022, 43(3): 69-74+82. |
| [4] |
施旭航, 薛青青, 陈荣昌. 船舶垃圾污染船岸协同治理问题与对策研究[J]. 交通节能与环保, 2021, 17(4): 69-72. SHI X H, XUE Q Q, CHEN R C. Research on the problems and countermeasures of ship-ship collaborative governance of ship garbage pollution[J]. Energy Conservation & Environmental Protection in Transportation, 2021, 17(4): 69-72. |
| [5] |
顾建康, 谭效时, 向可祺, 等. 船舶制造业碳排放因子获取方式研究[J]. 船舶物资与市场, 2025, 33(4): 47-49. |
| [6] |
林博闻, 马晓凤, 庄义彬. 港口船舶尾气排放量及泊位调度优化研究[J]. 中国航海, 2024, 47(1): 88-96. LIN B W, MA X F, ZHUANG Y B. Study on port ship emission volume and berth allocation optimization[J]. Navigation of China, 2024, 47(1): 88-96. |
| [7] |
郭文俊, 杨泽民, 张叶娥, 等. 基于AIS无线网络的舰船排污智能监测系统[J]. 舰船科学技术, 2025, 47(7): 169-173. GUO W J, YANG Z M, ZHANG Y E, et al. Intelligent monitoring system for ship sewage discharge based on AIS wireless network[J]. Ship Science and Technology, 2025, 47(7): 169-173. |
| [8] |
崔秀芳, 赖炜祺, 林浩涛, 等. 基于AIS和波浪数据的船舶碳排放计算[J]. 环境科学与技术, 2025, 48(1): 192-200. CUI X F, LAI W Q, LIN H T, et al. Calculation of ship carbon emissions based on AIS and wave data[J]. Environmental Science & Technology, 2025, 48(1): 192-200. |
| [9] |
郭瑞芳, 王莹. 绿色能源背景下的舰船动力系统能耗优化研究[J]. 舰船科学技术, 2024, 46(20): 129-132. GUO R F, WANG Y. Research on energy consumption optimization of ship power systems under the background of green energy[J]. Ship Science and Technology, 2024, 46(20): 129-132. |
| [10] |
梅冠军. 改造船舶碳捕捉及存储技术应用[J]. 舰船科学技术, 2025, 47(6): 123-127. MEI G J. Application of retrofitted ship carbon capture and storage technology[J]. Ship Science and Technology, 2025, 47(6): 123-127. |
2026, Vol. 48
