基于多元回归和三次指数平滑法对垃圾总量的预测

引用本文

张杰, 朱家明. 基于多元回归和三次指数平滑法对垃圾总量的预测[J]. 齐鲁工业大学学报, 2020, 34(4): 69-74. DOI: 10.16442/j.cnki.qlgydxxb.2020.04.011

ZHANG J, ZHU J M. The Prediction of the Total Amount of Garbage Based on Multiple Regression and Cubic Exponential Smoothing Method[J]. Journal of Qilu University of Technology, 2020, 34(4): 69-74. DOI: 10.16442/j.cnki.qlgydxxb.2020.04.011

基于多元回归和三次指数平滑法对垃圾总量的预测

[PDF全文]

张杰, 朱家明

安徽财经大学统计与应用数学学院，蚌埠 233030

收稿日期: 2020-05-19; 网络出版时间: 2020-08-31

基金项目: 国家自然科学基金(1808085QA15);省级教研项目(2018jyxm1305)

作者简介: 张杰, 本科生; 研究方向:数学与应用数学.

通讯作者: 朱家明, 硕士、副教授; 研究方向:应用数学; zhujm1973@163.com.

摘要：针对垃圾总量的影响因素及预测的问题，依据深圳市2008-2018年的垃圾总量及人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出等指标的数据。运用多元线性回归、三次指数平滑法等方法，构建垃圾总量与其影响因子的多元线性回归模型，垃圾总量的时间序列预测模型。综合运用Matlab、Eviews等软件编程求解，验证了模型及算法的可行性和正确性，并得出了垃圾总量与其影响因子之间的关系、垃圾总量的预测结果等结论。研究成果可为政府制定垃圾的相关政策提供参考和依据。

关键词：垃圾总量预测影响因子多元线性回归三次指数平滑法

The Prediction of the Total Amount of Garbage Based on Multiple Regression and Cubic Exponential Smoothing Method

ZHANG Jie, ZHU Jia-ming

School of Statistics and Applied Mathematics, Anhui University of Finance and Economics, Bengbu 233030, China

Abstract: In view of the influencing factors and prediction problems of the total amount of garbage, according to the data of the total amount of garbage and population, per capita GDP, retail sales of social consumer goods, total industrial output value, final consumption expenditure and other indicators of Shenzhen in 2008-2018, by using the methods of multiple linear regression and triple exponential smoothing, the multiple linear regression model of the total amount of garbage and its influencing factors and the time series prediction model of the total amount of garbage were constructed.The feasibility and correctness of the model and algorithm were verified by using MATLAB, Eviews and other software programs, and the relationship between the total amount of garbage and its influencing factors, and the prediction results of the total amount of garbage were obtained.The research results can provide reference and basis for the government to make relevant policies of garbage.

Key words: total waste prediction impact factor multiple linear regression cubic exponential smoothing method

进入二十一世纪以来, 随着人们生活水平的提高, 每年所产生的垃圾总量^[1]在不断变化, 而垃圾与环境挂钩, 控制垃圾产生量及正确处理垃圾对于环境保护来说是十分重要的。其次, 人们在满足基本生活需求的同时, 也越来越重视环保和所生活的环境。这就导致如何预测垃圾总量的多少和垃圾总量与其影响因素之间的关系正成为急需解决的问题。因为, 一方面, 预测未来的垃圾产生总量多少, 可以给政府制定垃圾的相关政策做一个参考; 另一方面, 想要直接控制垃圾产生量多少, 这比较困难, 但通过控制垃圾产生量的影响因素进而间接控制垃圾产生量的多少, 却较为容易。因此, 通过研究预测垃圾总量的多少和垃圾产生总量的影响因素具有较高的科学价值和现实意义。

1 文献综述

杨朋^[2]等介绍了深圳市各区的生活垃圾产生规模以及具体流向。从生活垃圾分类收运模式、收运主体以及试点情况对深圳市生活垃圾分类收运系统进行全面的分析, 并对完善深圳市生活垃圾分类收运系统的建议进行讨论。尚春钰^[3]等运用线性回归分析方法得出了垃圾组分的相关性, 采用5项激励措施进行减量分类研究, 运用主成分分析方法进行因子分析, 结果表明:物质奖励和垃圾分类收集袋措施对垃圾回收率成正相关; 减免处理费和环保积分卡措施对垃圾分类效果正相关; 更换先进设施措施可以有效减少垃圾数量。滕宇帆^[4]等利用改进灰色模型对于北京市的垃圾出清量进行预测。他通过对GM(1, 1)模型进行改进, 并在不同数据量情形下进行预测结果对比; 然后, 对北京市的未来的垃圾的出清量进行预测; 最后, 对北京市的垃圾的处理情况的工作进行指导与提供建议。以上均是对垃圾处理的量化研究。但是, 对垃圾产生总量预测及其影响因子关系之间的研究较少。

2 实证分析 2.1 研究思路

我们以深圳市为例, 收集垃圾总量、人口、人均GDP等六个指标2008-2018年数据, 采用多元线性拟合, 找出人口数、人均GDP、社会零售总额、工业生产总值、居民最终消费支出5个指标与垃圾总量之间的关系。采用三次指数平滑法, 建立时间序列模型, 预测2019-2023年六个指标数据, 该预测垃圾总量为直接预测。把五个影响因子代入多元线性回归方程进行再次预测分析, 该预测为间接预测。并在预测中进行检验, 得出该模型预测数值准确性程度。最后对比分析差异, 得出准确预测结果。

2.2 数据来源及假设

数据来源于国家统计局2018年统计年鉴及深圳市生态环境局。为便于解决问题, 提出以下几条假设:城市生活垃圾处理量近似等于生活垃圾生产量; 城市生活垃圾生产量能够及时被清运; 在数据计算过程中, 假设误差在合理范围内, 对数据结果的影响可以忽略; 垃圾所放位置与时间季节对垃圾处理影响较小, 可以忽略不计。

3 垃圾总量及其影响因子的分析 3.1 垃圾总量及其影响因素分析 3.1.1 选择研究城市及影响因素指标

不同城市的等级垃圾产生量的多少不一。对于三线、四线等经济发展缓慢的小城市而言, 其每年垃圾的产生量相对于一线、新一线城市而言较少。深圳市在国内率先实施垃圾分类, 具有一定的代表性, 预测其垃圾生产总量的变化有着重要的研究意义。

通过查阅相关资料与垃圾产生量相关的国内外相关文献^[5], 结合深圳市自身的经济、生态、人口等影响因素, 筛选出人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出五大影响因素。

3.1.2 垃圾总量现状分析

从图 1可以看出深圳市近10多年垃圾产生总量呈高速增长趋势, 为了更好的应对垃圾产生量, 处理垃圾产生总量过多所带来的问题, 对此我们从垃圾总量角度进行量化处理; 对垃圾总量进行预测, 从而为政府或社会、个人提出对策, 也可以间接为垃圾分类提供参考。

图 1 深圳市2008—2018年垃圾产生总量

3.1.3 分析影响因素指标

为了确定深圳市垃圾产生量与上述五个指标之间存在何种关系, 首先做出深圳市垃圾产生量与人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出之间的散点图, 如下图 2所示(纵坐标为垃圾产生总量/万吨)。可以得出:人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出和深圳市垃圾产生量之间有正相关关系, 即随着人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出的增加, 深圳市垃圾产生量有增加的趋势。

图 2 垃圾产生量与各影响因素的散点图

3.2 构建多元线性回归模型

多元线性回归分析^[6]的模型为

$ \left\{\begin{array}{l} y=\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{m} x_{m}+\varepsilon \\ \varepsilon \sim N(0, \sigma 2) \end{array}\right. $

(1)

式中:β₀, β₁, …, β_m都是与x₁, x₂, …, x_m无关的未知参数, β₀, β₁, …, β_m称为回归系数。

现得到n个独立观测数据[b_i, a_i1, …, a_im], 其中b_i为y的观测值, a_i1, …, a_im分别为x₁, x₂, …, x_m的观察值, i=1, …, n, n>m, 由式(1)得:

$ \left\{\begin{array}{l} b_{i}=\beta_{0}+\beta_{1} a_{i 1}+\cdots+a_{i m}+\varepsilon_{i} \\ \varepsilon_{i} \sim N(0, \sigma 2) i=1, \cdots, n \end{array}\right. $

(2)

记:

$ X=\left[\begin{array}{cccc} 1 & a_{11} & \cdots & a_{1 m} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & a_{n 1} & \cdots & a_{n m} \end{array}\right] Y=\left[\begin{array}{c} b_{1} \\ \vdots \\ b_{n} \end{array}\right] $

(3)

$ \varepsilon=\left[\varepsilon_{1}, \cdots, \varepsilon_{m}\right] T, \\ \beta=\left[\beta_{0}, \beta_{1}, \cdots, \beta_{m}\right] T $

式(1)表示为

$ \left\{\begin{array}{l} Y=X \beta+\varepsilon \\ \varepsilon \sim N\left(0, \sigma 2 E_{n}\right) \end{array}\right. $

(4)

式中:E_n为n阶单位矩阵

由此我们一共选取五个指标作为自变量, 分别为人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出。

以生活垃圾产生总量为因变量建立模型:

$ y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} x_{3}+\beta_{4} x_{4}+\beta_{5} x_{5}+\varepsilon $

(5)

其中, x₁为人口数, x₂为人均GDP, x₃为社会消费品零售额, x₄为工业总产值, x₅为居民最终消费支出, β_i为第i个指标的拟合参数, β₀为常数项, ε为残差项。

3.3 影响因子的参数求解

将2008-2018年深圳市生活垃圾产生量、人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出的数据代入所建立的多元回归模型^[7]中, 利用Eviews软件运行程序得到回归系数等, 如表 1所示。

表 1 影响因子的参数求解结果

由表 1可以得到多元线性回归的方程为:

$ y=-10.3418+0.3441 x_{1}+0.0021 x_{2}+ 0.0542 x_{3}-0.0076 x_{4}-0.0377 x_{5} $

(6)

可决系数R2大于0.95, 说明该多元拟合效果较好; 通过DW统计量与F统计量数值可以得出, 该结果通过相关检验, 从p值可以看出, 每个变量都通过显著性检验, 整个方程也通过显著性检验, 具有统计学意义。

4 垃圾总量及其影响因子的预测 4.1 三次指数平滑法 4.1.1 三次指数平滑法的定义

三次指数平滑法^[8]是指数平滑法的一种, 适用于时间序列呈现抛物线趋势的非线性数据, 使用便捷, 在各个领域均有应用。而指数平滑法^[9]是一种时间序列分析预测法, 该方法是通过计算指数的平滑值, 结合合理的时间序列预测模型, 根据目前的现状数据对未来趋势进行预测。

4.1.2 模型的数据来源

来源于上述多元回归模型中垃圾产生总量及其影响因子原始数据。

4.2 构建时间序列预测模型 4.2.1 确定初始值

在一般的指数平滑法预测过程中, 当原始时间序列的期数大于15项时, 可认为初始值对预测结果产生的影响较小, 选择原始数列第1期的实际数据值作为初始值; 当原始时间序列的期数小于15项时, 可认为初始值对预测结果产生的影响较大, 因而选择原始数据前3期的平均值作为初始值。所以, 我们确定的初始值属于后者。

4.2.2 选择权重系数

权重系数α在预测过程中, α取值在0到1之间。通常情况下, 当时间序列呈现较稳定的水平趋势时, 选取较小的α值, 一般在0.05~0.2之间取值; 当时间序列有波动, 但长期趋势变化不大时, 选取稍大的α值, 一般在0.3~0.5之间取值; 当时间序列波动很大, 长期趋势变化幅度较大, 呈现明显且迅速的上升或下降趋势时, 选取较大的α值, 一般在0.6~0.8之间取值。由图 1及图 2可以看出, 垃圾总量及其影响因素的时间序列有明显的上升趋势, 所以我们确定α值较大。

4.2.3 计算公式

三次指数平滑是在二次指数平滑的基础上, 再进行一次平滑, 其计算公式为

$ \left\{\begin{array}{l} S(1)_{t}=\alpha y_{t}+(1-\alpha) S(1)_{t-1} \\ S(2)_{t}=\alpha S(1)_{t}+(1-\alpha) S(2)_{t-1} \\ S(3)_{t}=\alpha S(2)_{t}+(1-\alpha) S(3)_{t-1} \end{array}\right. $

(7)

综上所得三次指数平滑法的预测模型为

$ \hat{y}_{t+m}=a_{t}+b_{t} m+c_{t} m 2, m=1, 2, \cdots, n $

(8)

式中

$ \left\{\begin{array}{l} a_{t}=3 S(1)_{t}-3 S(2)_{t}+S(3)_{t} \\ b_{t}=\frac{\alpha}{2(1-\alpha) 2}\left[(6-5 \alpha) S(1)_{t}-2(5-4 \alpha)\right. \\ \left.S(2)_{t}+(4-3 \alpha) S(3)_{t}\right] \\ c_{t}=\frac{\alpha 2}{2(1-\alpha) 2}\left[S(1)_{t}-2 S(2)_{t}+S(3)_{t}\right] \end{array}\right. $

(9)

其中, $\hat{y}_{t+m} $为深圳市垃圾总量及相关影响因子(人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出)数据; m为预测超前期数; a_t、b_t、c_t为第t年的预测系数; S(1)_t、S(2)_t、S(3)_t分别为第t年对应的一次、二次、三次指数平滑值; S(1)₀、S(2)₀、S(3)₀分别为一次、二次、三次指数平滑的平滑初始值。

4.3 垃圾总量及其影响因子的预测结果

通过Matlab编程计算出2019-2023年深圳市垃圾总量及相关影响因子(人口数、人均GDP、社会消费品零售额、工业总产值、居民最终消费支出)的预测数据如表 2所示。

表 2 2019-2023年深圳市垃圾总量及影响因子预测数据

4.4 预测结果的误差性检验

为了研究三次指数平滑法预测数据的准确性、原始值与模型值之间的差异程度, 我们对各个变量所预测的结果进行相对误差检验。检验结果如表 3所示:以深圳市人口与因变量垃圾总量为例, 其余自变量预测结果检验过程类似。

表 3 人口数与垃圾总量预测结果检验

从残差与相对误差两个指标来看, 相对误差更能说明模型预测结果的准确程度。除极个别数值的预测值相对误差大于5%, 大多数年份的相对误差数值小于5%, 且较小波动不大。人均GDP、社会消费品零售额、工业总产值、居民最终消费支出这4个变量的预测结果检验情况与上述两个变量类似。由此可以得出, 由三次指数平滑法建立的时间序列模型对垃圾产生量及其影响因子的数据预测结果准确。

4.5 组合预测—深圳市未来五年生活垃圾产生量预测

将上文所得预测结果, 进行组合预测^[10], 得出组合预测结果^[11]。即是将未来五年垃圾总量的影响因子数据代入到前面的多元线性回归模型的拟合方程式(6), 得出结果如表 4所示。

表 4 未来五年深圳市生活垃圾产生量预测结果

其次, 将垃圾总量时间序列直接预测得出的数据与拟合数据作对比, 如图 3所示, 两种预测的结果趋势相同, 预测值的大小基本相同, 直接预测的值比间接预测的值要约大。因此我们进行对比差异分析, 取区间中点的值为最终预测值, 并给出区间范围, 上限为直接预测结果, 下限为间接预测结果, 由此得出最终未来5年垃圾总量的结果。

图 3 两种预测方式数据结果对比

5 结束语

从垃圾总量预测结果来看, 未来深圳市垃圾总量处于上升趋势, 其影响垃圾总量的因子数据也都处于上升趋势。这就可能意味着中国大多数城市都会随着人口数, 工业产值等变量的不断增加, 城市的垃圾生产总量也会不断增加。进而会破坏城市的市容市貌, 在一定程度上影响生态环境^[12], 甚至有可能打破生态平衡。对此, 可以通过控制其垃圾产生量的影响因子, 进而降低垃圾产生总量, 还给人民, 社会, 乃至整个地球的一片蓝天。除此之外, 未来在垃圾处理方面的工作, 可以考虑制定一份垃圾分类实施计划, 明确奖罚政策^[13], 这对于垃圾分类与处理^[14]也有重要的研究意义。

参考文献

[1]	周永军. 基于灰度预测的秦皇岛市垃圾总量及旅游旺季垃圾峰值预测[J]. 天津商务职业学院学报, 2018, 6(06): 6-11.
[2]	杨朋, 王芙蓉. 深圳市生活垃圾分类收运系统调研分析[J]. 环境卫生工程, 2016, 24(04): 16-18. DOI:10.3969/j.issn.1005-8206.2016.04.006
[3]	尚春钰, 刘力军, 朱吉祥, 等. 垃圾减量分类方法的量化分析[J]. 环境卫生工程, 2014, 22(06): 1-3. DOI:10.3969/j.issn.1005-8206.2014.06.001
[4]	滕宇帆. 基于改进灰色GM(1, 1)模型的北京市垃圾量预测[J]. 现代商业, 2016(22): 191-192. DOI:10.3969/j.issn.1673-5889.2016.22.097
[5]	皇甫慧慧, 李红艳. 城市生活垃圾产生量的影响因素分析[J]. 科技与管理, 2018, 20(04): 44-49.
[6]	杨丽, 付伟. 基于多元线性回归的云南省经济发展影响因素分析[J]. 山西农经, 2019(04): 9-11.
[7]	陆维特, 朱国旺, 倪训友, 等. 基于多元线性回归模型的城市残疾人停车位使用影响因素分析——以杭州市为例[J]. 浙江理工大学学报(社会科学版), 2019, 42(04): 352-359. DOI:10.3969/j.issn.1673-3851(s).2019.04.004
[8]	李亦凡. 基于三次指数平滑的失业率预测[J]. 电子制作, 2017(24): 32-33. DOI:10.3969/j.issn.1006-5059.2017.24.015
[9]	张君, 薛莉, 王波, 等. 基于梯度优化自适应指数平滑法的风电场短期风速预测方法研究[J]. 机电工程, 2016, 33(07): 895-899.
[10]	李蓉, 孟庆新. 组合预测法在汽车预测中的应用[J]. 中国市场, 2016(19): 148-149.
[11]	韩正涛. 基于组合预测模型的广州市物流需求预测[J]. 对外经贸, 2016(04): 127-129. DOI:10.3969/j.issn.2095-3283.2016.04.046
[12]	陈海滨, 章程, 潘绮. 生活垃圾减量化的综合效益及优先地位分析[J]. 环境科学与技术, 2006(S1): 84-86.
[13]	朱雪, 朱宇峰. 基于垃圾分类的按量收费制度下生活垃圾处理方式的研究[J]. 农村经济与科技, 2018, 29(12): 8-9. DOI:10.3969/j.issn.1007-7103.2018.12.005
[14]	李鹏博. 基于环保优先理念的居民区垃圾分类收集模式研究[J]. 科技展望, 2015, 25(01): 244. DOI:10.3969/j.issn.1672-8289.2015.01.222


齐鲁工业大学学报 2020, Vol. 34 Issue (4): 69-74	0