Low-carbon green energy methods for 5G photovoltaic station based on the deep actor-critic strategy
-
摘要: 5G作为新型信息基础设施,正融入千行百业,超宽带技术及万物互联设备的大规模应用增加了网络能耗、运营成本和碳排放。运营统计5G单站功率已达到2 000 W左右,月均电费可达1 000元左右。随着光伏产业的发展,将清洁能源应用到大功耗5G网络已成为网络低碳绿能发展的一种新途径。本文提出了一种基于深度行为评判(deep actor-critic, DAC)策略的5G光伏基站低碳绿能方法,使用光伏能源代替传统的电网火电能源。建立了光伏、蓄电池和电网一体化储能供能模型;为了最大限度节约碳排放,加大绿能供应效率,设计了一种DAC节能策略;构建5G网络节电智能体,引入A3C(actor-critic algorithm)智能体动作奖励模型来操纵蓄电池节能动作;通过求解更好的奖励值,蓄电池可以找到最佳的充放电策略实现低碳绿能。通过对比仿真结果,在不同季节下,相比Q学习及深度Q网络算法,本文方法具有更好的网络节能表现,提高了低碳绿能效率。Abstract: The large-scale application of 5G ultra-broadband technology and IoT devices has significantly increased energy consumption, operational costs, and CO2 emissions. For example, a single 5G base station can consume approximately 2,000 W, incurring monthly electricity costs of about 1,000 yuan. With the development of the photovoltaic industry, integrating clean energy sources into high-power 5G networks has emerged as a promising approach to support low-carbon development. This paper proposes a low-carbon energy management method for 5G networks based on a deep actor-critic (DAC) strategy, which replaces conventional grid power with photovoltaic energy. An integrated energy storage model combining photovoltaic systems, battery storage, and grid connectivity is developed. A DAC-based optimization strategy is then applied to maximize carbon emission reductions and improve the efficiency of green energy supply. To support this strategy, a 5G network power supply agent is constructed using the A3C algorithm in conjunction with a deep Q-network, enabling dynamic energy optimization. By optimizing reward functions, the proposed method achieves high energy efficiency. Simulation results demonstrate that, across different seasons, the proposed method outperforms both Q-learning and the deep Q-network algorithms in improving network energy efficiency, thereby advancing low-carbon and green energy objectives.
-
随着移动通信网络的建设发展,5G 网络提供了高带宽、低时延和高品质的网络服务,同时5G网络的高功耗严重制约了5G低碳化发展。5G单站功耗高达3 500 W,是 4G 单站功耗的 3~4 倍[1-4]。运营商面临基站设备能耗大幅增加,导致运营成本(operating expense,OPEX)急剧增加。2024年统计数据显示5G网络的能耗已达到2 430亿元左右。当前降低5G能耗、实施5G节能减排已成为移动通信网络高效节能发展的主题。
光能作为环境友好、低CO2 排放型清洁能源,广泛应用在多种绿色生产场景中。由于光伏(photovoltaic, PV)组件的价格持续下降且有政府政策扶持,近5年,光伏设备[5-10]大批量应用于城市、乡镇农村绿能建设中。2010—2025年,光伏成本降低61%左右,这大大缩短了PV的投资回收期,即从3~5年到现在的几个月。光伏可再生能源在替代化石燃料和碳减排市场上具有巨大潜力。在一些发达国家,光伏[11-14]已作为5G基站能量供应的主要来源,光伏能源已占到整个国家能源总和的8%左右。在5G基站周围建设的光伏板,最大功率可达到8.5 kW,平均可供应2~3个C-RAN(centralized radio access network)化部署的 5G基站正常工作,这对于降低5G传统能耗及实现5G基站低碳绿能具有显著的意义。在此背景下,本文提出了一种基于强化学习的5G网络低碳绿能方法。
1. 相关研究内容
许多学者及企业提出了5G低碳绿能的相关研究方法及发展思路,这些方法包含冷却技术、资源分配方法、中继技术和基站休眠等[10-15]。Shah等[16]使用双层均衡配置技术设计了一种低成本、低能耗的功耗设备,通过改进硬件工艺可以有效降低基站的能耗和减少二氧化碳排放,但存在设备适配性差、高时延、高成本等问题[16-17]。为了进一步提升5G网络设备的节能效率,大量的智能化节能策略被提出,可进一步降低5G基站能耗。异构网络(heterogeneous networks, HeNet)通过将宏站与微站进行异构组网,极大地减少了基站与用户之间数据传输的距离,降低了基站的能耗[15-16],然而大量微站的部署增加了硬件成本并具有超高的能耗。Elsherif等[17]设计了一种改进的马尔可夫决策过程(Markov decision process, MDP)算法实现5G微站的动态智能关停,该模型通过准确定位使用用户当前的位置并预测需求,通过最佳关断策略对基站进行精准控制降低基站能耗。Ng等[18]提出了一种去中心化的方法实现基站资源的有效管理,该方法可以有效降低42%不必要资源消耗,通过合并及重分配技术达到提高资源利用率效果。异构网络及基站关断等技术对于某些特定5G场景节能来说具有一定的效能,但该类方法对网络进行硬切换或硬关断,以网络运行质量为代价换取能耗资源。
以上研究均从5G网络资源重配置和节能策略出发,未从新能源供应角度进行思考。实际上5G新能源不仅可以降低传统化石燃料能耗,还可以保障网络的服务质量(quality of service, QoS)[19-22]。许多学者提出将多种能源混合,如将光伏、风能和氢能进行混合以代替传统的电能[23-29],Nirwan等[30]设计了一种5G基站绿能供应资源管理模型,进一步通过利用新能源实现运维的低碳化并保证了网络QoS不降低。
综合考虑5G网络能耗需求及低碳节能技术演进,本文提出将深度行为评判(deep actor-critic, DAC)策略作为最优的节能策略,用于智能体实时操控网络环境实现5G基站绿电节能。主要改进点有3个:1)引入绿色光伏能源,综合考虑基站供能、光伏产能需求,通过对基站、电网、光伏、蓄电池的能耗特性及物理特性进行分析,建立数学化的能耗及损耗模型。2)提出了一种DAC强化学习算法,改进了奖励函数,采用基于深度Q网络(deep Q-network, DQN)的A3C算法(actor-critic algorithm),通过不断模拟基站蓄电池的充放电动作,寻找最优化的节能策略。3)在效能评估方面,将实验结果与运营商实际5G光伏站点耗能进行对比。结果表明,所提出的DAC节能策略能够在保证5G基站能耗需求的基础上,最大限度利用光伏能量,降低电网能耗,节约网络运行成本。
2. 5G基站能耗模块原理
网络功耗的按需供给是实现5G网络精准节能的有效手段,而5G网络功耗模块的按需供给是在满足5G业务高质量运行的基础上,按照网络实际业务需求实现网络的精准节能。为了实施低碳绿色的网络运行环境,可将光伏能源最大限度供给5G基站使用,实现5G绿能低碳。本文通过软件工程实现5G网络的低碳节能策略。如图1所示,有电力供电条件的并网场景下,通过光伏、蓄电池和电网实现一体化并网供电,供电的优先级为光伏>蓄电池>电网。
图2为实际场景供电策略,主要特点为:日出后光照不足,电池补电;光照大于负载,光伏给电池充电;日落前光照不足,电池放电;夜间无光照,电池放电,市电供电。
2.1 5G基站能耗
5G基站供能主要分为3部分:光伏、蓄电池和电网。当产生的清洁能源大于5G能耗需求时,5G基站仅通过清洁能源提供能量(脱离了电网功能),并且产生的多余能量存储到电池当中。当产生的清洁能源小于基站能量需求时,每个5G基站能量通过光伏、蓄电池和电网综合进行供应。
基站正常运行时,其能耗需求是连续的,此能耗需求可以从基站电表中读取,为了后续方便处理,需要对连续运行的能耗数据进行离散化处理。本文中将一定周期T内(例如一个月)的能耗数据划分成n个(小时或天)在时间轴上离散的能耗数据,假设每个时间间隔长度为
$ \Delta t $ ,图3为5G基站能耗离散化方法。假设
$ \varGamma = \{ 1 \;,\;{\text{2}},\; \cdots {\text{,}}\;n \} $ ,对于任意一个5G基站,在$ t \in \varGamma $ 计费周期内,其能量需求模型可以表示为$$ d=\{d(1), d(2), \cdots, d(n)\} $$ 式中
$ d(t) $ 表示第$ t $ 个时间间隔内5G基站的能量需求。2.2 光伏能源
为了实现低碳及低成本网络节能模式,在基站周围建设能耗匹配的光伏系统,实现5G基站光伏供电。
参照2.1节的离散化方法,光伏产生的连续能量数据也可被划分成n个离散的能耗数据:
$$ g = \{ g{\text{(}}1{\text{)}},g{\text{(}}2{\text{)}}, \cdots ,\;g{\text{(}}n{\text{)\} }} $$ 式中
$ g(t) $ 表示第$ t $ 时间间隔内光伏产生的能量。假设光伏能源产生的总量大于等于基站能耗需求,即$ g(t) \geqslant d(t) $ ,光伏能源在提供基站能耗需求基础上还可以对蓄电池进行充电。太阳能光伏系统主要由3个因素决定:水平辐照度(
$ {\text{GHI}}(t) $ )、室外温度($ {\text{Temp}}(t) $ )和白天时长($ {\text{ToD}}(t) $ )。通过串联/并联光伏板,光伏可以获得太阳能并转化为直流电给基站供电或者对蓄电池进行充电。在第t时间间隔内的光伏能量可以通过公式计算得到:$$ {g^2}(t) = {F^{\mathrm{s}}}({\mathrm{GHI}}(t),{\mathrm{Temp}}(t),{\mathrm{ToD}}(t)) $$ 式中
$ {F^{\text{s}}}( \cdot ) $ 是一个已知的非线性函数,为光伏产能计算函数,在光伏科学计算库PVLIB[17]中有相应的定义。则太阳能在整个计费周期内可以表示为$$ {g^2} = {\text{\{ }}{g^2}{\text{(}}1{\text{)}},{g^2}{\text{(}}2{\text{)}},\; \cdots ,{g^2}{\text{(}}n{\text{)\} }} $$ 式中
$ {g^2}(t) $ 表示第$ t $ 时间间隔内光伏的产能。2.3 蓄电池
蓄电池通过充电进行电能存储,在市电停电或者光伏供能不满足基站能耗需求情况下,作为独立或者辅助供能设备保证基站平稳运行。在第t个时间间隔内,电池状态模型表示为
$$ x(t): = \left\langle {{\text{SoE}}(t),{\text{SoC}}(t),{\text{DoD}}(t)} \right\rangle $$ 式中
$ {\text{SoE}} $ 、$ {\text{SoC}} $ 、$ {\text{DoD}} $ 3个容量符号分别表示电池的有效容量、储能容量和剩余容量。其中$ {\text{SoE}} $ 表示蓄电池当前的容量占初始容量的百分比;$ {\text{SoC}} $ 表示当前蓄电池存储的电能占蓄电池当前容量的百分比;$ {\text{DoD}} $ 表示当前蓄电池输出的能量占蓄电池当前容量的百分比。为了简化整个问题并优化处理过程,将蓄电池
$ {\text{SoC}} $ 的值离散化为M个等宽区间,如M=10,则区间划分为$ \left\{ {10{\text{%}} , 20{\text{%}} , \cdots , 100{\text{%}} } \right\} $ 。同样可以对$ {\text{DoD}} $ 进行离散化,比如从90%释放电能10%,可标记为$ 90{\text{%}} \to 80{\text{%}} $ 。同时对于第t个时间间隔,为了防止电池过放电或者充电,使用$ {\text{So}}{{\text{C}}_{{\text{max}}}} $ 和$ {\text{So}}{{\text{C}}_{{\text{min}}}} $ 来表示$ {\text{SoC}} $ 的上下边界。$$ {\text{So}}{{\text{C}}_{{\text{min}}}} \leqslant {\text{SoC}}(t) \leqslant {\text{So}}{{\text{C}}_{{\text{max}}}} $$ 储能电池部署在5G基站机房里,可利用多余的光伏能量进行充电或者放电,重塑电力需求,从而最大限度地利用可再生能源(或最大限度地减少化石燃料的使用),降低电费。
定义第t个时间间隔内蓄电池充放电操作:
$$ b = {\text{\{ }}b{\text{(}}1{\text{)}},\;b{\text{(}}2{\text{)}},\; \cdots ,b{\text{(}}n{\text{)\} }} $$ 式中
$ b(t) $ 表示蓄电池充放电的量。具体地:1)如果值为正数表示在时间间隔t内蓄电池放电给5G基站。2)如果值为负数表示光伏能源给蓄电池进行充电。3)如果值为零表示蓄电池没有进行充放电操作。充放电操作受到最大充电速率和最大放电速率的约束,分别用
$ {R^ + } $ 和$ {R^ - } $ 表示。在第t个时间间隔内充放电函数b(t)可表示为$$ - {R^ + } \leqslant b(t) \leqslant {R^ - } $$ 同时,电池需要满足充放电操作条件:
$$ \begin{aligned} & b(t) \leq 0, g(t)-d(t) \geqslant 0 \\ & b(t) > 0, g(t)-d(t) < 0 \end{aligned} $$ (1) 式(1)表明在保证5G基站正常供应的情况下,如存在额外的光伏能量,可以提供给电池进行存储。该策略保证了电池充放电操作不会同时发生。
在蓄电池放电或者光伏转化为电池储能过程中,将损耗通过函数进行定义:
$$ \tilde b(t) = \left\{ \begin{gathered} b(t)/\alpha ,\;\;b(t) \leqslant 0 \\ \beta \cdot b(t),\;\;b(t) > 0 \\ \end{gathered} \right. $$ 式中:α表示光伏转化为蓄电池损耗值,β表示为蓄电池供电的损耗值。
已知5G基站能源需求
$ d(t) $ ,光伏能源生成$ g(t) $ 和电池充放电操作$ b(t) $ ,电网在第t个时间间隔内能量输出为$$ p = \{p{\text{(}}1{\text{)}},p{\text{(}}2{\text{)}}, \cdots ,\;p{\text{(}}n)\} $$ 其中
$ p(t) $ 定义为$$ p(t) = \left\{ \begin{gathered} \max \{ 0,d(t) - g(t) - \tilde b(t)\} ,\;\;b(t) \geqslant 0 \\ \max \{ 0,d(t) - g(t)\} ,\;\;b(t) < 0 \\ \end{gathered} \right. $$ 3. 5G基站节能模型设计
3.1 电费成本
移动运营商在5G网络运营周期内,其耗成本通常记为能源费或者网络电费。网络电费指整个计费周期内消耗的总电量,单位为kW·h,其电费单价可用
$ \lambda $ 表示。因此,整个系统在第t个时间间隔所产生的电费可以表示为$$ {C^{\text{e}}}(t) = {\lambda _{\text{e}}} \cdot p(t) \cdot \Delta t $$ 3.2 损耗成本
每使用一次光伏或蓄电池均会带来一定程度的设备生命周期损耗,这对设备运行损耗成本的计算至关重要。为了提升节能模型应用效果,进一步细化损耗成本以提高模型的准确率。
3.2.1 光伏损耗
随着可再生能源发电系统模块的老化,它们逐渐失去一些性能。本文假设系统的衰落是线性的,并且与其使用时间呈正相关。假设光伏系统的寿命为
$ L $ ,表示光伏可使用年限。对于第t个时间间隔,光伏的剩余寿命记为$ l(t) $ ,受$ 0 \leqslant l(t) \leqslant L $ 的约束。如果$ l(t) $ 为0,则剩余寿命为0,需要进行资产报废。给定光伏系统在时刻t−1的剩余寿命,t时刻的剩余寿命更新为$$ l(t) = l(t - 1) - \Delta t \cdot u(t) $$ 式中u(t)表示光伏是否被使用,u(t)=1表示使用光伏能源,否则u(t)=0。
光伏的使用成本可表示为
$$ {C^{\text{p}}}(t) = {\lambda _{\text{p}}} \cdot \frac{{\Delta t \cdot u(t)}}{L} $$ 式中
$ {\lambda _{\text{p}}} $ 为光伏的价格。3.2.2 蓄电池损耗
蓄电池的每次充电/放电过程均会折损一部分电池的使用寿命,尤其对于铅蓄电池而言,每次充放电均会通过化学反应消耗电池的化学介质,蓄电池的容量及寿命就会逐渐缩短。
如图4所示,蓄电池剩余容量与使用周期存在一个非线性关系,随着蓄电池的使用,
$ {\text{DoD}} $ 会逐渐下降,当蓄电池的储能性能$ {\text{SoE}} $ 下降到失效性能阈值$ {\text{So}}{{\text{E}}_{{\text{inf}}}} $ 以下时,蓄电池需退出实际服务,进行更换。通常可通过
$ {\text{SoE}} $ 的变化表征蓄电池劣化的性能,蓄电池损耗可以通过公式进行表征:$$ \Delta \mathrm{SoE}(t)=\left\{\begin{array}{l} 0, \qquad b(t) \leq 0 \\ \dfrac{1-\mathrm{SoE}_{\text {inf }}}{h(\mathrm{DoD}(t-1)+\Delta \mathrm{DoD}(t))},\qquad b(t)>0 \end{array}\right. $$ 式中
$ h( \cdot ) $ 表示将剩余容量$ {\text{DoD}} $ 输入转化为充放电次数,其中$ \Delta {\text{DoD}} $ 可以通过公式计算得出:$$ \Delta \mathrm{DoD}(t)=\frac{b(t) \Delta t}{\theta_{\mathrm{int}}} $$ 式中θint为蓄电池初始的容量值。
将蓄电池的劣化损耗定义为
$$ C^{\mathrm{b}}=\lambda_{\mathrm{b}} \cdot \Delta \operatorname{SoE}(t) $$ 式中
$ {\lambda _{\mathrm{b}}} $ 为损耗费用系数,按照蓄电池的使用年限及采购成本进行折算,单位为元/$ \Delta {\text{SoE}} $ 。通过以上分析,总损耗成本计算公式为
$$ {C^{\text{u}}}(t) = [{C^{\text{p}}}(t) + {C^{\text{b}}}(t)] $$ 3.3 节能技术
在明确节能环境因素的基础上,考虑电网、光伏和蓄电池的能耗供应模式及费用损耗情况。本文采用强化学习算法构建了三者智能化节能策略。
蓄电池的充放电操作通过智能体控制执行,假设蓄电池在第t−1时间间隔内的存储状态为
$ \chi (t - 1) $ ,那么蓄电池在t时间间隔内的状态可以更新为$$ \chi (t) \leftarrow \left\{ \begin{gathered} {\mathrm{SoE}}(t) = {\mathrm{SoE}}(t - 1) - \Delta {\mathrm{SoE}}(t) \\ {\mathrm{SoC}}(t) = {\mathrm{SoC}}(t - 1) - b(t)\Delta t/{\text{π}} \\ {\mathrm{DoD}}(t) = {\mathrm{DoD}}(t - 1) + \Delta {\mathrm{DoD}}(t) \\ \end{gathered} \right. $$ 对于整个计算周期T,需要寻找到最优的蓄电池充放电控制策略达到费用及损耗支出的最小化:
$$ \mathop {\min }\limits_{b(t)} \sum\limits_{t = 1}^T {({C^{\text{e}}}(t) + {C^{\text{u}}}(t))} $$ 4. DAC节能策略
设计最优化节能策略时,需要解决几个问题:1)实际运维过程中每个5G基站、光伏和蓄电池初始状态都不同,在时间和空间上很难预测。2)下一个节能策略强依赖于上一个设备的空间状态。3)随着光伏、蓄电池使用年限的增加,光伏、蓄电池的储能转换效率逐渐下降。基于以上问题本文提出了一种基于深度行为评判(DAC)的节能策略。
DAC通过学习已有的5G光伏基站运行数据,将有限的经验值模型变为全量的连续的运维知识模型,在强化学习中建立环境状态(state)到行动(action)转化表,构建action状态奖励值Q-value。图5为DAC学习模型,DAC能够有效解决高维状态空间(state space)问题,相比于传统强化学习具有很大优势;在动态时序变化的光伏、蓄电池和能源供应等方面可以实时根据当前状态预测下一个状态,并采用最优的节能动作。
DAC学习模型包含5方面的内容:智能体、状态、动作、策略和奖励。
智能体(agent) 智能体主要用来在每个节能流程中基于环境做出相应的决策。具体地,在每个时间间隔开始时,基于当前5G基站能耗环境状态
$ (d(t),g(t),\chi (t)) $ ,智能体决定进行充电还是放电。最终的目标是找到一种最优控制策略最小化电费及损耗。状态(state) 在每个节能过程中,agent首先观察当前的环境状况,为了在每个节能流程中提供最优的操作,当前的状态应当尽量包含更多的环境信息。本文中环境状态的定义为
$ s(t) = (d(t), g(t),\chi (t)) $ ,包含了当前基站能耗需求、光伏能源供给和蓄电池储能。动作(action) 通过评估基站环境状态,智能体采取相应的操作动作。动作类型分为蓄电池充电、放电和保持,用a(t)表示。
策略(policy) 蓄电池的充放电策略用
$ \Pi $ 进行表示:S→A表示在某个环境下从状态空间到动作空间的策略映射,其中S和A分别表示状态空间和动作空间,则$ a(t) = \prod (s(t)) $ 。奖励(reward) 通过与环境进行交互,agent接收到环境产生的奖励
$ R(s(t),a(t)) $ 往往是某一个周期内或者某一个实施过程后的奖励,选择最佳奖励优化策略$ \Pi $ 使得蓄电池在充放电过程中获得的奖励值最大。为了进一步优化节能策略,图6所示采用基于DQN的A3C算法,对两个交互的神经网络进行计算,分别为行为(actor)和评判(critic)网络。Actor网络根据环境运行状态,返回蓄电池最佳的执行状态,或者蓄电池的最佳执行策略。Critic网络负责评估返回蓄电池最佳执行动作的优劣,DAC的critic网络通过环境状态和策略动作对网络的策略(
$ \varPsi $ )进行评估打分,返回基于不同状态下采取动作的评分(Q值)。实验中两种网络模型同时执行,critic网络提高了对Q值的预测能力,actor网络不断学习状态,输出最佳的动作。4.1 奖励函数
在蓄电池执行完每一个动作后,智能体会评估该动作的表现,其中运用到的就是奖励函数,奖励函数将智能体的表现通过一定的数字进行量化。
在时间t,智能体的状态为s(t),执行动作a(t)后,奖励函数定义为
$$ R(s(t),a(t)) = \exp (-{C^{\text{e}}}(t)-{C^{\text{u}}}(t)) $$ 在A3C算法中,智能体在第t个时间间隔内执行完一个动作后均会通过
$ R(s(t),a(t)) $ 计算最大的奖励Q值:$$ Q(t) = E\left[\sum\limits_{k = t}^\infty {{\gamma ^k}R(s(t),a(t))} \right] $$ 式中
$ \gamma \in (0,1) $ 为奖励折扣系数,表示后面状态对当前状态的影响,状态距离越远影响越小。4.2 DAC学习模型
DAC学习模型采用A3C算法,通过学习并记录状态−动作之间的转移关系及其Q值,达到网络学习及策略构建的目的:
$$ Q(s(t),a(t)) = E[r(t)\left| {s(t),a(t)} \right.] $$ 智能体在每个时间间隔上获得相应的(
$ s(t),a(t) $ )状态后,通过最大化奖励值策略$ \Pi $ 选择最佳的$ Q(s(t),a(t)) $ ,公式为$$ a(t) = \mathop {\arg \max }\limits_a Q(s(t),a;\theta ) $$ 式中:
$ \theta $ 表示模型的训练参数,$ \alpha $ 为智能体的充放电动作。DAC蓄电池控制算法伪代码如算法1所示。
算法1 DAC蓄电池控制算法
输入 基站功耗需求d(t)及光伏系统产能g(t),1≤t≤T
输出 蓄电池充放电和保持3种状态a(t),1≤t≤T
1)初始化缓冲空间(replay buffer, RB),将其容量值定义为N;
2)初始actor、critic网络,使用随机权重值
$ \theta $ ,$ \tilde \theta $ ;3)初始化actor、critic网络,权重值
$ \tilde \theta $ =$ \theta $ ;4)循环训练网络模型:
5) for e=1:M do:
6) for t=1:T do:
7)获取当前基站环境状态s(t);
8)执行动作a(t)返回奖励值r(t)和s(t+1):
$$ a(t)=\left\{ \begin{array}{l} \mathop {\mathrm{arg}\;{\mathrm{max}}}\limits _{a}Q(s(t),a(t),\theta ),\; \text{prob}=\varepsilon \\ \text{random}\text{action}, \text{prob}= {1-}\varepsilon \end{array} \right. $$ 9)存储
$ \left\langle { {s(t),a(t),r(t),s(t + 1)} } \right\rangle $ 到RB;10)每隔k步骤从RB中随机选取一批经验数据:
$ \left\langle { {s(i),a(i),r(i),s(i + 1)} } \right\rangle $ from RB b every k11)进行网络更新:
$$ \hat Q = \left\{ \begin{gathered} r(t),\;{\text{terminats at}}\;{\mathrm{step}}\;t + 1 \\ r(t) + \gamma {\max _{a(t + 1)}}\left\{ {Q\left( {s(t + 1),a(t = 1);\hat \theta } \right)} \right\},\;{\text{其他}} \\ \end{gathered} \right. $$ 12)执行SGD 计算误差
$ {(\hat Q - Q(s,a;\theta ))^2} $ ,更新θ;13)每隔
$ \tau $ 步骤更新$ \hat Q = Q $ ;14) end
15) end
为了提升A3C算法的稳定性,在模型训练的过程中需要增加3项技术。
经验回放区 存储智能体状态数据
$ \left\langle s(t),a(t), r(t),s(t + 1) \right\rangle $ 及训练后状态更新数据,保证Q值表的实时更新。目标网络 目标网络所有模型参数均拷贝自训练网络,可以设置一定周期时间间隔的参数
$ \tau $ ,目标网络在训练网络执行训练$ \tau $ 周期后复制训练网络的权重。损失函数 DAC的损失函数通过将实际计算得到的Q值与目标网络获得的
$ \overset{\frown}{Q} $ 值相比获得损失值,其计算过程为$$ {\mathrm{Loss}}(\theta ) \leftarrow E\left[ {\hat Q - Q{{(s(t),a(t);\theta )}^2}} \right] $$ 式中
$ \theta $ 为目标网络的权重参数,训练网络在步长间隔$ \tau $ 后从训练网络$ \theta $ 值拷贝值到目标网络$ \tilde \theta $ ,最终目标网络的奖励函数为$$ \overset{\frown}{Q} \leftarrow r(t) + \gamma {\max _a}(t + 1)Q(s(t + 1),a(t + 1);\tilde \theta ) $$ 5. 仿真验证和对比分析
本文首先将提出的DAC应用到5G绿能低碳研究中,取得了较好的节碳效果;其次使用相同数据集的情况下,分别采用DAC、DQN和Q-learning,对5G光伏基站节能的奖励值(含节约的电能及设备的损耗值)进行了对比分析。表1为2024年1—12月5G光伏站点运维数据,其中基站能耗数据采集自基站电表,光伏数据采集自光伏系统,蓄电池初始状态设置为0,蓄电池的实时状态根据DAC智能体充放电算法进行实时更新。
表 1 5G光伏站点运维数据Table 1 5G photovoltaic site operation data时间 基站能耗 光伏产能 2024-07-17T03:00:00 639 0 2024-07-17T04:00:00 646 0 2024-07-17T05:00:00 789 312 2024-07-17T06:00:00 855 514 2024-07-17T07:00:00 997 568 2024-07-17T08:00:00 1 402 756 2024-07-17T09:00:00 1 898 987 5.1 模型参数设置
本文中将计算周期设置为30 d,即一个月缴纳一次电费。同时根据山西太原的实际电费及运行成本设置实验参数,电费按照0.45元/(kW·h)进行计算,其余参数按照设备工业说明设置,如表2所示。
表 2 模型参数设置Table 2 5G model parameter settings参数类别 参数名称 设置 费用策略 费用周期窗口/d 30 能耗价格(${\lambda _{\mathrm{e}}}$)/(元/(kW·h)) 0.45 蓄电池损耗系数($ {\lambda _{\text{b}}} $)/(元/(kW·h)) 2168 蓄电池配置 放电效率(α)/% 85 充电效率(β)/% 99.9 失效性能阈值(SoEinf)/% 10 最大充电最大功率(R+)/kW 16 最大放电功率(R−)/kW 8 光伏 功率比率(gp)/W 4 950 光伏价格($ {\lambda _{\text{p}}} $)/元 31 600 生命周期($ {L^{\text{p}}} $)/年 25 其他参数 状态折扣系数(γ) 0.95 训练周期($ \tau $)/d 30 5.2 DAC模型节能实验
基于PyTorch构建DAC学习模型,首先对DAC进行深度训练,训练过程中actor及critic网络的训练损失如图7所示。
从图7以看出,模型经过200次迭代后,损失从2.3变为0.25,其中actor网络用于将蓄电池运行环境状态输出为充放电动作,而critic网络用于将蓄电池运行环境状态及充放电动作输出为模型的奖励Q值,实现模型的奖励值最大化。
基于训练好的A3C可以准确预测蓄电池的下一步动作,迭代200次后,对模型参数及性能进行评估,图8为DAC节能效果。
从图8可以看出,随着DAC迭代学习次数的增加,模型的总奖励即模型在运行过程中学习后的最小运行成本(电费+光伏损耗+蓄电池损耗)逐渐降低,从每天的88元下降为60元左右。
5.3 采用不同算法的对比结果
对比DAC、Q-learning和DQN的5G节能结果,使用相同数据集的情况下,经过200次迭代后5G节能效果如图9所示。从图9可以看出,DAC具有较低的电费及设备损耗总奖励值。从迭代结果看,相比于DQN,DAC每天节约费用在5元左右,Q-learning在3元左右,节能效率分别提升了8.3%和5%。本文在DAC中,将网络的整体结构分为:训练网络actor和目标网络critic,分别用于计算蓄电池的输出动作和奖励Q值,最终实现了运算结果准确性和鲁棒性的提升。
为了评估引入光伏能源并应用DAC策略后5G网络的绿能低碳效果,本文考虑不同季节光照强度下5G基站绿能节能效果,选取夏天、春天、冬天3个具有明显季节差的场景,通过DAC策略在不同的季节下进行绿能节能分析,图10为以天为粒度电网、蓄电池和光伏平均能耗分布情况,可以看出夏天光照充足时,在10:00—16:00光照强度较大时,光伏产能能够完全满足5G基站供能需求,实现5G绿能低碳化运行。
2024年8月—9月,DAC策略部署以来,光伏累计发电量453.6 kW·h,节约电费369.56元,减少碳排放1 t左右。电网平均每天发电量降低至5.5 kW·h,全年可节约电费4 434元,减少碳排放9 t。
6. 结束语
为了有效降低5G基站能耗,本文提出了一种基于深度行为评判(DAC)策略的5G基站节能方法,通过DAC建立蓄电池充放电策略,提供最优的基站能量供给方式。一个5G基站最大的能耗来源自光伏及蓄电池,DAC策略极大地切断了电网能耗,实现了低碳绿能,同时为了保证实际应用的有效性,本文奖励函数设置为电网能耗、蓄电池损耗及光伏损耗总和,考虑了全部5G耗电运维实际情况。通过实施本文节能策略每年可有效节约电费4 434元,减少碳排放9 t。后续将该策略应用在大型信息技术数据中心,进一步为企业低碳绿能提供大脑服务。
-
表 1 5G光伏站点运维数据
Table 1 5G photovoltaic site operation data
时间 基站能耗 光伏产能 2024-07-17T03:00:00 639 0 2024-07-17T04:00:00 646 0 2024-07-17T05:00:00 789 312 2024-07-17T06:00:00 855 514 2024-07-17T07:00:00 997 568 2024-07-17T08:00:00 1 402 756 2024-07-17T09:00:00 1 898 987 表 2 模型参数设置
Table 2 5G model parameter settings
参数类别 参数名称 设置 费用策略 费用周期窗口/d 30 能耗价格(${\lambda _{\mathrm{e}}}$)/(元/(kW·h)) 0.45 蓄电池损耗系数($ {\lambda _{\text{b}}} $)/(元/(kW·h)) 2168 蓄电池配置 放电效率(α)/% 85 充电效率(β)/% 99.9 失效性能阈值(SoEinf)/% 10 最大充电最大功率(R+)/kW 16 最大放电功率(R−)/kW 8 光伏 功率比率(gp)/W 4 950 光伏价格($ {\lambda _{\text{p}}} $)/元 31 600 生命周期($ {L^{\text{p}}} $)/年 25 其他参数 状态折扣系数(γ) 0.95 训练周期($ \tau $)/d 30 -
[1] 邓翠艳, 齐小刚. 一种注意力机制LSTM的5G网络地铁节电方法[J]. 智能系统学报, 2024, 19(5): 1309−1318. DENG Cuiyan, QI Xiaogang. 5G network subway power-saving method based on attention mechanism LSTM[J]. CAAI transactions on intelligent systems, 2024, 19(5): 1309−1318. [2] 周靖皓, 魏国良, 林健, 等. 5G通信基站光储配置及充放电方法的研究[J]. 电子技术应用, 2024, 50(7): 46−50. ZHOU Jinghao, WEI Guoliang, LIN Jian, et al. The research on the configuration and charging-discharging methods of optical energy storage for 5G communication base station[J]. Application of electronic technique, 2024, 50(7): 46−50. [3] 张红波. 通信基站差异化能源管理与节能优化研究[J]. 长江信息通信, 2024, 37(11): 222−225. ZHANG Hongbo. Differentiated energy management and energy efficiency optimization in communication base stations[J]. Changjiang information & communications, 2024, 37(11): 222−225. [4] 闫洪硕, 冯连勇. 基于能源投入回报方法的光伏治沙模式综合效益分析[J]. 生态经济, 2020, 36(7): 170−175. YAN Hongshuo, FENG Lianyong. Comprehensive benefit analysis of photovoltaic sand control based on EROI[J]. Ecological economy, 2020, 36(7): 170−175. [5] 李星锴, 陈湘萍, 蔡永翔, 等. 高比例分布式光伏并网背景下配电系统电碳耦合规划方法[J]. 中外能源, 2025, 30(1): 38−46. LI Xingkai, CHEN Xiangping, CAI Yongxiang, et al. Electric-carbon coupling planning method for distribution grids in the con-text of high percentage of distributed photovoltaic grid integration[J]. Sino-global energy, 2025, 30(1): 38−46. [6] WU Huangying, XIE Shangzhen, CHEN Guopeng, et al. Effective integrated thermal management using hygroscopic hydrogel for photovoltaic-thermoelectric applications[J]. Journal of colloid and interface science, 2025, 683: 81−91. doi: 10.1016/j.jcis.2024.12.127 [7] 李文博, 李岳岩. 实景三维模拟下的农宅光伏布置策略研究: 以西安市临潼区李坡村为例[J]. 建筑科学, 2024, 40(12): 58−66. LI Wenbo, LI Yueyan. Study on photovoltaic layout strategies for rural houses in real-scene 3 D simulation: a case study of lipo village, Lintong district, Xi’an[J]. Building science, 2024, 40(12): 58−66. [8] DAXINI R, WILSON R, WU Yupeng. Seasonal and intraday effects on spectral mismatch corrections for photovoltaic performance modelling in the United Kingdom[J]. Energy reports, 2025, 13: 759−769. doi: 10.1016/j.egyr.2024.11.086 [9] WANG Shuang, WU Siwei, TANG Bo, et al. Generation method of wind power and photovoltaic output scenarios based on LHS-GRU[J]. Sustainable energy, grids and networks, 2025, 41: 101602. doi: 10.1016/j.segan.2024.101602 [10] ICHIMESCU A, POPESCU N, POPOVICI E C, et al. Energy efficiency for 5G and beyond 5G: potential, limitations, and future directions[J]. Sensors, 2024, 24(22): 7402. doi: 10.3390/s24227402 [11] KHAN A, ZHANG Jinling, AHMAD S, et al. DQN-based proactive trajectory planning of UAVs in multi-access edge computing[J]. Computers, materials & continua, 2023, 74(3): 4685−4702. [12] JIANG Dingde, ZHU Bowen, SUN Junyang, et al. Rethinking max-Min planning on energy-efficient software-defined networking for 5G networks[J]. Scientific reports, 2024, 14(1): 25709. doi: 10.1038/s41598-024-76504-9 [13] HOU Zihao, LONG Chao, QI Qi, et al. Optimal planning of SOP in distribution network considering 5G BS collaboration[J]. IET renewable power generation, 2024, 18(15): 3040−3052. doi: 10.1049/rpg2.13131 [14] BESCHASTNYI V, OSTRIKOVA D, MOLTCHANOV D, et al. Comparison of energy conservation strategies for 5G NR RedCap service in industrial environment[J]. Computer networks, 2024, 254: 110792. doi: 10.1016/j.comnet.2024.110792 [15] RAMESH P, BHUVANESWARI P T V, DHANUSHREE V S, et al. User association-based load balancing using reinforcement learning in 5G heterogeneous networks[J]. The journal of supercomputing, 2024, 81(1): 328. [16] 郭猛. 基于5G网络承载能力的负荷均衡功能研究[J]. 计算机应用文摘, 2023, 39(18): 134−136. GUO Meng. Research on load balancing function based on 5G network carrying capacity[J]. Chinese journal of computer application, 2023, 39(18): 134−136. [17] ELSHERIF F, CHONG E K P, KIM J H. Energy-efficient base station control framework for 5G cellular networks based on Markov decision process[J]. IEEE transactions on vehicular technology, 2019, 68(9): 9267−9279. doi: 10.1109/TVT.2019.2931304 [18] NG J, WANG X, SINGH A K, et al. Defragmentation for efficient runtime resource management in NoC-based many-core systems[J]. IEEE transactions on very large scale integration systems, 2016, 24(11): 3359−3372. doi: 10.1109/TVLSI.2016.2548564 [19] THAKKAR P, PATEL A S, SHUKLA G, et al. Dynamic microservice provisioning in 5G networks using edge–cloud continuum[J]. Journal of network and systems management, 2024, 32(4): 87. doi: 10.1007/s10922-024-09859-z [20] SAHA T, CHAUHAN P, PRADHAN K, et al. Priority-based subcarrier allocation algorithm for maximal network connectivity in 5G networks[J]. Physical Communication, 2024, 66: 102443. doi: 10.1016/j.phycom.2024.102443 [21] ALI MANSOURI W, MOHAMMED ELMOURSSI D, ELYASS W A. Enhancing V2X QoS: dynamic scheduling scheme over 5G networks and byon[J]. International journal of information technology, 2024, 16(7): 4427−4433. doi: 10.1007/s41870-024-02031-5 [22] GOWRI S, VIMALANAND S. QoS-aware resource allocation scheme for improved transmission in 5G networks with IOT[J]. SN computer science, 2024, 5(2): 234. doi: 10.1007/s42979-023-02563-w [23] 孙通, 张沈习, 曹毅, 等. 计及5G基站可调特性的配电网分布式光伏准入容量鲁棒优化[J]. 中国电力, 2025, 58(2): 140−146. doi: 10.11930/j.issn.1004-9649.202403032 SUN Tong, ZHANG Shenxi, CAO Yi, et al. Robust optimization of hosting capacity of distributed photovoltaics in distribution network considering adjustable characteristics of 5G base station[J]. Electric power, 2025, 58(2): 140−146. doi: 10.11930/j.issn.1004-9649.202403032 [24] MA Xiufan, DUAN Ying, MENG Xiangyu, et al. Optimal configuration for photovoltaic storage system capacity in 5G base station microgrids[J]. Global energy interconnection, 2021, 4(5): 465−475. doi: 10.1016/j.gloei.2021.11.004 [25] PETRESCU F I T. Structure of a photovoltaic electric locomotive[J]. American journal of engineering and applied sciences, 2019, 12(4): 503−507. doi: 10.3844/ajeassp.2019.503.507 [26] 骆钊, 刘德文, 贾芸睿, 等. 考虑绿色氢能证书和水电制氢的综合能源系统优化运行[J]. 电网技术, 2024, 48(4): 1445−1458. LUO Zhao, LIU Dewen, JIA Yunrui, et al. Optimal operation of integrated energy system considering green hydrogen certificate and hydrogen production by hydropower[J]. Power system technology, 2024, 48(4): 1445−1458. [27] BROUZAS S, ZADEH M, LAGEMANN B. Essentials of hydrogen storage and power systems for green shipping[J]. International journal of hydrogen energy, 2025, 100: 1543−1560. doi: 10.1016/j.ijhydene.2024.12.253 [28] YANG Fengyu, WANG Dazhi. IoT-enabled intelligent fault detection and rectifier optimization in wind power generators[J]. Alexandria engineering journal, 2025, 116: 129−140. doi: 10.1016/j.aej.2024.12.033 [29] TRIPATHI S, SHRIVASTAVA A, JANA K C. An efficient energy management system for a micro-grid system considering the volatility of hybrid renewable energy[J]. International journal of hydrogen energy, 2025, 101: 673−691. doi: 10.1016/j.ijhydene.2024.12.260 [30] NIRWAN A, TAO Han. Green mobile networks: a networking perspective[M]. New York: Wiley-IEEE Press, 2016: 25−32.
下载:













































































































