Proactive intelligent energy-saving optimization algorithm for data center CCHP system
-
摘要: 现有的数据中心节能降碳优化方法没有综合考虑碳足迹涉及的能源输入、生产耗能以及废余利用等环节的耦合性,难以实现系统性节能降碳。为此,提出了一种基于深度强化学习的优化算法DeepCCHP(deep combined cooling, heating and power generation),针对数据中心冷热电联产系统,联合控制供电子系统和制冷子系统,优化用电成本、碳排放量和能效。DeepCCHP结合长、短期时间序列网络和深度强化学习方法对联合优化问题进行求解,实现前摄式的联合控制发电设备和制冷设备。在基于Trnsys软件的仿真环境中,通过阿里巴巴数据中心集群数据的训练和验证。实验结果表明,与基准算法相比,DeepCCHP算法可以节省最高40%的成本和28%的碳排放量,且能够在能源成本、碳排放和能效三者之间取得更好的折中与平衡。Abstract: The existing methods for energy-saving and carbon reduction optimization in data centers lack a comprehensive consideration of the coupling of carbon footprint-related factors, including energy input, production consumption, and waste utilization. This limitation hinders the achievement of systematic energy-saving and carbon reduction. To address this issue, a deep reinforcement learning-based optimization algorithm, named DeepCCHP, is proposed. This algorithm focuses on the combined cooling, heating and power generation (CCHP) in data centers, employing coordinated control of the power supply and cooling systems to optimize electricity cost, carbon emissions, and PUE. DeepCCHP integrates a long and short-term time-series network-attention (LSTNet-Attn) for multi-dimensional time series forecasting and a deep reinforcement learning approach to solve the joint optimization problem, achieving proactive joint control of power generation and cooling equipment. The algorithm is validated through training and verification using Alibaba data center cluster data in a simulation environment based on Trnsys software. Experimental results demonstrate that, compared with baseline algorithms, the DeepCCHP algorithm can achieve up to 40% cost savings and 28% reduction in carbon emissions. It also demonstrates a better trade-off and balance among energy cost, carbon emissions, and energy efficiency.
-
近年来,云计算、大数据分析、人工智能[1]、加密货币等领域的发展导致数据中心规模、电能消耗和间接二氧化碳排放量急剧增加。截至2021年底,我国在用数据中心机架规模达到520万架,机架规模年均复合增速超30%[2]。规模效应导致2020年我国数据中心能耗约为1.507×1011 kW·h,约占全社会用电量的2%,二氧化碳排放量超过9×107 t,预计2035年数据中心能耗约将高达4.505×1011~
4855 ×1011 kW·h,二氧化碳排放量超2×108 t[3]。但是,我国近85%企业数据中心能效值(power usage effectiveness,PUE)(PUE为数据中心总能耗与IT设备能耗的比值,越接近1表明能效越好)在1.5~2.0,存在较大提升空间[4]。因此,为了实现数据中心的绿色可持续发展、切实推动实现数据中心行业“碳达峰”和“碳中和”目标,迫切需要针对数据中心高能耗/高碳排和低能效的现实问题,研究数据中心节能降碳优化方法。随着多能互补[5]与余热回收技术[6]的发展,冷热电联产(combined cooling heating and power,CCHP)为数据中心节能降碳提供了新的思路和机遇。CCHP以气体燃料作为一次能源,用户端的冷、热、电需求为二次能源,燃气燃烧直接发电,并且回收高温烟气的余热用于供热和制冷,实现能源的梯级利用。数据中心CCHP包含供电子系统、IT子系统以及制冷子系统等多个组成部分,同时也涉及电力供应、冷量供应以及余热回收等多个环节。如果仅对其中某个子系统[7]或者单一环节进行节能降碳优化,一方面,节能降碳效果有限,另一方面可能会与其他环节产生消除效应,难以真正实现系统性节能降碳。
另外,数据中心碳足迹涉及的设施设备众多,系统状态具有高维高动态性和随机性[8],例如IT工作负载、热循环、时变的环境温度以及电价等,传统基于数学模型的方法[9]难以很好地捕获和处理这些系统特性。同时,热传递具有时滞性,一般数据中心机房需要5~10 min才能达到新的热平衡状态,因此简单的热感知式制冷控制[10]也会有相应的延迟。综上,为了实现数据中心系统性节能降碳,进而推动数据中心行业“双碳”目标,需要综合考虑数据中心电力供应、冷量供应以及余热回收等生产全过程的能耗与碳排,对数据中心CCHP进行联合管控,以有效地协调电力、热能和制冷的生成与分配。
已有的数据中心节能降碳工作可以大致分为面向某个单一子系统的优化控制[10-15]和面向多子系统的联合优化控制[16-21]。首先,针对单一子系统的节能降碳优化,主要包括负载和热感知的制冷系统控制[10-11]、热感知的IT任务调度[12-14]、CCHP数据中心优化[15]等,这些方法虽然在某一个子系统上取得了节能降碳成效,但忽略了数据中心中各个子系统之间的相互关联和影响,可能会降低其他子系统的能效,从而导致数据中心整体并未提升。其次,针对多子系统的节能降碳联合优化,主要包括能源与IT调度联合[16-18]、IT调度与制冷调节联合[19-21]等,将多个子系统或设施设备进行协同管控,能够实现更高效的节能减碳效果,但是这些联合优化方法没有充分考虑整个数据中心的碳足迹,未能实现数据中心从能源输入−生产能耗−废余利用的整体节能降碳优化。
为了应对上述挑战和问题,本文提出了一种基于深度强化学习的数据中心智能节能优化算法DeepCCHP (deep combined cooling, heating and power generation)。该算法针对数据中心冷热电联产系统,综合考虑了数据中心的多源供电模型、能耗模型以及热模型等,并建立了多目标优化问题对用电成本、碳排放量和能效进行优化;同时,结合多元时间序列预测网络(long and short-term time-series network-attention,LSTNet-Attn)和深度强化学习方法对联合优化问题进行求解,实现对发电设备和制冷设备的前摄式联合控制;最后,为了以安全快速的方式训练和评估所提出的算法,构建了数据中心CCHP数字孪生模型,并借助阿里巴巴数据中心集群数据集驱动数字孪生模型进行实验。
1. 相关工作
本节调研了数据中心节能降碳的相关研究。现有工作可分为两类:面向单一子系统的节能降碳优化和多子系统联合节能降碳优化。
1.1 面向单一子系统的节能降碳优化
面向单一子系统的节能降碳优化侧重于对数据中心内部单一系统或设备(如设备能效改进、服务器功耗管理和数据中心温度管理等)进行改进和优化,以提高其能源效率和减少碳排放。
Wang等[10]提出了一种用于数据中心冷却控制的安全感知强化学习(deep reinforcement learning,DRL)框架,节省了18%~26.6%的数据中心总功率,减少了94.5%~99%的安全违规行为,但是并没有考虑数据中心的热迟滞效应。He等[11]为了实现最小的系统能耗,通过拟合表达式计算出与不同环境温度相对应的最优冷冻水温度和水流量,与未优化的情况相比,功耗降低了21.3%。 Yadav 等[12]提出了一种基于随机梯度下降的CPU利用率上限调节算法和一种最小大小利用率的动态虚拟机选择算法,在指定的服务级别协议(service level agreement,SLA)目标下能保持能耗最小化和QoS最大化。Zhou等[13]提出了一种新颖的适应性能源感知的虚拟资源分配和部署机制,其能源消耗、SLA违规和能源效率方面优于其他能源感知算法。Venkataswamy等[14]介绍了一种深度强化学习的任务调度程序,可自动学习有效的作业调度策略,同时不断适应数据中心复杂的动态环境,其性能优于具有不同工作负载的启发式调度策略,并适应可再生能源的间歇性电力供应。Ngobeni 等[15]提出了一种使用燃气发电机的不可再生能源的三联产系统的设计策略。电力将用于数据中心消耗,来自发动机和废气的热量将用于吸收式制冷机,从而提高系统的效率。
这些方法虽然在某一个子系统上取得了节能降碳成效,但忽略了数据中心中各个子系统之间的相互关联和影响,可能会降低其他子系统的能效,从而导致数据中心整体能效并未提升。
1.2 面向多子系统的节能降碳联合优化
为了实现数据中心更高的能源效率和更低的碳排放,一些研究将多个系统或设备进行协同调控,以实现更高效的节能减碳效果。
Lyu等[16]提出了一种新颖的能源站优化尺寸方法,其中能源站的容量与能源设备和服务器的调度方案同时优化,案例表明该方法能有效降低总成本。Zhang等[17]提出一种深度强化学习方法,用于控制多微电网系统的电池充放电功率和IT设备的工作负载调度,仿真结果表明,与基线算法相比所提算法可使各微电网长期成本降低0.09%~8.02%。Praveenchandar等[18]提出了一种改进的动态资源分配方法,包括任务调度和电源管理模块,缩短了响应时间,提升了资源利用率和任务完成率。Ran等[19]提出了一种基于深度强化学习的优化框架DeepEE(deep energy efficiency),联合优化数据中心任务调度和冷却控制。通过引入参数化动作空间深度Q-网络(parameterized action space based deep Q-network,PADQN)算法,实现了更高效、精确的能耗管理。Chi等[20]设计了一个混合深度策略梯度(deep deterministic policy gradient,DDPG)协作的多Agent框架,以进一步加强IT和冷却系统之间的协作,该方法可以有效降低数据中心的能耗,同时确保训练稳定性并提高资源利用率。Ran等[21]提出了一种基于深度强化学习的事件驱动控制范式和优化算法。原则是根据某些关键事件(例如过热)做出决策,而不是固定的周期性控制。所提算法将调节决策的数量减少了70%∼95%,并能实现较好的能源效率。
将多个子系统或设施设备进行协同管控,虽然能够实现更高效的节能减碳效果,但是现有的联合优化方法没有充分考虑整个数据中心的碳足迹,未能实现数据中心从能源输入−生产能耗−废余利用的整体节能降碳优化。
2. DeepCCHP系统模型与优化问题
2.1 系统架构
本文提出的数据中心CCHP节能降碳联合优化算法DeepCCHP的DeepCCHP系统架构如图1所示,主要包含数据中心CCHP系统和DeepCCHP智能控制系统。
1) 数据中心CCHP系统主要包括供电子系统、制冷子系统和IT子系统。
供电子系统为数据中心提供电力需求。在数据中心CCHP系统中,电力来源分为两部分:1)燃气或其他一次性能源通过发电机组(power generation unit,PGU)燃烧发电,2)电网供电。其中PGU发电过程中产生的废热将被吸收式制冷机回收用于制冷。
制冷子系统负责为数据中心机房提供制冷。在数据中心CCHP系统中,制冷来自于两部分:1)电制冷机(electric chiller, EC)消耗电能向数据中心机房提供冷冻水;2)吸收式制冷机(absorption chiller, AC)回收PGU和冷却水的余热,进行循环制冷,向数据中心机房提供冷冻水。机房空气处理机组(computer room air handler,CRAH)通过驱动风机实现冷冻水盘管和空气的热交换为数据中心机房冷通道提供冷空气。水源热泵对冷却水进行余热回收并提高其品质,并将余热输送给吸收式制冷机再制冷。水泵用来实现冷却水或者冷冻水的循环。冷却塔利用水和空气的接触,通过蒸发作用散去从冷水机组交换来的热。
IT子系统包括计算服务器、存储设备、交换机等。IT设备用于处理、存储和传输数据,并产生热。
2) DeepCCHP智能控制系统的工作流程如图1所示,智能决策器与数据中心环境(包括能源设备和冷却设备)之间的交互是一个连续的过程。智能决策器需要根据数据中心当前的状态
${s_t}$ ,在每个决策周期$t$ 上做出决策,对PGU的发电量和电制冷机的冷冻水出水温度进行优化控制。2.2 DeepCCHP系统模型
DeepCCHP系统模型包括供电模型、能耗模型、热回收模型、能量守恒模型和综合评估模型。假设DeepCCHP的系统为一个分时隙(time-slotted)系统,用时隙
$t$ 进行索引,系统运行总时隙为T,每个时隙的时长为∆t。2.2.1 供电模型
本文假设PGU是以天然气为输入能源,实现气−电能量转换。PGU的发电功率可以描述为[22]
$$ {P_{{\text{PGU}}}}\left( t \right) = {G_{{\text{PGU}}}}\left( t \right) \cdot {H_{\text{G}}} \cdot {\eta _{{\text{PGU}}}}/\Delta t $$ 式中:
$ {G_{{\text{PGU}}}}\left( t \right) $ 为天然气$t$ 时段的消耗量,${{\text{m}}^3}$ ;$ {H_{\text{G}}} $ 为天然气的热值,(W·h)/m3;$ {\eta _{{\text{PGU}}}} $ 为PGU的电能转换效率;$\Delta t$ 为时隙的时间间隔,${\text{s}}$ 。PGU的发电功率受发电机的容量限制,存在约束:
$$ 0 \leqslant {P_{{\text{PGU}}}} \leqslant P_{{\text{PGU}}}^{{\text{max}}} $$ (1) 另外,假设电网的输电功率为
${P_{{\text{PG}}}}\left( t \right)$ ,电网供电和PGU供电将根据电价、天然气价格、碳排因子以及数据中心用电需求等因素,互为补充。2.2.2 能耗模型
IT设备的负载可以描述为[19]
$$ {P_{{\text{IT}}}}\left( t \right) = {P_{{\text{idle}}}} + \left( {{P_{{\text{full}}}} - {P_{{\text{idle}}}}} \right) \cdot u\left( t \right) $$ 式中:
${P_{{\text{idle}}}}$ 为服务器的空闲状态能耗,$ {P_{{\text{full}}}} $ 为服务器满载状态能耗,$u\left( t \right)$ 为数据中心服务器的平均CPU利用率。EC的能耗由制冷量和性能系数决定,所以EC的能耗可以描述为[9]
$$ {P_{{\text{EC}}}} = \frac{{Q_{{\text{EC}}}^{\text{e}}}}{{{C_{{\text{COP}},{\text{EC}}}}}} $$ $$ Q_{{\text{EC}}}^{\text{e}} = {c_{\text{p}}} \cdot m_{{\text{EC}}}^{\text{e}} \cdot \left( {T_{{\text{EC}}}^{{\text{e,i}}} - T_{{\text{EC}}}^{{\text{e,o}}}} \right) $$ 式中:
$Q_{{\text{EC}}}^{\text{e}}$ 为EC的制冷量,kW;${C_{{\text{COP,}}{\text{EC}}}}$ 为EC的性能系数;${c_{\text{p}}}$ 为水的定压比热容,$ {\text{kJ/}}({\text{kg}} \cdot {\text{K}}) $ ;$m_{{\text{EC}}}^{\text{e}}$ 为EC冷冻水质量流量,kg/h;$ T_{{\text{EC}}}^{{\text{e,i}}} $ 为EC冷冻水回水温度,℃;$T_{{\text{EC}}}^{{\text{e,o}}}$ 为EC冷冻水出水温度,℃。另外,EC的冷冻水出水温度应受约束:
$$ T_{{\text{EC}}}^{{\text{min}}} \leqslant T_{{\text{EC}}}^{{\text{e,o}}} \leqslant T_{{\text{EC}}}^{{\text{max}}} $$ (2) 式中
$T_{{\text{EC}}}^{{\text{min}}}$ 和$T_{{\text{EC}}}^{{\text{max}}}$ 分别为EC冷冻水出水温度的最小和最大值。吸收式制冷机的能耗分为热能耗和电能耗,而由于电能消耗相对较小,所以可以忽略不计[9]。热能耗可以描述为[23]
$$ Q_{{\text{AC}}}^{\text{g}} = \frac{{Q_{{\text{AC}}}^{\text{e}}}}{{{C_{{\text{COP,AC}}}}}} $$ $$ Q_{{\text{AC}}}^{\text{e}} = {c_{\text{p}}} \cdot m_{{\text{AC}}}^{\text{e}} \cdot \left( {T_{{\text{AC}}}^{{\text{e,i}}} - T_{{\text{AC}}}^{{\text{e,o}}}} \right) $$ 式中:
$Q_{{\text{AC}}}^{\text{e}}$ 为AC的制冷量,kW;$ {C_{{\text{COP,AC}}}} $ 为AC的性能系数;$m_{{\text{AC}}}^{\text{e}}$ 为AC冷冻水的质量流量,kg/h;$T_{{\text{AC}}}^{{\text{e,i}}}$ 为AC冷冻水回水温度,℃;$T_{{\text{AC}}}^{{\text{e,o}}}$ 为AC冷冻水出水温度,℃。另外,AC的冷冻水出水温度应受约束:
$$ T_{{\text{AC}}}^{{\text{min}}} \leqslant T_{{\text{AC}}}^{{\text{e,o}}} \leqslant T_{{\text{AC}}}^{{\text{max}}} $$ (3) 式中
$T_{{\text{AC}}}^{{\text{min}}}$ 和$T_{{\text{AC}}}^{{\text{max}}}$ 分别为AC冷冻水出水温度的最小和最大值。风机能耗包括冷却塔风机能耗和CRAH风机能耗,其能耗可以根据风机的频率来估计,因此,冷却塔风机和CRAH风机的能耗可以描述为[24]
$$ {P_{{\text{CT}}}}\left( t \right),{P_{{\text{CRAH}}}}\left( t \right) = {P_{{\text{base}}}} \cdot {\left( {R\left( t \right)/{R_{{\text{base}}}}} \right)^3} $$ 式中:
$ {P_{{\text{base}}}} $ 为冷却塔风机空闲状态的能耗,kW;${R_{{\text{base}}}}$ 为风机的额定转速,Hz;$R\left( t \right)$ 为$t$ 时段的风机转速,Hz。水泵能耗可以基于流量−扬程特性[24]描述:
$$ {P_{{\text{pump}}}}\left( t \right) = m\left( t \right) \cdot g \cdot H/\left( {\Delta t \cdot {\eta _{{\text{pump}}}}} \right) $$ 式中:
$m\left( t \right)$ 为水泵的质量流量,kg/h;g为重力加速度,${\text{m/}}{{\text{s}}^2}$ ;$H$ 为水泵的扬程,m;${\eta _{{\text{pump}}}}$ 为水泵的运行效率。水源热泵是一种通过电能从冷却水中提取热能并转移到吸收式制冷机的设备。其能耗可以描述为
$$ {P_{{\text{HP}}}}\left( t \right) = \frac{{{Q_{{\text{CW}}}}}}{{{C_{{\mathrm{COP}},{\mathrm{HP}}}}}} $$ 式中:
$ {C_{{\mathrm{COP}},{\mathrm{HP}}}} $ 为热泵的效率,${Q_{{\text{CW}}}}$ 为热泵对冷却水回收的热功率。2.2.3 热回收模型
PGU发电过程中会产生大量余热,所以PGU发电过程中回收的热功率可以描述为
$$ {Q_{{\text{PGU}}}}\left( t \right) = {G_{{\text{PGU}}}}\left( t \right) \cdot {H_{\text{G}}}\left( {1 - {\eta _{{\text{PGU}}}}} \right){\varepsilon _{{\text{PGU}}}}/\Delta t $$ 式中
${\varepsilon _{{\text{PGU}}}}$ 为对PGU的热回收效率。水源热泵对冷却水进行余热回收并提高其品质,水源热泵回收的热功率可以描述为
$$ {Q_{{\text{CW}}}} = {c_{\text{p}}} \cdot {m_{{\text{HP}}}} \cdot \left( {T_{{\text{HP}}}^{{\text{c,i}}} - T_{{\text{HP}}}^{{\text{c,o}}}} \right) \cdot {\varepsilon _{{\text{CW}}}} $$ 式中
${\varepsilon _{{\text{CW}}}}$ 对冷却水的热回收效率。2.2.4 能量守恒模型
数据中心CCHP系统需要满足电和热守恒,即有
$$ \begin{gathered} {P_{{\text{PGU}}}}\left( t \right) + {P_{{\text{PG}}}}\left( t \right) - {P_{{\text{IT}}}}\left( t \right) - {P_{{\text{EC}}}} - \\ {P_{{\text{pump}}}}\left( t \right) - {P_{{\text{CT}}}}\left( t \right) - {P_{{\text{CRAH}}}}\left( t \right) - {P_{{\text{HP}}}}\left( t \right) = 0 \\ \end{gathered} $$ (4) $$ {Q_{{\text{PGU}}}}\left( t \right) - {Q_{{\text{CW}}}}\left( t \right) - {Q_{{\text{AC}}}}\left( t \right) = 0 $$ (5) 2.2.5 综合评估模型
能源效率PUE是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载消耗的能源的比值。PUE值越接近于1,表示数据中心的能源使用效率越高。PUE描述为
$$ {C_{{\mathrm{PUE}}}} = \frac{{\displaystyle\sum\limits_{t = 1}^T {{P_{{\text{cooling}}}}\left( t \right)} + \sum\limits_{t = 1}^T {{P_{{\text{IT}}}}\left( t \right)} }}{{\displaystyle\sum\limits_{t = 1}^T {{P_{{\text{IT}}}}\left( t \right)} }} $$ (6) $$ \begin{array}{l}{P}_{\text{cooling}}\left(t\right)= {P}_{\text{EC}}+{P}_{\text{pump}}\left(t\right)+ {P}_{\text{CT}}\left(t\right)+{P}_{\text{CRAH}}\left(t\right)+{P}_{\text{HP}}\left(t\right)\end{array} $$ 能源成本用于评估数据中心的能源成本,与能源消耗量和能源价格相关,因此能源成本描述为
$$ \begin{gathered} {C_{{{\mathrm{Cos}}} {\mathrm{t}}}} = \frac{{\text{1}}}{T}\mathop \sum \limits_{t = 1}^T {p_{{\text{gas}}}}\left( t \right) \cdot {G_{{\text{PGU}}}}\left( t \right) + \frac{{\text{1}}}{T}\mathop \sum \limits_{t = 1}^T {p_{{\text{grid}}}}\left( t \right) \cdot {P_{{\text{PG}}}}\left( t \right) \end{gathered} $$ (7) 式中:
$ {p_{{\text{gas}}}}\left( t \right) $ 、$ {p_{{\text{grid}}}}\left( t \right) $ 分别为天然气价格和电网电价。碳排放量(carbon dioxide emission,CDE)的计算基于能源消耗和相关碳排放因子,因此碳排放量描述为
$$ {C_{{\mathrm{CDE}}}} = \frac{{\text{1}}}{T}\mathop \sum \limits_{t = 1}^T {C_{{\text{CDE, gas}}}}\left( t \right) + \frac{{\text{1}}}{T}\mathop \sum \limits_{t = 1}^T {C_{{\text{CDE, grid}}}}\left( t \right) $$ (8) $$ {C_{{\text{CDE, gas}}}}\left( t \right) = {G_{{\text{PGU}}}}\left( t \right) \cdot {E_{{\text{NCV, gas}}}} \cdot {E_{{\text{gas}}}} $$ $$ {C_{{\text{CDE, grid}}}}\left( t \right) = {P_{{\text{PG}}}}\left( t \right) \cdot {E_{{\text{grid}}}} $$ 式中:
${C_{{\text{CDE, gas}}}}\left( t \right)$ 为天然气发电碳排放量,${C_{{\text{CDE, grid}}}}$ 为电网用电碳排放量,${E_{{\text{NCV, gas}}}}$ 为天然气的平均低位发热量,${E_{{\text{gas}}}}$ 为天然气的碳排放因子,${E_{{\text{grid}}}}$ 为电网碳排放因子。2.3 优化问题
为了提升数据中心CCHP系统的能效、降低用电成本和碳排放量,本文提出了DeepCCHP方法对供电子系统和制冷子系统联合优化,即对PGU发电功率的调节量
$ \Delta {P_{{\text{PGU}}}}$ 和EC冷冻水出水温度的调节量$ \Delta T_{{\text{EC}}}^{{\text{e,o}}}$ 进行联合决策。因此,目标函数可以表示为$$ \begin{gathered} \mathop {{\text{min}}}\limits_{ \Delta {P_{{\text{PGU}}}}, \Delta T_{{\text{EC}}}^{{\text{e,o}}}} \Bigg[ {{C_{{\text{PUE}}}} + {C_{{\text{Cost}}}} + {C_{{\text{CDE}}}} + } \\ {\frac{{\text{1}}}{T}\mathop \sum \limits_{t = 1}^T \ln \left( {1 + \exp \left( {{T_{{\text{room}}}} - {\psi _T}} \right)} \right)} \Bigg] \\ \end{gathered} $$ (9) $$ {\mathrm{s}}.{\mathrm{t}}.(1)(2)(3)(4)(5) $$ 式(9)的第4项表示为数据中心机房温度过热的Softplus惩罚函数,其中
${T_{{\text{room}}}}$ 为数据中心机房的温度,${\psi _T}$ 为数据中心房间安全温度的阈值,与直接使用$\max (0,{T_{{\text{room}}}} - {\psi _T})$ 相比,Softplus具有光滑性和可微性,使优化更简单有效。约束条件为设备容量和能量守恒的约束。3. DeepCCHP算法
3.1 强化学习基本要素
由于数据中心碳足迹涉及的系统状态具有高维高动态性和随机性,且控制变量都为连续值,因此本文提出基于深度确定性策略梯度(deep deterministic policy gradient, DDPG[25])的联合优化控制算法DeepCCHP对优化问题进行求解。DeepCCHP状态、动作和奖励函数定义如下:
DeepCCHP的系统状态向量可表示为
$ \boldsymbol{s}= \left[\boldsymbol{s}_{\text{thl}}\ \ \boldsymbol{P}_{\text{IT}}\ \ P_{\text{PGU}}\ \ p_{\text{grid}}\right] $ ,每个状态取N个历史值,如IT功耗状态$ \boldsymbol{P}_{\text{IT}}=\left[P_{\text{IT}}\left(t\right)\ P_{\text{IT}}\left(t-1\right)\ \cdots\ P_{\text{IT}}\left(t-N\right)\right] $ 。其中热状态$ \boldsymbol{s}_{\text{thl}}=\left[T_{\text{EC}}^{\text{e,i}}\ \ T_{\text{AC}}^{\text{e,o}}\ \ T_{\text{room}}\right] $ ,由电制冷机和吸收式制冷机的冷冻水出水温度以及数据中心机房温度的时间序列状态组成;${P_{{\text{PGU}}}}$ 为PGU的发电功率时间序列状态;${p_{{\text{grid}}}}$ 表示电网电价的时间序列状态。DeepCCHP将对PGU发电功率
$ \Delta {P_{{\text{PGU}}}}$ 和EC的冷冻水出水温度$ \Delta T_{{\text{EC}}}^{{\text{e,o}}}$ 进行联合控制,因此动作向量可以表示为$ \boldsymbol{a}=\left[\Delta T_{\text{EC}}^{\text{e,o}}\; \ \Delta P_{\text{PGU}}\right] $ 。为了避免EC冷冻水出水温度和PGU发电功率在短时间内发生剧烈变化,引入爬坡约束$ - {{\Delta }}T_{{\text{EC}}}^{{\text{max}}} \leqslant {{\Delta }}T_{{\text{EC}}}^{{\text{e,o}}} \leqslant {{\Delta }}T_{{\text{EC}}}^{{\text{max}}} $ 和$ - \Delta P_{{\text{PGU}}}^{{\text{max}}} \leqslant \Delta {P_{{\text{PGU}}}} \leqslant \Delta P_{{\text{PGU}}}^{{\text{max}}}$ ,保证系统的稳定性。根据优化目标,智能体的奖励函数设置为
$$ \begin{gathered} r = {r_{\text{1}}} - {C_{{\mathrm{PUE}}}} - {\beta _{\text{1}}}{C_{{{\mathrm{Cos}}} {\mathrm{t}}}} - {\beta _{\text{2}}}{C_{{\mathrm{CDE}}}} - \\ \ln \left( {1 + \exp \left( {{T_{{\text{room}}}} - {\psi _{\text{T}}}} \right)} \right) - {\tau _{\text{1}}} \end{gathered} $$ 式中:
${r_{\text{1}}}$ 为一个较大的常数,以保证奖励为正;${\beta _{\text{1}}}$ 和${\beta _{\text{2}}}$ 分别为能源成本和碳排放量的权值;$\ln \left( {1 + \exp \left( {{T_{{\text{room}}}} - {\psi _{\text{T}}}} \right)} \right)$ 为数据中心机房温度过高的惩罚,其中${\psi _{\text{T}}}$ 为机房安全温度阈值;${\tau _{\text{1}}}$ 为智能体违反约束条件的惩罚。3.2 DeepCCHP的训练与预测网络
3.2.1 Critic网络
原始的DDPG算法[25],使用了两个神经网络:一个是Actor网络
$ \mu \left( {{\boldsymbol{s}};\phi } \right) $ ,用于学习策略函数(确定性策略);另一个是Critic网络$Q\left( {{\boldsymbol{s}},{\boldsymbol{a}};\omega } \right)$ ,用于学习值函数。Critic网络在迭代后可以通过最小二乘损失函数的梯度来更新参数$\omega $ ,损失函数和目标值${y_t}$ 分别定义为$$ L = \frac{{\text{1}}}{M}\mathop \sum \limits_{{\text{j}} = 1}^M {\left( {{y_t} - Q\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t};\omega } \right)} \right)^2} $$ (10) $$ {y_t} = r\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t}} \right) + \gamma \max Q\left( {{{\boldsymbol{s}}_{t + 1}},\mu \left( {{{\boldsymbol{s}}_{t + 1}};\phi } \right);\omega } \right) $$ (11) 式中:目标网络
$Q'\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t};\omega '} \right)$ 用于估计目标值${y_t}$ ;目标网络的参数$\omega '$ 会根据Critic网络的参数$\omega $ 进行缓慢地更新,$ \omega ' \leftarrow \lambda \omega + \left( {1 - \lambda } \right)\omega ' $ ;$ \lambda $ 为软更新系数,为0~1的常数。3.2.2 Actor网络
Actor网络的目的是输出动作使Critic网络得到最大价值,因此可以使用梯度上升的方法更新
$\phi $ ,使用策略梯度:$$ {\nabla _\phi }J \approx \frac{1}{M}\mathop \sum \limits_{j = 1}^M {\nabla _{\boldsymbol{a}}}Q\left( {{\boldsymbol{s}},{\boldsymbol{a}};\omega } \right){|_{{\boldsymbol{s}} = {{\boldsymbol{s}}_t},{\boldsymbol{a}} = \mu \left( {{{\boldsymbol{s}}_t}} \right)}}{\nabla _\phi }\mu \left( {{\boldsymbol{s}};\phi } \right){|_{{\boldsymbol{s}} = {{\boldsymbol{s}}_t}}} $$ (12) 目标Actor网络的参数
$\phi '$ 会根据Actor网络的参数$\phi $ 进行缓慢地更新,$\phi ' \leftarrow \lambda \phi + \left( {1 - \lambda } \right)\phi '$ 。3.2.3 LSTNet-Attn时间序列预测网络
为了应对热传递的时滞性,DeepCCHP在Actor、Critic网络中嵌入LSTNet-Attn网络结构,实现前摄式能源控制和制冷系统控制,以进一步提高能源效率和降低碳排。
LSTNet-Attn时间序列预测网络[26]的输入层接收多元时间序列,通过卷积捕捉时间序列中不同状态间的局部特征给长短期记忆网络(long short-term memory, LSTM)层输出预测信息。并对LSTM输出引入自注意力机制[27]对序列中不同时间步动态地分配权重。DeepCCHP中的预测网络结构如图2所示。
3.3 DeepCCHP算法复杂度分析
DeepCCHP的时间复杂度由神经网络的结构以及状态空间和动作空间共同决定。DeepCCHP智能体由两个神经网络
$\mu \left( \phi \right)$ 和$Q\left( \omega \right)$ 组成。假设$\mu \left( \phi \right)$ 包含${\mathcal{L}_\mu }$ 层全连接层,$Q\left( \omega \right)$ 包含${\mathcal{L}_Q}$ 全连接层,考虑在全连接层中添加的偏置,时间复杂度可以计算为$$ \begin{gathered} O\left( {\mathcal{N}\left( {\boldsymbol{s}} \right)\xi _0^\mu + 2 \times \mathop \sum \limits_{l = 0}^{{\mathcal{L}_\mu } - 1} \xi _l^\mu \xi _{l + 1}^\mu + \mathcal{N}\left( \mu \right)\xi _{{\mathcal{L}_\mu }}^\mu + } \right. \\ \left. {\left( {\mathcal{N}\left( {\boldsymbol{s}} \right) + \mathcal{N}\left( \mu \right)} \right)\xi _0^Q + 2 \times \mathop \sum \limits_{l = 0}^{{\mathcal{L}_Q} - 1} \xi _l^Q\xi _{l + 1}^Q} \right) \\ \end{gathered} $$ 式中:
$\xi _l^\mu $ 和$\xi _l^Q$ 分别为$\mu \left( \phi \right)$ 和$Q\left( \omega \right)$ 第$l$ 层的神经元数量,$l = {\text{0}}$ 表示为输入层,$l = {\mathcal{L}_\mu }$ 或$l = {\mathcal{L}_Q}$ 示为输出层,$ \mathit{\mathcal{N}}\left(\boldsymbol{s}\right) $ 和$\mathcal{N}\left( \mu \right)$ 分别表示状态空间和动作空间的维数。若神经网络结构是固定的,则完全取决于状态向量和动作向量的维度。那么时间复杂度可以表示为$$ O\left( {\mathcal{N}\left( {\boldsymbol{s}} \right) + \mathcal{N}\left( \mu \right)} \right) $$ 综上,DeepCCHP的训练流程总结如算法1所示。
算法1 DeepCCHP
输入:
$\omega $ 和$\phi $ 随机初始化Critic网络$Q\left( {{\boldsymbol{s}},{\boldsymbol{a}};\omega } \right)$ 和Actor网络$ \mu \left( {{\boldsymbol{s}};\phi } \right) $ ,初始化目标网络的参数,$ \omega ' \leftarrow \omega $ ,$\phi ' \leftarrow \phi $ ,初始化经验回放池R1) For episode = 12 000 do:
2) 随机噪声
${N_t}$ 初始化,获得初始状态3) For do:
4) 从
$ \mu \left( {{\boldsymbol{s}};\phi } \right) $ 中根据当前状态${{\boldsymbol{s}}_t}$ 选择动作${{\boldsymbol{a}}_t} = \mu \left( {{{\boldsymbol{s}}_t};\phi } \right) + {N_t}$ 5) 执行动作
${{\boldsymbol{a}}_t}$ ,得到奖励${{\boldsymbol{r}}_t}$ ,环境状态变为${{\boldsymbol{s}}_{t + 1}}$ ,将$\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t},{{\boldsymbol{r}}_t},{{\boldsymbol{s}}_{t + 1}}} \right)$ 存入经验回放池R6) 从R中采样batch_size个经验,根据式(11)计算目标Q值
${y_t}$ 7) 将目标值
${y_t}$ 代入损失函数式(10),使用梯度下降法更新Critic网络参数$\omega $ 8) 根据式(11)使用梯度上升更新Actor网络的参数
$\phi $ 9) 更新目标Critic网络的参数:
$\omega ' \leftarrow {\text{λ }}\omega +$ $ \left( {1 - {\text{λ }}} \right) \omega ' $ 10) 更新目标Actor网络的参数:
$\phi ' \leftarrow {\text{λ }}\phi + $ $ \left( {1 - {\text{λ }}} \right)\phi ' $ 11) 将状态
${{\boldsymbol{s}}_{t + 1}}$ 设置为当前状态${{\boldsymbol{s}}_t}$ 12) End for
13) End for
4. 实验结果与分析
为验证本文算法的性能,本节将介绍基于Trnsys软件的数据中心仿真实验,并分析实验结果。
4.1 实验参数设置
本文研究的数据中心CCHP中IT子系统包含服务器数为M=572,每台服务器的
${P_{{\text{idle}}}} = 100 \; {\mathrm{W}}$ 、${P_{{\text{full}}}} = 300{\text{ W}}$ ,每台服务器的资源配置是同构的。数据中心CCHP供电子系统中PGU的电能转换效率${\eta _{{\text{PGU}}}} = 0.3$ ,天然气热值${H_{\text{G}}} = 10.8 \; ({\mathrm{W}}\cdot{\mathrm{h}})/{{\mathrm{m}}^3}$ ,PGU的最大发电功率$P_{{\text{PGU}}}^{{\text{max}}} = 70 \; {\mathrm{kW}}$ ,PGU的热回收效率${\varepsilon _{{\text{PGU}}}} = 0.35$ ,对于IT系统的余热回收效率,文献[11]指出,最多5台服务器的余热可以支持同类型的另一台服务器进行冷却,因此对冷却水热回收效率${\varepsilon _{{\text{CW}}}} = 0.2$ 。根据数据中心设计规范标准和本文研究的数据中心规模,制冷子系统中EC和AC的冷冻水出水温度最低和最高阈值分别为6℃和12℃,冷却塔和CRAH风机空闲时的能耗$ P_{\mathrm{base}}^{\mathrm{CT}}=5\ \mathrm{W} $ ,$ P_{\mathrm{base}}^{\mathrm{CRAH}}=3\ \mathrm{W} $ ,额定转速$R_{{\text{base}}}^{{\text{CT}}} = 60 \; {\mathrm{Hz}}$ ,$R_{{\text{base}}}^{{\text{CRAH}}} = 25$ Hz,冷冻水和冷却水回路的扬程均为20 m。电网碳排放因子,${E_{{\text{grid}}}} = 0.581\; 0$ ,天然气的平均低位发热量${E_{{\text{NCV, gas}}}} = 10.89 \; ({\mathrm{W}}\cdot{\mathrm{h}})/{{\mathrm{m}}^3}$ ,天然气的碳排放因子${E_{{\text{gas}}}} = 0.448\;3$ 。能源价格方面,使用一个时间相关的电网电力价格模型[28],其中一天被分为高峰、平时和低峰时段,在不同时段有不同的电力价格,能源价格如表1所示。基于Trnsys的数据中心CCHP系统如图3所示。表 1 能源价格表Table 1 Energy price list能源 峰时 平时 谷时 12:00—17:00
20:00—23:0009:00—12:00
17:00—20:00
23:00—01:0001:00—09:00 电价/(元/(kW·h)) 1.40 0.78 0.30 气价/(元/${{\mathrm{m}}^3}$) 2.30 2.30 2.30 对于DeepCCHP智能控制系统,本文利用Pytorch框架实现了提出的DeepCCHP算法。状态空间历史值的个数N=6,对于LSTNet-Attn网络的Conv2d的卷积核大小为4×4,LSTM的隐藏层数为12,使用Multihead注意力机制。全连接层的激活函数为tanh,采用3层全连接前馈神经网络,分别包含512、256和64个神经元。其他一些关键参数设置为:
$ {\mathrm{batch}}\_{\mathrm{size}} = 64$ ,折扣系数$\gamma {\text{ = 0}}{\text{.9}}$ ,初始学习率$\alpha {\text{ = 0}}{\text{.000}}\;{\text{1}}$ 决策时间间隔$t = 10 \; \min $ ,${\psi _{\text{T}}} = 30$ ℃,${r_1} = 3$ ,${\beta _{\text{1}}} = 0.02$ ,${\beta _{\text{2}}} = 0.01$ ,软更新系数$\lambda {\text{ = 0}}{\text{.05}}$ 。4.2 性能指标与基准算法
为了评估所提出算法的性能,定义了以下性能指标:
PUE:所提出的数据中心运行一整天的平均能效,具体定义见式(6)。
成本:所提出的数据中心运行一整天的能源成本,具体定义见式(7)。
CDE:所提出的数据中心运行一整天的二氧化碳排放量,具体定义见式(8)。
本文采取了4种基准算法与所提出的DeepCCHP算法进行比较:
FEL(following the electrical load)[9]:该算法用基于规则的方式单独控制PGU的发电功率,实现最小化外部电力采购。为了与该文提出的算法比较,EC的冷冻水出水温度将保持在最小值(保证数据中心机房的安全)。
OCM(operating cost-aware energy management)[9]:该算法在FEL上进行了改进,在规则树里考虑了对能源价格随时间变动的情况,实现运营成本感知的能源管理,减少了总体运营成本。
DQN based(deep Q-network based)[29]:该算法将DeepCCHP中连续的动作空间离散化为9个动作,按固定值对控制变量进行增大、减少和不变操作,因此动作空间可以表示为
$\mathcal{A} = \{ {P_{{\text{PGU}}}},T_{{\text{EC}}}^{{\text{e,o}}}{\text{|}}\left( { + {P_{\text{0}}}, + {T_0}} \right), \left( { + {P_0}, - {T_{\text{0}}}} \right), \cdots ,\left( {0,0} \right) \}$ ,${P_{\text{0}}}$ 和${T_0}$ 分别设置为10 kW和0.5 ℃。PGO(power grid only)[30]:该算法考虑了一个只由电网供能(即没有PGU和AC)的数据中心,该算法利用DDPG算法动态控制EC的冷冻水供水温度,以匹配IT设备对制冷量的需求和防止过热问题的发生。
4.3 收敛分析
图4为DeepCHHP算法和DQN based算法的奖励收敛曲线。实验使用了阿里巴巴开放集群跟踪计划的Cluster-trace-v2018中的8 d任务数据,如表2所示,所用的machine_usage.csv中包含机器ID、时间戳、CPU利用率等字段。其中前7 d的任务数据用于训练算法,第8天的数据用于算法性能评估。总的训练回合为
2000 ,每个回合为1 d。从图4中可以看出DeepCHHP和DQN based大约在1000 个回合后开始收敛并达到最大累计奖励。表 2 数据集字段表Table 2 Data set field table列明 类型 说明 备注 machine_id String 机器的唯一ID 无 TIME_STAMP INT 时间戳 表示时间戳在8天
时间跨度之间cpu_util_percent INT CPU利用率 范围在[0,100],
有一些无效值,
它们设置为−1或1014.4 性能对比分析
为了验证所提出的DeepCCHP的性能,将DeepCCHP与4.2节中描述的FEL、OCM、DQN based和PGO算法进行了对比。这些算法的基本设置相同。
如图5(a)所示,FEL和OCM比PGO消耗的电能分别减少了5%和4%以上,这表明在数据中心CCHP系统可以减少总体电力消耗。DQN based和DeepCCHP相较于PGO,电能的消耗减少了6%以上,主要是由于深度强化学习的动态调节减少了制冷子系统的能耗。
如图5(b)、(c)、(d)所示,DeepCCHP算法在成本、碳排放量和PUE 这3个方面的性能都优于其他4种基准算法。FEL和OCM即使有AC承担部分制冷需求,但是并没有对制冷子系统进行调控,存在过度制冷的情况,导致了更高的PUE。同时,这两种算法并没有考虑不同能源的碳排放量,因此碳排放量也较高。而使用强化学习算法的DQN based和DeepCCHP的表现都优于其他算法,其中由于DQN based将连续的动作空间离散化后,动作空间维度增大导致算法整体性能稍差。值得注意的是,PGO算法中数据中心的制冷需求只由EC提供,并且能源也只由电网提供,所以在3个方面表现都较差。
图6(b)对比了不同算法策略下数据中心机房的温度。与FEL和OCM相比,使用了强化学习算法的DQN based、DeepCCHP和PGO可以保持相对较高的机房温度(接近30℃),主要将PUE作为奖励,所以会尽可能地减少制冷机的能耗,从而保持了较高的机房温度。温度接近于30℃是因为奖励函数中的温度阈值
${\psi _T}$ =30℃。而FEL和OCM没有对EC做控制,所以在数据中心IT设备负载较低时的温度很低,达到20℃,存在过度制冷的情况。图6(c)、6(d)对比了不同算法下的EC和AC设备的制冷量。从实验结果可以发现,在数据中心负载较低时,FEL和OCM的EC提供的制冷量较低,而DeepCCHP的EC提供了较大的制冷量(如图6(c)所示),主要是因为在这段时间内电价比较低,为了降低总成本调整了PGU的发电量,从而减少了AC的制冷量(如图6(d)所示)。在数据中心负载较高时(图6(a)20:00到23:00期间),同时电价也处于峰值阶段,数据中心的冷需求增大,如图6(c)中可以看出,EC制冷量急剧增大。
4.5 性能灵敏度分析
在本节中,实行进一步的实验来研究PGU发电效率
${\eta _{{\text{PGU}}}}$ 对系统的影响。${\eta _{{\text{PGU}}}}$ 直接影响相同体积的天然气PGU所产生的电能和回收的热能。在上述的实验中,${\eta _{{\text{PGU}}}}$ =0.35,而在本节中通过设置${\eta _{{\text{PGU}}}}$ 分别为0.25、0.30、0.35、0.40,其他参数设置与4.1节相同。图7所示为不同${\eta _{{\text{PGU}}}}$ 值下对比成本、碳排放和PUE的实验结果。由于PGO中没有使用CCHP系统,因此其性能在3个指标中都保持不变。随着PGU电能转化效率
${\eta _{{\text{PGU}}}}$ 的提高FEL、OCM和DeepCCHP在能源成本和碳排放指标中都呈下降趋势,主要是因为PGU发的电更多,电网购电更少,从而成本和碳排更少。在PUE指标的表现中,FEL和OCM算法由于${\eta _{{\text{PGU}}}}$ 升高而导致的PGU热回收率下降,AC贡献的制冷量减少,所以系统的PUE呈升高趋势。DQN based和DeepCCHP由于将PUE纳入优化目标,并且能动态调整EC制冷,所以PUE呈下降趋势。DQN based和DeepCCHP在${\eta _{{\text{PGU}}}}$ 较低时,PUE高于FEL和OCM算法,是因为算法为了更低的成本和碳排放而降低了PGU的发电量,从而降低AC的制冷量,导致了稍高的PUE。5. 结束语
为了推动实现数据中心行业“碳达峰”和“碳中和”目标,本文深入研究了数据中心CCHP系统的节能降碳问题,提出了一种基于深度强化学习的智能节能优化算法,名为DeepCCHP,该算法旨在通过同时联合管控数据中心CCHP的电能供给和制冷供给来降低能源成本和碳排放,提高能效。DeepCCHP综合考虑了数据中心碳足迹涉及的能源输入、生产耗能以及废余利用等环节,结合了LSTNet-Attn预测网络和DDPG方法,实现了对发电设备和制冷设备的前摄式联合控制。同时,本文构建了基于Trnsys软件的数据中心仿真环境,并利用阿里巴巴数据中心集群数据集驱动实验。实验结果表明,相比于基准算法,DeepCCHP在能效、成本和碳排等方面的性能都有明显提升。
-
表 1 能源价格表
Table 1 Energy price list
能源 峰时 平时 谷时 12:00—17:00
20:00—23:0009:00—12:00
17:00—20:00
23:00—01:0001:00—09:00 电价/(元/(kW·h)) 1.40 0.78 0.30 气价/(元/${{\mathrm{m}}^3}$) 2.30 2.30 2.30 表 2 数据集字段表
Table 2 Data set field table
列明 类型 说明 备注 machine_id String 机器的唯一ID 无 TIME_STAMP INT 时间戳 表示时间戳在8天
时间跨度之间cpu_util_percent INT CPU利用率 范围在[0,100],
有一些无效值,
它们设置为−1或101 -
[1] 李德毅. AI: 人类社会发展的加速器[J]. 智能系统学报, 2017, 12(5): 583−589. LI Deyi. Artificial intelligence: an accelerator for the development of human society[J]. CAAI transactions on intelligent systems, 2017, 12(5): 583−589. [2] 中国信息通信研究院: 数据中心白皮书(2022)[EB/OL]. (2022−04−22)[2023−12−24]. http://www.caict.ac.cn/kxyj/qwfb/bps/202204/t20220422_400391.html. China Academy of Information and Communications Technology: data center white paper(2022)[EB/OL]. (2022−04−22)[2023−12−24]. http://www.caict.ac.cn/kxyj/qwfb/bps/202204/t20220422_400391.htm. [3] 工业和信息化部电子第五研究所计量检测中心. 中国数字基建的脱碳之路: 数据中心与5G减碳潜力与挑战(2020—2035)[R]. 广州: 工业和信息化部电子第五研究所计量检测中心, 2021. Metrology and Testing Center of the Fifth Research Institute of Electronics of the Ministry of Industry and Information Technology. China’s digital infrastructure decarbonization path: data centers and 5G carbon reduction potentials and challenges(2020—2035)[R]. Guangzhou: Metrology and Testing Center of the Fifth Research Institute of Electronics of the Ministry of Industry and Information Technology, 2021. [4] 娄洁良. 数据中心能效案例及节能运行[J]. 电信科学, 2019, 35(2): 95−104. LOU Jieliang. Data center energy efficiency case and energy saving operation[J]. Telecommunications science, 2019, 35(2): 95−104. [5] 张沈习, 王丹阳, 程浩忠, 等. 双碳目标下低碳综合能源系统规划关键技术及挑战[J]. 电力系统自动化, 2022, 46(8): 189−207. doi: 10.7500/AEPS20210703002 ZHANG Shenxi, WANG Danyang, CHENG Haozhong, et al. Key technologies and challenges of low-carbon integrated energy system planning for carbon emission peak and carbon neutrality[J]. Automation of electric power systems, 2022, 46(8): 189−207. doi: 10.7500/AEPS20210703002 [6] 陈信甫, 梁珍. 风冷数据中心热回风预热市政冷水的节能与可行性分析[J]. 制冷与空调, 2023, 23(11): 80−88. doi: 10.3969/j.issn.1009-8402.2023.11.016 CHEN Xinfu, LIANG Zhen. Energy saving and feasibility analysis of municipal cold water preheating by hot return air in air-cooled data center[J]. Refrigeration and air-conditioning, 2023, 23(11): 80−88. doi: 10.3969/j.issn.1009-8402.2023.11.016 [7] 郑瑛. 云计算数据中心节能调度算法改进研究[J]. 西南大学学报(自然科学版), 2019, 41(12): 135−142. ZHENG Ying. Improvement of energy-saving scheduling algorithm in cloud computing data centers[J]. Journal of Southwest University (natural science edition), 2019, 41(12): 135−142. [8] 卜昆. “碳中和” 驱动下能源大数据中心建设的问题与对策[J]. 信息系统工程, 2023(12): 56−59. doi: 10.3969/j.issn.1001-2362.2023.12.016 BU Kun. Problems and countermeasures of energy big data center construction driven by “carbon neutralization”[J]. China CIO news, 2023(12): 56−59. doi: 10.3969/j.issn.1001-2362.2023.12.016 [9] WAN Jianxiong, ZHOU Jie, GUI Xiang. Sustainability analysis of green data centers with CCHP and waste heat reuse systems[J]. IEEE transactions on sustainable computing, 2021, 6(1): 155−167. doi: 10.1109/TSUSC.2020.2979473 [10] WANG Ruihang, CAO Zhiwei, ZHOU Xin, et al. Green data center cooling control via physics-guided safe reinforcement learning[J]. ACM transactions on cyber-physical systems, 2024, 8(2): 1−26. [11] HE Wei, ZHANG Jifang, LI Hailong, et al. Optimal thermal management of server cooling system based cooling tower under different ambient temperatures[J]. Applied thermal engineering, 2022, 207: 118176. doi: 10.1016/j.applthermaleng.2022.118176 [12] YADAV R, ZHANG Weizhe, LI Keqin, et al. Managing overloaded hosts for energy-efficiency in cloud data centers[J]. Cluster computing, 2021, 24(3): 2001−2015. doi: 10.1007/s10586-020-03182-3 [13] ZHOU Zhou, SHOJAFAR M, ALAZAB M, et al. AFED-EF: an energy-efficient VM allocation algorithm for IoT applications in a cloud data center[J]. IEEE transactions on green communications and networking, 2021, 5(2): 658−669. doi: 10.1109/TGCN.2021.3067309 [14] VENKATASWAMY V, GRIGSBY J, GRIMSHAW A, et al. Rare: renewable energy aware resource management in Datacenters[M]//Lecture Notes in Computer Science. Cham: Springer Nature Switzerland, 2023: 108−130. [15] NGOBENI A, DANIEL CHOWDHURY S P. Electrical design for a combined cooling, heating and power for go-green data centers[C]//2018 IEEE PES/IAS Power Africa. Cape Town: IEEE, 2018: 901−906. [16] LYU Jiawei, ZHANG Shenxi, CHENG Haozhong, et al. Optimal sizing of energy station in the multienergy system integrated with data center[J]. IEEE transactions on industry applications, 2021, 57(2): 1222−1234. doi: 10.1109/TIA.2021.3054607 [17] ZHANG Tingjun, YUE Dong, YU Liang, et al. Joint energy and workload scheduling for fog-assisted multimicrogrid systems: a deep reinforcement learning approach[J]. IEEE systems journal, 2023, 17(1): 164−175. doi: 10.1109/JSYST.2022.3171534 [18] PRAVEENCHANDAR J, TAMILARASI A. RETRACTED ARTICLE: dynamic resource allocation with optimized task scheduling and improved power management in cloud computing[J]. Journal of ambient intelligence and humanized computing, 2021, 12(3): 4147−4159. doi: 10.1007/s12652-020-01794-6 [19] RAN Yongyi, HU Han, WEN Yonggang, et al. Optimizing energy efficiency for data center via parameterized deep reinforcement learning[J]. IEEE transactions on services computing, 2023, 16(2): 1310−1323. doi: 10.1109/TSC.2022.3184835 [20] CHI Ce, JI Kaixuan, SONG Penglei, et al. Cooperatively improving data center energy efficiency based on multi-agent deep reinforcement learning[J]. Energies, 2021, 14(8): 2071. doi: 10.3390/en14082071 [21] RAN Yongyi, ZHOU Xin, HU Han, et al. Optimizing data center energy efficiency via event-driven deep reinforcement learning[J]. IEEE transactions on services computing, 2023, 16(2): 1296−1309. doi: 10.1109/TSC.2022.3157145 [22] LI Longxi, YU Shiwei, MU Hailin, et al. Optimization and evaluation of CCHP systems considering incentive policies under different operation strategies[J]. Energy, 2018, 162: 825−840. doi: 10.1016/j.energy.2018.08.083 [23] GUPTA R, PURI I K. Waste heat recovery in a data center with an adsorption chiller: technical and economic analysis[J]. Energy conversion and management, 2021, 245: 114576. doi: 10.1016/j.enconman.2021.114576 [24] ZHANG Qingxia, MENG Zihao, HONG Xianwen, et al. A survey on data center cooling systems: technology, power consumption modeling and control strategy optimization[J]. Journal of systems architecture, 2021, 119: 102253. doi: 10.1016/j.sysarc.2021.102253 [25] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2015−09−09)[2023−12−24]. https://arxiv.org/abs/1509.02971v6. [26] LAI Guokun, CHANG Weicheng, YANG Yiming, et al. Modeling long- and short-term temporal patterns with deep neural networks[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. Ann Arbor: ACM, 2018: 95−104. [27] 申翔翔, 侯新文, 尹传环. 深度强化学习中状态注意力机制的研究[J]. 智能系统学报, 2020, 15(2): 317−322. doi: 10.11992/tis.201809033 SHEN Xiangxiang, HOU Xinwen, YIN Chuanhuan. State attention in deep reinforcement learning[J]. CAAI transactions on intelligent systems, 2020, 15(2): 317−322. doi: 10.11992/tis.201809033 [28] WANG Dongxiao, XIE Changhong, WU Runji, et al. Optimal energy scheduling for data center with energy nets including CCHP and demand response[J]. IEEE access, 2021, 9: 6137−6151. doi: 10.1109/ACCESS.2020.3049066 [29] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529−533. doi: 10.1038/nature14236 [30] XIANG Shilin, XIANG Yue, LU Yu, et al. Modeling and optimization of data center energy consumption[C]//2023 Panda Forum on Power and Energy. Chengdu: IEEE, 2023: 544−549.