密集网络下基于Self-Backhaul感知的用户接入负载均衡算法
唐伦, 梁荣, 陈婉, 张元宝     
重庆邮电大学 移动通信重点实验室, 重庆 400065
摘要

针对密集异构网络自回程场景中带宽分配不合理引起的负载不均衡问题,提出一种基于self-backhaul感知的用户接入负载均衡方案.首先根据密集异构网络下各个小基站接入与回程资源的负载状态提出一种用户接入负载均衡策略;其次利用Q-Learning算法对各个小基站带内无线接入与回程带宽分配进行学习,用户在不同带宽分配因子下,根据用户接入负载均衡策略进行重新接入,得到不同接入情况下的系统效用,进而得到最优带宽分配策略,保证负载均衡性的同时实现系统效用最大化.仿真结果表明,该方案在密集异构网络自回程场景中提高了网络负载均衡性,同时提升了用户速率体验.

关键词: 密集网络     负载均衡     自回程     Q学习    
中图分类号:TN929.5 文献标志码:A 文章编号:1007-5321(2017)04-0060-08 DOI:10.13190/j.jbupt.2017.04.010
User Association Load Balancing Algorithm Based on Self-Backhaul Aware in Dense Networks
TANG Lun, LIANG Rong, CHEN Wan, ZHANG Yuan-bao     
Key Laboratory of Mobile Communication, Chongqing University of Posts and Telecommunication, Chongqing 400065, China
Abstract

In order to solve the problem of load imbalance caused by irrational bandwidth allocation in dense heterogeneous networks, a self-backhaul aware user access load balancing scheme was proposed. Firstly, a user association-load balancing strategy(UA-LBS) was described based on the load state of each small base station access and backhaul resource in dense heterogeneous network. Secondly, the Q-Learning algorithm was used to allocate wireless access and backhaul bandwidth in each small base station. For different allocation factors, it can ensure user to re-access according to the UA-LBS to get different system utility, and then to get optimal bandwidth allocation strategy to ensure load balancing while achieving system utility maximization. Simulation shows that the scheme improves the network load balancing in the self-backhaul scene of dense heterogeneous network, and improves the user rate experience.

Key words: dense network     load balance     self-backhaul     Q-learning    

密集组网是解决5 G网络数据流量高速增长问题的有效解决方案.超密集网络的实现可以很好应对到2020年用户终端连接数近百倍增长的需求,而对每个小区来说,服务终端数量降低,有效缓解了小基站的负载[1-2].通过快速部署采用无线自回程的小基站,运营商可以迅速搭建起一个大规模的5 G蜂窝网络,以满足市场的需求[3-4].

Wang等[5]为了解决在异构网络无线回程作为约束时的干扰管理与均衡性问题,提出一个基于交替时分双工(reverse-TDD)和频带共享方案,以对数吞吐量最大化进行数学建模,在保证资源分配公平性的同时尽可能提升系统吞吐量. Siddique等[6]在一个TDD系统中通过对加权总速率最优问题建模,通过对小基站分簇和资源切片,提出一种速率与均衡性次优化算法.所提方案提升了系统吞吐量和资源分配公平性,且在小基站部署越多时负载均衡性更好.该方案在不增加额外射频硬件的情况下,异构蜂窝网中的无线回程可以快速部署且部署成本更小.笔者将着眼于解决密集网络自回程场景下,考虑无线回程受限的用户接入控制负载均衡问题.

1 系统模型与主要指标 1.1 网络场景模型

超密集网络宏基站(MBS,macrocell base station)下小基站(SBS,smallcell base station)大量部署,宏基站与小基站之间回程链路为带内无线回程.宏基站采用大规模天线阵列,小基站与用户终端采用单天线.分别用NMNSNU表示宏基站天线阵列,宏基站下小基站部署数量,宏基站覆盖范围内用户终端随机分布数量. Ng表示宏基站天线阵列波束数量.设基站集合为C,小基站集合为B,则可记作C$\mathop \Delta \limits_ = $ B∨{0},其中0代表该宏基站.假设系统内小基站j为带内无线接入部分分配的带宽比例为βj.在各个蜂窝小区间釆用全频率复用方案[7], 假定每个宏基站或小基站的可用带宽为W.系统场景如图 1所示.

图 1 系统场景图
1.2 信道模型与干扰模式

1) 无线信道模型

在密集异构网络带内无线回程网络中考虑宏基站侧采用多天线,小基站与用户终端采用单天线.根据3GPP TR 36.814[8],可以将非直视无线信道模型表示为

$ {H_k} = 27.3 + 3.91 \times 3.67 \times \lg {d_k} + Z\left( {\sigma _{{\rm{BS}}}^2} \right) $ (1)
$ {G_j} = 24.6 + 3.91 \times 3.67 \times 10\lg {d_j} + Z\left( {\sigma _{{\rm{BS}}}^2} \right) $ (2)
$ {L_{j,k}} = 36.8 + 3.67 \times 10\lg {d_{j,k}} + Z\left( {\sigma _{{\rm{SC}}}^2} \right) $ (3)

其中:Hk为MBS与宏用户(MUE,macrocell user equipment)之间链路信道模型;dk表示MBS与MUE之间的距离;Z(σBS2)表示基站的阴影衰落对数正太分布;Gj为MBS与SBS之间回程信道模型,dj表示MBS与SBS之间的距离;Lj, k为SBS与小用户(SUE,smallcell user equipment)之间链路信道模型,dj, k表示小基站j与用户k之间的距离.由文献[8]可以得到σBS=6 dB, σSC=4 dB.

2) 干扰模式

采用正交信道时分双工模式(Co-channel TDD)[9],如图 2所示.这种模式宏基站与小基站在上行/下行时隙配置时采用相同的配置方式,即在一个时隙配置同为上行(UL,up link, )或下行(DL,down link, ),而宏基站与小基站之间无线回程链路和小基站与用户之间接入链路信道资源正交.将所有时隙平均分配给上下行链路,小基站与宏基站UL/DL时隙配置成相同状态.

图 2 Co-channel TDD与接入回程带宽分配示意图
2 基于Self-Backhaul感知的用户接入负载均衡算法 2.1 问题建模

在密集异构网络中小基站采用带内无线回程,系统采用时分双工模式TDD时,基站在相邻不同时隙所处的接收/发送状态不同,宏基站与小基站采用相同的时隙配置.如图 3所示,当处于时隙0时,MBS向MUE发送数据,同时通过无线回程链路向SBS发送数据;SBS通过接入链路向发送数据.只考虑处于时隙0时的情况.

图 3 Co-channel TDD帧结构时隙上下行配置

首先,定义用户接入指示变量,xj, k∈{0, 1}, 其中kU表示用户kj$\mathbb{C}$表示第j小基站,当xj, k=1时表示接入该基站.同时其需要满足

$ \sum\limits_{j \in \mathbb{C}} {{x_{j,k}} = 1,\forall k \in U} $ (4)

小基站j中第k个用户的可达速率可表示为

$ {r_{j,k}} = {\rm{lb}}\left( {1 + {P_j}{{\bar L}_{j,k}}} \right) $ (5)

其中:Pj表示小基站j的发射功率;Lj, k表示用户k与小基站j之间的无线信道模型.

故第j个小基站的接入吞吐量可表示为

$ {R_j} = \sum\limits_{k \in U} {R_{j,k}^U} = \frac{{{\beta _j}}}{{\sum\limits_{k \in U} {{x_{j,k}}} }}\sum\limits_{k \in U} {{x_{j,k}}{\rm{lb}}\left( {1 + {P_j}{{\bar L}_{j,k}}} \right)} $ (6)
$ {x_{j,k}} \in \left\{ {0,1} \right\},\forall \left( {j,k} \right) \in \mathbb{C} \times U $ (7)
$ \sum\limits_{j \in \mathbb{C}} {{x_{j,k}} = 1,\forall k \in U} $ (8)
$ {\beta _j} \in \left[ {0,1} \right] $ (9)

在宏基站采用大规模多输入多输出(MIMO,multiple input multiple output)天线阵列时,根据文献[10]可以得到第k个MUE的可达速率可表示为

$ {R_{0,k}} = {x_{0,k}}\frac{{{\beta _j}{N_g}}}{{\sum\limits_{k \in U} {{x_{0,k}}} }}{\rm{lb}}\left( {1 + \frac{{{N_{\rm{M}}} - {N_g} + 1}}{{{N_g}}}{P_0}{{\bar H}_k}} \right) $ (10)

其中:βj表示基站j接入带宽分配比例;B为总带宽;NMNSNUNg分别表示宏基站天线阵列、宏基站下小基站部署数量、宏基站覆盖范围内用户终端随机分布数量、宏基站天线阵列波束数量;x0, k表示宏基站用户指示;P0为宏基站功率;Hk为宏基站与第k个MUE之间的无线信道模型.

j个小基站的无线回程容量可以表示为

$ {C_j} = \left. {\left( {1 + {\beta _j}} \right)} \right){\mathop{\rm lb}\nolimits} \left( {1 + \frac{{{N_{\rm{M}}} - {N_g} + 1}}{{{N_g}}}{P_0}{{\bar G}_j}} \right) $ (11)

考虑到带内无线回程场景中用户接入均衡,将系统用户速率对数和定义为效用函数:

$ {\rm{Th}}{{\rm{r}}_{X,\beta }} = \sum\limits_{j \in \mathbb{C}} {{x_{j,k}}\operatorname{lb} \left[ {\frac{{{\beta _j}{r_{j,k}}}}{{\sum\limits_{k \in U} {{x_{j,k}}} }}} \right]} $ (12)

其中:xj, k为用户接入指示,文中定义X={xj, k; j$\mathbb{C}$, kU}为用户接入策略;βj为接入与回程带宽分配因子;rj, k为用户k在基站j下的可达速率;ThrX, β为系统效用.

因此带内无线回程带宽分配的目标函数可表示为

$ \begin{array}{*{20}{c}} {\max {\rm{Th}}{{\rm{r}}_{X,\beta }}} \\ {{\rm{s}}{\rm{.t}}{\rm{.}}\;\;{x_{j,k}} \in \left\{ {0,1} \right\},\forall \left( {j,k} \right) \in \mathbb{C} \times U} \\ {\sum\limits_{j \in \mathbb{C}} {{x_{j,k}} = 1,\forall k \in U} } \\ {{\beta _j} \in \left[ {0,1} \right]} \\ {{R_j} \leqslant {C_j}} \end{array} $ (13)

其中:ThrX, β为效用函数,xj, k为用户接入指示变量,RjCj为系统容量回程受限约束.

2.2 密集网络Self-Backhaul场景中用户接入负载均衡策略

基于2.1节所建立的优化目标,下面介绍密集网络self-backhaul场景中用户接入负载均衡策略.用户接入负载均衡策略主要考虑在确定小基站无线接入与回程带宽分配比例的情况下,用户根据系统中各小基站负载情况重新进行基站选择接入,以达到系统负载均衡的目的.

密集异构网络自回程场景与传统回程场景不同,小基站接入与回程链路均采用无线方式,共享同一频带资源.在考虑用户接入负载均衡时,需要综合考虑接入与回程的负载状态,接入负载与回程负载的高低对用户接入负载均衡操作有直接的影响。本节所提出的密集网络self-backhaul场景中用户接入负载均衡策略首先针对网络中小基站的接入与回程负载状态,进行接入与回程带宽分配因子β学习;其次,用户从候选基站列表中选择小基站进行基于用户接入负载均衡策略的重新接入,用户接入时同时考虑基站接入回程负载与参考信号接收功率(RSRP,reference signal received power).用户接入过程中通过选择候选基站列表中的不同基站接入和调整接入与回程带宽分配因子β值,确定最佳用户接入负载均衡策略.

在本场景中,小基站采用带内无线自回程接入资源负载即用户接入与回程链路共享同一无线频带资源. ρa可表示为

$ {\rho _{\rm{a}}} = \frac{{\sum\limits_{n = 1}^{N_i^{ue}\left( t \right)} {N_{{\rm{prb}}}^n\left( t \right)} }}{{\left( {1 - {\beta _j}} \right)N_{{\rm{prb}}}^{{\rm{total}}}}} $ (14)

其中:βi表示回程带宽分配因子;Nprbn(t)表示在时刻t基站在i下第n个用户占用的物理资源块(PRB,physical resource block)数目;$\sum\limits_{n = 1}^{N_l^{{\rm{ue}}}\left( t \right)} {} $Nprbn(t)表示在时刻t基站i所有用户占用PRB总数目,其中Niue(t)表示在时刻t基站i的总用户数;Nprbtotal表示基站i的总PRB数目,由系统带宽大小决定.

同理,回程资源负载ρb可表示为

$ {\rho _{\rm{b}}} = \frac{{{N_{{\rm{prb}}}}\left( {t - 1} \right)}}{{{\beta _j}N_{{\rm{prb}}}^{{\rm{total}}}}} $ (15)

其中Nprb(t-1) 表示t-1时刻缓存在基站待回程传输的数据所需要的PRB数量.

用户在选择基站接入时,首先考虑接收到邻近小基站信号的RSRP值, 用sq表示,用户可进行接入的判断表达式为:sqi≥sqth.当用户接收到基站i的RSRP值大于等于门限值时,基站i进入该用户可接入候选基站列表.其次,通过判断候选基站列表中基站的接入负载与回程负载状态,选择最佳的基站接入.

在所有用户选择合适基站接入后,通过Jian s公平指示计算出系统的负载均衡指示,具体计算公式表示为

$ {l_{{\rm{JF}}}} = \frac{{\left( {\sum\limits_{i \in B} {{\rho _i}^2} } \right)}}{{N\sum\limits_{i \in B} {{{\left( {{\rho _i}} \right)}^2}} }} $ (16)

其中:B为基站集合,i为集合中第i个基站;ρi为第i个基站的负载值;N为系统中基站数目.

密集网络self-backhaul场景中用户接入负载均衡策略具体流程如图 4所示,其中WaWb分别表示接入带宽和回程带宽.

图 4 密集网络self-backhaul场景中用户接入负载均衡策略具体流程
2.3 基于Q-learning的Self-backhaul带宽分配算法

Q-Learning(Q学习)算法的Q值计算公式可以表示为

$ {Q_{t + 1}}\left( {s,a} \right) = \left( {1 - \lambda } \right){Q_t}\left( {s,a} \right) + \lambda {E_t}\left( {s,a} \right) $ (17)

其中:λ为学习因子,Rt(s, a)为奖励函数.

将小基站效用函数设定为奖励值,则可表示为

$ {e_t} = \sum\limits_{j \in \mathbb{C}} {\sum\limits_{k \in U} {{x_{j,k}}\log \left[ {\frac{{{\beta _j}{r_{j,k}}}}{{\sum\limits_{k \in U} {{x_{j,k}}} }}} \right]} } $ (18)

根据文献[11]中对Q值的定义,在状态sb下的Q值是长期累积回报的和,所以奖励函数可以做表示为

$ {E_t} = {e_{t - 1}} + \gamma {e_{t - 2}} + \gamma {e^2}_{t - 3} + \cdots = \sum\limits_{n = 0}^\infty {{e_{t - n - 1}}} $ (19)

其中:γ表示折合因子,即当前的奖励值与历史奖励值之间的关联性;et是学习者在采取某种行动时的奖励值.

图 5所示.首先设计Agent,环境状态S,动作A,以及立即回报e.

图 5 基于Q-Learning的self-backhaul智能体模块与环境的交互

Agent:网络中所有SBS bb∈{1, 2, …, B}.

环境状态:在时刻t,SBSb的状态可以表示为sbt=(Sbt, Mbt, Ibt),其中chbt表示在时刻t小基站b的接入与回程信道状态,可由1.1节信道模型得到;Mbt表示小基站b在时刻t接入用户情况,可由小基站b检测信息得到;Ibt表示小基站b在时刻t接入与回程带宽分配情况.

动作Aabt表示SBSb的动作,即abt在时刻t设置小基站b的无线带内自回程带宽比例βbt∈[0, 1].

立即回报e

$ \begin{array}{*{20}{c}} {e_b^t\left( {a_b^t,s_b^t} \right) = \mu E_b^t + \left( {1 - \mu } \right){\rm{ch}}_b^t = }\\ {\mu \sum\limits_{k \in U} {{x_{b,k}}\log \frac{{\left( {1 - \beta _b^t} \right)B{e_{b,k}}}}{{\sum\limits_{}^{k \in U} {{x_{b,k}}} }} + } }\\ {\left( {1 - \mu } \right)\beta _b^tB\log \left( {1 + \frac{{{N_{\rm{M}}} - {N_g} + 1}}{N}{P_0}{G_b}} \right)} \end{array} $ (20)

Q值可以表示为

$ Q\left( {{a_b},{s_b}} \right) = {e_b}\left( {{a_b},{s_b}} \right) + \gamma \sum\limits_{{s_b} \to {{s'}_b}} {p'Q\left( {{{a'}_b},{{s'}_b}} \right)} $ (21)

其中:p′表示由状态sb转移到s′b的概率,γ是折扣因子,文中取值0.8.

在非确定性环境下,Q值迭代更新公式表示如下:

$ \begin{array}{*{20}{c}} {{Q^t}\left( {{a_b},{s_b}} \right) = \left( {1 - \lambda } \right){Q^{t - 1}}\left( {{a_b},{s_b}} \right) + }\\ {\lambda \left[ {r_b^t\left( {{a_b},{s_b}} \right) + \gamma \max {Q^{t - 1}}\left( {{{a'}_b},{{s'}_b}} \right)} \right]} \end{array} $ (22)

其中λ=1/(1+Nt(a, s)), Nt(a, s)为在时刻t动作状态(a, s)学习重复次数.根据文献[11]为了保证Q-learning算法的收敛性,学习因子λ需要满足:

$ \left. \begin{array}{l} \sum\limits_{t = 1}^\infty {\lambda = \infty } \\ \sum\limits_{t = 1}^\infty {{\lambda ^2} = \infty } \end{array} \right\} $ (23)

t→∞时,Qt(ab, sb)的值将以概率1收敛于最优QQ*(ab*, sb).

利用Boltzmann探索方式进行SBS策略更新,将带内无线回程分配的部分带宽因子βb∈[0, 1]离散化为N个值,则策略空间可表示为

$ \begin{array}{*{20}{c}} {{\pi ^t} = \left\{ {{\pi ^t}\left( {{\beta _{b1}}\left| {{s_b}} \right.} \right),{\pi ^t}\left( {{\beta _{b1}}\left| {{s_b}} \right.} \right), \cdots ,} \right.}\\ {\left. {{\pi ^t}\left( {{\beta _{bn}}\left| {{s_b}} \right.} \right), \cdots ,{\pi ^t}\left( {{\beta _{bN}}\left| {{s_b}} \right.} \right)} \right\}} \end{array} $ (24)

在时刻t, 具体的策略更新表达式为

$ {\pi ^t}\left( {{a_b}\left| {{s_b}} \right.} \right) = \frac{{\exp \left( {{Q^t}\left( {{a_b},{s_b}} \right)/T} \right)}}{{\sum\limits_{n = 1}^N {\exp \left( {{Q^t}\left( {{a_b},{s_b}} \right)/T} \right)} }} $ (25)

其中,T∈(0, 1) 为探索参数,表示用户策略空间各个动作概率差异.当T取值越小时,说明用户策略空间各个动作概率的差异越大,取经验值0.5.

算法1  基于Q-learningself-backhaul带宽分配算法

1Initialize Qt(ab, sb), ∀s∈S, a∈A; NbU, ∀b∈B; NQL=0;

2Input:ThrX, β, NmaxQL; //输入效用门限,最大学习次数

3  for ∀b∈B do

4     Start learning

5       Update time t→t+1;

6          Upadte policy space πtformula(24)(25);//更新策略

7         Using greedy algorithm take action abt; //选择行动

8         Update:ebt(abt, sbt)←formula(18)(20);//更新回报

9         Update:Qt(ab, sb)←formula(21)(22);//更新Q

10 NQL=NQL+1;

11        if NQL<NmaxQL//学习次数判断

12          Go to step 5;

13         Else go to step 14.

14       Base on learning result allocation βbt;

        //学习得到带宽分配因子

15        Calculate ThrX, βformula(13);//计算系统效用

16        if ThrX, βThrX, β //效用门限判断

17             End learning.

18        Else Go to step 3;

19    end for

综上所述,基于self-backhaul感知的用户接入负载均衡算法整体流程框图如图 6所示.

图 6 基于self-backhaul感知的用户接入负载均衡算法整体流程框图
3 性能仿真与结果分析

下面将对所提算法进行仿真验证分析,根据3GPP协议标准,密集异构网络自回程场景下参数设置如表 1所示.

表 1 仿真参数设置

为了更好地体现所提基于self-backhaul感知的用户接入负载均衡算法(SBA-LB,self-backhaul aware-load balancing)的性能,将所提算法与文献[7]中算法进行比较.用户以负载均衡算法选择小区接入,接入与回程带宽分配采用固定值(SBU-LB,self-backhaul unaware-load balancing);用户选择Max SINR进行小区接入选择(SBA-MS,self-backhaul aware-Max SINR).

接下来对以上算法从各个方面进行性能评估.如图 7所示,对不同方案用户速率累积分布比较.网络仿真参数设置小基站数量NS=10,用户数量分别为NU=100和NU=200.整体比较可以看出,用户数量较少时网络中用户整体速率分布更集中靠右,对3个具体方案进行比较,SBA-MS方案中用户接入过程中用户以Max SINR选择小基站接入造成用户接入过于集中,使得网络中负载不均衡,进而造成网络整体用户速率分布偏低;SBU-LB方案采用设置固定值(β=0.4) 的方式,同时用户接入过程采用负载均衡算法,因此该算法在得到一定接入回程带宽分配保证下用户接入更均衡,用户整体速率比SBA-MS方案更好;而所提SBA-LB方案中,对网络接入与回程带宽分配采取Q学习的方式进行学习,得到最优的带宽分配策略.

图 7 不同方案用户速率累积分布比较

图 8所示,对不同方案系统负载均衡指示比较.仿真参数统一设置为:小基站数量为NS=5. SBA-MS方案中不包含负载均衡策略,因而负载均衡性最差;SBU-LB方案与SBA-LB方案中均采用了负载均衡策略,由于SBA-LB方案中在接入与回程带宽分配时采用Q学习的方式,网络接入与回程资源分配更加合理,网络整体性能提升更大.

图 8 不同方案系统负载均衡指示比较

图 9所示为不同方案系统效用函数变化比较,其中分别设置不同基站数量NS=5. SBA-MS方案在3种方案中系统效用性能最低.提出的SBA-LB方案基于self-backhaul感知接入回程带宽分配,结合用户接入负载均衡策略,使得网络接入回程带宽资源分配更合理,用户接入更均衡,因而随着用户数量的增加性能提升更加明显.

图 9NS=5时,不同方案系统效用函数变化比较

图 10所示为不同方案系统吞吐量比较.仿真参数设置为:用户数目NU=25~200,小基站数目NS=5.对比3种方案,随着用户数量变化,3种方案吞吐量变化趋势相同,在用户数量较多时吞吐量大小接近;在用户数量较少时,所提的SBA-LB方案因为存在self-backhaul感知与LB策略,接入与回程带宽分配更合理,系统吞吐量更好.

图 10 不同方案系统吞吐量比较
4 结束语

本文针对因带宽分配不合理而造成的密集异构网络自回程场景的负载不均衡问题, 提出了一种基于自回程链路感知的用户接入负载均衡算法.首先, 通过观察各个小基站接入与回程资源的负载状态,本文提出了一种密集异构网络下基于负载均衡的用户接入策略; 其次, 利用Q-learning算法学习各个小基站带内无线接入与回程带宽分配情况; 最后,在不同带宽分配因子下, 用户根据基于负载均衡的接入策略进行重新接入, 从而在保证负载均衡性的同时实现系统效用最大化.仿真结果表明, 在密集异构网络自回程场景中, 该方案可在提高网络负载均衡性的同时改善用户速率体验.

参考文献
[1] Kamel M, Hamouda W, Youssef A. Ultra-dense networks:a survey[J]. IEEE Communications Surveys & Tutorials, 2016, 18(4): 2522–2545.
[2] Yu Wei, Xu H S, Zhang H L, et al. Ultra-dense networks:survey of state of the art and future directions[C]//201625th International Conference on Computer Communication and Networks (ICCCN), [S. l.]:IEEE, 2016:1-10.
[3] Liu Erwu, Jin Shan, Shen Gang, et al. Fair scheduling in wireless multi-hop self-backhaul networks[C]//International Conference on Internet and Web Applications and Services/Advanced International Conference on Telecommunications (AICT-ICIW'06). Guadelope:IEEE, 2006:96-96.
[4] 曲桦, 庄雄, 赵季红, 等. 蜂窝网络下设备到设备通信中的联合资源优化[J]. 北京邮电大学学报, 2015, 38(3): 112–116.
Qu Hua, Zhuang Xiong, Zhao Jihong, et al. Jointresource optimization for equipment to equipment communication in cellular networks[J]. Journal of Beijing University of Posts and Telecommunications, 2015, 38(3): 112–116.
[5] Wang N, Hossain E, Bhargava V K. Downlink cell association for large-scale MIMO HetNets employing small cell wireless backhaul[C]//2015 IEEE 28th Canadian Conference on Electrical and Computer Engineering (CCECE), .[S. l.]:IEEE, 2015:1042-1047.
[6] Siddique U, Tabassum H, Hossain E. Spectrum allocation for wireless backhauling of 5G small cells[C]//2016 IEEE International Conference on Communications Workshops (ICC), . Kuala:IEEE, 2016:122-127.
[7] Chen Lei, Yu F R, Ji Hong, et al. Green full-duplex self-backhaul and energy harvesting small cell networks with Massive MIMO[J]. IEEE Journal on Selected Areas in Communications, 2016, 34(12): 3709–3724. doi: 10.1109/JSAC.2016.2611846
[8] 3GPP TS 36. 814, V9. 0. 0. Evolved universal terrestrial radio access (E-UTRA), Further advancements for E-UTRA physical layer aspects (Release 9).[s. l.]:3GPP Press, 2010.
[9] Hoydis J, Hosseini K, ten Brink S, and M. Debbah, "Making smart use of excess antennas:Massive MIMO, small cells, and TDD, " Bell Labs Tech. J., vol.18, no.2, pp. 5-20, Sep. 2013.
[10] Bethanabhotla D, Bursalioglu O Y, Papadopoulos H C, and G. Caire, "User association and load balancing for cellular massive MIMO, " in Proc. of ITA 2014, Feb. 2014, pp. 1-10.
[11] WATKINS C, DAYAN P. Technical note:Q-Learning[J]. Machine Learning, 1992, 8(3/4): 279–292. doi: 10.1023/A:1022676722315