广东工业大学学报  2017, Vol. 34Issue (3): 105-109.  DOI: 10.12052/gdutxb.170044.
0

引用本文 

陈丽, 曹熙, 林俊杰, 高鸿铭, 刘飞雅, 李艳艳. 基于数据挖掘的短期电力负荷风险预测分析[J]. 广东工业大学学报, 2017, 34(3): 105-109. DOI: 10.12052/gdutxb.170044.
Chen Li, Cao Xi, Lin Jun-jie, Gao Hong-ming, Liu Fei-ya, Li Yan-yan. Prediction of Short-Term Load Based on Big Data Mining[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2017, 34(3): 105-109. DOI: 10.12052/gdutxb.170044.

基金项目:

广东青年职业学院2016-2018年度学院科研项目(QN201601)

作者简介:

陈丽(1989–),女,助教,硕士研究生,主要研究方向为数据挖掘、客户关系管理等. E-mail: 173404946@qq.com

文章历史

收稿日期:2017-03-01
网络出版时间:2017-05-01
基于数据挖掘的短期电力负荷风险预测分析
陈丽1, 曹熙2, 林俊杰2, 高鸿铭3, 刘飞雅2, 李艳艳2     
1. 广东青年职业学院    工商管理系, 广东    广州  510507;
2. 广州科腾信息科技有限公司 管理咨询事业部, 广东 广州 510656;
3. 广东工业大学    管理学院, 广东    广州  510520
摘要: 电力负荷风险越来越成为电力生产行业关注的热点, 传统的电力负荷风险预测仅仅从单因素测评台区的风险度, 缺乏全面和系统性. 因此, 传统的预测方法, 不能准确地预测风险因素造成的电力故障隐患. 为解决此问题, 从供电局客服数据、机器监测台区记录、天气等多数据源着手, 对电力负荷风险进行分析和预测. 首先, 对数据进行清洗和分类. 然后, 利用K-Mean聚类筛选出与电力负荷相关性强的因素作为模型的变量. 并在此基础上, 构建基于贝叶斯判别的台区电力风险预测模型. 通过数据实验, 该模型能够以99.53%的准确度来预估台区的负荷风险, 从而进行有效的电力故障预测判断, 为电力企业传送电的风险防范和控制决策提供支持, 降低客户的用电故障,提高客户满意度.
关键词: 数据挖掘    电力负荷    风险预测    聚类    贝叶斯模型    
Prediction of Short-Term Load Based on Big Data Mining
Chen Li1, Cao Xi2, Lin Jun-jie2, Gao Hong-ming3, Liu Fei-ya2, Li Yan-yan2     
1. Bussiness Administration, Guangdong Youth Vocational College, Guangzhou 510507, China;
2. Management Consulting Department, Guangdong Ke Teng Information Technology Co. Ltd., Guangzhou 510656, China;
3. School of Managment, Guangdong University of Technology, Guangzhou 510520, China
The risk of power load becomes the hot spot in the electric power industry; however, due to the single factor evaluation, the traditional power load forecasting model is not adequately comprehensive and systematic. Hence, it cannot accurately predict the risk and may cause hidden danger of power failures. To address this issue, the risk of power load is analyzed and forecast by collecting data from multiple sources: customer service center, machine, and historical weather records and so on. First by cleaning and sorting the data and then by the K-Mean clustering, variables are chosen which have strong correlation with risk degree of transformer to construct the Bayesian discriminant models. The experimental results show that this model can accurately predict the risk of transformer at a certain probability of 99.53%. In the practical aspect, this model can provide prevention scheme and control decisions to power supply security and contribute to reduce customer's electricity failure and improve customer satisfaction.
Key words: data mining    electric load    prediction of risk    clustering    Bayesian    

随着城镇化进程的推进,居民用电量日益增加,且呈现时段性用电峰谷. 如何有效预测电力负荷成为了电力行业提高服务质量的重要问题[1]. 文献[2]提出电力负荷的风险预测是指在充分考虑电力负荷的实时数据、客户体验、气象等数据的基础上,利用大数据挖掘的方法,发现影响电力负荷的各种相关因素,最终预测电力负荷在未来的变化趋势. 电力系统的负荷风险变化受到多因素的影响和制约,因素之间具有不确定性和不稳定性. 文献[3]认为目前大部分的电力负荷预测都是采用多元线性回归、神经网络、指数平滑等方法. 文献[4]通过对中国统计年鉴所提供的历年电力负荷数构建多元线性回归模型,进行电力负荷预测;文献[5]则对上海用电量采用指数平滑方式进行负荷预测;文献[6]利用马尔科夫链和模糊聚类两者的方法,对青海省某地区电力负荷进行预测,使得预测值与现实历史负荷接近;文献[7]利用局部加权线性回归预测方法,解决海量数据下的电力负荷短期预测. 文献[8]归纳了多种在冰雪灾害天气下电力系统风险负荷的评估方法,但其作者认为在灾害天气下系统级的电力系统安全风险评估方法仍较为匮乏. 文献[9]利用电力系统历史数据进行事后预测以及确定这两个数据的最优比例,然后再进行极限学习机输出值进行同等比例的缩放来预测负荷的上下界限. 文献[10-12]都是从天气方面考虑对电力系统的影响,其中[11]提出基于气象预测的短期电力系统可靠性评估,构建支持向量机的预测模型. 文献[13]在二级电压控制中构建了多智能体控制体系,以此来对电压进行监测和控制. 文献[14]提出了对电网最大负荷供应能力的几个关键影响因素,如电网结构、负荷比例分布、电源配置.

传统的方法虽然能够达到一定程度的预测,也能找到影响电力负荷的相关因素,但是现实中电力负荷是受到多方面因素的影响. 这些因素包括用电时间段、用户、天气、基建项目状态等. 除此外,大部分的电力负荷数据都具有半结构化、非结构化的特点. 而且目前电网系统数据来源于不同的管理部门,各影响因素之间的数据映射性差,难以形成良好的数据网. 本文打破各专业的数据壁垒,融合实时负荷数据、客户用电、天气、基建项目状态等多方面的数据,通过数据清洗、筛选、建立映射关系等获取影响每个台区短期电力负荷的变量. 最后结合K-mean聚类法与贝叶斯判别法,对每个台区的停电风险进行预测. 具体的技术流程如图1所示.

图 1 负荷风险预测流程图 Figure 1 Flow chart of forecast of power risk
1 提取变量 1.1 数据来源

研究的数据来源于2015年F市由机器检测出的,存在过停电事故的33 127个台区实时负荷数据表、该市该年每个台区的明细、供电局计划内停电的台区数据、用户投诉停电记录、天气状况、电力基建项目记录.

1.2 数据清洗

由于数据来源于不同的电力部门,数据中各字段的命名规则、记录方式、数据结构等都各不相同,所以在进行变量提取前先要进行适当的数据清洗.

1.2.1 台区实时负荷数据清洗

在2015年F市全部台区的实时负荷数据表中,主要由“台区编号”,“台区名称”、“监测日期”、“一天每15min记录一次的实时负荷”共96个(P 1P 96)字段1 200 801行数据组成,部分字段如表1所示.

表 1 2015 F市台区实时负荷记录 Table 1 Transient record of power load of F city in2015

每一天每个台区都包含了96个实时负荷的记录,这些离散数据实际上能够从一定程度反映出该台区每天的负荷状态. 如果台区负荷正常,则正常记录该时刻的负荷数,反之,则无法记录. 也即,如果一个台区P i 点记录为0,则表示这15 min内,该台区发生了故障. 利用这个规则,提取出4个停电变量:停电15 min(rtfreq1);停电30 min(rtfreq2);停电45 min(rtfreq3);停电60 min(rtfreq4).

记录除了包含实时负荷数,还包括每次的电容量. 如果该台区某次的电容量超过额定容量的70%,便认定为有停电的风险(rto70%);提取该台区瞬时负荷容量超过总容量的记录次数(rttotal).

1.2.2 计划内停电数据清洗

2015年F市供电局计划内停电数据表中,每条记录包含了23个字段,通过清洗、整理,提取出每月每台区的停电频数(pofreq);每台区每月的平均停电时长(poad)= $\displaystyle\frac{\text{月总停电时长}}{\text{停电频数}}$ , 单位min.

1.2.3 用户投诉停电数据清洗

用户投诉数据主要是来源于电力部门的客服部,其通过电话、网络等渠道接收顾客对于电力故障的各项投诉. 在原始用户投诉数据表中,每条记录包含49个字段. 通过字段的筛选,最终仅保留台区的每月被投诉的次数(errortimes).

1.2.4 其他数据的清洗

其他数据来源于2015年F市台区基建状态(state)、月平均气温(mat).

经过数据结构的统一、标准化、建立映射关系等,最终确定了以上11个与每个台区负荷风险程度相关的变量.

2 台区的K-mean聚类 2.1 初始聚类

已知观测到的台区集( ${x_1},{x_2}, \ldots \left. {{x_{33\;127}}} \right|{x_i}$ 表示第i个台区), 其中每个台区都是一个11-维矢量[13]. K-mean聚类就是要把这33 127个台区划分到k个集合中(k≤33 127),使得组内平方和最小,即能够满足式(1).

$\arg {\min _s}\sum\nolimits_{i = 1}^k {\sum\nolimits_{x \in {s_i}} {{{\left\| {x - {u_i}} \right\|}^2}} } .$ (1)

不同的台区,其负荷风险可能有不同的特点,而且要聚类一种类型的台区往往要考虑多个方面的信息[15]. 所以,将11个变量纳入K-mean聚类模型中,尝试从实时负荷、计划内停电、顾客投诉、基建状态、气温5个方面去对一个台区进行全面的描述. 通过K-mean聚类所得如表2所示.

表 2 初始聚类结果 Table 2 The result of Initial clustering
2.2 变量筛选及聚类结果

通过上述的初始聚类,由聚类的结果表2看出,每个台区的负荷风险主要由停电频数(pofreq)、平均停电时长(poad)、月平均气温(mat)3个变量来解释,其他变量与聚类的4种台区类型无明显相关性. 所以去除其他变量,仅利用这3个变量对所有台区重新聚类,结果如图2所示,聚类后分成了4种类型的台区.

图 2 筛选出的变量聚类中心 Figure 2 Clustering center of variables
图 3 F市9月计划内停电及顾客投诉数 Figure 3 The quantity of power failure and customers’ complaints

1类台区共有78个. 与其他类的不同点主要是这类台区每个月供电局计划内的停电频数(pofreq)为249次,远高于其他3类台区,属于高频次停电台区. 因此,定义此类为高频超负荷台区.

2类台区有20 328个,显示特征为停电频数(pofreq)和平均停电时长(poad)均为最低. 这类台区,每月停电频数不多,平均每一次的停电时长也较短. 主要临时突发性停电问题,定义此类为突发性超负荷台区.

3类台区有421个,其平均停电时长均值达到约1 135min,且停电时当日平均气温最高,可以认为这一类台区是属于受高温影响而长时停电的台区. 定义为长时超负荷台区.

4类台区有12 300个,停电频数(pofreq)较高,同时平均停电时长(poad)较长,属于高频长时超负荷台区.

2.3 客户对台区负荷风险的感知

上述操作已对33 127个存在停电故障的台区进行了K-mean聚类,且聚成了4种类型. 实际上,虽然机器检测出某个台区存在停电故障状态,但是往往用户未必能够感知到停电. 如果仅仅以机器检测结果为决策依据,则可能导致资源成本的浪费. 图3为F市9月份计划内停电数量及顾客投诉数量的展示图. 热力部分为计划内停电区域,而气泡内的数字则表示这片区域的顾客投诉量.

2015年,在这33 127个台区中,有2 098个台区被用户投诉. 而在这些被用户投诉的台区,属于2类突发性超负荷台区的有1 365个,占总投诉台区数的65.1%. 也就是临时突发性停电会引起用户的强烈感知. 属于4类高频长时超负荷台区的有702个,占总投诉台区数33.5%. 而仅有1.5%的被投诉台区属于3类长时超负荷台区. 1类高频超负荷台区没有被用户投诉过,这是因为这种高频次停电的台区大部分已经荒废,并没有实际影响用户.

3 贝叶斯判别模型

对各台区进行聚类后,供电局可以根据每一类台区的特点,进行一系列的整改措施. 但要确认新的台区类别,则要进行贝叶斯判别[16-18].

贝叶斯判别模型的基本思想为:设有两个总体,其先验概率分别是q 1q 2. 各总体密度函数为f 1(X),f 2(X),在观测到的一个样本x的情况下,可用贝叶斯公式计算这个样本来自第k个总体的后验概率为

$p\left( {\frac{{{G_k}}}{x}} \right) = \frac{{{q_k}{f_x}(x)}}{{\sum\nolimits_{k = 1}^2 {{q_k}{f_x}(x)} }},k = 1,2.$ (2)

对于待判样本x,如果所有的 $p\left( {\frac{{{G_k}}}{X}} \right)$ 中, $p\left( {\frac{{{G_k}}}{X}} \right)$ 是最大的,则判定x属于h总体.

3.1 训练贝叶斯判别模型

计算机对33 127条记录从中随机抽取70%作为训练集,剩余30%作为检验集,训练结果如表3所示.

表 3 贝叶斯判别结果 Table 3 The result of Bayesian judgment

表3可以看出,整个模型的判别正确率达到99.6%. 原本为1类台区(高频超负荷台区)的,经过模型判别为1类的有51个,判别准确率为94.4%;原本为2类台区(突发性超负荷台区),模型判别为2类的有14 194个,准确率99.7%,有两个误判;3类台区(长时超负荷台区)被模型正确判别的的比率为100%;4类台区(高频长时超负荷台区)判别正确率为99.6%.

3.2 检验模型

将检验集9 904条记录(即未分组的台区记录)放入模型中,最终判别出1、2、3、4类台区记录分别有21、6 087、124、3 672条.

将检验集记录经过贝叶斯判别模型判别后的结果与K-mean聚类的结果作比对,如表4所示.

表 4 检验模型结果 Table 4 The result of test model

表4仅展示部分测试集合的结果. 贝叶斯判别模型准确率为99.53%,具有较高的准确率,只要输入相应的台区参数,便可以计算得出该台区短期负荷风险类别,具有较高的实用性.

4 结束语

台区的负荷风险预测需要考虑多方因素,应该对多部门、跨专业数据进行综合考虑. 同时要明确负荷风险预测的最终作用是为了提升顾客满意度,降低顾客投诉. 所以在设计模型的时候,要以此为目标. 本模型能够较准确地预测台区短期负荷风险类别,为电力相关部门提供决策依据. 虽然该模型预测结果具有较高的准确性,但仍有改进的地方,例如,怎样能够通过贝叶斯判别模型预测的结果确定影响台区负荷风险的关键变量,如何通过改变该变量使得预测结果能够得到改善,降低台区发生超负荷的风险率等. 因此在将来的工作则会注重原因分析,改进模型,使得模型具备更高的实用性.

参考文献
[1] 何洋, 邹波, 李文启, 等. 基于混沌理论的电力系统短期负荷预测的局域模型[J]. 华北电力大学学报(自然科学版), 2013, 40(4): 43-50.
HE Y, ZOU B, LI W Q. A chaos theory based local model for short-term load forecasting[J]. Journal of North China Electric Power University (Natural Science Edition), 2013, 40(4): 43-50.
[2] 牛东晓, 吕海涛, 张云云. 贝叶斯框架下最小二乘支持向量机的中长期电力负荷组合预测[J]. 华北电力大学学报(自然科学版), 2008, 35(6): 62-6.
NIU D X, LYU H T, ZHANG Y Y. Bayesian framework LSSVM the long term load forecasting[J]. Journal of North China Electric Power University (Natural Science Edition), 2008, 35(6): 62-6.
[3] 廖旎焕, 胡智宏, 马莹莹. 电力系统短期负荷预测方法综述[J]. 电力系统保护与控制, 2011, 39(01): 147-52.
LIAO N H, HU Z H, MA Y Y. Summary of forecasting methods of power system short-term load[J]. Power System Protection and Control, 2011, 39(01): 147-52. DOI: 10.3969/j.issn.1674-3415.2011.01.028.
[4] 彭鹏, 彭佳红. 基于多元线性回归模型的电力负荷预测研究[J]. 中国安全生产科学技术, 2011, 07(9): 158-61.
PENG P, PENG J H. Power load based on multiple linear regression model prediction[J]. Journal of Safety Science and Technology, 2011, 07(9): 158-61.
[5] 陈娟, 吉培荣, 卢丰. 指数平滑法及其在负荷预测中的应用[J]. 三峡大学学报(自然科学版), 2010, 32(3): 37-41.
CHEN J, JI P R, LU F. Exponential smoothing method and its application in Load Forecasting[J]. Journal of China Three Gorges University (Natural Sciences), 2010, 32(3): 37-41.
[6] 樊一娜. 基于马尔科夫链的短期电力负荷预测[J]. 青海大学学报(自然科学版), 2012, 3: 11-4.
FAN Y N. Short term load forecasting based on markov chain[J]. Journal of Qinghai University (Nature Science Edition), 2012, 3: 11-4.
[7] 张素香, 赵丙镇, 王风雨. 海量数据下的电力负荷短期预测[J]. 中国电机工程学报, 2015, 35(1): 37-42.
ZHANG S X, ZHAO B Z, WANG F Y. Term load forecasting based on massive data[J]. Proceedings of the CSEE, 2015, 35(1): 37-42.
[8] 侯慧, 李元晟, 杨小玲. 冰雪灾害下的电力系统安全风险评估综述[J]. 武汉大学学报(工学版), 2014, 47(3): 414-419.
HOU H, LI Y C, YANG X L. An overview of power system risk assessment under ice disaster[J]. Engineering Journal of Wuhan University, 2014, 47(3): 414-419.
[9] 李知艺, 丁剑鹰, 吴迪. 电力负荷区间预测的集成极限学习机方法[J]. 华北电力大学学报, 2014, 41(2): 78-88.
LI Z Y, DING J Y, WU D. An ensemble model of the extreme learning machine for load interval prediction[J]. Journal of North China Electric Power University, 2014, 41(2): 78-88.
[10] 熊小伏, 李磊, 方丽华. 基于可靠性和气象因素的配电网短期维修决策方法[J]. 电力系统保护与控制, 2013(20): 61-66.
XIONG X F, LI L, FANG L H. A decision method of short-term distribution network maintenance schedule based on reliability and meteorological factors[J]. Power System Protection and Control, 2013(20): 61-66. DOI: 10.7667/j.issn.1674-3415.2013.20.010.
[11] 何剑, 程林, 孙元章. 计及天气预测的电力系统运行可靠性短期评估[J]. 电力系统保护与控制, 2010, 38(10): 31-38.
HE J, CHENG L, SUN Y Z. Power system short-term operational reliability evaluation considering weather forecast[J]. Power System Protection and Control, 2010, 38(10): 31-38. DOI: 10.3969/j.issn.1674-3415.2010.10.007.
[12] 张小易, 徐兵, 张岩, 等. 利用气象等影响要素的电力系统故障元件识别与故障原因分析[J]. 华北电力大学学报, 2014, 41(6): 14-21.
ZHANG X Y, XU B, ZHANG Y. Fault section estimation and fault cause analysis employing meteorological and other impacting factors[J]. Journal of North China Electric Power University, 2014, 41(6): 14-21.
[13] 陈璟华, 陈少华, 杨宜民, 等. 电力系统二级电压的多智能体协调控制[J]. 广东工业大学学报, 2003, 20(1): 28-31.
CHEN J H, CHEN S H, YANG Y M, et al. Multi-agent based on secondary voltage coordination control in power system[J]. Journal of Guangdong University of Technology, 2003, 20(1): 28-31.
[14] 索智勇, 李日隆. 地方电网最大负荷供应能力的研究[J]. 广东工业大学学报, 2004, 21(2): 64-67.
SUO Z Y, LI R L. LSC study on local power network[J]. Journal of Guangdong University of Technology, 2004, 21(2): 64-67.
[15] 白雪峰, 蒋国栋. 基于改进K-means聚类算法的负荷建模及应用[J]. 电力自动化设备, 2010, 30(7): 80-83.
BAI X F, JIANG G D. Load modeling based on improved K-means clustering algorithm and its application[J]. Electric Power Automation Equipment, 2010, 30(7): 80-83.
[16] 陈宏义, 李存斌, 施立刚. 基于聚类分析的短期负荷智能预测方法研究[J]. 湖南大学学报(自然科学版), 2014, 41(5): 94-98.
CHEN H Y, LI C B, SHI L G. A new forecasting approach for short—term load intelligence based on cluster method[J]. Journal of Hunan University (Natural Sciences), 2014, 41(5): 94-98.
[17] 栗然, 高聪颖, 张烈勇. 基于粗糙集–贝叶斯方法的分布式电网故障诊断[J]. 华北电力大学学报, 2010, 37(2): 1-7.
LI R, GAO C Y, ZHANG L Y. The distributed fault diagnosis of power networks based on Bayesian rough set method[J]. Journal of North China Electric Power University, 2010, 37(2): 1-7.
[18] 于烨, 陈鹏, 李斌. 决策支持技术在电能质量监测中的应用研究[J]. 太原理工大学学报, 2010, 41(6): 717-722.
YU Y, CHEN P, LI B. Development and realization of decision support technology in power quality monitoring[J]. Journal of Taiyuan University of Technology, 2010, 41(6): 717-722.