2. 昆明理工大学 电力工程学院, 昆明 650500;
3. 中国能源建设集团云南省电力设计院有限公司, 昆明 650000
2. Faculty of Electric Power Engineering, Kunming University of Science and Technology, Kunming 650500, China;
3. China Energy Construction Group Yunnan Electric Power Design Institute Co., Ltd, Kunming 650000, China
随着当今社会数字化、信息化的快速发展,智能电网的应用层面进一步拓宽,“十三五”期间国内计划安装2.3亿块智能电能表对用户用电数据进行实时采集,用电采集系统[1]的发展完善使电力大数据量快速增长,为分析电力用户用电特性,提升负荷预测准确率、识别用户用电模式、评估需求响应潜力、指导电价制定等提供了基础[2]。同时,电力大数据也成为国内外研究热点[3-5],且用电负荷规模快速增长,用电结构持续优化调整,三产及居民生活用电比例不断上升,负荷尖峰化特征愈发明显。
电力负荷是典型的非线性时间序列数据,其随时间行进呈趋势性、周期性的波动。电力用户用电行为模式划分是以多用户时序数据为基础的无先验信息及标签类问题,聚类分析属于机器学习算法中典型的无监督学习算法,在用户用电行为分析中得到了广泛的应用[6-8]。在进行负荷聚类时,考虑负荷曲线趋势性和周期性的相似程度,正确衡量负荷随时间变化的形态和轮廓的相似性才能把握用户的用电习惯和特性,从而对同类用户进行聚类并完成用户用电模式的识别[9]。通过分析用户用电行为,电网端可获取多用户用电细节,并制定相应政策方针改善用户用电方案,以提高电网系统运行效率,达到节能减排的目的。当前,负荷聚类分析主要分为直接聚类法[10-11]及间接聚类法[12-13]:直接聚类法直接对原始负荷数据进行聚类分析,包含K-means聚类法、层次聚类法及基于密度的聚类法等;间接聚类法先将原始负荷序列进行降维提取其特征,然后再进行聚类分析,降维方法包含主成分分析、奇异值分解及卷积神经网络特征提取等。
在用户用电行为聚类分析问题上,文献[14]将调节潜力指标作为要素对用户用电行为进行了分析;文献[15]建立了峰时耗电率、负荷率、谷电系数及平段用电的时序特征,并结合云计算与并行K-means算法对用户行为进行分析;文献[16]提出多元大数据平台融合的改进思路,使用批处理及流处理的方法分析用户用电行为;文献[17]关注聚类个数确定方法及初始聚类中心的选择逻辑两个要素,对K-means算法进行改进;文献[18]针对海量用户数据,提出首先对负荷进行局部聚类获取特征,然后再根据局部特征获取整体聚类结果的两阶段聚类方法;文献[19]使用自适应模糊均值算法对电力用户进行聚类,然后使用核极限学习机对各类用户进行负荷预测;文献[20]提出一种负荷特征集优选策略,减少了负荷特征间的分类信息冗余,构建精简的特征子集以达到更好的聚类效果。但不同类型的用户用电波动大、峰谷差明显,未针对其尖峰负荷的特性进行设定、区分,无法有效以尖峰负荷的特征量进行数据挖掘、聚类。
基于此,本文首先对尖峰负荷定义进行描述,并分析尖峰负荷特性指标。然后将尖峰负荷特性指标应用于用户日负荷数据中提取用户用电行为尖峰特性特征[21-23]。最后以美国国家可再生能源实验室开源用户用电数据为研究对象,采用K-means算法进行用户用电行为分析,并对比使用尖峰特性特征与原始负荷的聚类结果。
1 尖峰负荷特征指标 1.1 尖峰负荷定义随着电力系统发展不断成熟,尖峰负荷已由最初的点负荷发展成为可能影响电力系统安全稳定运行的时段性顶峰负荷。目前,行业内关于尖峰负荷的定义尚未达成共识,其物理含义为:一定时期某区域内,电力负荷在一段持续时间内超过或者达到峰值一定百分比的区域。一般尖峰负荷的峰值百分比取3%、5%、10%,即大于最大负荷的90%、95%、97%部分认为是峰值负荷,周峰值负荷示意图如图 1所示。
![]() |
图 1 周峰值负荷示意图
Figure 1 Schematic diagram of weekly peak load
图中:![]() ![]() ![]() ![]() |
按照负荷本身特征及对电网的影响,尖峰负荷特性指标主要包括尖峰负荷规模、频次、电量、持续时间、利用小时数。其定义分别如下。
尖峰负荷规模:一定时间区间达到或超过某一峰值负荷百分比的负荷值。其时间区间划定根据需要可以是一年,也可以是一个月或几个月等。设需求时间区间内采集的负荷样本为U=[u1, u2, …, uM], 其中uM代表采集时间内的第M个负荷值,则尖峰负荷规模表达式如式(1)所示:
![]() |
(1) |
式中:ut, p代表在指定时间区间t内,对应不同峰值百分比p的尖峰负荷规模。
尖峰负荷频次Ct:一定时间区间达到或超过某一峰值负荷百分比的次数。
尖峰负荷电量Wt:尖峰负荷持续时间段内用电量的总和。
尖峰负荷持续时间St:达到或超过某一峰值负荷的时间,持续时间可以分为单次持续时间和累计持续时间。
尖峰负荷利用小时数Ht:尖峰负荷利用小时数指尖峰负荷电量与超过某峰值百分比区域内最大负荷的比值,计算公式为:
![]() |
(2) |
聚类分析的目的在于从一个无标签的数据集中根据个体相似性识别出不同的组,每个划分组内成员具有相似特征且区分于其他组成员特性。多用户用电数据在初始场景下属于典型的无标签数据集,通过对用户负荷数据进行聚类分析,可划分不同用能特性用户组,例如区分不同产业类型用户、在居民用电数据中区分用能习惯不同的用户,并根据不同用户组制订对应用能调节方案。
2.1 K-means算法原理K-means是基于原型的聚类算法,算法先对原型进行初始化,然后对原型进行迭代更新求解:首先,指定初始聚类中心,然后将样本集内各点划分至不同簇,计算簇内平均距离,以距离下降为方向迭代循环,当簇内平均距离最小、簇间平均距离最大时,算法终止。算法流程如图 2所示,其算法步骤如下。
![]() |
图 2 K-means算法流程 Figure 2 K-means algorithm chart |
(1)步骤1:从长度为N样本数据集X=[x1, x2, …, xN]中任意选取K条数据作为初始聚类中心Y=[y1, y2, …, yK]。
(2)步骤2:计算剩余数据与各聚类中心的距离,并将距离聚类中心最近的数据划分为一个簇类。距离计算通常采用欧几里得距离进行度量,则第i(i=1, 2,…, N)个数据与第j(j=1, 2, …, K)个聚类中心的欧式距离及计算公式为:
![]() |
(3) |
(3)步骤3:根据式(4)重新计算每个簇类的中心。
![]() |
(4) |
式中:Dj代表第j个簇类中包含的成员个数;ri为筛选变量,当xi从属于第j个簇类时,ri = 1,否则取ri = 0。
(4)步骤4:判断函数是否收敛或达到最大迭代次数,若收敛或达到最大迭代次数则输出聚类结果,否则返回步骤2。
算法迭代的目标函数F如式(5)所示:
![]() |
(5) |
本文基于K-means算法,首先对用户日负荷数据进行聚类分析。设包含N个用户日负荷数据的矩阵为Xa,有:
![]() |
(6) |
式中:xN, 1代表第N个用户的日负荷数据中第l(l ∈[1, m]) 个采集点负荷数据值。根据不同的采集粒度,日负荷数据长度m可为24、48、96等。
对收集的数据集进行缺失值查询,使用近邻插值填补空值以避免缺失值对聚类结果造成影响。为避免不同用户用能尺度差异过大,对所有用户数据采用min-max归一化法进行归一化。
![]() |
(7) |
式中:xk, l为第k(k ∈[1, N])个用户第l个数据值;xk, min为第k个用户日负荷数据最小值;xk, max为第k个用户日负荷数据最大值。
数据采集过程中难免出现仪器或人为错误,为避免异常点对聚类结果产生影响,使用平滑公式对异常点进行置换,平滑公式见式(8):
![]() |
(8) |
完成数据收集及预处理后,使用K-means对用户负荷数据进行聚类,具有相同负荷特性的用户归属为一个簇类,每个聚类中心可作为该簇类用户的日负荷等效曲线。
3 算例分析 3.1 数据集本文使用数据集来自美国国家可再生能源实验室开源用户用电数据[17],自典型气象年模拟的936个用户中任意抽取498个用户任意一日的日负荷数据,随机抽取用户与时序的目的是为了保证算例分析中算法的鲁棒性与适应性。数据采集时间间隔为1 h,一天采集24点,共包含11 952条数据。用户原始日负荷曲线见图 3。
![]() |
图 3 用户原始日负荷曲线 Figure 3 User original daily load curve |
由图 3可见,用户原始日负荷曲线未经聚类时比较杂乱,难以直接提取用户用电模式。直接对原始序列进行聚类,因时序数据序列较长,欧式距离难以完全准确地度量序列之间的特性差异。本文结合尖峰负荷特性指标,构建用户日负荷尖峰特性特征集对用户用电行为进行聚类分析。
尖峰负荷特性指标包含尖峰负荷规模、频次、持续时间、电量占比、利用小时数,因不同数据采集粒度精细度不一致,故按如下方式提取尖峰负荷特性特征。
(1)尖峰负荷规模:使用式(1)计算各用户日尖峰负荷规模,算例统一取10%峰值百分比,即p= 10%。
(2)尖峰负荷频次:对一日中用能超过尖峰负荷规模一次的单峰用户取Ct=1,双峰用户取Ct=2,以此类推。
(3)尖峰负荷电量:对尖峰负荷电量采用上取整的计算方式,则第k个用户的尖峰负荷电量Wk, t为:
![]() |
(9) |
式中:ci为筛选变量,当xk, i大于或等于尖峰负荷规模时取值1,否则取值0。
(4)尖峰负荷持续时间:对尖峰负荷持续时间同样采用上取整的计算方式。对单次持续时间,在负荷上升段取负荷值大于或等于尖峰负荷规模数值的右侧第一个采集点,在负荷下降段取负荷值大于或等于尖峰负荷规模数值的左侧第一个采集点,根据两个采集点采样时间差计算单次持续时间。累计持续时间等于多个单次时间累加值。
(5)尖峰负荷利用小时数:使用式(2)计算尖峰负荷利用小时数。
3.3 聚类结果评价标准聚类结果评价标准通常分为有标签及无标签两类,在真实分类情况已知时使用有标签评价方法,分类情况未知时使用无标签评价标准。本文数据集中未提供用户类别划分标签,属于无先验信息的聚类分析场景,故采用轮廓系数(Silhouette标准)对聚类结果进行评价。第k个对象的轮廓系数S(k)计算式如式(10):
![]() |
(10) |
式中:b(k) 表示对象k与非同簇类对象的平均距离,用以表征分离度;a(k) 表示对象k与同簇类对象的平均距离,用以表征凝聚度。
轮廓系数取值范围为[-1, 1],值越大说明聚类结果中,同簇类成员紧密度、不同簇类成员分离度越高,聚类性能越优良。
3.4 聚类性能对比及最优类别数量对构建的尖峰特性指标特征集及原始数据集使用K-means算法进行聚类分析,根据聚类结果计算轮廓系数指标,轮廓系数结果随不同聚类数量的变化如图 4所示。
![]() |
图 4 不同数据集聚类性能曲线
Figure 4 Clustering performance curves for different data sets
图中:![]() ![]() |
尖峰特性指标特征集在聚类数量为6时取得最佳轮廓系数0.617,优于原始数据集在聚类数量为5时的最佳轮廓系数0.523,说明使用尖峰特性指标特征集时的聚类性能较为优良。
3.5 用户用电行为特性分析由上述分析可知,数据集中498个用户按用电模式可分为6类,第1类包含235个用户,第2类包含108个用户,第3类包含26个用户,第4类包含47个用户,第5类包含19个用户,第6类包含63个用户。各类用户负荷曲线如图 5所示。
![]() |
图 5 各类用户负荷曲线 Figure 5 Load curve of various users |
由用户原始负荷曲线及分类后用户负荷曲线可以看出,样本集中的用户用电习惯在随着时间波动上具有相似性,用电谷段通常在凌晨02:00—03:00时,在早晨06:00—07:00时出现第一个用电高峰,并在16:00—20:00时达到日最大负荷后逐渐下降。
各类用户典型用能曲线尖峰特性特征汇总如表 1所示。由表 1可知,第1、2类用户尖峰电量在3~4 kWh、持续时间保持在2 h,属于中等耗能类用户,在样本集中占比最大;第3、4、5类用户尖峰电量在10 kWh左右、持续时间保持在4~5 h,属于高耗能用户,其尖峰规模、电量及持续时间都较其他类用户较高;第6类用户同比尖峰电量与持续时间均较低,则属于低耗能用户。
表 1 各类用户典型用能尖峰特征汇总 Table 1 Summary of typical peak energy consumption characteristics of various users |
![]() |
通过几类用户的尖峰负荷的聚类,并分析其尖峰规模、尖峰频次、尖峰电量、持续时间、利用小时数,可以有效调整相应的用户定价方式,降低其尖峰负荷大小与持续时间,保证尖峰负荷区域的电量平衡与电压稳定。
4 结束语针对当前用户用电行为聚类分析对尖峰负荷特性特征挖掘不足的问题,构建了用户日尖峰负荷特性指标特征集,使用K-means算法对特征集进行聚类分析并与原始数据集聚类结果进行了性能对比。算例分析结果表明,使用负荷尖峰特性特征集有效提取了原始负荷波动特征并降低了数据集维度,使聚类性能取得了一定提升。
后续研究将进一步扩充负荷特征类别,构建负荷特性特征库,并使用特征优选策略提取关键特征。同时基于聚类结果,设计相应负荷用户的分时定价方式、需求响应机制,以提高系统电量的平衡稳定。
[1] |
齐军, 徐也童, 万江, 等. 大规模风电场接入对内蒙古电网安全稳定的影响[J].
内蒙古电力技术, 2009, 27(4): 1-5 QI Jun, XU Yetong, WAN Jiang, et al. Security and Stability Influence of Large Scale Wind Farms Integration on Inner Mongolia Grid[J]. Inner Mongolia Electric Power, 2009, 27(4): 1-5 ( ![]() |
[2] |
胡江溢, 祝恩国, 杜新纲, 等. 用电信息采集系统应用现状及发展趋势[J].
电力系统自动化, 2014, 38(2): 131-135 HU Jiangyi, ZHU Enguo, DU Xingang, et al. Application Status and Development Trend of Power Consumption Information Collection System[J]. Automation of Electric Power Systems, 2014, 38(2): 131-135 ( ![]() |
[3] |
程祥. 基于负荷量测数据的电力负荷聚类方法研究[D]. 杭州: 浙江大学, 2017.
( ![]() |
[4] |
谢清玉, 张耀坤, 李经纬. 面向智能电网的电力大数据关键技术应用[J].
电网与清洁能源, 2021, 37(12): 39-46 XIE Qingyu, ZHANG Yaokun, LI Jingwei. Application of Key Technologies of Power Big Data in Smart Grids[J]. Advances of Power System & Hydroelectric Engineering, 2021, 37(12): 39-46 ( ![]() |
[5] |
李清. 基于改进PSO-PFCM聚类算法的电力大数据异常检测方法[J].
电力系统保护与控制, 2021, 49(18): 161-66 LI Qing. Power Big Data Anomaly Detection Method Based on An Improved PSO-PFCM Clustering Algorithm[J]. Power System Protection and Control, 2021, 49(18): 161-66 ( ![]() |
[6] |
辛苗苗, 张延迟, 解大. 基于电力大数据的用户用电行为分析研究综述[J].
电气自动化, 2019, 41(1)1-4, 27 XIN Miaomiao, ZHANG Yanchi, XIE Da. Summary of Researches on Consumer Behavior Analysis Based on Big Power Data[J]. Electrical Automation, 2019, 41(1)1-4, 27 ( ![]() |
[7] |
赵晋泉, 夏雪, 刘子文, 等. 电力用户用电特征选择与行为画像[J].
电网技术, 2020, 44(9): 3488-3496 ZHAO Jinquan, XIA Xue, LIU Ziwen, et al. User Electricity Consumption Feature Selection and Behavioral Portrait[J]. Power System Technology, 2020, 44(9): 3488-3496 ( ![]() |
[8] |
龙翩翩, 苏海林. 一种基于多源信息融合的窃电行为在线监测方法[J].
机电工程技术, 2019, 48(6): 189-191 LONG Pianpian, SU Meilin. An Online Monitoring Method of Electric Larceny Based on Multisource Information Fusion[J]. Mechanical & Electrical Engineering Technology, 2019, 48(6): 189-191 ( ![]() |
[9] |
朱炎平. 基于聚类的用户用电行为分析研究[D]. 北京: 华北电力大学, 2017.
( ![]() |
[10] |
海沫. 大数据聚类算法综述[J].
计算机科学, 2016, 43(S1): 380-383 HAI Mo. Survey of Clustering Algorithms for Big Data[J]. Computer Science, 2016, 43(S1): 380-383 ( ![]() |
[11] |
伍育红. 聚类算法综述[J].
计算机科学, 2015, 42(S1)491-499, 524 WU Yuhong. General Overview on Clustering Algorithms[J]. Computer Science, 2015, 42(S1)491-499, 524 ( ![]() |
[12] |
向培素. 聚类算法综述[J].
西南民族大学学报(自然科学版), 2011, 37(S1): 112-114 XIANG Peisu. General Overview on Clustering Algorithms[J]. Journal of Southwest University for Nationalities Natural Science Edition, 2011, 37(S1): 112-114 ( ![]() |
[13] |
庞传军, 余建明, 冯长有, 等. 基于LSTM自动编码器的电力负荷聚类建模及特性分析[J].
电力系统自动化, 2020, 44(23): 57-63 PANG Chuanjun, YU Jianming, FENG Changyou, et al. Clustering Modeling and Characteristic Analysis of Power Load Based on Long-short-erm Memory Auto-encoder[J]. Automation of Electric Power Systems, 2020, 44(23): 57-63 ( ![]() |
[14] |
杨卫红, 赖清平, 兰宇, 等. 基于调节潜力指标的用户用电行为聚类分析算法研究[J].
电力建设, 2018, 39(6): 96-104 YANG Weihong, LAI Qingping, LAN Yu, et al. Research on Clustering Analysis Algorithm Based on Adjustable Potential Index for User Power Consumption Behavior[J]. Electric Power Construction, 2018, 39(6): 96-104 ( ![]() |
[15] |
张素香, 刘建明, 赵丙镇, 等. 基于云计算的居民用电行为分析模型研究[J].
电网技术, 2013, 37(6): 1542-1546 ZHANG Suxiang, LIU Jianming, ZHAO Bingzhen, et al. Cloud Computing-Based Analysis on Residential Electricity Consumption Behavior[J]. Power System Technology, 2013, 37(6): 1542-1546 ( ![]() |
[16] |
李维, 王洪林, 南峰涛, 等. 云南省两地区典型用户负荷特性及用电特点分析[J].
云南电力技术, 2019, 47(4): 39-43 LI Wei, WANG Honglin, NAN Fengtao, et al. Analysis on Power Load and Consumption Characteristics of Representative Consumers in Two Regions from Yunnan Province[J]. Yunnan Electric Power, 2019, 47(4): 39-43 ( ![]() |
[17] |
吉杨, 李智慧, 李振龙, 等. 基于单一变量法的大用户线损管理辅助决策模型研究[J].
东北电力技术, 2019, 40(8)35-38, 42 JI Yang, LI Zhihui, LI Zhenlong, et al. Decision Supporting Model for Big Customer Line Loss Management Based on Single Variable Method[J]. Northeast Electric Power Technology, 2019, 40(8)35-38, 42 ( ![]() |
[18] |
朱文俊, 王毅, 罗敏, 等. 面向海量用户用电特性感知的分布式聚类算法[J].
电力系统自动化, 2016, 40(12): 21-27 ZHU Wenjun, WANG Yi, LUO Min, et al. Distributed Clustering Algorithm for Awareness of Electricity Consumption Characteristics of Massive Consumer[J]. Automation of Electric Power Systems, 2016, 40(12): 21-27 ( ![]() |
[19] |
李飞, 王鸿玺, 谭阿峰, 等. 考虑用电行为分析的电力用户用电预测研究[J].
电子测量技术, 2020, 43(1): 74-79 LI Fei, WANG Hongxi, TAN Afeng, et al. Study on the Power Consumption Forecast Considering the Analysis of Power Consumption Behavior[J]. Electronic Measurement Technology, 2020, 43(1): 74-79 ( ![]() |
[20] |
陆俊, 朱炎平, 彭文昊, 等. 智能用电用户行为分析特征优选策略[J].
电力系统自动化, 2017, 41(5)58-63, 83 LU Jun, ZHU Yanping, PENG Wenhao, et al. Feature Selectiong Strategy for Electricity Consumption Behavior Analysis[J]. Automation of Electric Power Systems, 2017, 41(5)58-63, 83 ( ![]() |
[21] |
孙胜博, 张凯, 冯剑, 等. 基于负荷特性分析的电力用户用电行为特征研究[J].
内蒙古电力技术, 2020, 38(1): 40-44 SUN Shengbo, ZHANG Kai, FENG Jian, et al. Research on Characteristics of Customer Electricity Behavior Based on Load Characteristics[J]. Inner Mongolia Electric Power, 2020, 38(1): 40-44 ( ![]() |
[22] |
张爽, 丁麒, 景伟强, 等. 分时电价下考虑舒适度的家庭负荷调节特性分析[J].
浙江电力, 2017, 36(12): 42-46 ZHANG Shuang, DING Lin, JING Weiqiang, et al. Analysis of Household Load Regulation Considering Comfort under TOU Price[J]. Zhejiang Electric Power, 2017, 36(12): 42-46 ( ![]() |
[23] |
彭勃, 李作红, 李猛, 等. 基于近邻传播算法的电力用户负荷曲线聚类分析[J].
机电工程技术, 2019, 48(4)183-186, 224 PENG Bo, LI Zuohong, LI Meng, et al. Power Load Profiles Clustering Method based on Affinity Propagation Algorithm[J]. Mechanical & Electrical Engineering Technology, 2019, 48(4)183-186, 224 ( ![]() |