  智能系统学报  2020, Vol. 15 Issue (6): 1197-1203  DOI: 10.11992/tis.202007003


王倩倩, 苗夺谦, 张远健. 深度自编码与自更新稀疏组合的异常事件检测算法[J]. 智能系统学报, 2020, 15(6): 1197-1203. DOI: 10.11992/tis.202007003.
WANG Qianqian, MIAO Duoqian, ZHANG Yuanjian. Abnormal event detection method based on deep auto-encoder and self-updating sparse combination[J]. CAAI Transactions on Intelligent Systems, 2020, 15(6): 1197-1203. DOI: 10.11992/tis.202007003.




王倩倩 , 苗夺谦 , 张远健     
同济大学 嵌入式系统与服务计算教育部重点实验室,上海 201804
摘要:基于深度学习的异常检测算法输入通常为视频帧或光流图像,检测精度和速度较低。针对上述问题,提出了一种以运动前景块为中心的卷积自动编码器和自更新稀疏组合学习(convolutional auto-encoders and self-updating sparse combination learning, CASSC)算法。首先,采用自适应混合高斯模型(gaussian mixture model, GMM)提取视频前景,并以滑动窗口的方式根据前景像素点占比过滤噪声;其次,构建3个卷积自动编码器提取运动前景块的时空特征;最后,使用自更新稀疏组合学习对特征进行重构,依据重构误差进行异常判断。实验结果表明,与现有算法相比,该方法不仅有效地提高了异常事件检测的准确性,且可以满足实时检测需求。
关键词深度学习    稀疏组合    自动编码器    自更新    异常事件检测    卷积神经网络    无监督学习    稀疏学习    
Abnormal event detection method based on deep auto-encoder and self-updating sparse combination
WANG Qianqian , MIAO Duoqian , ZHANG Yuanjian     
Key Laboratory of Embedded System and Service Computing, Tongji University, Shanghai 201804, China
Abstract: In the construction of a deep learning model for abnormal event detection, frames or optical flow are considered but the resulting accuracy and speed are not satisfactory. To address these problems, we present an algorithm based on convolutional auto-encoders and self-updating sparse combination learning, which is centered on the movement of foreground blocks. First, we use an adaptive Gaussian mixture model to extract the foreground. Using a sliding window, the foreground blocks that are moving, are filtered based on the number of foreground pixels. Three convolutional auto-encoders are then constructed to extract the temporal and spatial features of the moving foreground blocks. Lastly, self-updating sparse combination learning is applied to reconstruct the features and identify abnormal events based on the reconstruction error. The experimental results show that compared with existing algorithms, the proposed method improves the accuracy of abnormality detection and enables real-time detection.
Key words: deep learning    sparse combination    auto-encoder    self-updating    abnormal event detection    convolution neural network    unsupervised learning    sparse representation    


异常事件检测通常包含特征提取和建立检测模型。特征分为底层和深度学习特征。底层特征主要有方向梯度直方图[3]、三维时空梯度[4]、光流直方图[5]等。近年来,部分学者提出基于深度学习的检测算法[6-9]。Zhou等[8]设计了一个特征提取网络,包含运动混合和特征迁移两个模块。检测模型主要有分类和聚类[10-11]、误差值[12-13]和稀疏表示[14-17]。Lu等[16]取消稀疏约束,提出稀疏组合学习算法,检测速度可达150 f/s。文献[17]提出将稀疏参数映射到层叠循环神经网络中,提高了检测速度。


1 相关工作 1.1 背景建模


图 1 自适应混合高斯背景建模算法提取运动前景 Fig. 1 Extraction of moving foregrounds by adaptive GMM
1.2 异常事件检测中的特征学习




1.3 基于稀疏编码的异常检测

基于稀释编码的异常检测[13-16]在训练阶段从正常特征数据 ${{X}} = \{ {{{x}}_1},{{{x}}_2}, \cdots ,{{{x}}_n}\} $ 中学习稀疏约束的字典D。在测试阶段,给定测试样本x,计算稀疏重构误差值:

$ \mathop {\min }\limits_\beta \left\| {{{x}} - {{D }}\beta} \right\|_2^2, \;\;{\rm{s.t.}}\;\;{\left\| {\rm{\beta }} \right\|_0} \leqslant s $

式中:β为稀疏编码;s用于控制稀疏度。稀疏编码的优化较为耗时,文献[14]减小字典大小来提升检测效率。Zhao等[15]改用更快速的求解器,但单帧检测仍需数秒时间。文献[16]提出取消稀疏约束学习多个小字典,作者称之为稀疏组合学习,可达到150 f/s的检测效率。本文在此基础上提出了一种自更新的稀疏组合学习方法,以权值的方式加入先验知识,并在线更新,提高稀疏组合的灵活性。

2 基于运动前景快的特征表示 2.1 构建运动前景块


具体方法为,假定窗口内的前景像素个数为 $b$ ,计算前景像素点的占比:

$p = \frac{b}{{w \times w}}$


2.2 基于卷积自动编码器的特征提取

本文构建的3个卷积自动编码器提取时空特征,如图2所示。位于中间的自动编码器以灰度图作为输入,学习表观特征。另外两个的输入均为梯度,分别学习前后运动特征。3个自动编码器采用相同的结构,其中编码器由3个卷积层和3个最大池化层构成,解码器为3个上采样层和3个卷积层,以及输出层,具体参数如表1所示。卷积自动编码器的输入输出均为 $64 \times 64 \times {\rm{1}}$ 。卷积层采用 $3 \times 3$ 滤波器,除输出层外均使用ReLU激活函数。编码器的卷积层分别设有32、16、8个滤波器,池化层的步长为2。解码器的第一个卷积层为8个滤波器,随后两层设为16和32,上采样层将输入大小扩大一倍。

图 2 基于运动前景块的卷积自动编码器结构 Fig. 2 Structure of convolutional automatic encoder
表 1 卷积自动编码器的具体结构 Tab.1 Structure specifications of the convolutional auto-encoder


$L({{I}},{{O}}) = \frac{1}{{h,w}}\sum\limits_{i = 1}^h {\sum\limits_{j = 1}^w {{{\left( {{{{I}}_{ij}} - {{{O}}_{ij}}} \right)}^2}} } $

式中:IO分别为输入输出运动前景块;h、w为运动前景块的高宽。训练数据为正常视频,自动编码器学习正常运动目标的时空特征。将自动编码器的隐特征拼接作为运动前景块的时空特征。因每个卷积编码器的隐特征为 $8 \times 8 \times 8$ ,故运动前景块的时空特征为1536维( $8 \times 8 \times 8 \times 3$ )。

3 基于自更新稀疏组合异常检测算法

自更新稀疏组合检测算法流程图如图3所示,从训练数据中学习稀疏组合集合 ${{S}} = \{ {{{S}}_1}, $ $ {{{S}}_2}, \cdots ,{{{S}}_k} \}$ ,设定初始权值。给定测试数据,计算加权最小二乘误差,选取最小值作为结果输出。根据输出值大小判断是否为异常,同时选择置信度较高的测试样本对权值进行更新。

图 3 基于自更新稀疏组合学习检测模型 Fig. 3 Self-updating sparse combination learning detection model
3.1 模型构造


$ \begin{array}{l} t = \mathop {\min }\limits_{{{S}},{{\gamma }},{{\beta }}} \displaystyle\sum\limits_{j = 1}^n {\displaystyle\sum\limits_{i = 1}^k {{{\gamma }}_j^i\left\| {{{{x}}_j} - {{{S}}_i}{{\beta }}_j^i} \right\|_2^2} }\\ {\rm{s.t.}}\;\;\;\displaystyle\sum\limits_{i = 1`}^k {{{\gamma }}_j^i = 1},\;\;\gamma _j^i = \left\{ {0,1} \right\} \end{array} $ (1)

式中:Si为稀疏组合;xj为运动前景块的特征;n为训练样本的总数;k为稀疏组合的个数; ${{\gamma }} = \{ {{{\gamma }}_1}, {{{\gamma }}_2}, \cdots ,{{{\gamma }}_n}\} $ ${{{\gamma }}_j} = \{ {{\gamma }}_j^1, {{\gamma }}_j^2, \cdots ,{{\gamma }}_j^k\} $ ${{\gamma }}_j^i$ 表示Si是否为特征xj的最优稀疏组合; $\;{{\beta}} _j^i$ 是稀疏组合Si用于表示xj的系数。

3.2 模型参数求解


$ \begin{array}{c} {t_j} = \displaystyle\sum\limits_{i = 1}^k {{{\gamma}} _j^i\left\{ {\left\| {{{{x}}_j} - {{{S}}_i}{{\beta}} _j^i} \right\|_2^2 - \lambda } \right\}} \leqslant 0\\ {\rm{s.t.}}\;\;\displaystyle\sum\limits_{i = 1`}^k {{{\gamma}} _j^i = 1} ,\;\;{{\gamma}} _j^i = \left\{ {0,1} \right\}\;\;\forall j \in \left\{ {1,2, \cdots ,n} \right\} \end{array} $ (2)


$ \begin{array}{l} \mathop {\min }\limits_{{{{S}}_i},{{\gamma }},{{\beta }}} \displaystyle\sum\limits_{j \in {{\mathit{\Omega}} _c}} {{{\gamma }}_j^i\left( {\left\| {{{{x}}_j} - {{{S}}_i}{{\beta }}_j^i} \right\|_2^2 - \lambda } \right)} \\ \;\;\;{\rm{s.t.}}\;\;\displaystyle\sum\limits_{i = 1`}^k {{{\gamma}} _j^i = 1}, \;\;{{\gamma}} _j^i = \left\{ {0,1} \right\} \end{array} $ (3)

式中 ${{\mathit{\Omega}} _c}$ 为当前训练数据 ${{{X}}_c} \in {{X}}$ 的下标集合。同样采用迭代方式求解式(3),分两步进行:

1) 固定 ${{\gamma}} $ ,更新 ${{{S}}_i}$ β。式(3)简化为二次方程:

$L({{\beta }},{{{S}}_i}) = \displaystyle\sum\limits_{j \in {{\mathit{\Omega}} _c}} {{{\gamma }}_j^i} \left\| {{{{x}}_j} - {{{S}}_i}{{\beta }}_j^i} \right\|_2^2$ (4)

对所有 ${{\gamma}} _j^i \ne 0$ ,可求得最优ββ的闭式解为

${{\beta }}_j^i = {\left( {{{S}}_i^{\rm{T}} {{{S}}_i}} \right)^{ - 1}}{{S}}_i^{\rm{T}} {{{x}}_j}$ (5)

通过块坐标下降法求得 ${{{S}}_i}$ 的最优解为

${{{S}}_i} = \Pi \left[ {{{{S}}_i} - {\delta _t}{\nabla _{{S_i}}}L({{\beta }},{{{S}}_i})} \right]$ (6)

式中 ${\delta _t}$ 设置为0.0001。

2) 根据{Si, β},更新 ${{\gamma }} $ 。对xj求解函数为

$ \mathop {\min }\limits_{{{\gamma }}_j^i} {{\gamma }}_j^i\left\| {{{{x}}_j} - {{{S}}_i}{{\beta }}_j^i} \right\|_2^2 - \lambda {{\gamma }}_j^i,\;\;{\rm{s.t.}}\;\;{{\gamma}} _j^i = \left\{ {0,1} \right\} $ (7)

易得 ${{\gamma}} _j^i$ 的闭式解为

$ {{\gamma }}_j^i = \left\{ \begin{array}{l} {1,}\quad{\left\| {{{{x}}_j} - {{{S}}_i}{{\beta }}_j^i} \right\|_2^2 < \lambda }\\ {0,}\quad{{\text{其他}}} \end{array} \right. $ (8)


3.3 权值初始化和自更新

出现频率越高的稀疏组合所表示事件为正常的概率越高。为每个稀疏组合设定权值,值越高重要性越大。在3.2节每轮训练结束后,统计 ${{\gamma}} _j^i = 1$ 的总数,记为τi。对Si的权值进行初始化:

$w_i^0 = \frac{{\tau _i^0}}{n}$

测试阶段,选择重构误差值小于阈值 $\mu $ 的样本对权值进行更新。给定测试特征 ${{x}} \in {{{\bf{R}}}^p}$ ,计算稀疏组合的加权重构误差:

${e_i} = (1 - {w_i}) \times {E_i}$

式中 $1 \leqslant i \leqslant k$ 。若 $\min \left( {e{}_1,{e_2}, \cdots ,{e_k}} \right) \leqslant \mu $ ,则对权值进行更新,公式为

$ \begin{array}{*{20}{c}} {\tau _i^{t + 1} = \left\{ \begin{array}{l} {\tau _i^t + 1,}\quad{{e_i} = \min ({e_1},{e_2}, \cdots ,{e_k})}\\ {\tau _i^t,}\quad{{\text{其他}}} \end{array} \right.}\\ {w_i^{t + 1} = \dfrac{{\tau _i^{t + 1}}}{{\displaystyle\sum\limits_{j = 1}^k {\tau _j^{t + 1}} }}} \end{array} $ (9)
3.4 自更新稀疏组合检测


$\mathop {\min }\limits_{{\beta }} \left\| {{{x}} - {{{S}}_i}{{{\beta }}^i}} \right\|_2^2$

式中: $1 \leqslant i \leqslant k$ β的闭式解为

${{{\hat{{\beta }}}}^i} = {({{S}}_i^{\rm{T}} {{{S}}_i})^{ - 1}}{{S}}_i^{\rm{T}} {{x}}$


$\left( {1 - {w_i}} \right)\left\| {{{x}} - {{{S}}_i}{{{\beta }}^i}} \right\|_2^2 = \left( {1 - {w_i}} \right)\left\| {\left( {{{{S}}_i}{{\left( {{{S}}_i^{\rm{T}} {{{S}}_i}} \right)}^{ - 1}}{{S}}_i^{\rm{T}} - {{{{I}}}_p}} \right){{x}}} \right\|_2^2$

式中Ip $p \times p$ 的单位矩阵。为每个稀疏组合定义一个辅助矩阵Hi

${{{H}}_i} = {{{S}}_i}{({{S}}_i^{\rm{T}} {{{S}}_i})^{ - 1}}{{S}}_i^{\rm{T}} - {{{I}}_p}$


$\left\{ \begin{array}{l} {E_i} = \left\| {{{{H}}_i}{{x}}} \right\|_2^2\\ {e_i} = (1 - {w_i}){E_i}\end{array} \right.$ (10)

若存在 ${e_i} < T$ ( $1 \leqslant i \leqslant k$ ),x为正常,否则为异常。如果 ${e_i} < \mu $ ,则根据式(9)对权值进行更新,完成权值的在线更新。

4 实验与分析 4.1 数据集


图 4 Avenue和UCSD数据集异常图像示例 Fig. 4 Abnormal images from the Avenue and UCSD datasets

UCSD数据集分为2个场景Ped1和Ped2。训练数据为正常事件,测试数据涉及多种异常行为,如行人道上骑车、出现货车、轮滑等,如图4所示。Ped1有34段训练视频和36段测试视频; Ped2视频包含16段训练视频和12段测试视频。

4.2 实验设置

对于卷积自动编码器,每个数据集都进行200轮训练,前100轮学习率设为0.001,后100轮学习率设为0.0001,采用小批量方法训练。式(2) 中的λ设置为0.04,表示误差上限。实验均在Ubuntu16.04、NVIDIA CUDA 8.0、PyTorch1.0、OpenCVs 3.0、Python环境下完成。

4.3 评价指标

采用异常检测常用的帧级AUC评价指标[24]。对于检测结果为异常的样本,若其标注中存在异常像素,则认为检测正确。AUC值为接收者操作特性曲线(receiver operating characteristic, ROC)下包含的面积。

4.4 结果与分析 4.4.1 Avenue数据集


图 5 Avenue数据集测试视频03重构误差值 Fig. 5 Reconstruction cost of Avenue dataset test video 03


表 2 本文方法在Avenue测试视频上的实验结果 Tab.2 Results of proposed method on Avenue test videos


表 3 在Avenue数据集上的结果对比 Tab.3 Comparison of performance on Avenue dataset with AUC              
4.4.2 UCSD数据集


表 4 在UCSD数据集上的AUC值对比 Tab.4 Comparison of performance on UCSD dataset with AUC               


图 6 UCSD数据集检测出的异常帧和未检出的异常帧 Fig. 6 Comparisons of abnormal frames with detected and undetected abnormal frames on UCSD dataset
4.4.3 运行时间

表5中所列为本文算法和经典稀疏组合学习算法[15]在数据集上每帧检测所需时间。本文算法虽慢于稀疏组合学习算法,但根据表3表4的结果,本文算法检测效果更优。监控视频帧率通常为25 f/s,而本文算法平均能达到100 f/s,完全可以满足实时检测的要求。

表 5 每帧处理时间 Tab.5 Processing times per frame
5 结束语


1) 提出了以无监督方法基于自动编码器提取运动前景块的时空特征,过滤冗余背景信息,同时保留运动前景像素点的空间相对位置关系;

2) 针对经典的稀疏组合学习缺乏灵活性的问题,通过加入先验知识,提出了一种自更新稀疏组合学习算法;

3) 将深度学习与改进的稀疏组合学习进行结合,提出了一个新的异常检测框架;

4) 一系列监控场景数据的实验结果表明,本文提出的异常检测算法可以准确高效地检测视频中的异常事件。

