基于人脑多种思维系统协同工作原理提出了语用协同模型.该模型利用语用信息描述系统运动状态,实现了拟形象思维系统和拟逻辑思维系统协同工作,具有较好的模式分类和容错能力.同时,利用序列背景建模任务检验了语用协同模型.经实验验证,基于语用协同模型的背景建模方法能建立有效的背景描述,对典型干扰具有鲁棒性,获得了良好的背景建模效果.
Inspired by principle of multiple thinking system of coordination of brain, a model named as pragmatic coordinative model was proposed. Pragmatic information is used to govern the coordinative procedure of analogue image thinking system and analogue logic thinking system. The pragmatic coordinative model has large capacity of pattern recognition and fault tolerance. Consequently, a background model based on the pragmatic coordinative model was constructed. The background model can represent the scene effectively and tolerate the typical disturbance.
脑是人的认知能力的生物基础,因此“拟脑”是创造具有良好认知能力的人工智能系统的重要方法.脑科学研究表明,形象思维系统和逻辑思维系统协同工作是人脑完成复杂信息处理的基础机制之一.因此,研究基于多思维系统协同工作机制的计算模型是获得具有“脑”式信息处理风格和复杂信息处理能力的人工智能系统的重要方法.由于人工智能只具有显智能(根据给定的问题、知识、目标来求解问题的能力),因此,多思维系统协同模型应当包含认知目标以及描述系统运行状态与目标之间关系的方法.语用信息是关于事物运动状态及其变化方式相对于目标而言的价值的信息,其信息量随系统向目标贴近而增加,随系统远离目标而减小.因此,语用信息可描述系统相对于目标的运动趋势,是引导协同系统朝向系统目标运动的导向信息.
笔者借鉴人脑多思维系统协同工作的原理并结合语用信息,提出具有“脑”式信息处理风格的语用协同模型.该模型包含拟形象思维系统和拟逻辑思维系统,以语用信息作为导向信息,协同上述两种系统工作以实现复杂信息处理.笔者利用视频分析领域的关键任务——背景建模测试了语用协同模型的复杂信息处理能力,获得了良好背景建模效果.
基于背景运动过程的统计规律的背景建模方法计算复杂度高,对复杂的自然环境适应度较低[1-3].因此,基于区域描述算子的背景建模方法被提出[4-5],但该类方法对环境光照突变的适应度较低.一类基于神经网络的背景模型也相继被提出,Pajares等[6]提出了基于Hopfield网络的背景模型,C-Murguia等[7]基于SOM网络的设计了背景建模方法,Culibrk等[8]提出了基于概率神经网络的背景建模技术.
1 语用协同模型的结构及运行原理语用协同模型包括拟形象思维模型、拟逻辑思维模型和人工胼胝体.语用协同模型总体结构图如图 1(a)所示,基于语用协同模型的背景模型结构如图 1(b)所示.输入层由m个节点组成,用于接收和预处理外部输入信息X={x1, x2, …, xm}.识别层为激活神经元数量可变的前馈竞争网络,每个神经元节点连接一个内星权向量Bj=(b1j, b2j, …, bmj),j∈[1, n],n∈[1, N]. n为识别层的激活神经元数量,其值依网络运行状态而变化,N为识别层中总可用神经元数量.规则层根据系统语用信息量和系统运行状态激活相应规则,生成结构调整信号Cs和参数调整信号Cp,驱使识别层进行学习、遗忘、重组,使识别层能够调整自身的结构、参数和行为以适应环境变化. X沿n个内星权向量B进入识别层,识别层已激活的神经元竞争后产生获胜节点并输出结果向量O.该结果向量与识别层神经元在竞争过程中产生的中间状态向量S共同描述了系统运动状态,系统目标为G.由前述所知,语用信息描述系统运动状态与目标状态的贴近程度,因此,定义语用信息U=Fu(S, O, G),其中Fu(·)为描述语用信息的知识.语用获取层根据系统运动状态与目标关系的评价,产生激活信号T,激活规则用以评估识别结果有效性、调整识别层行为,最终产生识别结果.
获得背景中各像素的模式是建立背景模型的基础.因此识别层能否归类输入模式可作为生成语用信息的标准.若识别层可归类当前输入模式,则U>0.若识别层无法归类当前输入模式,则U<0.
2.2 基于语用协同模型的背景模型结构基于语用协同模型的背景模型的拟形象思维模型包含:1) 输入层(接收并预处理输入的像素模式信息);2) 分类层(根据获得的知识对输入模式分类);3) 概率层(统计已有各模式的激活概率).拟逻辑思维模型包括:1) 语用获取层(生成语用信息);2) 规则层(根据语用信息启动规则生成识别层调整信号).基于语用协同模型的背景模型的结构如图 1(b)所示.输入为X=(XI, XL),其中XI=(xR, xG, xB, xRc, xGc, xBc). xR, xG, xB为红、绿、蓝3个通道的归一化灰度值,xRc=1-xR为xR的补码,xG, xB的计算方法与xR相同. XL=(xl, clc)为输入像素点的归一化LBP编码及补码,其中xlc=1-xl.分类层和概率层各有N个神经元,初始只有1个神经元被激活,在网络运行过程中,更多神经元被激活,直至N个神经元全被激活. Y=(y1, …, yn)为输入模式的类别信息,其中n为激活神经元个数.概率层输出P=(p1, …, pn),其中pi为第i个神经元被激活的概率.若U>0,则规则层判断当前输入模式的前背景归属并向识别层发送参数调整信号Cp=j,其中j为待调整神经元的序号,将新输入模式学习到模型中.若U<0,则识别层应快速学习当前输入模式,以获得对新模式的分类能力.若分类层有未用神经元,则生成信号Cs1以启动未用节点使系统快速获得对新输入模式的分类能力.若U<0,且分类层神经元皆已启用,则利用分类层中激活概率最小的神经元描述当前输入模式可使系统最大化提高模式归类能力.设第j个神经元的激活概率最小,则生成信号Cs2=j.在环境光线发生突变时,模型应提高学习速度以适应环境突变,突变结束后模型的学习速度降低,以提高学习稳定性.因此引入环境光照突变阈值Te作为检测环境光照突变条件,从而动态调整学习速度.基于上述分析,可获得如下基本规则:
规则1 若U>0,则产生Cp;
规则2 若(U<0)∩(n<N),则Cs=Cs1,且当前输入模式为前景,即O=1;
规则3 若(U<0)∩(n=N),则Cs=Cs2且O=1,同时产生信号Cp;
规则4 若当前输入模式属于激活概率较大的模式类,则判别当前输入模式为背景O=0;否则为前景O=1;
规则5 若场景整体亮度发生突变,则动态调整学习率.
2.3 基于语用协同的背景建模过程1) 网络初始化.分类层启动1个节点,与该节点对应的内星权向量初始化为相同的较小数,并归一化为单位向量,与该节点对应的激活概率初始化为1.
2) 网络接受输入.给定网络输入模式X=(XI, XL),其中XL=(xl, xlc),归一化LBP编码xl的计算方法如式(1) 所示.
(1) |
其中:P为归一化LBP算子的采样数量,vp为关注点灰度值,vc为LBP点灰度值,vt为归一化LBP的鲁棒因子,R为归一化LBP算子的半径.
3) 突变检测.设I为图像平均灰度,若亮度发生突变,即|It-It-1|>Te,则学习参数如式(2) 和式(3)所示调整,算法转入步骤5).
(2) |
(3) |
其中:tp=0为退火起始点,即突变发生时立即调整学习参数,tm为退火终止点. β0和β1分别为默认权值学习参数和模拟退火起始的权值学习参数,其中β1>β0,θ0和θ1分别为默认激活概率学习参数和模拟退火起始的激活概率学习参数,其中θ1>θ0.当突变发生后,识别层和概率层以β1和θ1作为学习率更新,可快速适应环境突变.突变发生后,学习率以退火方式逐渐下降,并最终恢复为β0和θ0,提高模型学习稳定性.
4) 语用获取.设分类层每个节点的内星权向量为Bj=(b1j, …, b8j),其中j∈[1, n].设输入向量与各类别之间的贴近度向量为D={d1, …, dn},其中di=‖X∧Bj‖/‖X‖.由背景建模过程的语用定义,若
5) 激活信号生成.若n<N,则根据规则2输出信号Cp和Cs1;若n=N,则根据规则3,产生Cs2=j*和Cp,其中j*为激活概率最小的神经元序号,算法转入步骤7).
6) 应用规则4判别输入模式的类别.设识别层输出的降序排列为PL,若PL的前M个单元符合
7) 模型调整.识别层接收到调整信号Cp后,更新当前激活神经元j的内星权值向量和该神经元的激活概率.内星权向量更新方法如式(4) 所示.
(4) |
其中:β为权值学习参数,其计算方法如式(2) 所示.激活概率更新方法如式(5) 所示.
(5) |
其中:θ为激活概率学习参数,其计算方法如式(2) 所示.识别层收到调整信号Cs1后,则将输入样本归为前景O=1,同时识别层启动一个自由神经元,并将该神经元的内星权向量Bn+1初始化为当前输入模式.识别层接收到调整信号Cs2=j*,则启动遗忘过程,且样本归为前景O=1.设pj*=min{p1, …, pn},则第j*神经元通过设置pj*=θ0和Bj*=X而被遗忘,同时更新其他神经元输出激活概率如式(6) 所示.
(6) |
利用前景误检像素数(FP, false positive)和背景误检像素数(FN, false negative)描述背景模型的性能,并以基于混合高斯模型的背景模型和基于密码本的背景模型作为对比模型分析所提出背景建模方法的优点.
背景中的晃动物体、环境光照强度突变、物体由静止开始运动形成的“空洞”是背景建模过程的3个典型干扰因素.利用2个包含上述典型干扰因素的图像序列测试了所提出的背景建模方法,并以FN和FP值作为标准,研究了所提出的背景模型在不同干扰条件下的建模效果.首先利用背景存在纹理复杂运动物体的图像序列测试所提出方法对晃动干扰的适应性,测试结果如图 2所示.
图 2(c)的模型参数组合为R=3,P=6,vt=16,β0=0.3,θ0=0.1,Td=0.8,TM=0.2,N=10,所获结果的FP为5 217,FN为1 109.图 2(d)所用模型参数如文献[3]所示,实验结果的FP为8 572,FN为404.图 2(e)所用模型及其参数如文[5]所示,初始训练帧数为50,实验结果的FP为1 869,FN为660.由于背景存在大量晃动植物,3种方法的结果都出现一定程度的前景误检.笔者提出的背景建模方法能够在抑制面积较大的背景运动物体的同时获得合理的前景检测结果,但其对背景中较小运动物体的抑制能力低于基于密码本模型的方法.
利用包含“空洞”和光照突变的图像序列测试了提出的背景建模方法.为验证光照突变规则对运动物体检测结果的影响,提出的背景建模方法去除光照突变检测规则后,也作为一种对比建模方法与其他3种方法进行比较.测试样本第70帧到第110帧图像处理结果的FP和FN值如图 3所示.笔者所提出的背景建模方法的参数组合为R=3,P=6,vt=3,β0=0.3,θ0=0.3,β1=0.9,θ1=0.9,TI=0.3,Td=0.8,TM=0.2,N=10.其余2种方法的参数配置与前述实验相同.环境光照突变后,所提出的方法经过1帧即可适应新的光照条件.去除光照突变检测规则的该模型经过2帧学习,其检测结果的FP值恢复到较低水平.光照突变后,所提出方法检测结果的FN值低于无光照突变检测规则模型产生结果的FN值,因此光照突变规则可提高背景模型对环境的适应能力,但在学习参数退火过程中,也使模型学习稳定性略微下降.
基于混合高斯模型的背景建模方法难以克服由物体运动状态变化导致的“鬼影”现象.基于密码本的背景模型可较好地适应环境光照变化,但其对物体运动状态改变的适应能力较弱. 4种方法处理结果如表 1所示.
语用协同模型包括拟逻辑思维系统和拟形象思维系统,并以语用信息为指导,协同上述2个功能系统实现认知目标.语用协同模型可在规则的指导下在线地改变自身的结构和参数,从而实现对未知模式的快速学习,为解决模式识别问题提供了一个有效的框架.基于语用协同模型的背景建模方法对背景中晃动的物体、光照突变和背景“空洞”具有良好的适应性.
[1] | Chris S, Grimson W.Adaptive background mixture models for real-time tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition, Fort Collins.1999:246-252. |
[2] | Elgammal D H, Davis L.Non-parametric model for background subtraction[C]//6th European Conference on Computer Vision.Dublin: [s.n.], 2000:751-767. |
[3] | Kim K, Chalidabhongseb T H, Harwooda D, et al. Real-time foreground-background segmentation using codebook model[J].Real-Time Imaging, 2005, 11(3): 172–185. doi: 10.1016/j.rti.2004.12.004 |
[4] | Heikkila M, Pietikainen M. A texture-based method for modeling the background and detecting moving objects[J].IEEE Transection on Pattern Analysis and Machine Intelligence, 2006, 28(4): 657–662. doi: 10.1109/TPAMI.2006.68 |
[5] | Liao Shengcai, Zhao Guoying, Kellokumpu V, et al.Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes[C]//IEEE Conference on Computer Vision and Pattern Recognition.San Francisco: [s.n.], 2010:1301-1306. |
[6] | Pajares. A hopfield neural network for image change detection[J].IEEE Transection on Neural Network, 2006, 17(5): 1250–1264. doi: 10.1109/TNN.2006.875978 |
[7] | Chacon M M I, Gonzalez D S. An adaptive neural-fuzzy approach for object detection in dynamic backgrounds for surveillance systems[J].IEEE Transection on Industry Electronic, 2010, 59(8): 3286–3298. |
[8] | Culibrk D, Marques O, Socek D, et al. Neural network approach to background modeling for video object segmentation[J].IEEE Transection on Neural Network, 2007, 18(6): 1614–1627. doi: 10.1109/TNN.2007.896861 |